找数据指南 · 许可与商用

公开数据集能不能商用?

能不能商用,关键看数据集的许可。最宽松的 CC0、PDDL 等于放进公共领域,怎么用都行;CC BY、CC BY-SA、ODbL 可以商用但要署名;带 NC 的只能非商业用,带 ND 的能用但不能改了再发。下面用一张表帮你对号入座。

一句话先回答

数据集能不能商用,关键看它的许可。最宽松的 CC0PDDL 等于把数据放进公共领域,怎么用都行;CC BY、CC BY-SA、ODbL 可以商用,但要署名,其中 CC BY-SA 和 ODbL 还要求你基于它做出来的新数据集也同样开放;带 NC(非商业)的只能非商业使用,商用要另行获得授权;带 ND 的能用但不能改了再分发。下载前先在数据集页面找到许可标注,按下面这张表对号入座。

先分清两套许可体系

公开数据集上最常见的是两套许可,理解了一套,另一套也容易看懂:

  • Creative Commons(知识共享,简称 CC):最通用的一套,最初为文章、图片等内容设计,也广泛用于数据。常见的有 CC0、CC BY、CC BY-SA、CC BY-NC 等,目前主流是 4.0 版本。
  • Open Data Commons(开放数据共享,简称 ODC):专门为数据库设计的一套,主要针对数据库相关权利,包括 PDDL、ODC-BY、ODbL 三种。不少偏数据库性质的数据集会用它。

两套许可里的“署名”“相同方式共享”等概念是相通的。读到哪一种,就按那一套对应的条款判断。

一张表看懂常见许可能不能商用

许可能否商用是否要署名衍生是否要同样开放一句话
CC0 / PDDL可以不需要不需要等于放进公共领域,几乎无限制
CC BY / ODC-BY可以需要不需要注明来源即可商用
CC BY-SA / ODbL可以需要需要(相同或兼容许可)可商用,但你的新数据也要同样开放
CC BY-NC(及含 NC 的组合)仅非商业需要视组合而定商用要另行获得授权
CC BY-ND可以,但不能改后分发需要不适用只能原样使用,不能改了再发

表里“衍生是否要同样开放”指的是相同方式共享(ShareAlike)和 ODbL 这类要求:你用它做出新的数据集再公开时,也得用相同或兼容的许可。CC BY-NC-SA、CC BY-NC-ND 这类组合,是把“非商业”和别的条件叠在一起,按其中最严格的那条理解。

怎么在数据集页面找到许可

  • Kaggle:在数据集页面的 License(许可)一栏,由发布者自行选择,常见 CC0、CC BY-SA 等。
  • Hugging Face:在数据集卡片(dataset card)上标注,部分数据集还要先同意使用条款或申请访问。
  • Zenodo、figshare、Harvard Dataverse:在带 DOI 的记录页上标注许可,便于引用和核对。
  • 政府与机构数据:看平台的“使用条款”“版权声明”或开放数据协议,不同机构口径不一样。

找不到明确许可标注时,不要默认它可以随便用,更不要默认能商用。可以联系数据提供方确认,或换用许可清晰的同类数据。

容易踩的坑

  • 同平台不同数据集,许可可能完全不同:别因为上一个数据集是 CC0,就默认这个也是,逐个看。
  • “非商业”的边界容易误判:NC 的非商业指不以营利为主要目的,用在收费产品或商业项目里通常算商业用途,要另行获得授权。
  • 多来源拼接取最严:一份成果用了多个来源,要同时满足每一个来源的许可,按最严格的约束走。
  • 相同方式共享和 ODbL 的传染性:用了这类数据再对外发布新数据集,可能要求你也用相同或兼容许可开放,商业封闭使用前要想清楚。

许可条款的最终解释以官方许可全文和数据提供方说明为准;涉及重要商业用途时,建议请专业人士把关。

不确定能不能用,可以让我们先评估

如果你看不准某个数据集能不能用在你的项目里,或者要同时用好几个来源、担心许可冲突,可以把研究或业务目标和必须满足的条件交给我们。我们先做一次免费的数据可得性评估,在权威数据平台真实检索,按你列的必须项逐条判断命中与缺口,并把每个候选数据集的许可情况如实标注,方便你判断能不能商用。如该次检索未找到贴合你需求的数据集,我们不就该次可得性评估收取费用。

看科研服务 →

延伸阅读

聊聊需求