Kaggle、Hugging Face、Zenodo 有什么区别，该怎么选？

按数据类型选：做机器学习练手或竞赛，找带任务的结构化数据去 Kaggle；找模型训练用的数据集与语料、文本图像音频多模态数据去 Hugging Face；找带 DOI、可在论文里引用的科研存档数据去 Zenodo、figshare、Harvard Dataverse。三者定位不同，常常配合使用。

这些平台的数据需要付费吗？

Kaggle、Hugging Face、Zenodo、figshare、Harvard Dataverse 上的公开数据集均可免费浏览和下载，部分数据集需要免费注册或同意使用条款。平台本身不对公开数据收费。

论文里怎么引用这些平台的数据集？

Zenodo、figshare、Harvard Dataverse 为每个数据集分配 DOI，可直接用 DOI 引用，是最规范的方式。Kaggle 和 Hugging Face 的数据集引用作者、数据集名称与链接，并按数据集页面标注的许可使用。

国外平台在国内访问不稳定怎么办？

部分国际平台在国内直接访问不稳定。可优先使用平台的国内镜像站点，或改用国内的同类公开平台与数据仓储替代。如果只是要某个特定数据集，也可以把需求交给我们做免费可得性评估与检索。

找数据指南 · 平台怎么选

Kaggle、Hugging Face、Zenodo 怎么选？

三个平台定位完全不同：Kaggle 是机器学习练手与竞赛的数据，Hugging Face 是模型训练用的数据集和语料，Zenodo 这类仓库是带 DOI、能在论文里引用的科研存档。下面按你要找的数据类型，告诉你该去哪个平台。

一句话先回答

按数据类型选平台最省事：要机器学习竞赛和练手数据（带明确任务和评测）去 Kaggle；要模型训练的数据集与语料（文本、图像、音频、多模态）去 Hugging Face；要能在论文里规范引用的科研存档数据（带 DOI）去 Zenodo、figshare、Harvard Dataverse。三者经常配合用，不是二选一。

按数据类型选平台

找机器学习竞赛与练手数据：Kaggle

Kaggle 是面向 AI 与数据科学的社区平台，提供数十万个开放数据集，可免费浏览和下载，还有竞赛、Notebook 和课程。它的强项是带明确任务、评测标准和社区讨论的结构化数据，适合做项目练手、复现 baseline 或参加比赛。

许可特点：每个数据集由发布者自行选择许可，常见 CC0、CC BY-SA 等，使用前看清数据集页面标注的许可。
国内访问：国内直接访问不稳定，可借助国内镜像或同类平台替代。
引用方式：引用数据集作者、名称与页面链接，并遵循该数据集的许可。

找模型、语料与多模态数据：Hugging Face

Hugging Face 是 AI 社区平台，数据集板块托管了海量数据集，覆盖文本、图像、音频、视频、表格、时间序列、地理空间等多种模态，免费访问。它和模型、训练流程结合紧密，适合找训练语料、基准数据集和特定任务的数据。

许可特点：数据集许可由发布方标注，差异较大，部分数据集需同意使用条款或申请访问。
国内访问：国内直接访问不稳定，可借助国内镜像或同类平台替代。
引用方式：引用数据集名称、发布方与链接，按数据集卡片标注的许可使用。

找带 DOI 的科研存档数据：Zenodo、figshare、Harvard Dataverse

这三个是科研数据仓库，共同特点是为每个数据集分配 DOI，可直接在论文里引用，适合找已发表研究的配套数据、补充材料和可长期保存的研究数据集。

Zenodo：由 CERN 与 OpenAIRE 共建运营，免费上传与访问，托管数据、软件、论文与会议材料，覆盖各学科。
figshare：开放获取仓库，每个条目分配 DOI，免费上传与访问，数据集多以知识共享许可发布，图表、数据集、代码都可托管。
Harvard Dataverse：哈佛大学定量社会科学研究所等机构维护，面向各学科研究者免费开放并分配 DOI，社科类数据尤为丰富；其底层 Dataverse 为开源软件，全球多家机构搭建了独立实例。

三类平台横向对比

平台	最适合找什么	许可特点	引用方式	国内访问
Kaggle	机器学习竞赛与练手数据	发布者自选（CC0/CC BY-SA 等）	作者+名称+链接	直接访问不稳定
Hugging Face	模型训练数据集与语料	发布方标注，差异较大	名称+发布方+链接	直接访问不稳定
Zenodo	带 DOI 的科研存档与软件	开放/受限可选，多为开放许可	DOI 引用	可访问，速度波动
figshare	论文配套数据、图表与代码	多为知识共享许可	DOI 引用	可访问，速度波动
Harvard Dataverse	社科与多学科研究数据	按数据集标注	DOI 引用	可访问，速度波动

怎么搭配着用

做模型项目：训练数据从 Hugging Face 或 Kaggle 拿，最终把自己整理的数据和代码存到 Zenodo 或 figshare 拿 DOI，方便论文引用。
写实证论文：优先找带 DOI 的存档数据（Zenodo、figshare、Dataverse），引用规范、可追溯；竞赛类数据更适合做方法演示。
找特定主题数据：先在对应平台搜，再到我们的中文说明库看高价值开源数据集的中文讲解，省去读英文文档的时间。

国外平台访问不稳定怎么办

部分国际平台在国内直接访问不稳定。遇到这种情况，可优先使用平台的国内镜像站点，或改用国内的同类公开平台与数据仓储替代。如果你只是要某个特定数据集、又不想折腾访问问题，可以把需求交给我们：先做免费可得性评估，在权威数据平台真实检索，按你列的必须项逐条判断命中与缺口。如该次检索未找到贴合你需求的数据集，我们不就该次可得性评估收取费用。

看精选开源数据集 →