科研 · 冷门高价值数据集

开源数据集
中文说明

经济、公卫、地理、机器学习四个方向,逐个用中文讲清它有什么、怎么取、能做什么研究。要找的不在库里?把必须满足的条件告诉我们——先评估可得性,再真实检索,找不到不收费。

冷门开源数据集精准检索:找不到,不收费先做可得性评估,再真实检索;确实检索不到符合你必须项的开源数据集,就不收检索费用。
说说你要找的数据
找能直接交付的成品数据集?我们自己采集、清洗、整理的成品数据集,含字段说明与来源说明,提供样例与按需交付。
看自有数据集 →
服务范围与数据说明

服务范围为公开、可合法获取的开源数据集;以双方确认的检索需求为准。我们提供来源链接、检索过程与结果,不交付数据原件;数据本身请依各来源许可自行获取。本页所列数据集元数据于 2026-06 联网核验、以各发布机构官方为准;数据由第三方机构提供,地区划分与边界口径以中国官方标准为准,不代表本站立场。

经济与社会科学

经济 · 社科 · 全球发展

国内研究者常用、却往往难找全或难用顺的国际开源库。

经济与社会科学CC BY 4.0

宾大世界表 PWT · Penn World Table

跨国经济比较绕不开的黄金标准:把各国 GDP、产出、资本与生产率拉到同一可比口径,是国际顶刊宏观与增长研究的标配底数。

机构格罗宁根大学 GGDC
覆盖185 个经济体
时间1950–2023
规模数十个变量面板
许可CC BY 4.0
获取免费免注册
查看字段与详情

内容与字段

以购买力平价(PPP)为核心、可跨国跨期比较的国民经济核算库:支出侧实际 GDP(CGDPe/RGDPe)、产出侧实际 GDP(CGDPo/RGDPo)、按国民核算口径的实际 GDP(RGDPNA)、人口与就业、人力资本指数、资本存量、全要素生产率(TFP)、价格水平与 PPP 等。

适用研究

跨国增长、生产率、收敛与发展研究的公认底数。

版本PWT 11.0(2025-10) · 格式Excel / Stata / 在线工具 · 标识DOI:10.34894/FABVLR

元数据以官方为准(2026-06 核验)。

自行获取的难点

不同版本的 PPP 基准、链式与当期口径、产出侧与支出侧 GDP 极易混用错配,自行比对常耗数日仍难自洽。版本梳理与口径校准交给我们,取来即用。

经济与社会科学开放获取

世界不平等数据库 WID · World Inequality Database

全球收入与财富分布的长历史数据库,融合国民账户、住户调查与税收数据,校正传统调查对顶端的低估。

机构世界不平等实验室
覆盖约 216 国家和地区
时间现代 1980 起,部分回溯更早
规模多维分布序列
许可开放获取(以官方为准)
获取免费 · Stata/R 工具
查看字段与详情

内容与字段

收入分布(税前/税后,按百分位、十分位的份额与人均水平)、财富分布与顶端财富份额、国民收入与国民账户宏观变量;近年新增对外收入、对外财富、公共收入与公共支出等。每条序列含地区代码、年份、指标代码、人口/百分位区间、币种与单位等维度。

适用研究

分布结构、再分配、宏观与发展经济学的分布份额统计。

更新滚动更新(含 2024 更新) · 格式网页导出 / Stata 包 / R 工具

许可类型以官方条款为准(待核验);元数据 2026-06 核验。

自行获取的难点

指标代码、币种单位、税前税后口径与百分位区间繁多,年度更新还会新增序列,自行对照官方字典逐条对齐、跨年跨地区拉通极易错配。交给我们整理成统一可检索的规范序列。

经济与社会科学Etalab 2.0

BACI 全球双边贸易数据库 CEPII BACI

经清洗调和的产品级双边贸易长表,HS 6 位、覆盖全球主要经济体,是贸易实证研究公认的标准口径。

机构法国 CEPII
覆盖主要经济体 · 约 5000 产品
时间年度,至 2024
规模多年度双边产品流
许可Etalab Open 2.0
获取免费免注册
查看字段与详情

内容与字段

字段含义
t年份
k产品类别(HS 6 位,保留前导零)
i / j出口方 / 进口方(ISO 数字代码)
v贸易额(千美元,现价)
q数量(公吨)

方法学:对 UN Comtrade 原始申报做 CIF/FOB 口径统一、按报告方可靠性对镜像数据加权对账。

版本202601(2026-01,每年 1 月更新) · 格式CSV(ZIP 分发)

分析单位以 ISO 数字代码表示;元数据 2026-06 核验。

自行获取的难点

镜像数据打架、CIF/FOB 口径不一、HS 编码前导零被当数值丢失、跨年版本对不齐——这些拖垮研究者的脏活,我们已处理为可直接入模的一致长表。

经济与社会科学Etalab 2.0

CEPII 引力数据库 CEPII Gravity

引力方程估计要用的双边变量这里成套齐备:贸易流、距离、协定、共同语言与宏观指标,是国际贸易实证研究的标准基础数据。

机构法国 CEPII
覆盖方阵双边 · 约 252 经济体
时间1948–2020
规模双边配对面板
许可Etalab Open 2.0
获取免费免注册
查看字段与详情

内容与字段

① 双边贸易流(IMF DOTS / UN Comtrade / BACI 三源);② 地理距离测度(多种加权距离、是否接壤、内陆、岛屿、经纬度);③ 制度与贸易便利化变量(GATT/WTO 成员、区域/双边贸易协定);④ 历史与制度联系的代理变量(共同语言、宗教、法律体系起源、历史关联等);⑤ 宏观指标(GDP、人口)。

适用研究

引力模型、双边贸易、全球价值链实证。

版本202211(2022-11) · 格式CSV / R / Stata · 引用Conte, Cotterlaz & Mayer (2022)

地区划分沿用数据源国际统计分类口径,仅为统计惯例,以中国官方标准为准;元数据 2026-06 核验。

自行获取的难点

三套贸易流来源口径不一、距离与制度变量年份各异、报告方编码还要逐年对齐,自行拼出一套可直接跑回归的双边面板往往要耗上数周。这里交付的是已统一口径、对齐配对的成套数据。

经济与社会科学CC BY 4.0

麦迪森历史 GDP 数据库 Maddison Project · MPD

把世界经济拉到两千年尺度的权威基准:自公元 1 年起跨国可比的人均 GDP 与人口估计。

机构格罗宁根大学 GGDC
覆盖169 国家和地区
时间公元 1 年 – 2022
规模长期时间序列
许可CC BY 4.0
获取免费免注册
查看字段与详情

内容与字段

字段含义
countrycode / year地区代码 / 年份
cgdppc水平比较口径人均 GDP(2011 国际美元)
rgdpnapc实际人均 GDP(跨时增长比较)
pop人口(千人)
i_cig / i_bm估计来源 / 基准估计标识

适用研究

历史经济学、比较发展、长期增长与收入水平差异。

版本MPD 2023 · 格式Excel / Stata · 标识DOI:10.34894/INZBF2

字段命名与归类以官方 Codebook 为准;元数据 2026-06 核验。

自行获取的难点

不同年份发布的口径屡有修订、现价与实际两套人均 GDP 各有适用场景、基准估计与插值外推的标识需要逐字段甄别。这里直接交付经过梳理对齐、口径标注清晰的可用数据。

经济与社会科学免费 · 需引用

Barro-Lee 教育年限数据库 Barro-Lee Educational Attainment

衡量人力资本存量的权威参照系:分性别、分年龄的跨国受教育程度估计,被世界银行与大量增长研究长期引用。

机构Barro(哈佛)+ Lee(高丽大)
覆盖146 个经济体
时间1950–2015(5 年间隔)
规模分性别/年龄交叉表
许可免费,需引用论文
获取免费免注册
查看字段与详情

内容与字段

分性别(总/男/女)、分年龄组的受教育程度:各教育层级(无教育/初等/中等/高等,含未完成与完成)的人口占比、平均受教育年限(yr_sch 及分初/中/高),以及用于估算的入学率、辍学率、人口结构等;含 Lee-Lee 长期历史数据与教育质量等扩展模块。

适用研究

教育经济学、人力资本与经济增长实证。

版本2021-09(BLv3) · 格式Excel / CSV / Stata

许可存在双重表述(GitHub MIT / 官网保留权利),商用前建议核验作者授权;元数据 2026-06 核验。

自行获取的难点

不同发布批次的口径调整、教育层级划分与历史回溯序列的衔接,往往让自行整理者反复对齐、难以确认用哪一版。我们已完成版本梳理与变量校准。

公共卫生与医学

人口 · 健康 · 流行病

权威、口径统一、可跨国比较的健康与人口数据,国内获取门槛较高。

公共卫生与医学CC BY 4.0 · 需注册

人类死亡率数据库 HMD · Human Mortality Database

国际人口学界公认的死亡率与生命表权威源,统一计算方法,可直接用于精算、寿险定价与人口研究。

机构UC 伯克利 & 马普人口所
覆盖约 41 国家和地区
时间最早 1751 起(逐年)
规模约 48 个人口序列
许可产出 CC BY 4.0
获取免费需注册
查看字段与详情

内容与字段

分年龄/性别的死亡率、生命表、死亡数、出生数与暴露风险人口;含时期与队列两套数据,以及生命表所用原始输入数据。附属子序列:短期每周死亡数序列(STMF,用于死亡波动监测)。

适用研究

人口学、老龄化、精算与公共卫生。

更新各国滚动更新 · 格式CSV/TXT / Excel / R 接口

输入数据受各国统计机构原许可约束;元数据 2026-06 核验。

自行获取的难点

各国原始口径不一、生命表构建方法繁琐、版本更新与暴露风险人口对齐易出错,还要先注册接受协议。交由我们交付口径统一、可追溯的标准化成品。

公共卫生与医学CC BY 4.0 · 需注册

人类生育数据库 HFD · Human Fertility Database

发达国家高质量生育数据的国际权威源,按母亲年龄与孩次细分至生育表层级,是低生育率对标研究的可比基准。

机构马普人口所 & 维也纳人口所
覆盖约 37 国家和地区
时间各国最长序列,近期至 2024
规模时期 + 队列生育数据
许可产出 CC BY 4.0
获取免费需注册(另有免注册 lite)
查看字段与详情

内容与字段

四大数据块:① 汇总指标(出生数、粗出生率、总和生育率 TFR、节奏调整 TFR、平均生育年龄、队列累计生育率等);② 按年龄/孩次明细;③ 时期表与队列生育表(含 PATFR);④ 原始输入数据。统一标准化方法(Lexis 格式、人口分母、生育表计算)。

适用研究

人口学、生育与家庭动态、公共政策对标。

更新滚动更新 · 格式制表符文本 / Excel(lite)

输入数据受各国统计机构原许可约束;元数据 2026-06 核验。

自行获取的难点

各国出生与人口原始记录口径不一、年龄孩次维度参差,要自行对齐 Lexis 格式、统一分母并复算时期/队列生育表既耗时又易错。这里直接交付已标准化、可横向比较的成套数据。

公共卫生与医学免费 · 需申请

人口与健康调查 DHS Program · Demographic and Health Surveys

覆盖发展中国家的全国代表性入户调查微观数据,统一问卷口径,是全球健康与发展研究难以替代的一手来源。

机构ICF 执行(盖茨基金过渡资助)
覆盖90+ 国家 · 400+ 次调查
时间1984 年至今
规模全国代表性入户微观数据
许可注册后免费分发协议
获取免费需申请(24–48h 审核)
查看字段与详情

内容与字段

生育与总和生育率、计划生育与避孕、孕产妇与儿童健康(免疫、患病与存活)、营养、HIV 与疟疾、生物标志物等模块;按记录文件组织(妇女/儿童/家户/男性/HIV 等)。调查类型含标准 DHS、疟疾指标调查、艾滋指标调查、服务提供评估等。

适用研究

全球健康、人口与发展经济学。

格式Stata / SPSS / SAS / ASCII;汇总指标 STATcompiler / API · 更新国家+轮次滚动

微观数据需按项目说明申请、限定用途;元数据 2026-06 核验。

自行获取的难点

多轮调查、多种调查类型与按记录文件拆分的字段结构,往往需要逐版本核对口径、对齐编码并跨文件关联才能用于分析。我们已完成版本梳理与字段对齐整理。

公共卫生与医学非商业 · 需注册

全球疾病负担研究 GBD 2021 · Global Burden of Disease

全球疾病负担测算的公认权威基准,371 种疾病与伤害、88 种危险因素,是流行病学与卫生政策研究的高频数据源。

机构华盛顿大学 IHME
覆盖204 国家和地区 + 次国家级
时间1990–2021
规模371 病种 · 88 危险因素
许可免费非商业用户协议
获取免费需注册
查看字段与详情

内容与字段

维度取值
度量指标死亡数、DALYs、YLLs、YLDs、患病率、发病率、HALE
分层维度地点、年份、年龄、性别、病因、危险因素
单位数值 / 率 / 百分比

适用研究

疾病负担、流行病学、卫生政策评估。

版本GBD 2021 · 格式网页表 / 可视化 / CSV(GBD Results 工具)

地理粒度按国家/地区/次国家级层级描述,地名口径以中国官方为准;元数据 2026-06 核验。

自行获取的难点

病因分类、危险因素归因与多年份口径的对齐校准本就繁复,跨版本指标定义与单位换算稍有出入便会影响结论。我们已完成版本梳理与口径对照。

地理遥感与城市

遥感 · 人口 · 土地

把"地上发生了什么"做成可计算图层,国内研究的经济与城市分析常用代理。

地理遥感与城市开放 · 可商用

VIIRS 夜间灯光(年度合成) VIIRS Nighttime Lights · VNL

以一束可量化的夜光还原经济活动、城市扩张与能源分布——衡量区域经济最常用的遥感代理。

机构科罗拉多矿院 EOG
覆盖全球(75°N–65°S)
分辨率约 500m(15 弧秒)
时间2012 至今
许可开放,可商用
获取免费需注册(亦可 GEE)
查看字段与详情

内容与字段

波段含义
average / average_masked平均辐射 / 掩膜后平均辐射
median / maximum / minimum中值 / 最大 / 最小辐射
cf_cvg / cvg无云观测计数 / 总观测数

辐射单位 nW/cm²/sr,经去云、去月光、去火点处理。

适用研究

区域经济、GDP 代理、电力可及性与城市扩张。

版本年度 VNL V2.2 · 格式GeoTIFF

许可口径官方表述不一(公共领域或 CC BY,均可商用,建议署名 EOG);本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

全球夜光散落在境外平台、注册门槛与多版本格式让人光是"拿到能用的那一份"就耗掉大半精力,年际传感器/算法一致性还需自行甄别。这部分繁琐交给我们处理到位。

地理遥感与城市开放免费

全球人居层 GHSL · Global Human Settlement Layer

把"哪里有人、有多少、城市化到什么程度"做成全球统一口径的栅格图层,城市与人口暴露研究难以替代的底层数据。

机构欧盟委员会 JRC
覆盖全球栅格
分辨率100m / 1km(部分 10m)
时间1975–2030(5 年)
许可欧委会再利用(注明来源)
获取免费免注册
查看字段与详情

内容与字段

产品含义
GHS-BUILT-S / V / H建成区面积 / 体积 / 建筑高度
GHS-POP人口分布格网(每格人数)
GHS-SMOD / DUC城市化程度 / 行政单元城市化分类

适用研究

城市化、人口分布、区域经济与灾害暴露。

版本R2023A · 格式GeoTIFF

行政单元划分沿用数据源原始口径,仅为技术处理结果,以中国官方标准地图为准;本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

多版本年份交错、建成面积与人口格网口径各异、与普查及联合国数据的对齐繁琐,自行下载比对、统一坐标与分辨率往往耗时数日。交由我们完成版本甄别与口径对齐。

地理遥感与城市CC BY 4.0

ESA 全球土地覆盖(10m) ESA WorldCover

基于 Sentinel 卫星的 10 米全球土地覆盖图,独立验证总体精度约 76.7%,分类清晰、可直接用作研究底图。

机构欧洲空间局 ESA(VITO 牵头)
覆盖全球
分辨率10m
时间2020 / 2021 两版
许可CC BY 4.0
获取免费(官网/AWS/GEE)
查看字段与详情

内容与字段

单波段(Map)记录 11 个土地覆盖类别:树木覆盖、灌木地、草地、耕地、建成区、裸地/稀疏植被、冰雪、永久水体、草本湿地、红树林、苔藓与地衣。附产品用户手册与验证报告。

适用研究

土地利用、农业、生态、城市扩张与环境研究。

版本v200(2021,2022-10 发布)· 格式Cloud-Optimized GeoTIFF

两版算法不同,做变化检测需谨慎;本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

v100 与 v200 口径差异、类别定义对齐、精度报告比对与原始栅格的获取分发,自行梳理往往耗时易错。我们已完成版本甄别与说明整理,按需直取可用底图。

地理遥感与城市CC BY 4.0

WorldPop 全球人口分布 WorldPop

约 100 米分辨率的网格化人口估算,以官方普查为基底降尺度,空间人口学研究与区域规划的权威公开源。

机构南安普顿大学等
覆盖全球(逐国定制)
分辨率约 100m(另有 1km)
时间约 2000–2021(另有预测)
许可CC BY 4.0(可商用)
获取免费开放
查看字段与详情

内容与字段

人口计数(每网格估计居住人口)、人口密度、分年龄分性别人口结构、发展指标(贫困/出生率等)、人口流动等。方法学:以普查为基础,用随机森林 dasymetric 再分配结合地理协变量降尺度到约 100m 网格。

适用研究

空间人口学、城市研究、灾害评估、可达性与公共服务规划。

版本按 DOI 分版 · 格式GeoTIFF / REST API

为第三方机构基于模型估算的成果,行政区划与边界以中国官方标准为准;本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

同一区域跨年份、跨版本的人口栅格口径与坐标系常需反复核对,年龄性别分层与协变量对齐也耗时。我们已完成版本梳理与字段统一,检索即用。

地理遥感与城市免费 · 非商业

WorldClim 全球气候数据 WorldClim

覆盖全球的高分辨率气候栅格基准,逐月气温降水到 19 个生物气候变量一应俱全,物种分布与气候影响评估的常用参照源。

机构Hijmans 等(UC Davis/Berkeley)
覆盖全球陆地
分辨率30 弧秒 – 10 弧分
时间基准 1970–2000
许可免费学术/非商业
获取免费免注册直链
查看字段与详情

内容与字段

逐月最低/平均/最高气温(°C)、降水量(mm)、太阳辐射、风速、水汽压;19 个标准化生物气候变量(bio1–bio19,如年均温、温度季节性、年降水量等);附 SRTM 高程。由全球气象站记录经薄板样条插值生成。

适用研究

物种分布与生态位建模、气候变化影响、农业与城市气候分析。

版本2.1(2020-01)· 格式GeoTIFF(按要素/分辨率分组)

官方口径为非商业用途,未经许可不得再分发或商用;元数据 2026-06 核验。

自行获取的难点

不同版本口径、变量定义与坐标对齐的逐一比对往往耗费数日。我们已完成整理校核,可直接取用进入分析。

机器学习与语料

图像 · 文本 · 多语

面向计算机视觉与 NLP 的超大规模开放语料,体量大、上手有门槛。

机器学习与语料非商业研究

ImageNet 大规模图像库 ImageNet

全球计算机视觉研究的奠基性基准,逾千万张人工标注图像、两万余类目,自 2009 年起被学界与产业引为通用评测标尺。

机构斯坦福视觉实验室 + 普林斯顿
覆盖约 1420 万张 · 21841 类
子集ILSVRC-1K 约 120 万训练
时间2009 起
许可仅非商业研究教育
获取免费需注册
查看字段与详情

内容与字段

来自网络采集的自然图像、每图类别标签(对应 WordNet 同义词集 synset)、WordNet 名词层级关系,部分子集含目标定位边界框(bounding box)。按 WordNet 名词树组织,目标为每个 synset 约 1000 张图。

适用研究

图像分类、目标定位、迁移学习与模型评测基准。

版本ImageNet-21K / 里程碑子集 ILSVRC2012 · 格式图像(JPEG)+ 标注

2019 年起官网关闭 21K 全量下载、仅保留 ILSVRC 子集;仅限非商业学术研究;元数据 2026-06 核验。

自行获取的难点

模型在自有样本上跑得不错,换到公认标准基准上却名次成谜——缺的不是算力,是一把行业共同认账的尺子。基准取用与子集对齐交给我们。

机器学习与语料依子语料

OPUS 开放平行语料库 OPUS · Open Parallel Corpus

规模最大的开放多语平行语料集合,逾千种语言、上千组语言对,是机器翻译与多语 NLP 的基础库。

机构赫尔辛基大学 Helsinki-NLP
覆盖约 1005 语言 · 1214 语料
规模约 1029 亿句对
时间各子语料滚动更新
许可依各子语料
获取免费免注册
查看字段与详情

内容与字段

双语/多语逐句对齐文本(bitext):源语言句、目标语言句、语言对标识、子语料来源标识、句对齐信息(XCES stand-off);部分经处理含分词、词形还原与词性标注。

适用研究

机器翻译、跨语言模型与多语 NLP。

格式XML+对齐 / TMX / Moses 纯文本 · 工具OpusTools / API

许可依各子语料各异,使用前须逐子语料核对;元数据 2026-06 核验。

自行获取的难点

语料来源分散、版本与对齐口径各异、子语料格式与授权各不相同,逐一甄别整合往往耗时费力。我们已完成梳理与统一交付,按语言对即取即用。

机器学习与语料开放 · 见条款

Common Crawl 网页语料 Common Crawl

覆盖全球公开网页、按月持续更新的 PB 级标准化 Web 归档语料,是大模型预训练与大规模文本研究的基础语料源。

机构Common Crawl Foundation
覆盖全球公开网页(逾 3000 亿页)
时间2008 起,月度更新
规模单月约 21 亿页 / PB 级累计
许可Common Crawl Terms
获取免费免注册(AWS S3/HTTPS/HF)
查看字段与详情

内容与字段

格式含义
WARC原始 HTTP 请求/响应(含 HTML)
WAT提取的元数据(链接、标题等 JSON)
WET仅抽取的纯文本正文

另含 URL 索引(CDXJ/列式)、超链接图谱。主要字段:URL、抓取时间戳、HTTP 状态、MIME 类型、内容与纯文本。

适用研究

大规模语料研究、自然语言处理与大模型预训练。

版本CC-MAIN-2026-21 · 格式WARC/WAT/WET(gzip)+ 列式索引

网页内容版权归原站;用户需自行做合规清洗与过滤,遵守来源许可与中国法律法规;元数据 2026-06 核验。

自行获取的难点

自行从全网抓取、去重、对齐格式并维护跨月份版本口径,往往耗费大量算力与工程时间且难以复现。我们已梳理好格式、字段与索引脉络,直接取用可研究的语料。

没找到要的?

冷门开源数据集精准检索

说清研究需要的数据与必须满足的条件,我们在权威平台与公开来源真实检索,按必须项逐条核验命中与缺口。

01

说清条件

主题、变量、时间与地域范围、格式与口径要求。

02

可得性评估

先判断公开数据能不能拿到、合规边界在哪,避免无效投入。

03

真实检索 + 成果单

多源真实检索,按必须项逐条判定命中与缺口,给出成果单。

04

找不到不收费

确实检索不到符合你必须项的开源数据集,不收检索费用。

找数据指南

先搞懂怎么找数据

配套的中文指南,讲清公开数据去哪找、平台怎么选、许可能不能商用、官方数据怎么查。

毕业论文数据哪里找开源数据集平台对比机器学习数据集去哪找面板数据入门数据集能不能商用国家统计局数据怎么查

要找的数据,不在这十八个里?

先去完整数据集库看看,或把研究数据需求告诉我们,先做可得性评估,再真实检索与整理——找不到不收费。

找数据