科研 · 数据集库

数据集库

把国内难找的高价值开源数据集,按领域分门别类、用中文讲清怎么用。库内持续扩充;要找的不在其中,让检索助手按你的必须项真实检索——找不到不收费。

没找到要的数据?让检索助手按必须项真实检索说清研究需要的数据与必须满足的条件,先评估可得性,再真实检索;确实检索不到,不收检索费用。
说说你要找的数据
经济与社会科学

经济 · 社科 · 全球发展

经济与社会科学CC BY 4.0

宾大世界表 PWT · Penn World Table

跨国经济比较绕不开的黄金标准:把各国 GDP、产出、资本与生产率拉到同一可比口径,是国际顶刊宏观与增长研究的标配底数。

机构格罗宁根大学 GGDC
覆盖185 个经济体
时间1950–2023
规模数十个变量面板
许可CC BY 4.0
获取免费免注册
查看字段与详情

内容与字段

以购买力平价(PPP)为核心、可跨国跨期比较的国民经济核算库:支出侧实际 GDP(CGDPe/RGDPe)、产出侧实际 GDP(CGDPo/RGDPo)、按国民核算口径的实际 GDP(RGDPNA)、人口与就业、人力资本指数、资本存量、全要素生产率(TFP)、价格水平与 PPP 等。

适用研究

跨国增长、生产率、收敛与发展研究的公认底数。

版本PWT 11.0(2025-10) · 格式Excel / Stata / 在线工具 · 标识DOI:10.34894/FABVLR

元数据以官方为准(2026-06 核验)。

自行获取的难点

不同版本的 PPP 基准、链式与当期口径、产出侧与支出侧 GDP 极易混用错配,自行比对常耗数日仍难自洽。版本梳理与口径校准交给我们,取来即用。

经济与社会科学开放获取

世界不平等数据库 WID · World Inequality Database

全球收入与财富分布的长历史数据库,融合国民账户、住户调查与税收数据,校正传统调查对顶端的低估。

机构世界不平等实验室
覆盖约 216 国家和地区
时间现代 1980 起,部分回溯更早
规模多维分布序列
许可开放获取(以官方为准)
获取免费 · Stata/R 工具
查看字段与详情

内容与字段

收入分布(税前/税后,按百分位、十分位的份额与人均水平)、财富分布与顶端财富份额、国民收入与国民账户宏观变量;近年新增对外收入、对外财富、公共收入与公共支出等。每条序列含地区代码、年份、指标代码、人口/百分位区间、币种与单位等维度。

适用研究

分布结构、再分配、宏观与发展经济学的分布份额统计。

更新滚动更新(含 2024 更新) · 格式网页导出 / Stata 包 / R 工具

许可类型以官方条款为准(待核验);元数据 2026-06 核验。

自行获取的难点

指标代码、币种单位、税前税后口径与百分位区间繁多,年度更新还会新增序列,自行对照官方字典逐条对齐、跨年跨地区拉通极易错配。交给我们整理成统一可检索的规范序列。

经济与社会科学Etalab 2.0

BACI 全球双边贸易数据库 CEPII BACI

经清洗调和的产品级双边贸易长表,HS 6 位、覆盖全球主要经济体,是贸易实证研究公认的标准口径。

机构法国 CEPII
覆盖主要经济体 · 约 5000 产品
时间年度,至 2024
规模多年度双边产品流
许可Etalab Open 2.0
获取免费免注册
查看字段与详情

内容与字段

字段含义
t年份
k产品类别(HS 6 位,保留前导零)
i / j出口方 / 进口方(ISO 数字代码)
v贸易额(千美元,现价)
q数量(公吨)

方法学:对 UN Comtrade 原始申报做 CIF/FOB 口径统一、按报告方可靠性对镜像数据加权对账。

版本202601(2026-01,每年 1 月更新) · 格式CSV(ZIP 分发)

分析单位以 ISO 数字代码表示;元数据 2026-06 核验。

自行获取的难点

镜像数据打架、CIF/FOB 口径不一、HS 编码前导零被当数值丢失、跨年版本对不齐——这些拖垮研究者的脏活,我们已处理为可直接入模的一致长表。

经济与社会科学Etalab 2.0

CEPII 引力数据库 CEPII Gravity

引力方程估计要用的双边变量这里成套齐备:贸易流、距离、协定、共同语言与宏观指标,是国际贸易实证研究的标准基础数据。

机构法国 CEPII
覆盖方阵双边 · 约 252 经济体
时间1948–2020
规模双边配对面板
许可Etalab Open 2.0
获取免费免注册
查看字段与详情

内容与字段

① 双边贸易流(IMF DOTS / UN Comtrade / BACI 三源);② 地理距离测度(多种加权距离、是否接壤、内陆、岛屿、经纬度);③ 制度与贸易便利化变量(GATT/WTO 成员、区域/双边贸易协定);④ 历史与制度联系的代理变量(共同语言、宗教、法律体系起源、历史关联等);⑤ 宏观指标(GDP、人口)。

适用研究

引力模型、双边贸易、全球价值链实证。

版本202211(2022-11) · 格式CSV / R / Stata · 引用Conte, Cotterlaz & Mayer (2022)

地区划分沿用数据源国际统计分类口径,仅为统计惯例,以中国官方标准为准;元数据 2026-06 核验。

自行获取的难点

三套贸易流来源口径不一、距离与制度变量年份各异、报告方编码还要逐年对齐,自行拼出一套可直接跑回归的双边面板往往要耗上数周。这里交付的是已统一口径、对齐配对的成套数据。

经济与社会科学CC BY 4.0

麦迪森历史 GDP 数据库 Maddison Project · MPD

把世界经济拉到两千年尺度的权威基准:自公元 1 年起跨国可比的人均 GDP 与人口估计。

机构格罗宁根大学 GGDC
覆盖169 国家和地区
时间公元 1 年 – 2022
规模长期时间序列
许可CC BY 4.0
获取免费免注册
查看字段与详情

内容与字段

字段含义
countrycode / year地区代码 / 年份
cgdppc水平比较口径人均 GDP(2011 国际美元)
rgdpnapc实际人均 GDP(跨时增长比较)
pop人口(千人)
i_cig / i_bm估计来源 / 基准估计标识

适用研究

历史经济学、比较发展、长期增长与收入水平差异。

版本MPD 2023 · 格式Excel / Stata · 标识DOI:10.34894/INZBF2

字段命名与归类以官方 Codebook 为准;元数据 2026-06 核验。

自行获取的难点

不同年份发布的口径屡有修订、现价与实际两套人均 GDP 各有适用场景、基准估计与插值外推的标识需要逐字段甄别。这里直接交付经过梳理对齐、口径标注清晰的可用数据。

经济与社会科学免费 · 需引用

Barro-Lee 教育年限数据库 Barro-Lee Educational Attainment

衡量人力资本存量的权威参照系:分性别、分年龄的跨国受教育程度估计,被世界银行与大量增长研究长期引用。

机构Barro(哈佛)+ Lee(高丽大)
覆盖146 个经济体
时间1950–2015(5 年间隔)
规模分性别/年龄交叉表
许可免费,需引用论文
获取免费免注册
查看字段与详情

内容与字段

分性别(总/男/女)、分年龄组的受教育程度:各教育层级(无教育/初等/中等/高等,含未完成与完成)的人口占比、平均受教育年限(yr_sch 及分初/中/高),以及用于估算的入学率、辍学率、人口结构等;含 Lee-Lee 长期历史数据与教育质量等扩展模块。

适用研究

教育经济学、人力资本与经济增长实证。

版本2021-09(BLv3) · 格式Excel / CSV / Stata

许可存在双重表述(GitHub MIT / 官网保留权利),商用前建议核验作者授权;元数据 2026-06 核验。

自行获取的难点

不同发布批次的口径调整、教育层级划分与历史回溯序列的衔接,往往让自行整理者反复对齐、难以确认用哪一版。我们已完成版本梳理与变量校准。

经济与社会科学CC BY 4.0

世界发展指标 WDI · World Development Indicators

世界银行的全球发展统计总集,覆盖经济、人口、教育、健康与环境上千项指标,是跨国发展研究最常用的权威底数。

机构世界银行
覆盖约 217 个经济体
时间1960 起
规模1400+ 指标
许可CC BY 4.0
获取免费免注册 · API/批量
查看字段与详情

内容与字段

可跨国跨期比较的年度指标:GDP 与人均收入、人口与城镇化、贫困与不平等、教育入学率、预期寿命、能源与碳排放、基础设施与数字经济等,按经济体、指标代码、年份组织。

适用研究

发展经济学、跨国比较、政策评估与可持续发展目标(SDG)监测。

更新滚动更新 · 格式CSV / Excel / API(含 SDMX) · 平台World Bank Open Data / Data360

元数据以世界银行官方为准(2026-06 核验)。

自行获取的难点

指标代码繁多、口径与基年时有调整,跨指标跨年合并极易错配;交给我们按研究口径抽取、对齐与整合,取来即用。

经济与社会科学免费 · IMF 使用条款

世界经济展望数据库 IMF WEO · World Economic Outlook

国际货币基金组织的宏观经济数据库,含各国增长、通胀、失业、财政与国际收支,并提供未来五年预测,是宏观与政策研究的标准参照。

机构国际货币基金组织 IMF
覆盖约 190 个经济体
时间1980 起 + 未来5年预测
规模国民账户/物价/财政/国际收支
许可免费 · IMF 使用条款
获取免费 · DataMapper/数据门户
查看字段与详情

内容与字段

实际/名义 GDP 与增速、人均 GDP、CPI 通胀、失业率、政府收支与债务、经常账户、商品价格等,年度数据并含未来五年预测。

适用研究

宏观经济、国别比较、财政与外部平衡、预测对比与情景分析。

更新每年 4 月、10 月两次 · 格式Excel / SDMX · 平台IMF DataMapper / data.imf.org

部分国别或年份数据可能不全;以 IMF 官方为准(2026-06 核验)。

自行获取的难点

不同版本(4月/10月)与历次预测口径不同、国别分组与聚合易混;我们按版本与口径校准后取数。

经济与社会科学免费 · OECD 使用条款(可商用·需署名)

OECD 统计数据 OECD Data Explorer

经合组织的官方统计仓库,覆盖成员国与伙伴经济体的经济、就业、教育、健康、环境与社会指标,口径规范、可比性强。

机构经合组织 OECD
覆盖OECD 成员 + 伙伴经济体
时间多为 1960/1970 起
规模数百个数据集
许可OECD 使用条款(可商用·需署名)
获取免费 · Data Explorer/API
查看字段与详情

内容与字段

国民账户、就业与工时、价格、生产率、教育与技能、健康支出、环境与能源、社会保障等,按主题数据集组织,多含 SDMX 维度。

适用研究

发达经济体比较、产业与生产率、社会政策、可持续发展。

格式CSV / Excel / SDMX-API · 平台OECD Data Explorer · 2024 起数据免费开放

以 OECD 官方条款与元数据为准(2026-06 核验)。

自行获取的难点

数据集与维度代码繁杂、跨主题口径不一;我们按研究主题抽取并对齐维度。

经济与社会科学免费(基础)· UN 使用条款

联合国商品贸易统计数据库 UN Comtrade

联合国官方的国际货物贸易统计库,按 HS/SITC 产品与贸易伙伴提供各国进出口长序列,是官方口径贸易研究的权威来源。

机构联合国统计司 UNSD
覆盖约 200 个国家/地区
时间1962 起
规模产品级双边年度/月度
许可免费(基础)· UN 使用条款
获取免费 · API;批量为付费高级版
查看字段与详情

内容与字段

按报告国、伙伴国、HS 6 位或 SITC 的进口/出口/再出口/再进口贸易额与数量,年度与月度。

适用研究

国际贸易、产业链与竞争力、贸易政策、引力模型。

格式CSV / JSON-API · 平台Comtrade Plus · 基础免费、批量下载为高级订阅

数据由各国上报,存在镜像差异;以 UNSD 官方为准(2026-06 核验)。

自行获取的难点

报告国与镜像数据对不齐、HS 版本切换、缺报年份多;我们做镜像校准与口径统一。

经济与社会科学CC BY 4.0

欧盟统计局数据 Eurostat

欧盟官方统计机构,提供成员国口径统一、可比的经济、人口、产业、能源与社会指标,是欧洲实证研究的标准数据源。

机构欧盟统计局 Eurostat
覆盖欧盟成员 + EFTA/候选国
时间多为 1990/2000 起
规模数千个数据表
许可CC BY 4.0
获取免费 · API/批量
查看字段与详情

内容与字段

国民账户与 GDP、就业与失业、人口与移民、物价 HICP、产业与能源、研发与数字经济、收入与生活条件等,按数据表与维度组织。

适用研究

欧洲经济社会比较、区域 NUTS 分析、政策评估。

格式TSV / CSV / SDMX-API · 平台Eurostat Data Browser

以 Eurostat 官方为准(2026-06 核验)。

自行获取的难点

数据表代码与 NUTS 区划层级多、口径更新频繁;我们按区域层级与口径抽取整合。

经济与社会科学CC BY 4.0(自产;第三方依原许可)

Our World in Data OWID · Our World in Data

牛津与 Global Change Data Lab 维护的长期全球问题数据与图表库,把权威来源整理成可比、可下载的长序列,覆盖发展、健康、能源与环境。

机构Global Change Data Lab · 牛津大学
覆盖全球多国
时间长历史序列
规模数千个指标与图表
许可CC BY 4.0(自产;第三方依原许可)
获取免费 · 下载/API
查看字段与详情

内容与字段

人口与人口结构、健康与疾病、能源与排放、贫困与不平等、教育、食物与农业等主题的可下载序列,含来源标注与处理说明。

适用研究

全球趋势、跨国比较、科普与教学、政策沟通。

格式CSV / 图表 / API · 标注"由 OWID 整理/处理" 区分自产与第三方

自产数据为 CC BY;第三方数据须依原始来源许可,使用前核对(2026-06 核验)。

自行获取的难点

自产与第三方数据许可不同、来源链路需逐条核对;我们厘清来源与许可再交付。

公共卫生与医学

人口 · 健康 · 流行病

公共卫生与医学CC BY 4.0 · 需注册

人类死亡率数据库 HMD · Human Mortality Database

国际人口学界公认的死亡率与生命表权威源,统一计算方法,可直接用于精算、寿险定价与人口研究。

机构UC 伯克利 & 马普人口所
覆盖约 41 国家和地区
时间最早 1751 起(逐年)
规模约 48 个人口序列
许可产出 CC BY 4.0
获取免费需注册
查看字段与详情

内容与字段

分年龄/性别的死亡率、生命表、死亡数、出生数与暴露风险人口;含时期与队列两套数据,以及生命表所用原始输入数据。附属子序列:短期每周死亡数序列(STMF,用于死亡波动监测)。

适用研究

人口学、老龄化、精算与公共卫生。

更新各国滚动更新 · 格式CSV/TXT / Excel / R 接口

输入数据受各国统计机构原许可约束;元数据 2026-06 核验。

自行获取的难点

各国原始口径不一、生命表构建方法繁琐、版本更新与暴露风险人口对齐易出错,还要先注册接受协议。交由我们交付口径统一、可追溯的标准化成品。

公共卫生与医学CC BY 4.0 · 需注册

人类生育数据库 HFD · Human Fertility Database

发达国家高质量生育数据的国际权威源,按母亲年龄与孩次细分至生育表层级,是低生育率对标研究的可比基准。

机构马普人口所 & 维也纳人口所
覆盖约 37 国家和地区
时间各国最长序列,近期至 2024
规模时期 + 队列生育数据
许可产出 CC BY 4.0
获取免费需注册(另有免注册 lite)
查看字段与详情

内容与字段

四大数据块:① 汇总指标(出生数、粗出生率、总和生育率 TFR、节奏调整 TFR、平均生育年龄、队列累计生育率等);② 按年龄/孩次明细;③ 时期表与队列生育表(含 PATFR);④ 原始输入数据。统一标准化方法(Lexis 格式、人口分母、生育表计算)。

适用研究

人口学、生育与家庭动态、公共政策对标。

更新滚动更新 · 格式制表符文本 / Excel(lite)

输入数据受各国统计机构原许可约束;元数据 2026-06 核验。

自行获取的难点

各国出生与人口原始记录口径不一、年龄孩次维度参差,要自行对齐 Lexis 格式、统一分母并复算时期/队列生育表既耗时又易错。这里直接交付已标准化、可横向比较的成套数据。

公共卫生与医学免费 · 需申请

人口与健康调查 DHS Program · Demographic and Health Surveys

覆盖发展中国家的全国代表性入户调查微观数据,统一问卷口径,是全球健康与发展研究难以替代的一手来源。

机构ICF 执行(盖茨基金过渡资助)
覆盖90+ 国家 · 400+ 次调查
时间1984 年至今
规模全国代表性入户微观数据
许可注册后免费分发协议
获取免费需申请(24–48h 审核)
查看字段与详情

内容与字段

生育与总和生育率、计划生育与避孕、孕产妇与儿童健康(免疫、患病与存活)、营养、HIV 与疟疾、生物标志物等模块;按记录文件组织(妇女/儿童/家户/男性/HIV 等)。调查类型含标准 DHS、疟疾指标调查、艾滋指标调查、服务提供评估等。

适用研究

全球健康、人口与发展经济学。

格式Stata / SPSS / SAS / ASCII;汇总指标 STATcompiler / API · 更新国家+轮次滚动

微观数据需按项目说明申请、限定用途;元数据 2026-06 核验。

自行获取的难点

多轮调查、多种调查类型与按记录文件拆分的字段结构,往往需要逐版本核对口径、对齐编码并跨文件关联才能用于分析。我们已完成版本梳理与字段对齐整理。

公共卫生与医学非商业 · 需注册

全球疾病负担研究 GBD 2021 · Global Burden of Disease

全球疾病负担测算的公认权威基准,371 种疾病与伤害、88 种危险因素,是流行病学与卫生政策研究的高频数据源。

机构华盛顿大学 IHME
覆盖204 国家和地区 + 次国家级
时间1990–2021
规模371 病种 · 88 危险因素
许可免费非商业用户协议
获取免费需注册
查看字段与详情

内容与字段

维度取值
度量指标死亡数、DALYs、YLLs、YLDs、患病率、发病率、HALE
分层维度地点、年份、年龄、性别、病因、危险因素
单位数值 / 率 / 百分比

适用研究

疾病负担、流行病学、卫生政策评估。

版本GBD 2021 · 格式网页表 / 可视化 / CSV(GBD Results 工具)

地理粒度按国家/地区/次国家级层级描述,地名口径以中国官方为准;元数据 2026-06 核验。

自行获取的难点

病因分类、危险因素归因与多年份口径的对齐校准本就繁复,跨版本指标定义与单位换算稍有出入便会影响结论。我们已完成版本梳理与口径对照。

公共卫生与医学CC BY-NC-SA 3.0 IGO

全球卫生观察站 WHO GHO · Global Health Observatory

世卫组织的全球健康统计门户,覆盖 194 个成员国上千项健康指标,是国别健康比较与公共卫生研究的权威来源。

机构世界卫生组织 WHO
覆盖194 个成员国
时间多为 2000 起
规模1000+ 指标
许可CC BY-NC-SA 3.0 IGO
获取免费 · API/下载
查看字段与详情

内容与字段

死亡率与预期寿命、传染病与免疫接种、非传染性疾病、卫生系统与资源、危险因素、SDG 健康指标等,按指标、国家、年份与维度组织。

适用研究

全球健康、卫生政策、流行病学、SDG 监测。

格式CSV / JSON-API · 平台GHO 数据仓库 / Athena API

CC BY-NC-SA 3.0 IGO 为非商业许可,商用须另核;以 WHO 官方为准(2026-06 核验)。

自行获取的难点

非商业许可需留意、指标维度与口径多;我们按合规口径抽取并标注许可。

地理遥感与城市

遥感 · 人口 · 土地

地理遥感与城市开放 · 可商用

VIIRS 夜间灯光(年度合成) VIIRS Nighttime Lights · VNL

以一束可量化的夜光还原经济活动、城市扩张与能源分布——衡量区域经济最常用的遥感代理。

机构科罗拉多矿院 EOG
覆盖全球(75°N–65°S)
分辨率约 500m(15 弧秒)
时间2012 至今
许可开放,可商用
获取免费需注册(亦可 GEE)
查看字段与详情

内容与字段

波段含义
average / average_masked平均辐射 / 掩膜后平均辐射
median / maximum / minimum中值 / 最大 / 最小辐射
cf_cvg / cvg无云观测计数 / 总观测数

辐射单位 nW/cm²/sr,经去云、去月光、去火点处理。

适用研究

区域经济、GDP 代理、电力可及性与城市扩张。

版本年度 VNL V2.2 · 格式GeoTIFF

许可口径官方表述不一(公共领域或 CC BY,均可商用,建议署名 EOG);本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

全球夜光散落在境外平台、注册门槛与多版本格式让人光是"拿到能用的那一份"就耗掉大半精力,年际传感器/算法一致性还需自行甄别。这部分繁琐交给我们处理到位。

地理遥感与城市开放免费

全球人居层 GHSL · Global Human Settlement Layer

把"哪里有人、有多少、城市化到什么程度"做成全球统一口径的栅格图层,城市与人口暴露研究难以替代的底层数据。

机构欧盟委员会 JRC
覆盖全球栅格
分辨率100m / 1km(部分 10m)
时间1975–2030(5 年)
许可欧委会再利用(注明来源)
获取免费免注册
查看字段与详情

内容与字段

产品含义
GHS-BUILT-S / V / H建成区面积 / 体积 / 建筑高度
GHS-POP人口分布格网(每格人数)
GHS-SMOD / DUC城市化程度 / 行政单元城市化分类

适用研究

城市化、人口分布、区域经济与灾害暴露。

版本R2023A · 格式GeoTIFF

行政单元划分沿用数据源原始口径,仅为技术处理结果,以中国官方标准地图为准;本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

多版本年份交错、建成面积与人口格网口径各异、与普查及联合国数据的对齐繁琐,自行下载比对、统一坐标与分辨率往往耗时数日。交由我们完成版本甄别与口径对齐。

地理遥感与城市CC BY 4.0

ESA 全球土地覆盖(10m) ESA WorldCover

基于 Sentinel 卫星的 10 米全球土地覆盖图,独立验证总体精度约 76.7%,分类清晰、可直接用作研究底图。

机构欧洲空间局 ESA(VITO 牵头)
覆盖全球
分辨率10m
时间2020 / 2021 两版
许可CC BY 4.0
获取免费(官网/AWS/GEE)
查看字段与详情

内容与字段

单波段(Map)记录 11 个土地覆盖类别:树木覆盖、灌木地、草地、耕地、建成区、裸地/稀疏植被、冰雪、永久水体、草本湿地、红树林、苔藓与地衣。附产品用户手册与验证报告。

适用研究

土地利用、农业、生态、城市扩张与环境研究。

版本v200(2021,2022-10 发布)· 格式Cloud-Optimized GeoTIFF

两版算法不同,做变化检测需谨慎;本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

v100 与 v200 口径差异、类别定义对齐、精度报告比对与原始栅格的获取分发,自行梳理往往耗时易错。我们已完成版本甄别与说明整理,按需直取可用底图。

地理遥感与城市CC BY 4.0

WorldPop 全球人口分布 WorldPop

约 100 米分辨率的网格化人口估算,以官方普查为基底降尺度,空间人口学研究与区域规划的权威公开源。

机构南安普顿大学等
覆盖全球(逐国定制)
分辨率约 100m(另有 1km)
时间约 2000–2021(另有预测)
许可CC BY 4.0(可商用)
获取免费开放
查看字段与详情

内容与字段

人口计数(每网格估计居住人口)、人口密度、分年龄分性别人口结构、发展指标(贫困/出生率等)、人口流动等。方法学:以普查为基础,用随机森林 dasymetric 再分配结合地理协变量降尺度到约 100m 网格。

适用研究

空间人口学、城市研究、灾害评估、可达性与公共服务规划。

版本按 DOI 分版 · 格式GeoTIFF / REST API

为第三方机构基于模型估算的成果,行政区划与边界以中国官方标准为准;本站不渲染地图,元数据 2026-06 核验。

自行获取的难点

同一区域跨年份、跨版本的人口栅格口径与坐标系常需反复核对,年龄性别分层与协变量对齐也耗时。我们已完成版本梳理与字段统一,检索即用。

地理遥感与城市免费 · 非商业

WorldClim 全球气候数据 WorldClim

覆盖全球的高分辨率气候栅格基准,逐月气温降水到 19 个生物气候变量一应俱全,物种分布与气候影响评估的常用参照源。

机构Hijmans 等(UC Davis/Berkeley)
覆盖全球陆地
分辨率30 弧秒 – 10 弧分
时间基准 1970–2000
许可免费学术/非商业
获取免费免注册直链
查看字段与详情

内容与字段

逐月最低/平均/最高气温(°C)、降水量(mm)、太阳辐射、风速、水汽压;19 个标准化生物气候变量(bio1–bio19,如年均温、温度季节性、年降水量等);附 SRTM 高程。由全球气象站记录经薄板样条插值生成。

适用研究

物种分布与生态位建模、气候变化影响、农业与城市气候分析。

版本2.1(2020-01)· 格式GeoTIFF(按要素/分辨率分组)

官方口径为非商业用途,未经许可不得再分发或商用;元数据 2026-06 核验。

自行获取的难点

不同版本口径、变量定义与坐标对齐的逐一比对往往耗费数日。我们已完成整理校核,可直接取用进入分析。

地理遥感与城市免费开放(Copernicus 数据政策)

哨兵二号光学影像 Copernicus Sentinel-2

欧盟哥白尼计划的高分辨率多光谱卫星影像,10 米分辨率、3–5 天重访,全球免费开放,是土地、农业与城市遥感的主力数据。

机构ESA · 欧盟哥白尼计划
覆盖全球陆地
时间2015 起
规模10/20/60m 多光谱
许可免费开放(Copernicus 数据政策)
获取免费 · Data Space/云平台
查看字段与详情

内容与字段

13 个光谱波段、10–60 米分辨率的 L1C/L2A 反射率产品,可计算 NDVI 等植被与水体指数。

适用研究

土地覆盖与变化、农业与作物、城市扩张、灾害与环境监测。

格式GeoTIFF / SAFE / NetCDF · 平台Copernicus Data Space Ecosystem / GEE / AWS / Planetary Computer

免费开放、可商用;以哥白尼官方数据政策为准(2026-06 核验)。

自行获取的难点

影像分幅大、云遮挡与时序合成、坐标与投影处理门槛高;我们做检索、裁剪、去云与指数计算。

地理遥感与城市免费开放(NASA 数据政策)

MODIS 对地观测产品 NASA MODIS

NASA 中分辨率成像光谱仪的全球每日观测产品,提供植被指数、地表温度、火点、雪盖等分析就绪图层,是长时序地表监测的标配。

机构NASA(LP DAAC 等)
覆盖全球
时间2000 起
规模250m–1km 多产品
许可免费开放(NASA 数据政策)
获取免费 · Earthdata 登录
查看字段与详情

内容与字段

植被指数 NDVI/EVI、地表温度 LST、土地覆盖类型、火点、雪盖、反照率等标准化合成产品,日 / 8 天 / 16 天 / 年度。

适用研究

生态与农业、气候与物候、火灾与环境、城市热岛。

格式HDF / GeoTIFF · 平台Earthdata Search / LP DAAC / AppEEARS / GEE

需免费 Earthdata 账号;以 NASA 官方为准(2026-06 核验)。

自行获取的难点

HDF 格式与正弦投影、产品众多、批量下载与子集化繁琐;我们做产品选型、提取与重投影。

地理遥感与城市CC0 / CC BY / CC BY-NC(按发布方)

全球生物多样性信息库 GBIF

各国政府资助的全球生物多样性数据网络,汇聚数十亿条带坐标与时间的物种出现记录,是生态、地理与生物多样性研究的开放数据来源。

机构GBIF(国际网络)
覆盖全球
时间跨历史至今
规模数十亿条出现记录
许可CC0 / CC BY / CC BY-NC(按发布方)
获取免费 · 下载含 DOI
查看字段与详情

内容与字段

物种学名、经纬度、采集/观测时间、记录类型、数据集与发布机构等的物种出现记录(occurrence)。

适用研究

物种分布与生态位、生物多样性、入侵物种、气候与栖息地变化。

格式Darwin Core CSV · 平台GBIF.org · 每次下载含 DOI 便于引用

许可按各发布方为 CC0 / CC BY / CC BY-NC,商用前逐条核对(2026-06 核验)。

自行获取的难点

各发布方许可不一、坐标与鉴定质量参差、清洗去重门槛高;我们按许可筛选并做质量清洗。

机器学习与语料

图像 · 文本 · 多语

机器学习与语料非商业研究

ImageNet 大规模图像库 ImageNet

全球计算机视觉研究的奠基性基准,逾千万张人工标注图像、两万余类目,自 2009 年起被学界与产业引为通用评测标尺。

机构斯坦福视觉实验室 + 普林斯顿
覆盖约 1420 万张 · 21841 类
子集ILSVRC-1K 约 120 万训练
时间2009 起
许可仅非商业研究教育
获取免费需注册
查看字段与详情

内容与字段

来自网络采集的自然图像、每图类别标签(对应 WordNet 同义词集 synset)、WordNet 名词层级关系,部分子集含目标定位边界框(bounding box)。按 WordNet 名词树组织,目标为每个 synset 约 1000 张图。

适用研究

图像分类、目标定位、迁移学习与模型评测基准。

版本ImageNet-21K / 里程碑子集 ILSVRC2012 · 格式图像(JPEG)+ 标注

2019 年起官网关闭 21K 全量下载、仅保留 ILSVRC 子集;仅限非商业学术研究;元数据 2026-06 核验。

自行获取的难点

模型在自有样本上跑得不错,换到公认标准基准上却名次成谜——缺的不是算力,是一把行业共同认账的尺子。基准取用与子集对齐交给我们。

机器学习与语料依子语料

OPUS 开放平行语料库 OPUS · Open Parallel Corpus

规模最大的开放多语平行语料集合,逾千种语言、上千组语言对,是机器翻译与多语 NLP 的基础库。

机构赫尔辛基大学 Helsinki-NLP
覆盖约 1005 语言 · 1214 语料
规模约 1029 亿句对
时间各子语料滚动更新
许可依各子语料
获取免费免注册
查看字段与详情

内容与字段

双语/多语逐句对齐文本(bitext):源语言句、目标语言句、语言对标识、子语料来源标识、句对齐信息(XCES stand-off);部分经处理含分词、词形还原与词性标注。

适用研究

机器翻译、跨语言模型与多语 NLP。

格式XML+对齐 / TMX / Moses 纯文本 · 工具OpusTools / API

许可依各子语料各异,使用前须逐子语料核对;元数据 2026-06 核验。

自行获取的难点

语料来源分散、版本与对齐口径各异、子语料格式与授权各不相同,逐一甄别整合往往耗时费力。我们已完成梳理与统一交付,按语言对即取即用。

机器学习与语料开放 · 见条款

Common Crawl 网页语料 Common Crawl

覆盖全球公开网页、按月持续更新的 PB 级标准化 Web 归档语料,是大模型预训练与大规模文本研究的基础语料源。

机构Common Crawl Foundation
覆盖全球公开网页(逾 3000 亿页)
时间2008 起,月度更新
规模单月约 21 亿页 / PB 级累计
许可Common Crawl Terms
获取免费免注册(AWS S3/HTTPS/HF)
查看字段与详情

内容与字段

格式含义
WARC原始 HTTP 请求/响应(含 HTML)
WAT提取的元数据(链接、标题等 JSON)
WET仅抽取的纯文本正文

另含 URL 索引(CDXJ/列式)、超链接图谱。主要字段:URL、抓取时间戳、HTTP 状态、MIME 类型、内容与纯文本。

适用研究

大规模语料研究、自然语言处理与大模型预训练。

版本CC-MAIN-2026-21 · 格式WARC/WAT/WET(gzip)+ 列式索引

网页内容版权归原站;用户需自行做合规清洗与过滤,遵守来源许可与中国法律法规;元数据 2026-06 核验。

自行获取的难点

自行从全网抓取、去重、对齐格式并维护跨月份版本口径,往往耗费大量算力与工程时间且难以复现。我们已梳理好格式、字段与索引脉络,直接取用可研究的语料。

机器学习与语料CC0

OpenAlex 学术图谱 OpenAlex

完全开放的全球学术元数据库,收录数亿篇论文及其作者、机构、期刊、引用与主题关联,CC0 免费,是文献计量与科研知识图谱的开放替代。

机构OurResearch(非营利)
覆盖全球学术
时间跨历史至今
规模4 亿+ 学术作品
许可CC0
获取免费 · API/月度快照
查看字段与详情

内容与字段

作品 works、作者 authors、机构 institutions、来源 sources、出版商、资助方、主题 topics 及其引用与关联关系,含摘要倒排索引等。

适用研究

文献计量、科研评价、知识图谱、NLP 语料与科研趋势。

格式JSON-API / 月度快照(S3、Zenodo) · 限额API 免密钥(约 10 万次/日)

CC0 公共领域,可自由使用;以 OpenAlex 官方为准(2026-06 核验)。

自行获取的难点

全量快照体量大、实体关联与去重复杂;我们做子集抽取、实体消歧与建库。

要找的数据,库里没有?

把研究需要的数据与必须满足的条件告诉我们,先做可得性评估,再真实检索与整理——找不到不收费。

找数据