找数据指南 · 经管社科入门

面板数据是什么、去哪找?

面板数据就是把多个对象在多个年份上的观测放在一张表里,比如多个国家、多年的人均 GDP。它比只看一个时间点的截面数据、只看一个对象的时间序列信息更全。下面用大白话讲清区别,再给出经管社科论文常用的公开面板数据源。

一句话先回答

面板数据是多个对象 × 多个时间点的数据,比如多个国家连续多年的人均 GDP,每个国家每年一行。经管社科论文常用的公开面板数据源有:宾大世界表 PWT、世界银行世界发展指标 WDI、OECD 统计数据、CEPII 引力数据库与 BACI 双边贸易数据,都能免费获取。用的时候重点核对口径、单位和缺失值三件事。

面板数据、截面、时间序列,差在哪

这三个概念经常被搞混,用一句话各自说清:

  • 截面数据:同一个时间点上、多个对象的快照。比如 2023 年各省的 GDP,只有一个年份,横着比较不同省。
  • 时间序列:同一个对象、多个时间点的变化。比如某个省连续十年的 GDP,只有一个对象,纵着看它怎么变。
  • 面板数据:既有多个对象、又有多个时间点,是上面两者的结合。比如各省连续十年的 GDP,既能横着比省,又能纵着看年份。

面板数据的好处是:它能同时控制不同对象之间的固有差异(个体效应)和共同的时间趋势(时间效应),做回归时更稳,也更适合分析政策、制度等随时间变化的因果问题。

类型对象数时间点数例子
截面数据多个一个2023 年各省 GDP
时间序列一个多个某省 2014–2023 年 GDP
面板数据多个多个各省 2014–2023 年 GDP

经管社科常用的公开面板数据源

下面这些都是国内研究者常用、可免费获取的公开面板数据源,我们也在精选数据集里为其中几个写了中文说明卡,讲清字段、口径和用途。

宾大世界表 PWT(Penn World Table)

由格罗宁根大学维护的国民账户数据,覆盖上百个国家、多年的实际 GDP、生产率、就业、人口与价格水平,按 CC BY 4.0 许可发布,适合做跨国经济增长与生产率的长期比较。看中文说明卡 →

世界银行世界发展指标 WDI

世界银行公开数据中的核心库,覆盖约 220 个经济体、上千个时间序列指标,主题涵盖经济增长、教育、卫生、贸易、能源、环境等,许可为 CC BY 4.0,可按国家和年份免费下载,是跨国发展研究的基础面板源。

OECD 统计数据

经济合作与发展组织的统计数据仓库,覆盖成员国与伙伴经济体,主题包括经济、劳动力市场、生产率、价格、教育、卫生、人口等,免费访问,注册可选,适合做发达经济体与跨国比较研究。

CEPII 引力数据库与 BACI 双边贸易

法国 CEPII 维护:BACI 提供产品层级的双边贸易流数据,按 HS 编码分类,依 Etalab 开放许可 2.0 免费提供;引力数据库汇集了双边距离、人口、GDP 等用于贸易引力模型的变量。两者都是国际贸易实证研究的常用面板源。看中文说明卡 →

用面板数据最容易踩的坑

  • 口径不一致:不同来源的同名指标,统计口径可能不同(比如名义还是实际、是否含某些部门)。拼接前先确认每个来源的口径定义。
  • 单位和基年没对齐:跨国经济数据常用不同货币单位和价格基年,直接比较会失真。要先统一到同一单位和基年口径。
  • 缺失值没分清:面板里某些国家某些年份是空的,要弄清是真缺失、未观测,还是该年该国不存在,处理方式完全不同,别一律当零或一律删。

不想自己拼面板,可以交给我们

把多个来源的面板数据对齐成一张能直接跑回归的表,往往比想象中费时间。如果你不想自己处理口径、单位和缺失值,可以把研究目标和必须满足的条件交给我们:先做免费的数据可得性评估,在权威数据平台真实检索,按你列的必须项逐条判断命中与缺口;命中后还可以帮你把数据整理到字段口径一致、缺失有说明、可复现。如该次检索未找到贴合你需求的数据集,我们不就该次可得性评估收取费用。

看科研服务 →

延伸阅读

聊聊需求