科研 · 自有成品数据集

自有数据集

我们自己采集、清洗、整理的成品数据集——字段口径、来源说明、质检过程齐全,提供样例与按需交付。

一期 12 个成品数据集:先看样例,再按需交付每个数据集都附字段说明、来源说明与质检过程;具体范围、口径与授权方式以双方确认为准。
获取样例与报价
关于这些数据集

以下数据集均为我们基于公开来源采集整理的成品。卡片所列规模、字段与时间覆盖来自我们整理后的真实交付文件;尚未在本页公开具体数字的项目,可联系我们获取样例核对。具体范围、口径与授权方式以双方确认为准。

公共安全与案例

地铁事故 · 结构化案例

把分散的地铁事故案例整理成可入库、可分析的结构化表。

公共安全与案例成品数据集

地铁事故结构化主数据集

把地铁事故与事件案例整理成统一字段的结构化主表,含案例、来源文档与字段合同,可直接入库做事故案例检索与归因分析。

形态结构化表格数据(主表)
规模151 个事故案例
字段35 个字段
时间覆盖事故发生年份 2016–2025
来源口径公开来源采集整理 + 字段合同规范
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

覆盖地铁事故与事件案例的结构化主表,共 151 个案例、35 个字段,事故发生年份覆盖 2016 至 2025 年。字段包括事故标题、发布与事故日期、省市区县与事故地点、项目名称、线路标段、施工阶段与工法、事故类型与等级、死亡/受伤/失踪人数、直接经济损失、直接与间接原因、责任认定与关键责任单位,并附来源文档数、主来源 URL 与抽取置信度等溯源字段。

适用场景

地铁与轨道交通安全研究、事故案例库建设、风险归因与案例检索。

公共安全与案例成品数据集

地铁事故分析表数据集

在事故主表基础上抽取的分析级样本表,把案例整理成便于做风险模式分析与事故归因研究的样本结构。

形态结构化分析表
规模88 行汇总(5 个分析维度)
字段7 个字段
时间覆盖与主表同源(2016–2025)
来源口径主表抽取 + 分析级整理
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

在 151 个案例主表基础上聚合得到的分析级汇总表,共 88 行、7 个字段。按事故年份、事故类型、城市、施工工法、事故等级 5 个维度分组,统计每个维度取值下的案例数、死亡总数、受伤总数与单案平均死亡/受伤,便于直接做风险模式分析与归因对比。

适用场景

事故风险模式分析、归因建模、案例筛选与对比研究。

来源索引与采集

古树名木气象灾害 · 链接索引集

经主题校验的网页链接清单,用作文本采集与知识抽取的来源索引。

来源索引与采集成品数据集

古树名木气象灾害最小交付链接集

一份经主题校验的古树名木气象灾害网页链接清单,可直接作为文本采集、事件扩展与知识抽取的来源索引集。

形态链接索引表
规模1000 条网页链接
字段2 列:编号 + 链接
时间覆盖详情联系我们获取样例
来源口径公开网页采集 + 主题校验
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

围绕古树名木气象灾害主题、经主题校验的 1000 条去重网页链接清单,最小交付版每条含编号与链接两列,全部链接经可访问性校验。可直接作为文本采集、事件扩展与知识抽取的来源索引。具体来源分布以交付样例为准。

适用场景

文本语料采集、事件库扩展、知识抽取的来源索引。

来源索引与采集成品数据集

古树名木气象灾害审计增强链接集

在最小链接集基础上补充域名分布、校验结果与审核字段,便于做更严格的来源筛选与二次抽取。

形态链接索引表 + 审计字段
规模1000 条网页链接
字段16 列:含域名 / 校验 / 审核字段
时间覆盖详情联系我们获取样例
来源口径公开网页采集 + 审计增强
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

在最小链接集基础上扩展为 16 列的审计增强版,同为 1000 条链接。每条补充最终跳转地址、域名、国内/国外标记、主题层级、相关度评分、主题命中计数、HTTP 状态码、页面标题与检索词等字段。其中约 816 条为国内来源、184 条为国外来源,链接全部校验可访问,支持更严格的来源筛选与二次抽取。

适用场景

严格来源筛选、链接质量审核、二次内容抽取。

农业与产量预测

甘肃省产量预测 · 长表与宽表

把作物产量、气象与灾害整理成可建模的年度面板。

农业与产量预测成品数据集

甘肃省产量预测长表数据集

把甘肃省作物产量、气象与灾害整理成年度长表,适合做时间序列建模和产量预测研究。

形态长表 CSV
规模184 行(4 类作物 × 46 年)
字段16 列,含产量 / 气象 / 灾害维度
时间覆盖1978–2023
来源口径多源整理 + 同口径对齐
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

以年度长表组织的甘肃省作物产量、气象与灾害数据,共 184 行、16 列,覆盖 1978 至 2023 年的冬小麦、春小麦、玉米、油菜籽 4 类作物。字段含播种面积、总产量、单产,年平均气温、年累计降水量、年平均风速与相对湿度,以及总受灾/成灾面积与旱、风雹、水、霜冻分灾种受灾面积,便于做时间序列建模。

适用场景

产量时间序列建模、气象-产量关系研究、灾害影响分析。

农业与产量预测成品数据集

甘肃省产量预测宽表数据集

与长表同口径的年度预测宽表,整理成可直接喂入回归与建模流程的形态,也便于做论文附表。

形态宽表 CSV
规模46 行(每年一行)
字段24 列
时间覆盖1978–2023
来源口径与长表同口径,宽表化整理
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

与长表同口径的年度预测宽表,共 46 行(1978–2023 每年一行)、24 列。把气象、灾害与 4 类作物(冬小麦、春小麦、玉米、油菜籽)的播种面积、总产量、单产分别展开为独立列,每个指标一列,适合直接喂入回归与机器学习建模,也便于做论文附表。

适用场景

回归与机器学习建模、论文附表、特征对比分析。

价格与溯源

蔬菜价格 · 价格与溯源样本

从真实底表整理出的多种交付形态,覆盖筛选、增强、主样本与建模特征。

价格与溯源成品数据集

蔬菜价格筛选底表

从真实底表分层筛选得到的蔬菜价格与溯源样本,可直接用于价格研究与业务验证。

形态结构化表格数据
规模2000 条样本
字段25 列,含价格 / 溯源字段
时间覆盖2022-01-01 至 2023-12-31
来源口径真实底表 + 分层筛选
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

基于真实底表、按数据类别与蔬菜品类分层筛选得到的 2000 条样本表,25 列。覆盖 8 类数据类别(生长环境、农产品生长、农药使用、肥料使用、物流运输、销售市场、消费者行为、产品质量)与 8 种蔬菜品类(土豆、番茄、白菜、茄子、菠菜、萝卜、辣椒、黄瓜),时间跨度 2022 至 2023 年。字段含单位价格、总价格、数据规模、利润率、数据质量评分及提供商与许可信息。

适用场景

蔬菜价格研究、溯源分析、小样本业务验证。

价格与溯源成品数据集

蔬菜价格全量增强表

在真实底表基础上完成标准化与增强后的全量数据集,适合做扩展分析与样本重筛。

形态结构化表格数据(全量)
规模10000 行
字段52 列
时间覆盖2022-01-01 至 2023-12-31
来源口径真实底表 + 标准化增强
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

在真实底表上完成标准化与字段增强后的全量数据集,共 10000 行、52 列,时间跨度 2022 至 2023 年。在基础价格与溯源字段之上,补充成本价格、商业基础设施成本、多维评分(质量、准确性、稀缺性、时效性、一致性等)、市场需求指数、产地批发价锚点与规则估值单价/总价等增强字段,适合做扩展分析与样本重筛。

适用场景

大样本扩展分析、样本重筛、价格趋势研究。

价格与溯源成品数据集

蔬菜价格主样本表

补齐交付字段后的蔬菜价格与溯源主样本表,整理为可直接对外展示与使用的主数据集。

形态结构化主表
规模2000 条样本
字段52 列(已补齐交付字段)
时间覆盖2022-01-01 至 2023-12-31
来源口径真实底表 + 交付字段补齐
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

在 2000 条筛选样本基础上补齐交付字段后的主样本表,共 2000 行、52 列,与全量增强表同口径同字段,时间跨度 2022 至 2023 年。含完整价格、成本、溯源、多维评分与估值字段,适合作为主数据集对外展示与接入业务系统使用。

适用场景

价格与溯源主数据集、业务系统接入、研究底表。

价格与溯源成品数据集

蔬菜价格建模特征表

面向建模整理的蔬菜价格特征样本表,适合做算法训练、分类回归与评分模型实验。

形态结构化特征表
规模2000 条样本
字段45 个建模特征
时间覆盖与主样本同源(2022–2023)
来源口径主样本 + 建模特征整理
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

从 2000 条主样本整理出的建模特征表,含 45 个建模特征。在数值特征(单位价格、总价格、数据规模、各维度评分、市场需求指数、产地批发价等)基础上,对数据类别、蔬菜品类、提供商类型、许可类型等类别字段做了独热编码展开,可直接用于算法训练、分类与回归建模、评分模型实验。

适用场景

算法训练、分类与回归建模、评分模型实验。

气象与城市

20城市2022年气象 · 日值与年均值

基于公开气象再分析数据整理的逐日与年均值成品表。

气象与城市成品数据集

20城市2022年日值气象数据集

20个中国主要城市2022全年的逐日气象数据,含温度、湿度、风速与风向,可直接用于城市气象比较和时间序列分析。

形态结构化时序表格(CSV)
规模7300 条(20 城市 × 365 天)
字段10 列,含 4 项气象指标
时间覆盖2022-01-01 至 2022-12-31
来源口径Open-Meteo(ECMWF ERA5 再分析)整理
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

合并表共 10 列:城市中文名、城市英文名、纬度、经度、海拔、日期,以及 4 项气象指标——日平均温度(℃)、日平均相对湿度(%)、日平均风速(km/h)、盛行风向(°)。覆盖北京、上海、广州、重庆、武汉、乌鲁木齐、昆明等 20 个城市,每城 365 天逐日记录。

适用场景

城市气候比较、气象时间序列分析、气象与产量/能源等外部数据的关联研究。

气象与城市成品数据集

20城市2022年气象年均值数据集

由逐日数据按城市聚合得到的2022年气象年均值表,一城一行,适合论文附表、城市比较与环境研究。

形态结构化汇总表(CSV)
规模20 行(每城市一行)
字段5 列:城市 + 4 项年均指标
时间覆盖2022 全年(聚合自逐日数据)
来源口径日值数据按城市聚合
交付方式表格文件 + 字段字典 + 来源说明
查看字段与详情

内容与字段

共 5 列:城市、年平均温度(℃)、年平均湿度(%)、年平均风速(km/h)、年盛行风向(°)。由 20 城市逐日数据按城市聚合得到,提供中文与英文两版列名。

适用场景

城市间气候横向比较、论文与报告附表、环境与区域研究。

以上数据集均为我们基于公开来源采集整理的成品;具体范围、口径与授权方式以双方确认为准。

需要的数据集不在这一期里?

把你要的数据形态、字段与口径告诉我们,我们按需采集、清洗与整理成品数据集,并提供样例与来源说明。

获取样例