当前位置：首页 > news >正文

中国2771个县级行政区的月度CO₂排放数据（2013–2021）

news 2025/11/16 19:31:57

中国2771个县级行政区的月度CO₂排放数据（2013–2021）

传统自上而下（Top-down）的县级CO₂排放估算方法过度依赖单一夜间灯光总亮度作为工具变量，默认省内所有区域CO₂排放与灯光亮度呈正相关，忽略了区域异质性（如产业结构升级、减排技术应用导致的碳排放与经济增长脱钩现象）。

现有县级排放数据集存在时空分辨率不足（如时间跨度短、非月度数据）或校准方法缺陷（如夜间灯光数据连续性校正导致“持续增长偏差”）。

本研究提供中国2771个县级行政区的月度CO₂排放数据（2013–2021），为县级“双碳”战略实施提供高精度基础数据。方法可推广至全球其他地区，支持精细化减排政策制定。

核心创新点

数据资源：中国2771个县级行政区的月度CO₂排放数据（2013–2021）

多源特征变量构建

整合改进的夜间灯光数据（NPP/VIIRS）、城乡人居环境数据（7类分区：城市中心、密集城区等）及社会经济指标（产业结构、绿色技术专利、碳交易政策等37项变量），突破单一变量局限。

混合回归模型（DNN+CatBoost）

特征筛选：通过皮尔逊相关性、统计检验、自编码器特征选择等多方法筛选关键变量（最终选用前20个重要变量）。

模型优势：

深度神经网络（DNN）：提取特征间非线性关系。

CatBoost算法：高效处理分类变量，避免传统方法因引入大量虚拟变量导致的过拟合。

性能对比：测试集拟合优度（R²=0.99）、均方根误差（RMSE=0.06）显著优于传统方法（如Chen et al.的RMSE=0.13）。

夜间灯光数据精细化校准

传统缺陷：整体区域校正导致“灯光持续增长”偏差，无法反映衰退区域。

改进方案：基于7类城乡分区分别校正，仅对缺失月份使用前值插补，避免全局连续性假设。

验证：校准后灯光数据与城市GDP半年度统计数据显著正相关（R²≈0.80）。

数据生成方法

工具变量构建流程

步骤1：省级CO₂排放数据（CEADS）与多维特征变量（灯光、社会经济指标）训练混合回归模型。

步骤2：模型输出县级“潜在排放预测值”作为新工具变量，其与省级排放相关性优于夜间灯光总亮度。

步骤3：以新工具变量为权重，通过自上而下算法分配省级排放至县级。

不确定性控制

模型误差通过RMSE量化（0.06），避免宏观统计数据与微观数据聚合偏差。

数据验证与对比

与传统方法对比

Chen et al.的数据库在相似CO₂排放水平的县中，出现产业结构比例矛盾（如工业占比差异显著但排放估值相近），而本研究结果符合经济逻辑（见图6）。

时空分布特征

排放呈现东高西低、核心城市集聚模式（见图3–4），且月度波动反映季节性经济活跃度变化。

局限性与应用

当前局限

社会经济变量仅覆盖城市级，未体现市内县级异质性。

依赖省级能源消耗数据自上而下分配，可能引入微观误差。

使用建议

适用场景：县级减排目标分解、政策效果评估、区域碳排放动态监测。

总结

本研究通过多源数据融合、混合机器学习模型及城乡分区的灯光校准方法，构建了中国首个高时空分辨率的县级月度CO₂排放数据库，解决了传统方法的系统性偏差，为精细化碳管理提供科学支撑。

数据信息

本研究共获取了中国2771个县级行政区2013–2021年的月度二氧化碳排放数据记录。数据单位为百万吨，数据格式xlsx，共计299269条数据。

此外，我们还提供了数据计算过程的全部文件与代码。具体包括：

文件"country_x_20241118_02.xlsx"：收录了37项社会经济特征指标，用于反映潜在影响因素；
文件"typeC20_catmodel_1109_3p01joint_scaler.pkl"：包含特征变量标准化处理的代码；
文件"country_pred.py"和"country_pred.pdf"：提供县级工具变量预测的代码实现；
文件"pre_model_weights.h5"：存储预测模型的权重参数，这些参数用于计算输入数据的线性变换和非线性激活函数，包含模型中所有可训练参数（如各层神经元间的连接强度及各层神经元的偏置项）；
文件"typeC20_catmodel_1108_3p01joint.cbm"：定义预测模型的结构，包括数据流向、层级连接方式等架构信息（如网络层类型、神经元数量及激活函数等）。