当前位置: 首页 > news >正文

【数据集】中国江北气候区100m逐日近地表气温数据

目录

  • 数据概述
    • 一、数据输入来源与处理流程
      • 1. 再分析气温数据(主输入)
      • 2. 辅助数据(辅助输入)
      • 3. 对比数据集
    • 二、数据预处理与标准化
    • 三、模型结构与参数设置
      • 1. 模型结构 —— ConvLSTM 网络
    • 四、训练与推理流程
      • 1. 训练阶段
      • 2. 推理阶段
    • 五、输出效果与评估结果
      • 1. 精度评估指标
      • 2. 辅助变量重要性评估(Importance Score)
      • 3. 与其他数据集对比
    • 六、最终数据成果
  • 数据下载
    • 基于FileZilla下载数据
    • Python实现代码下载
  • 参考

根据论文《Convolutional Long Short-Term Memory network for generating 100 m daily near-surface air temperature》,本文旨在利用ConvLSTM(卷积长短期记忆网络)模型,生成中国江北气候区在2019–2023年夏季(6–8月)的100米空间分辨率的逐日近地表气温数据(最高温 Tmax、最低温 Tmin、平均温 Tmean)。以下是该数据集的详细生产过程,涵盖输入数据来源、处理方法、模型结构及最终输出效果。
在这里插入图片描述

数据概述

一、数据输入来源与处理流程

研究采用的数据总结如下:
在这里插入图片描述

1. 再分析气温数据(主输入)

ERA5 与 ERA5-Land陆地再分析产品:

  • 提供小时级的温度数据。

  • ERA5(0.25°)用于填补 ERA5-Land(0.1°,约等于10 km)在陆水交界处的空缺。
    ERA5-land以0.1的较高空间分辨率提供每小时温度,但仅针对陆地地区,导致陆地-水界面出现缺口。为了解决这个问题,我们使用0.25分辨率的无缝ERA5数据来填补ERA5-Land中的空白。

  • 所有时间数据从 UTC 转换为北京时间(UTC+8)。
    由于研究区域位于中国境内,ERA5-hour(UTC) 和 ERA5-land-hour(UTC) 数据被转换为中国时区 (UTC+8)。

  • 使用双线性插值将 ERA5 resample 至 0.1°。

  • 融合后计算每日 Tmax、Tmin、Tmean。

2. 辅助数据(辅助输入)

温度与海拔高度密切相关,因为海拔越高,温度越低。数字高程模型提供了重要的地形信息,直接影响温度模式。

不同的土地利用类型也会影响温度变化。人类活动的增加放大了不透水表面对温度的影响。然而,LULC数据在土地覆盖均匀的地区可能不太有效,如山区,那里类似的像素编码可能无法捕捉温度变化。尽管所选的 LULC 数据满足研究的时间和空间分辨率要求,但有限的类别数量(如表1所示)导致了类似的挑战。

此外,在城市地区,高度的土地利用异质性和100米的目标分辨率仍然会带来精度损失的风险,尤其是在分散的城市绿地中。

考虑到以上两个原因,我们计划采用NDVI(归一化植被指数)和FVC(植被覆盖度)数据来补充LULC信息。

数据类型数据来源分辨率描述
DEM (数字高程模型)NASA SRTM90m反映地形对气温的影响
LULC (土地利用/覆盖)CLCD30m9类地表类型(如耕地、城市、森林等)
FVC (植被覆盖度)Sentinel-2 NDVI计算10m基于 NDVI 的经验估算公式计算得出
气候分区矢量中国气候区划数据/用于定义研究区域
地面气象站观测数据中国气象局 V3.0日尺度用作模型训练与验证标签,共276个站点

CLCD 土地利用类型含9个分类,如下:
在这里插入图片描述

3. 对比数据集

为了评估ConvLSTM降尺度数据集(表示为CMData)的性能,选择了另外两个数据集进行比较:

(1) 2019年至2022年6月至8月的每日温度数据(WData)
J2024-Reconstruction of all-sky daily air temperature datasets with high accuracy in China from 2003 to 2022

(2) 2019年至2023年6月至8月的每月温度数据(TData)
J2019-1 km monthly temperature and precipitation dataset for China from 1901 to 2017

为了确保时间尺度的一致性,CMData和台站温度数据都汇总到一个月尺度,以便与TData进行比较。

二、数据预处理与标准化

空间重采样:所有数据统一至0.001°(约100米)空间分辨率。

标准化处理:

  • Tmax、Tmin、Tmean、DEM 使用 Z-score 标准化。
  • FVC、LULC 保持原始形式输入。

窗口提取:以站点为中心提取 5×5 像素窗口,构建六维数组输入模型。

三、模型结构与参数设置

1. 模型结构 —— ConvLSTM 网络

ConvLSTM:在 LSTM 的基础上引入卷积操作,融合时间与空间特征。
在这里插入图片描述
因此,本研究中使用的网络由三个ConvLSTM层组成,分别具有128、64和64个隐藏单元。最后应用一个卷积层来产生Tmax、Tmin和Tmean的输出。卷积核大小设置为5×5。通过优化和测试,我们实现了模型准确性和过度拟合风险之间的平衡。在其他参数中,批量大小被设置为32,训练时期的数量被设置为50。

网络层数:

  • 三层 ConvLSTM:隐藏单元数分别为 128、64、64。
  • 最后一层为卷积层,输出单个预测值(Tmax、Tmin、Tmean)。

卷积核大小:5×5。
损失函数:加权 MSE(均方误差):Tmax 和 Tmin 权重为 0.4,Tmean 权重为 0.2。

训练参数:

  • 批处理大小(Batch size):32
  • 训练轮次(Epochs):50

四、训练与推理流程

本研究基于两个假设:
(1) 周围环境影响中心位置的温度。据此,我们选取了气象站位置及其周围5×5图像窗口对应的像元作为数据批次。
(2) 温度和环境因素之间的关系在几年内保持相对稳定。虽然全球变暖是一个严重的长期现象1,但短期波动是存在的,线性趋势在短短几年内并不明显。这个假设保证了在研究期(五年)内共享同一个模型的可行性。
此外,通过将时间框架集中在夏季,大规模的温度波动有所缓解。

在这项研究中,我们首先使用双线性插值法处理从ERA5和ERA5-land、DEM、LULC和FVC数据计算的每日温度数据,以实现0.001(约100米)的空间分辨率。
使用处理后的数据作为ConvLSTM模型输入,我们以100米的空间分辨率生成每日Tmax、Tmin和Tmean数据。
然后,我们进行了时间和空间的准确性评估,计算微波辐射、RMSE和R2指标,并与其他数据集进行比较。
此外,我们分析了所选因子作为输入数据的通道重要性,并讨论了降尺度数据集的应用价值。

1. 训练阶段

在对原始多数据集进行双线性插值后,我们对Tmax、Tmin、Tmean和DEM应用Z得分标准化,而FVC、NDVI和LULC则以其原始形式使用。
由于NDVI和FVC有很强的相关性,我们测试了三种情况——使用NDVI、FVC或两者都使用——发现只使用FVC会导致较小的培训损失。因此,FVC被选为与DEM和LULC作为最终的辅助投入。

在标准化的图像中,我们提取与气象站相对应的图像窗口,并将其堆叠成六维数组:ID、年份、时间步长、通道Channel、高度、宽度。
这里,ID代表不同的站,Year代表研究年份(2019–2023),Time_Step代表天数(6月到8月,92天),Channel 代表输入变量(Tmax,Tmin,Tmean,DEM,FVC,LULC),Height 和Width 代表窗口维数(均为5)。

在随机选择训练和测试站后,我们将ID和Year维度合并到Batch维度中,得到一个五维输入数组:Batch_Size、Time_Step、Channel、Height、Width。
输入维度:[Batch_Size, Time_Step (92天), Channel (6), Height (5), Width (5)]
模型的损失函数是均方误差(MSE)。
标签为站点观测数据(Tmax、Tmin、Tmean)

说明:最初,损失被定义为Tmax、Tmin和Tmean的平均MSE。经过测试,我们发现Tmax和Tmin的MSE高于Tmean。因此,我们将损失函数调整为MSEs的加权和,Tmax和Tmin的权重为0.4,Tmean的权重为0.2。

2. 推理阶段

使用基于台站的数据进行初始模型训练和验证。对于像素级温度推断,我们采用了滑动窗口方法。
首先,使用与训练数据相同的平均值和标准偏差对输入数据进行标准化:
对于Tmax,30.950和3.285;对于Tmin,24.081和2.709;对于Tmean,27.303和2.723;DEM为 69.769 和138.189 。
然后提取围绕每个目标像素的 5×5窗口 作为推理的输入,并应用该模型获得Tmax、Tmin和Tmean。

使用滑动窗口法对整个区域像素进行推理:

  • 每个像素提取其周围 5×5 窗口作为输入。
  • 使用训练好的模型预测该像素的 Tmax、Tmin、Tmean。

五、输出效果与评估结果

考虑的评价指标有三个,如下:
在这里插入图片描述

1. 精度评估指标

月尺度评价指标如下:
在这里插入图片描述
年尺度评价指标如下:
在这里插入图片描述

变量MAE (℃)RMSE (℃)
Tmax0.7841.0270.929
Tmin0.6960.9080.892
Tmean0.5640.7330.943

Tmean 的预测精度最高。

散点密度图显示了Tmax (a)、Tmin (b)和Tmean ©的观测值和预测值之间的一致性,MAE、RMSE和R2的结果位于左上角。
在这里插入图片描述

箱线图显示真实观测值和预测值之间的月(a)和年(b)绝对差异
在这里插入图片描述

空间评估显示:大多数站点 MAE < 1°C,R² > 0.9,但部分高海拔森林地区精度较低(如安徽岳西站)。
在这里插入图片描述

2. 辅助变量重要性评估(Importance Score)

每个 辅助变量的重要性分数评估如下:

输入因子重要性评分
ERA5-Tmean49.33%
ERA5-Tmin20.74%
ERA5-Tmax16.88%
DEM8.55%
LULC4.15%
FVC0.89%

对应于所有站点的LULC、DEM和FVC属性的MAE值。
在这里插入图片描述

主要依赖 ERA5 气温数据。
DEM 在辅助数据中最重要,FVC 贡献最小。

3. 与其他数据集对比

相比 WData(1km/日)与 TData(1km/月):

  • CMData(本研究)空间分辨率更高(100m);
  • 精度略低于 WData,但远优于 TData;
  • 更适合城市内部温度细节研究。
    在这里插入图片描述
    在这里插入图片描述

六、最终数据成果

输出内容:逐日 Tmax、Tmin、Tmean(单位:℃)
时间范围:2019–2023年6月–8月
空间范围:中国江北气候区(110.22°E–121.91°E,27.20°N–34.10°N)
空间分辨率:100米

数据下载

国家青藏高原科学数据中心-Summer Daily Scale 100m Maximum, Minimum, and Average Temperature
在这里插入图片描述

基于FileZilla下载数据

下载信息如下:
在这里插入图片描述
打开FileZilla,并填写上述信息:
在这里插入图片描述
可根据需要,右键下载。

Python实现代码下载

GitHub-ConvLSTM-for-Temperature-Downscaling
在这里插入图片描述
各文件功能总结如下:
main_run.py: main function to run scripts
convlstm_final.py: convLSTM model
contribution_factors.py: customized function to calculate channel importance
criterion_weighted.py: weighted criterion function train_validate.py: train and validate functions
parameters_std.xlsx: standardized parameters for required training channels
checkpoint_model_19-23.pth: final model to conduct downscaling

参考

相关文章:

  • Vue 技术文档
  • 进程控制与调度下
  • React从基础入门到高级实战:React 生态与工具 - React 单元测试
  • [PyTest-案例]
  • 实验设计与分析(第6版,Montgomery)第5章析因设计引导5.7节思考题5.6 R语言解题
  • 【HT NOI周赛 T1,CF1801G】 信息密度 题解(AC自动机,字符串后缀结构)
  • GoC新阶段课程研发
  • 解构产品经理
  • [SC]SystemC语法小结(一)
  • mysql使用 过程函数 for in函数批量修改数据
  • 罗德里格斯公式动图演示
  • DeepSeek 赋能低空经济:无人机智能调度的破局之道
  • 如何在 Odoo 18 中创建 PDF 报告
  • react库:class-variance-authority
  • 气象大模型如何影响端午节旅行?精准预报助力安全出行
  • Spring boot集成milvus(spring ai)
  • spark在执行中如何选择shuffle策略
  • 安卓学习笔记-数据存储
  • 为 Ubuntu 安装的软件创建桌面图标
  • 电路图识图基础知识-电路接线图(八)
  • 男女做暖暖的试看网站漫画/网址域名查询
  • wordpress 浮动代码/搜索引擎优化怎么做的
  • 政府网站建设技术服务/2023b站免费推广入口
  • 佛山做网站公司有哪些/北京建公司网站价格
  • 网站建设注意/企业网站营销实现方式
  • 网站建设负责人证明/抖音搜索优化