微软Aurora大模型实战:五大数据源驱动、可视化对比与应用
Aurora是微软研究院推出的首个地球系统预测大模型。它能在天气、空气质量、海浪等关键领域实现比传统数值模型更快、更准的预测。Aurora 大模型的核心亮点如下:
参数规模:13亿参数,基于超百万小时地球物理数据训练,涵盖气象与气候模拟。
架构设计:采用3D Swin Transformer,由编码器、处理器和解码器组成,可统一处理复杂输入并递归预测。
性能表现:
天气事件预测准确率达89%;
热带气旋路径预测全面超越全球七大业务预报中心;
空气质量、海浪预测大幅领先数值模型;
相比欧洲中期天气预报系统(IFS),计算速度快5000倍。
这意味着,Aurora 不仅仅是科研突破,更是未来气候与环境预测的新范式。也正因如此,Aurora 一经发布就成为地科人都想尝试的工具。
但问题在于:
模型虽强大,如何上手?如何驱动不同数据源?如何在科研中真正用好?
本期推荐一份完整的Aurora实战项目,是由和鲸社区气象频道版主@lqy分享的地球系统预测大模型Aurora,覆盖ERA5、HRES、HRES T0、CAMS与 HRES-WAM多类数据驱动方式,从环境配置到推理可视化,帮助科研人员和开发者快速掌握这款前沿模型。
项目直通车:https://www.heywhale.com/u/3da9f7(复制至浏览器打开)
⚠️*由于挂载数据源较多,Fork项目需使用ModelWhale专业版(可申请15天免费用)
五大实战场景:从天气到空气质量与波浪
在社区项目中,Aurora 被演示在五类典型数据驱动下的应用:
ERA5 驱动
使用0.25°分辨率的ERA5数据,演示未来6小时、12小时的温度预测,代码中详细展示了如何读取并处理静态、表层和大气数据,构建模型所需的Batch
对象。
最终的预测结果与ERA5真实观测数据进行了可视化对比,结果高度一致。
HRES 驱动
基于0.1°高分辨率HRES数据,调用AuroraHighRes
模块预测温度、风速、比湿等关键变量。
项目展示了如何加载HRES数据并选取Aurora所需的13个气压层,最终将模型生成的精细化温度预测结果与HRES分析数据进行对比,验证了模型在精细尺度下的稳定表现。
HRES T0 驱动
该场景模拟了业务应用,将ERA5静态数据与HRES T0动态数据结合,驱动标准的Aurora
模型进行未来天气预测。项目中特别展示了如何对降序排列的纬度数据进行反转以符合模型要求,其预测结果与HRES T0的真实数据对齐度极高。
CAMS 驱动全球空气质量预测
以CAMS全球空气质量预报数据为输入,预测 PM₂.₅、PM₁₀、NO₂ 等污染物浓度。Aurora 能在0.4°分辨率下生成未来 24 小时空气质量预报,捕捉污染物的时空演变细节。
这是一个专项应用,展示了Aurora在大气环境预测方面的强大能力。项目使用哥白尼大气监测服务(CAMS)数据,并调用为此任务微调的AuroraAirPollution
模型。通过灵活的编码器-解码器架构,Aurora能够有效处理大气化学、天气模式和人类活动之间复杂的相互作用。项目最终可视化了对总柱二氧化氮(TC NO₂)和PM₁₀等污染物的多步预测结果。
HRES-WAM 驱动全球波浪预测
项目还提供了基于HRES-WAM的波浪预测流程,包括显著波高、波向和周期等要素的处理。
由于完整数据需付费,目前尚未完全实现,但流程示例已搭建,项目中提供的包含数据处理、变量准备(如有效波高、平均波向等)的逻辑代码,为有权访问该数据的研究人员提供了参考模板。