地球系统的基础模型

微信号:8149027
不接反杀,想去别人群里开挂,开不了不用加。
复制微信号
  我们将观察到的大气和表面状态在离散时间t中表示为多维阵列,其中V是变量的总数,H和W分别是数量的纬度和经度坐标。状态可以分为表面(ST)和大气(AT)组成部分:XT =(ST,AT),其中和与表面级变量的数量,VA,大气变量的数量和压力水平的数量。目的是预测时间t'> t的未来状态。我们学习一个模拟器,该模拟器在上一个时间XT -1和当前时间XT映射到下一步步骤的预测状态。对于以后的时间步骤的预测,我们反复应用模拟器,产生自回归的推出:   有关符号和问题陈述的详细说明,包括特定的多维数组维度和可变定义,请参见补充信息部分。   为了适应具有变量,压力级别和分辨率不同的异质天气数据集,我们设计了一个灵活的编码器,该编码器将不同的数据集映射到标准化的3D表示中,以输入模型骨干(扩展数据图3A)。   编码器将所有变量视为H×W图像。我们通过将它们视为额外的表面级变量来结合静态变量(地太平,土地面膜和土壤型面膜)。将图像分为P×P斑块,并使用可变特异性线性转换将贴片映射到维数D的嵌入向量。对于表面和每个压力水平,将不同变量的嵌入汇总并用压力水平的添加剂编码或表面的学习向量进行标记。然后,感知器模块21将可变数量的物理压力水平C减少到固定数量的潜在压力水平的L = 3。结果是嵌入的集合。此3D表示形式标记为补丁位置,补丁区域和绝对时间的加法编码。这些编码使用具有精心选择的最小和最大波长的傅立叶扩展方案,以适当的尺度捕获相关信息。编码的补丁区域使Aurora能够以不同的分辨率运行。   有关编码器体系结构的详细说明,包括有关输入处理,压力级聚合和进一步编码的细节,请参见补充信息部分B.1和B.4。   Aurora的骨干是3D SWIN变压器U-NET19,50,它是神经模拟器(见图B1补充信息部分B.1)。该体系结构可以在几个尺度上有效地模拟基础物理。该建筑属于视觉变形金刚的一般家族。但是,与经典的视觉变压器不同,在这里,我们在Windows内使用本地自我注意操作以及对称的上采样 - 下采样结构。   主链的特征是以下关键特征:对称的UPS采样 - 下采样结构,每个阶段都有三个阶段,从而实现了多尺度处理;3D SWIN变压器层在Windows内部执行本地自我注意操作,以数值集成方法模拟本地计算;窗户移动其他一层以在相邻区域之间传播信息,同时考虑地球的球形拓扑;res-post-norm层归一化50,以提高训练稳定性;并进行了灵活的设计,允许在没有固定位置偏见的几个分辨率下进行操作。   与参考文献中使用的16层和两个阶段相比,我们的骨架在三个阶段中包含48层。2。通过我们有效的编码过程,使用少数潜在水平使这种深度成为可能。有关主干体系结构的详细信息,包括窗口大小,注意机制和与以前的工作的比较,请参见补充信息部分B.2。   解码器逆转编码器的操作,将骨干的输出转换为3D表示,回到正常的纬度 - 较长网格(见图6B)。这涉及使用感知器layer21将潜在的大气压水平分解为所需的压力水平的收集,并通过可变特异性的线性层动态解码为斑块。有关解码器体系结构的详细说明,请参见补充信息部分B.3。   总体培训程序由三个阶段组成:(1)训练;(2)短期时间的微调;(3)推出(长时间的)微调。我们为以下每个阶段提供了一个概述。   在整个训练和微调的过程中,我们都将MAE作为我们的培训目标。将预测的状态和地面状态XT分解为表面级变量和大气变量,XT =(st,at)(请参阅补充信息a),可以将损失写成   在其中,与表面级可变K相关的重量是与大气变量K在压力级C下相关的重量,α是损耗的表面水平成分的重量,β是损耗的大气成分的重量,γ是数据集特异性的权重。有关更多详细信息,请参见补充信息部分D.1。   在32 A100 GPU上,所有型号均以150,000个步骤估计,每GPU的批量大小为一个。我们使用(一半)余弦衰减,并用零从零的线性热身进行1,000步。基础学习率为5×10-4,在培训结束时,时间表减少了十倍。我们使用的优化器是ADAMW51。我们将ADAMW的重量衰减设置为5×10-6。我们使用的唯一其他形式的正则化是滴路路径(即随机深度)52,下降概率设置为0.2。为了使模型拟合在内存中,我们使用骨干层的激活检查点,并将整个GPU的所有模型梯度碎片。使用BF16混合精度训练该模型。有关更多详细信息,请参见补充信息部分D.2。   在训练极光后,对于我们希望使Aurora适应的每个任务,我们首先通过一个或两个推出步骤对整个体系结构进行微调(取决于任务及其内存约束)。有关更多详细信息,请参见补充信息部分D.3。   为了有效地训练非常大的Aurora模型,即使在高分辨率下,我们也开发了一种新的推出微调方法。我们的方法使用低级适应(LORA)53来微调自我注意操作中的所有线性层,从而以数据效率高效的方式适应了非常大的模型。为了节省内存,我们使用“ pushforward trick” 54,它只能通过最后一个推出步骤传播渐变。最后,为了在不损害内存或训练速度的情况下以非常大量的推出步骤进行培训,我们使用内存重播缓冲液,灵感来自深度强化学习55,56(请参阅补充信息D.3中的图D2)。重播缓冲区样本初始条件,计算下一个时间步骤的预测,将预测添加回重播缓冲区,并通过数据集中的新初始条件定期刷新缓冲区。有关每个微调任务的详细推出协议,请参见补充信息部分。   使用多种天气和气候数据集对Aurora进行了训练和评估,包括五个主要类别:分析,重新分析,预测,重新记录和气候模拟数据集。这种多种数据源将Aurora暴露于大气动力学的不同方面,反映了初始条件,模型参数化和混乱动力学的变化。我们实验中使用的关键数据集包括ERA5重新分析,HRES操作预测,IFS集合预测,GFS操作预测,GEFS集合重新记录,CMIP6气候模拟,MERRA-2气候模拟,MERRA-2大气重新分析以及摄像头预测,分析和重新分析和重新分析数据。有关所有数据集的详细清单,包括每个数据集的特定压力水平,解决方案和进一步的上下文,请参见补充信息部分C.这些数据集在分辨率,包括变量和时间覆盖范围内各不相同,为培训,微调和评估Aurora在不同情况下的绩效提供了全面的基础。   在IFS HRES-WAM分析数据中,在空间上缺少反映海冰分布以及其他效果的数据。为了说明定义变量的空间分布的这种动态性质,我们为每个变量提供了一个额外的通道,以表示测量的存在,因此我们添加了一组额外的密度变量33(请参阅补充信息部分B.8)。   训练Aurora由于各个数据点的大量(用于0.1°数据的近2 GB)而提出了重大的技术挑战,并且需要处理具有不同分辨率,变量和压力水平的异质数据集。由于数据点的大小,训练通常是通过数据加载而不是模型瓶颈的。这意味着训练较小的模型并不总是便宜的,因为培训成本将由数据加载主导。我们开发了复杂的数据存储和加载基础架构,以应对这些技术挑战。   我们使用一些优化的Azure Blob存储,以确保有效的数据访问。这些优化包括将数据进行共关联和计算以最大程度地减少延迟和成本,将数据集存储在适当的块中,以避免不必要的数据下载,并最大程度地减少并发连接的数量并压缩这些块以减少网络带宽。   我们已经开发了高级的多源数据加载管道,以有效处理异质数据。现在,我们概述了管道的主要设计原理。使用YAML配置文件指定加载参数实例化数据集。每个数据集都会生成轻量级batchgenerator对象的流。BatchGenerator类的范围是通过提供用于生成数据批次的常见接口来抽象数据集的详细信息和特殊性。溪流合并,洗牌和碎片跨GPU。碎片后,最终使用BatchGenerator的常见接口来完成下载和构建批次进行培训和推理所需的工作。   该管道通过仅将同一数据集中的样本批量批量的样本一起使用,并通过为不同的数据集使用不同的批次大小来自动平衡跨GPU的工作负载,从而可以在几个异质数据集上进行有效的培训。该设计提供了实验Aurora模型体系结构所需的灵活性,同时有效地处理了大规模,异构天气数据处理的挑战。有关数据加载管道的详细说明,包括batchgenerator对象结构和解开包装过程,请参见Endecture Information Encord Enf。   我们使用两个主要指标评估了Aurora的性能:RMSE和异常相关系数。这两个指标都结合了纬度加权,以说明地球的不均匀网格。RMSE衡量了预测和地面真理之间错误的幅度,而异常相关系数衡量了预测偏差与每日气候学的地面真理之间的相关性。   为了评估极端天气事件的性能,我们使用阈值RMSE。阈值的RMSE使用阈值来确定应包括哪些纬度 - 长度网格点,从而可以评估不同强度的天气现象水平上的模型性能。阈值是使用ERA5重新分析数据的平均值和标准偏差定义的所有训练年份,分别针对每个纬度 - 次级点计算。对于正值和负值,我们将这些阈值线性变化,以获得不同强度水平的RMSE曲线。   有关本工作中使用的验证方法的全面解释,包括其数学表述和解释,请参见补充信息部分F.一起,此处使用的指标为评估跨典型天气条件(从典型到极端事件到极端事件)的各种天气条件的性能提供了强大的框架。   补充信息提供了更多详细信息,并依靠参考文献。26,46,57,58,59,60,61,62,63,64,65,66,66,67,68,69,70,70,71,72,73,74,75。

本文来自作者[yjmlxc]投稿,不代表颐居号立场,如若转载,请注明出处:https://yjmlxc.cn/zlan/202506-5164.html

(10)
yjmlxc的头像yjmlxc签约作者

文章推荐

发表回复

作者才能评论

评论列表(3条)

  • yjmlxc的头像
    yjmlxc 2025年06月18日

    我是颐居号的签约作者“yjmlxc”

  • yjmlxc
    yjmlxc 2025年06月18日

    本文概览:  我们将观察到的大气和表面状态在离散时间t中表示为多维阵列,其中V是变量的总数,H和W分别是数量的纬度和经度坐标。状态可以分为表面(ST)和大气(AT)组成部分:XT =(S...

  • yjmlxc
    用户061807 2025年06月18日

    文章不错《地球系统的基础模型》内容很有帮助