当前位置: 首页 > news >正文

【论文阅读35】-PINN review(2021)

这篇综述全面回顾了物理信息机器学习 的原理、应用、软件实现、理论进展与未来发展趋势,这样即使数据稀疏、带噪,也能保证预测结果符合物理规律,适合解决偏微分方程正问题、反问题、非线性动力学和多物理耦合系统等科学计算场景。

作者信息:

George Em Karniadakis ¹²✉、Ioannis G. Kevrekidis ³⁴、Lu Lu ⁵、Paris Perdikaris ⁶、Sifan Wang ⁷、Liu Yang ¹
¹ 美国布朗大学 应用数学系
² 美国布朗大学 工程学院
³ 美国约翰霍普金斯大学 化学与生物分子工程系
⁴ 美国约翰霍普金斯大学 应用数学与统计系
⁵ 美国麻省理工学院 数学系
⁶ 美国宾夕法尼亚大学 机械工程与应用力学系
⁷ 美国宾夕法尼亚大学 应用数学与计算科学研究生组
✉ 通讯作者邮箱:george_karniadakis@brown.edu

期刊:Nature Reviews Physics(2021)

[1] Karniadakis G E, Kevrekidis I G, Lu L, et al. Physics-informed machine learning[J]. Nature Reviews Physics, 2021, 3(6): 422-440.

1️⃣ PINNs 方法原理

  • 将 PDE 残差通过自动微分嵌入损失函数,与观测数据误差一起优化

  • 可以处理整数阶PDE、积分-微分方程、分数阶PDE、随机PDE

  • 损失函数包含:

    • 数据监督项
    • PDE残差项(无监督项)

2️⃣ 应用案例

  • 4D-flow MRI 血流模拟:提高分辨率,物理约束解耦去噪,计算血管壁剪应力
  • 等离子体湍流预测:部分观测数据下重建湍流场
  • 高维概率分布的亚稳态跃迁:用PINNs求committor函数
  • 热力学一致性PDE求解:提出control volume PINN (cvPINN) 替代有限体积法
  • 量子化学:FermiNet 求解多电子薛定谔方程
  • 材料科学:声波无损检测裂纹、3D打印钛合金弹塑性性质反演
  • 分子动力学:DeePMD 实现百万原子纳秒级量子精度分子动力学
  • 地球物理:地震反演、多物理耦合地下流动模拟

3️⃣ 软件生态

  • 主流库:DeepXDE、SimNet、PyDEns、NeuralPDE、SciANN、ADCME

  • 绝大多数基于 Python(少数基于 Julia)

  • 多库特点:

    • solver型(用户只需定义问题,库自动求解)
    • wrapper型(封装TensorFlow低阶接口,用户实现详细求解步骤)
    • DeepXDE支持整数阶、分数阶PDE、复杂几何
    • SimNet优化GPU大规模问题

4️⃣ 现存挑战

  • 多尺度、多物理耦合问题:高频、剧烈梯度区域训练困难,存在谱偏置(F-principle)
  • 优化问题复杂:高阶导数求解效率低,损失函数项间梯度冲突
  • 样本复杂度未知
  • 数学理论基础薄弱:偏微分方程数值解误差理论、训练动态、泛化误差缺少系统化研究
  • 数据集和标准基准缺乏:缺少可公开、物理模型参数齐全的大型数据集和算法评测体系

5️⃣ 未来展望

  • 数字孪生(Digital Twins):实时融合观测数据与物理模型,辅助工程设计与预测
  • 多模型、多数据融合与可解释性:建立不同物理模型/神经网络模型间可互换、互映射的变换关系
  • 主动学习与实验设计优化:利用潜变量空间结构,指导实验点选取,动态提升模型性能
  • 新型潜变量与空间重构:从观测数据自动挖掘内蕴变量,构建ML驱动的“自洽时空”
  • 多物理场、复杂几何、高维动态系统的统一建模框架

文章目录

    • 引言
      • 📦 Box 1 | 数据与物理场景分类
      • 📦 Box 2 | 物理信息学习的基本原则
      • 📦 Box 3 | 物理信息神经网络(Physics-informed Neural Networks, PINNs)
    • 将物理规律嵌入机器学习的方法
      • **观测偏置(Observational biases)**
      • **归纳偏置(Inductive biases)**
      • **学习偏置(Learning bias)**
      • 混合方法(Hybrid approaches)
      • 与核方法的联系(Connections to kernel methods)
      • 与经典数值方法的联系(Connections to classical numerical methods)
    • 物理信息学习的优势
      • 不完整模型与不完美数据
      • 小样本数据下的强泛化能力
      • 理解深度学习机制
      • 应对高维问题
    • 不确定性量化
    • 应用亮点
      • 示例:意式浓缩咖啡杯上的流动
      • 物理信息深度学习在 4D 流场 MRI 中的应用
      • 通过部分观测用深度学习揭示边缘等离子体动力学
      • 研究高维分布中亚稳态间的转变
      • 热力学一致的 PINNs
      • 量子化学中的应用
      • 材料科学中的应用
      • 分子模拟中的应用
      • 地球物理中的应用
    • 软件支持
    • 选择模型、框架和算法
    • 当前限制
      • 多尺度与多物理问题
      • 新算法与计算框架
    • 数据生成与基准测试
    • 新的数学理论
    • 展望
    • 未来方向
      • 数字孪生(Digital twins)
      • 数据与模型变换、融合及可解释性
      • 寻找内在变量与新兴、有用的表征



全文翻译

尽管通过偏微分方程(PDE)数值离散化方法在多物理场问题模拟方面取得了巨大进展,但现有算法仍难以无缝融入含噪数据,网格生成过程复杂,高维参数化PDE问题也难以求解。此外,求解隐含物理机制的反问题往往计算代价高昂,且需采用不同的数学建模方法和复杂的计算代码。近年来,机器学习作为一种有前景的替代方案受到关注,但训练深度神经网络通常依赖于大量数据,而科学计算问题中往往难以获得足够的数据。

针对这一问题,可以通过在连续时空域内随机点上强制物理规律成立,向神经网络提供额外的信息,从而实现网络训练。这类物理信息学习方法将(含噪)观测数据与数学模型相结合,通过神经网络或其他基于核的回归模型进行实现。此外,还可以设计专门的网络结构,使其自动满足部分物理不变量,以提升预测精度、加快训练速度并改善模型泛化性能。

本文回顾了当前将物理规律嵌入机器学习模型的主流方法,总结了现有方法的优势与局限,并探讨了物理信息学习在正问题和反问题求解中的多种应用,包括物理规律挖掘与高维问题建模。


Key points

  • 物理信息机器学习能够将观测数据与数学物理模型无缝融合,适用于部分已知、存在不确定性及高维复杂问题的建模场景。
  • 基于核方法或神经网络的回归模型,提供了高效、简便且无网格(meshless)的实现方案。
  • **物理信息神经网络(PINNs)**在求解不适定问题和反问题中表现出较高的有效性与计算效率,结合区域分解方法(domain decomposition)后,可扩展至大规模问题。
  • 算子回归内禀变量与表示方法的挖掘、以及具备内建物理约束的等变神经网络结构是未来值得关注的重要研究方向。
  • 亟需构建适用于可扩展、稳健且严谨的下一代物理信息学习模型的新型数学理论、统一的评估框架与标准化数据基准。

引言

对多物理场与多尺度系统动态过程的建模与预测,依然是尚未解决的科学难题。以地球系统为例,这一独特且复杂的系统,其动力学过程由物理、化学与生物过程相互作用所共同支配,作用的时空尺度跨度高达17个数量级¹。过去50年中,科学界通过有限差分、有限元、谱方法以及无网格方法等数值求解偏微分方程(PDE)手段,在从地球物理到生物物理等多个领域对多尺度物理过程的理解取得了巨大进展。

尽管取得了持续进步,使用传统解析方法或计算方法对非线性、多尺度系统中存在尺度级联(cascade-of-scales)现象的演化过程进行建模与预测,仍面临严峻挑战。这类方法计算代价高昂,且存在多重不确定性来源。此外,反问题求解(例如功能材料中的材料参数反演,或反应传输过程中的缺失物理规律挖掘)往往计算代价高昂,需要复杂的数学建模方法、新型算法以及繁琐的计算代码。更重要的是,面对缺失、不完整或含噪边界条件的真实物理问题,传统方法已难以有效求解。

在这一背景下,观测数据的重要作用日益凸显。预计未来十年,全球将部署超过万亿个传感器,包括空基、海基以及卫星遥感设备,生成海量多保真度观测数据,为数据驱动方法提供了丰富的数据基础。然而,尽管当前可获取的数据量、更新速度与多样性空前,现实应用中却难以将这些多保真度观测数据无缝融入现有物理模型。尽管数学与实际意义上的数据同化方法取得了长足发展,但观测数据的丰富性、时空异质性,以及缺乏普适性的数学模型,进一步凸显了对变革性方法的迫切需求。

这正是机器学习(ML)发挥作用的关键所在。机器学习能够探索庞大的设计空间,挖掘多维相关性,并处理不适定问题。例如,它可用于气候极端事件的检测,或对降水量、植被生产力等动态变量进行统计预测²³。特别是深度学习方法,天然具备从海量多保真度观测数据中自动提取特征的能力,这些数据具有前所未有的时空覆盖度⁴。深度学习还能够将这些特征与现有近似模型相结合,进而开发新的预测工具。即便在生物物理和生物医学建模领域,将机器学习方法与多尺度、多物理场模型融合应用的研究方向,也已被广泛倡导⁵。

当前各科学领域普遍面临的一个问题是,观测数据的获取与生成速度远远超过了对其合理同化、甚至基本理解的能力⁴(见 Box 1)。尽管机器学习(ML)方法在某些应用中展现出了强大的经验潜力并取得了初步成果⁶,但大多数现有方法尚无法从这些庞杂数据中提取出可解释的信息与知识。此外,纯数据驱动模型虽然能够很好地拟合观测数据,但由于外推或观测偏差等问题,往往导致预测结果与物理规律不符甚至不合理,进而造成模型泛化性能较差。

因此,迫切需要通过将基本物理规律与领域知识融入机器学习模型,赋予模型“物理认知”,为其提供“信息先验”——即在观测数据之外,施加强有力的理论约束和归纳偏置。为此,物理信息学习(physics-informed learning)应运而生,其核心理念是:借助我们对世界的观测、经验、物理或数学规律等先验知识,提升机器学习算法的建模性能。近期,一个典型代表是物理信息神经网络(PINNs) ⁷ ,这是一类将观测数据与抽象数学算子(包括包含或不包含缺失物理规律的PDE)无缝融合的深度学习算法(见 Box 2、Box 3)。

开发这类方法的核心动因在于,物理先验知识或约束能够赋予机器学习模型更强的可解释性,使其在面对不完整数据(如缺失值、噪声、异常值等)时依然保持稳健,并能在外推和泛化任务中实现高精度、符合物理规律的预测。尽管当前已建立了众多公共数据库,但复杂物理系统中可用的实验数据仍然有限。针对这类系统的预测建模方法,具体应依赖于可用数据量及系统本身复杂性(见 Box 1)。

如 Box 1 所示,在经典建模范式中,假设仅有边界条件和初始条件可用,而系统的偏微分方程(PDE)及相关参数是完全已知的。另一极端情形是,尽管可以获取大量数据(例如时间序列),但连续体层面的控制方程(即基础PDE)未知⁷⁻⁹。大多数现实应用场景则介于两者之间,物理规律部分已知(例如守恒定律已知,但本构关系未知),且存在若干分散观测值(主变量或辅助变量),可用于同时反演PDE参数、缺失项以及求解系统响应。这一“混合型”情形是最常见且最具代表性的,同时也囊括了前述两种极端情形,当观测数据过少或过多时皆可归入其中。

此外,这类中间情形可能演化为更复杂场景,例如由于激励或材料性质的不确定性,使得PDE的求解过程呈现随机性,需借助随机PDE来描述随机解与不确定性。同时,对于存在长程时空相互作用的问题(如湍流、粘弹塑性材料或其他异常输运过程),非局部或分数阶微积分、分数阶PDE可能是更合适的数学语言,其表现出的强大表达能力与深度神经网络(DNN)不无相似。

过去二十年来,为实现数值模拟中的不确定性量化,学者们提出了包含大量不确定参数的复杂建模方案,复杂问题甚至涉及数百个参数,导致实际计算常常不可行。目前,许多国家实验室的仿真代码及开源程序(如 OpenFOAM¹⁰、LAMMPS¹¹)代码行数超10万,难以维护与迭代更新。

我们认为,借助物理信息学习,可以有效解决上述基础性与实践性问题,实现在PINNs或其他基于非线性回归的物理信息网络(PINs)(见 Box 2)中,无缝集成数据与数学模型。本文综述将首先介绍如何将物理规律嵌入机器学习模型,以及不同类型的物理机制如何指导新型神经网络结构的设计。其次,阐述物理信息学习方法的最新能力与应用进展。鉴于该领域发展极为迅速,最后还将探讨当前方法的主要局限与未来展望。同时,读者可参考文献¹²了解现有物理驱动机器学习方法的分类体系。


📦 Box 1 | 数据与物理场景分类

下图示意性地展示了物理问题及其可用数据的三种典型分类情形:

  • 小数据情形:假定已完全掌握所有物理规律,同时观测数据提供了偏微分方程的初始条件、边界条件及系数信息。
  • 中等数据情形:这是现实应用中最普遍的情况,此时部分物理规律已知,同时存在部分观测数据,可能存在某些参数缺失,甚至偏微分方程中的某个项缺失。例如,在对流-扩散-反应系统中,反应项未知。
  • 大数据情形:此时对系统的物理机制几乎一无所知,仅依赖大量观测数据,通过数据驱动方法(如算子回归方法)挖掘潜在物理规律。

物理信息机器学习(Physics-informed machine learning)可在统一框架下,将观测数据与控制物理规律(包括部分缺失物理机制的模型)无缝集成。该方法通常借助自动微分技术与神经网络实现⁷,确保预测结果遵循基本物理原理。
在这里插入图片描述


📦 Box 2 | 物理信息学习的基本原则

将学习算法构建为物理信息模型,实质上是引入适当的观测偏置归纳偏置学习偏置,以引导学习过程朝向物理一致性解(见下图)。主要包括:

  • 观测偏置(Observational biases):
    通过包含基础物理信息的观测数据,或经过精心设计的数据增强方法,引入观测偏置。基于此类数据训练的机器学习系统,能够学习反映数据物理结构的函数、矢量场或算子。

  • 归纳偏置(Inductive biases):
    即在机器学习模型架构中植入先验假设,通过定制的结构性设计,确保预测结果隐式满足给定的物理规律(通常以数学约束形式表达)。这被认为是构建物理信息学习算法最为严谨的方法,因其可严格遵循物理约束。不过,该方法多局限于事先已知的相对简单的对称群(如平移、置换、反射、旋转等),且模型实现较复杂、可扩展性有限。

  • 学习偏置(Learning biases):
    通过选择合适的损失函数、约束条件和推断算法,在模型训练阶段引导优化过程,促使模型收敛于符合物理规律的解。此类方法通过调节软惩罚约束,虽无法严格满足物理规律,但为引入积分方程、微分方程甚至分数阶方程形式的物理偏置,提供了极为灵活的实现平台。

上述三类偏置方式相互独立但并不排斥,可以灵活组合,构建多样化的混合式物理信息学习方法,广泛应用于物理信息机器学习模型的开发中。
在这里插入图片描述

📦 Box 3 | 物理信息神经网络(Physics-informed Neural Networks, PINNs)

物理信息神经网络(PINNs)通过将偏微分方程(PDEs)嵌入神经网络的损失函数中,并利用自动微分技术,实现了对测量数据与PDEs信息的无缝整合。这里的PDEs可以是整数阶PDEs、积分微分方程、分数阶PDEs或随机PDEs等多种形式。

以下以粘性Burgers方程为例介绍PINNs求解正问题的算法:

ν ∂ u ∂ t + u ∂ u ∂ x = ν ∂ 2 u ∂ x 2 \nu \frac{\partial u}{\partial t} + u \frac{\partial u}{\partial x} = \nu \frac{\partial^2 u}{\partial x^2} νtu+uxu=νx22u

配合适当的初始条件和Dirichlet边界条件。
图中左侧的“无物理信息”神经网络表示PDE的解的近似函数 u ( x , t ) u(x,t) u(x,t)
右侧的“物理信息”神经网络描述PDE的残差: ∂ u ∂ t + u ∂ u ∂ x − ν ∂ 2 u ∂ x 2 \frac{\partial u}{\partial t} + u \frac{\partial u}{\partial x} - \nu \frac{\partial^2 u}{\partial x^2} tu+uxuνx22u

损失函数由两个部分组成:

  • 监督学习损失:来自初始和边界条件处的观测数据 u u u 的误差
  • 无监督损失:PDE残差的误差

具体表达为:

L = w data L data + w PDE L PDE \mathcal{L} = w_{\text{data}} \mathcal{L}_{\text{data}} + w_{\text{PDE}} \mathcal{L}_{\text{PDE}} L=wdataLdata+wPDELPDE

其中,

L data = 1 N data ∑ i = 1 N data ∣ u ( x i , t i ) − u i ∣ 2 \mathcal{L}_{\text{data}} = \frac{1}{N_{\text{data}}} \sum_{i=1}^{N_{\text{data}}} \left| u(x_i, t_i) - u_i \right|^2 Ldata=Ndata1i=1Ndatau(xi,ti)ui2

表示数据点的误差,

L PDE = 1 N PDE ∑ j = 1 N PDE ∣ ∂ u ∂ t + u ∂ u ∂ x − ν ∂ 2 u ∂ x 2 ∣ 2 \mathcal{L}_{\text{PDE}} = \frac{1}{N_{\text{PDE}}} \sum_{j=1}^{N_{\text{PDE}}} \left| \frac{\partial u}{\partial t} + u \frac{\partial u}{\partial x} - \nu \frac{\partial^2 u}{\partial x^2} \right|^2 LPDE=NPDE1j=1NPDE tu+uxuνx22u 2

表示PDE残差的误差。

这里 { ( x i , t i ) } \{(x_i, t_i)\} {(xi,ti)} 是采样于初始/边界条件处的点集, u i u_i ui 是对应的测量值; { ( x j , t j ) } \{(x_j, t_j)\} {(xj,tj)} 是采样于整个计算域的点集。权重 w data w_{\text{data}} wdata w PDE w_{\text{PDE}} wPDE 用于平衡两个损失项的权重,这些权重可以由用户定义,也可以自动调节,对提升PINNs的训练性能起着重要作用。

该神经网络通过基于梯度的优化器(如Adam、L-BFGS)训练,直到损失小于设定阈值 ε \varepsilon ε
在这里插入图片描述

算法1:PINN算法流程

  1. 构建神经网络 u ( x , t ; θ ) u(x,t; \theta) u(x,t;θ),其中 θ \theta θ 是网络中所有可训练参数(权重和偏置), σ \sigma σ 是非线性激活函数。
  2. 指定观测数据 { ( x i , t i , u i ) } \{(x_i, t_i, u_i)\} {(xi,ti,ui)} 和PDE残差点 { ( x j , t j ) } \{(x_j, t_j)\} {(xj,tj)}
  3. 定义损失函数 L \mathcal{L} L(见上式),结合数据损失和PDE残差损失的加权和。
  4. 通过优化 θ \theta θ 最小化损失函数 L \mathcal{L} L,得到最佳参数 θ ∗ \theta^* θ

将物理规律嵌入机器学习的方法

任何预测模型都离不开前提假设,因而,没有适当偏置的机器学习模型,也无法具备良好的泛化能力。针对物理信息学习,目前主要有三种路径可供单独或组合应用,以嵌入物理规律、加速模型训练并提升泛化性能(见 Box 2):

观测偏置(Observational biases)

观测数据是机器学习近年来取得重要进展的基础,也是最直接、最简单的偏置引入方式。当学习任务输入域内存在充足观测数据时,机器学习方法已被证明能够在高维任务中实现高精度插值。尤其对于物理系统,随着传感网络迅猛发展,已能够获得多保真度观测数据,监测复杂现象在不同时空尺度上的演化。这些观测数据应体现其生成过程所遵循的基本物理规律,原则上可以作为弱形式机制,在机器学习模型训练过程中嵌入这些物理规律。例如文献 [13–16] 中提出的神经网络方法。但对于过参数化的深度学习模型,通常需要大量观测数据才能强化这类偏置,使预测结果满足某些对称性与守恒律。此时,数据获取成本成为现实障碍,尤其在物理与工程领域,观测数据往往依赖于昂贵实验或大规模数值模拟。

归纳偏置(Inductive biases)

另一类方法专注于设计专门的神经网络结构在架构中隐式嵌入与预测任务相关的先验知识和归纳偏置。最具代表性的例子是卷积神经网络(CNN) [17],它通过尊重图像中的对称性群与分布式模式表示,彻底变革了计算机视觉领域 [18]。其他典型方法包括图神经网络(GNN)[19]、等变网络(Equivariant Networks)[20]、高斯过程等核方法 [21–26],以及广义物理信息网络(PINs)[27],其中核函数由控制物理规律直接诱导。卷积网络还可扩展至更复杂对称群(如旋转、反射、更一般的规范变换)[19,20],支持在流形上构建依赖于内蕴几何结构的神经网络架构,适用于医学图像 [28]、气候模式分割 [20] 等任务。
在这里插入图片描述

此外,可通过小波散射变换构建平移不变表示,具备变形稳定性并保留高频信息 [29]。协变神经网络 [30] 专门适用于遵循旋转、平移不变性的多体系统(见图 1a)。类似的,等变 Transformer 网络 [31] 提供了一类针对预定义连续变换群的可微映射,增强模型在连续对称变换下的鲁棒性。这类方法尽管表现优异,但目前主要适用于物理规律简单、对称群明确定义的任务,且模型实现复杂,扩展至复杂问题仍具挑战,尤其是许多物理系统中的对称性与守恒律往往尚未完全明晰,或难以隐式编码进网络结构中。

广义卷积并非强归纳偏置架构的唯一形式。例如,通过矩阵值函数行列式可实现神经网络中输入变量交换反对称性 [32]。文献 [33] 将基于物理的键序势模型与神经网络结合,将结构参数划分为局部与全局部分,用于预测大规模原子模拟中的原子间势能面。另有研究 [34] 采用不变张量基将伽利略不变性嵌入网络结构,显著提升湍流建模中的预测精度。

针对哈密顿系统建模,已有方法设计网络结构保持哈密顿系统下的辛结构 [35]。例如,文献 [36] 改进自编码器表示 Koopman 算子,将非线性动力学坐标变换映射为近似线性系统。

特别是用于偏微分方程求解的神经网络,可通过调整架构,严格满足初始条件 [37]、Dirichlet 边界条件 [37,38]、Neumann 边界条件 [39,40]、Robin 边界条件 [41]、周期边界条件 [42,43] 及界面条件 [41]。若偏微分方程解的某些特性已知,也可编码进网络结构,如多尺度特性 [44,45]、奇偶对称性、能量守恒 [46]、高频特性 [47] 等。

举例而言,文献 [48] 提出了一种将神经网络架构与 Hamilton–Jacobi 偏微分方程(HJ-PDE)粘性解相联系的方法。其两层结构如图 1b 所示,定义映射:

f ( x , t ) = min ⁡ i ∈ { 1 , … , m } ( − t + a i + t L ( x − u i t ) ) f(x, t) = \min_{i \in \{1, \dots, m\}} \left( -t + a_i + t L\left( \frac{x - u_i}{t} \right) \right) f(x,t)=i{1,,m}min(t+ai+tL(txui))

其中, x x x t t t 分别为空间与时间变量, L L L 为凸且 Lipschitz 激活函数, a _ i ∈ R a\_i \in \mathbb{R} a_iR u _ i ∈ R n u\_i \in \mathbb{R}^n u_iRn 为神经网络参数, m m m 为神经元数量。文献 [48] 证明, f f f 即为以下 HJ-PDE 的粘性解:

∂ f ( x , t ) ∂ t + H ( ∇ x f ( x , t ) ) = 0 , ( x , t ) ∈ R n × ( 0 , + ∞ ) \frac{\partial f(x, t)}{\partial t} + H(\nabla_x f(x, t)) = 0, \quad (x, t) \in \mathbb{R}^n \times (0, +\infty) tf(x,t)+H(xf(x,t))=0,(x,t)Rn×(0,+)

且初始条件为:

f ( x , 0 ) = J ( x ) f(x, 0) = J(x) f(x,0)=J(x)

其中,Hamiltonian H H H 与初始值 J J J 可由网络参数与激活函数显式确定。要求 H H H 必须是凸函数,但 J J J 无需满足该条件。需注意,文献 [48] 的结果无需依赖神经网络通用逼近定理,而是表明某些特定 HJ-PDE 的物理规律可通过特定神经网络架构自然编码,无需高维数值逼近。

学习偏置(Learning bias)

另一类方法则从不同角度探讨如何将先验知识赋予神经网络。这种方法并不依赖于专门的网络结构来隐式强制执行物理知识,而是通过在常规神经网络近似模型的损失函数中加入软约束项,以惩罚项形式引入物理规律。这一策略可视为多任务学习(multi-task learning)的一种特例,即学习算法在拟合观测数据的同时,还需生成大致满足给定物理约束(如质量守恒、动量守恒、单调性等)的预测结果。典型代表包括Deep Galerkin Method [49]、PINNs 及其变体 [7,37,50–52]。PINNs 框架在 Box 3 中进一步说明,系统阐述了基于软惩罚约束嵌入物理规律的优势与局限性。

软惩罚约束具备极高灵活性,便于将多种领域知识形式融入机器学习模型。例如,文献 [53] 提出了一种统计约束生成对抗网络(GAN),通过强制训练数据中的协方差约束,改进了基于机器学习的模拟器,使其能捕捉完全求解偏微分方程生成数据的统计特性。其他示例还包括:用于学习机器人接触诱导不连续行为的模型 [54],采用附加软约束以保持 Lyapunov 稳定性的物理信息自编码器(Physics-informed autoencoders)[55],以及通过损失函数中的软约束项编码不变性的 InvNet [56]。此外,还有卷积、循环结构以及概率推断框架的扩展方法 [51,52,57],如文献 [52] 中的贝叶斯框架,可对复杂偏微分方程动态系统预测结果的不确定性进行量化。

基于软惩罚约束和正则化优化得到的解,可等价视作基于物理规律假设的贝叶斯方法中的最大后验估计(maximum a posteriori estimate)。另一种方法是采用马尔科夫链蒙特卡洛(MCMC) 或变分推断(variational inference)方法,量化观测数据缺失和噪声带来的不确定性。


混合方法(Hybrid approaches)

前述几类物理信息机器学习方法各具优劣,因此将其相互结合是理想方案,目前已有多种混合方法被提出。例如,通过无量纲化(non-dimensionalization) 可恢复系统特性,借助 Reynolds 数、Froude 数或 Mach 数等物理无量纲参数引入偏置。已有多种方法用于学习描述物理现象的算子 [13,15,58,59],如 DeepONets [13],是一种强大的监督学习算子方法。更具前景的是,结合 DeepONets 与 PINNs 融合编码的物理知识,可在多物理场应用(如电对流 [60] 和高超声速流动 [61])中实现实时、高精度的外推预测。

当存在低保真度模型时,还可采用多保真策略 [62],辅助复杂系统的学习。例如,文献 [63] 将观测偏置与学习偏置结合,利用大涡模拟数据和受限神经网络训练方法,为低保真 RANS 模型构建湍流封闭项。其他代表性应用还包括:文献 [64] 中基于多保真神经网络从压痕数据提取材料性能,文献 [65] 中利用 PINs 从流变数据反演非牛顿流体本构关系,以及文献 [66] 中提出的粗粒化策略。即使低保真模型无法直接编码进学习过程,也可通过数据增强手段,利用简化数学模型或现有计算程序(如 [64])生成大量低保真数据。

其他典型案例包括 FermiNets [32] 和图神经算子方法(graph neural operator methods)[58]。此外,也可通过将神经网络嵌入传统数值方法(如有限元法)中实现物理约束,此类方法已应用于非线性动力系统 [67]、计算力学本构关系建模 [68,69]、地下力学 [70–72]、随机反演 [73] 等多个领域 [74,75]。


与核方法的联系(Connections to kernel methods)

许多基于神经网络的方法与核方法存在渐近等价性,这一联系可用于深入理解模型本质。例如,文献 [76,77] 证明,PINNs 的训练动态可视为在网络宽度趋于无穷大时的核回归方法。更一般地,神经网络方法可严格视作一种变形核(warping kernel) 学习方法,其中核函数由数据学习得到 [78,79]。最初,这类核方法用于地统计学中的非平稳空间结构建模 [80],现已应用于解释残差神经网络(ResNet)\ [27,80]。

PINNs 也可视为在再生核希尔伯特空间(RKHS)中求解偏微分方程,其中 RKHS 由神经网络初始层参数化的特征映射所张成。此外,已有研究探索统计推断方法与数值逼近方法之间的紧密联系,应用于偏微分方程求解与反问题 [81]、最优恢复 [82] 和贝叶斯数值分析 [83–88]。即便是复杂架构如 attention-based transformer 网络 [89],也可在核方法框架下建立联系,而算子值核方法(operator-valued kernel methods)[90] 则有望成为分析和解释深度学习算子学习工具的有效路径。总之,基于核方法视角分析神经网络模型极具价值,因为核方法具备良好的可解释性与坚实的理论基础,有助于理解深度学习方法在何时何因成功或失效。

与经典数值方法的联系(Connections to classical numerical methods)

经典数值算法(如 Runge–Kutta 法和有限元法)一直是数值模拟物理系统的主力。值得注意的是,许多现代深度学习模型在结构与原理上,与这些经典方法存在明显对应关系。例如,卷积神经网络类似于偏微分方程平移等变离散化中的有限差分模板 [91,92],并与多重网格方法(multigrid)[93] 结构一致;残差神经网络(ResNet)[94] 本质上等价于自治常微分方程前向 Euler 离散化 [95–98]。Runge–Kutta 算法(如 RK4)与循环神经网络架构,甚至 Krylov 型矩阵自由线性代数方法(如广义最小残差法)[95,99] 之间也存在显著类比。此外,带 ReLU 激活函数的深度神经网络表示等价于有限元法中的连续分片线性函数 [100]。这类类比不仅提供了重要洞察,也为未来“数学信息”元学习架构铺平了道路。例如,文献 [7] 提出一种基于隐式 Runge–Kutta 积分方法启发的离散时间神经网络方法,采用多达 500 个隐变量阶段,允许极大时间步长,获得高精度解。

物理信息学习的优势

目前,物理信息机器学习(physics-informed machine learning)已在多个学科领域针对具体应用取得大量成果。例如,PINNs 的不同扩展形式已覆盖守恒方程 [101],以及用于随机现象和异常输运问题的随机与分数阶偏微分方程(PDEs)[102,103]。将区域分解方法(domain decomposition) 与 PINNs 相结合,在多尺度问题中提供了更高的灵活性,同时该方法的数值实现相对简单,适合并行计算,因为每个子区域可由单独神经网络建模,并分配到不同 GPU 上,通信开销极小 [101,104,105]。这些研究结果表明,PINNs 在求解病态问题(ill-posed problems)与反问题(inverse problems)中表现尤为出色;而对于无需数据同化的正向良定问题(well-posed problems),现有基于数值网格的方法仍优于 PINNs。

下文将详细讨论 PINNs 在何种情形下具有优势,并列举典型应用示例。

不完整模型与不完美数据

如 Box 1 所示,物理信息学习能够轻松整合物理模型与离散噪声数据,即便两者均不完美。近期研究 [106] 证明,即使由于 PINN 公式本身的光滑性或正则性,问题未必完全良定,依然能够求得有意义的解。这类问题包括无初始或边界条件的正向/反问题,或 PDE 中部分参数未知,传统数值方法对此常常无能为力。

在应对不完美模型与数据时,将贝叶斯方法与物理信息学习相结合以实现不确定性量化(uncertainty quantification)十分有益,如Bayesian PINNs(B-PINNs) [107]。此外,相较于传统数值方法,物理信息学习是无网格方法(mesh-free),无需耗费大量计算资源生成网格,因此能便捷处理不规则和运动边界问题 [108]。并且,基于现有 TensorFlow、PyTorch 等开源深度学习框架,代码实现简单。

小样本数据下的强泛化能力

深度学习通常依赖大量数据,而在多数物理问题中,获取高精度数据极为困难。此时,物理信息学习在小样本场景下表现出强泛化能力。通过施加或嵌入物理规律,深度学习模型等效地被限制在低维流形上,仅需少量数据即可训练出高精度模型。可通过嵌入物理原则于网络结构、将物理作为软惩罚项或利用数据增强等方法强制模型满足物理规律。此外,物理信息学习不仅具备插值能力,还能实现外插预测,例如在边值问题中执行空间外插 [107]。

理解深度学习机制

除了提升模型可训练性与泛化性,物理规律也有助于揭示深度学习方法背后的内在机制。例如,文献 [109–112] 基于颗粒介质的拥塞跃迁现象(jamming transition) 解释了过参数化阶段深度学习中出现的双下降现象(double-descent)。浅层神经网络还可视为相互作用粒子系统,因而可在概率测度空间而非高维参数空间内,利用平均场理论(mean-field theory)分析其性质 [113]。

另一项研究 [114] 将变分重整化群(variational renormalization group) 精确映射至基于限制玻尔兹曼机(RBM)的深度学习结构。受物理学中密度矩阵重整化群(DMRG)算法启发,文献 [115] 提出将量子张量网络(tensor network) 应用于多分类监督学习,大幅降低计算开销。

文献 [116] 从统计物理学视角研究深度网络损失函数景观,将其与自旋玻璃模型(spin-glass models) 建立直观联系。同时,宽深度神经网络中的信息传播也可基于动力系统理论研究 [117,118],分析网络初始化如何决定输入信号传播,进而确定一组保证深度网络有效信息传播的超参数和激活函数(即“混沌边缘 edge of chaos”)。

应对高维问题

深度学习已在高维问题求解中取得巨大成功,如高分辨图像分类、语言建模和高维偏微分方程求解。其中一个原因在于,当目标函数是局部函数的层级复合(hierarchical composition of local functions)时,深度神经网络可打破维数灾难(curse of dimensionality)[119,120]。

例如,文献 [121] 将一般高维抛物型 PDE 重构为向后随机微分方程(backward stochastic differential equations, BSDEs),用神经网络逼近解的梯度,基于离散化随机积分和给定终值条件设计损失函数。实际应用中,该方法用于求解高维 Black–Scholes 方程、Hamilton–Jacobi–Bellman 方程和 Allen–Cahn 方程。

生成对抗网络(GANs)[122] 也在高维分布建模中取得成功,广泛应用于图像和文本生成任务 [123–125]。在物理问题中,文献 [102] 利用 GANs 量化高维随机微分方程中的参数不确定性,文献 [126] 则用 GANs 学习高维随机动力学参数。这些实例表明,GANs 能有效建模物理问题中的高维概率分布。

最后,文献 [127,128] 证明,即使是算子回归与 PDE 应用,深度算子网络(DeepONets) 也能有效缓解输入空间维数灾难。

不确定性量化

对多尺度、多物理场系统的演化进行可靠预测,必须考虑不确定性量化(uncertainty quantification,UQ)。过去 20 年里,这一重要问题受到广泛关注,传统计算方法通过引入随机建模来处理边界条件或材料属性导致的不确定性 [129–131]。对于物理信息学习模型,至少存在三种不确定性来源:

  1. 物理不确定性:指随机物理系统,通常由随机偏微分方程(SPDEs)或随机常微分方程(SODEs)描述。参数的不确定性归属于此类。例如,文献 [132] 采用神经网络作为输入的投影函数,恢复低维非线性流形,针对具有不确定扩散系数的 SPDE 中不确定性传播问题给出了结果。类似地,文献 [133] 利用物理信息损失函数(即对随机变量上 PDE 能量泛函的期望)训练神经网络,参数化椭圆型 SPDE 的解。文献 [51] 使用条件卷积生成模型预测解的概率密度,采用物理信息的概率损失函数,无需训练数据标签。

值得注意的是,生成对抗网络(GANs)在学习高维随机 PDE 解的分布方面表现强大,相关工作 [102,134] 是首批尝试。物理信息 GANs 通过利用有限传感器同时采集的多重随机过程数据,能在同一框架下解决从正向到反问题的多种问题。已有结果显示,若合理设计,GANs 能有效缓解高随机维数问题的维数灾难。

  1. 数据不确定性一般指由于数据噪声引起的本质不确定性(aleatoric uncertainty)和数据缺失造成的认知不确定性(epistemic uncertainty)。贝叶斯框架能够很好地处理此类不确定性。如果物理信息学习模型基于高斯过程回归,则可以直接量化不确定性,并利用其进行主动学习和 PDE 分辨率细化研究 [23,135],甚至设计更优实验 [136]。文献 [107] 提出了基于贝叶斯 PINNs(B-PINNs)的另一种方法,展示了 B-PINNs 可提供合理的不确定区间,该区间量级与误差相当,且随着数据噪声增大而增大。但如何系统地设置 B-PINNs 的先验仍是未解决的问题。

  2. 模型不确定性指学习模型本身的限制,如神经网络的近似误差、训练误差和泛化误差,通常难以严格量化。文献 [137] 采用卷积编码-解码神经网络,将 PDE 的源项和域几何映射到解及其不确定性,使用基于有限元数据的概率监督学习进行训练。文献 [138] 首次尝试量化学习带来的联合不确定性,结合了 [139] 中的 dropout 方法和因物理随机性引入的任意多项式混沌展开。文献 [42] 对时变系统和长时间积分的扩展中,利用随机 PDE 的动态双正交模态分解,解决了参数不确定性,适合长期随机系统积分。

应用亮点

本节讨论物理信息学习在多个应用中的能力,重点关注传统方法难以或无法解决的反问题和病态问题,并介绍若干科学机器学习开源软件的开发进展。

示例:意式浓缩咖啡杯上的流动

第一个示例展示了如何提取意式浓缩咖啡杯上方三维速度和压力场的定量信息 [140]。输入数据基于温度梯度视频(见图 2)。该例为文献 [106] 引入的“隐形流体力学”典型的病态反问题,未提供边界条件或任何其他信息。
在这里插入图片描述

具体来说,利用体积式背景导向施利伦成像(Tomo-BOS)获得测量密度或温度的三维可视化数据,作为 PINN 的输入。PINN 无缝结合了可视化数据与流动及被动标量控制方程,推断隐含的速度和压力场。物理假设基于布辛涅斯克近似(Boussinesq approximation),适用于密度变化较小的情况。PINN 以空间和时间坐标作为输入,通过最小化包含温度数据不匹配和守恒定律残差(质量、动量和能量)的损失函数训练模型。独立的粒子图像测速(PIV)实验结果验证了 Tomo-BOS/PINN 方法能够提供连续、高分辨率且准确的三维流场。

物理信息深度学习在 4D 流场 MRI 中的应用

接下来,我们讨论物理信息神经网络(PINNs)在生物物理学中,结合真实磁共振成像(MRI)数据的应用。MRI 由于非侵入性及其多种结构和生理对比机制,已成为临床心血管疾病患者血流和血管功能定量活体评估的关键工具。然而,MRI 测量常受限于分辨率较低且噪声较大,导致重建血管拓扑及流动条件流程繁琐且经验性强。

物理信息深度学习的最新进展,尤其是针对 4D 流场 MRI,可以显著提升 MRI 技术的分辨率和信息含量。具体而言,可构建受纳维–斯托克斯方程约束的深度神经网络(DNN),有效去噪 MRI 数据,生成物理一致的速度和压力场重建,保证质量守恒和动量守恒,达到任意高的时空分辨率。此外,滤波后的速度场可用于识别无滑移流动区,进而重构动脉壁位置及运动,并推断壁面剪切应力、动能和耗散等重要物理量(见图 3)。综上,这些方法能极大提升 MRI 在科研和临床中的能力。
在这里插入图片描述

然而,PINNs 的稳健性仍存在潜在风险,尤其是在 MRI 测量信噪比极高及复杂流动模式(如边界层、高涡旋区、狭窄处瞬态湍流爆发、曲折分支血管等)下。但在生理条件下,血流通常为层流,当前 PINN 模型大多能有效处理此类情况。

通过部分观测用深度学习揭示边缘等离子体动力学

预测磁约束聚变装置边缘的湍流输运,是数十年来的研究目标,目前聚变电站粒子和能量约束仍存在显著不确定性。文献 [141] 证明 PINNs 能仅通过合成等离子体的电子密度和温度的部分观测,准确学习与双流体理论一致的湍流场动力学,用于等离子体诊断和热核环境中的模型验证。图 4 展示了 PINNs 从部分 3D 合成等离子体数据学习的湍流径向电场。
在这里插入图片描述

研究高维分布中亚稳态间的转变

物理信息学习还能创造性地用于处理高维问题。文献 [142] 提出使用 PINNs 研究高维概率分布中两个亚稳态之间的转变。具体地,使用神经网络表示承诺函数(committor function),用物理信息损失函数训练,该损失函数基于承诺函数的变分表达式,并对边界条件施加软约束。此外,采用自适应重要性采样来抽取主导损失的罕见事件,从而降低解的渐近方差并提升泛化能力。图 5 展示了 144 维 Allen–Cahn 型系统概率分布的结果。尽管计算结果显示该方法对高维问题有效,但将其应用于更复杂系统及针对具体系统选取神经网络架构仍具挑战。
在这里插入图片描述

热力学一致的 PINNs

PINNs 中普遍采用的物理正则化可解释为利用神经网络基函数进行点值最小二乘残差的形式。对于涉及激波的双曲型问题,由于解的点值无定义,需考虑降阶正则的物理稳定化方案。文献 [143] 提出的控制体积 PINN(cvPINN)将传统有限体积方法推广至深度学习环境。该方法不仅因降低正则需求提高精度,还可自然引入总变差消减限幅器,恢复熵解。该框架可用于估计金属等材料适用的激波流体动力学黑箱状态方程。对于极端压强和温度下的相变等情形,深度神经网络提供理想手段处理未知模型形式,且 cvPINNs 的有限体积结构确保热力学一致性。

量子化学中的应用

在一些应用中,研究者结合物理设计专用架构和物理信息学习原则。例如,文献 [32] 提出用于多电子薛定谔方程从头算的费米子神经网络(FermiNet)。FermiNet 是一种混合嵌入物理的方法:首先,为波函数参数化设计了满足费米–狄拉克统计的专用架构,即输入电子状态交换时反对称,且满足边界条件(无穷远处衰减);其次,训练过程也是物理信息驱动的,损失函数设置为能量期望值的变分形式,梯度通过蒙特卡洛方法估计。虽然神经网络避免了计算量子化学中常见的基组外推误差,网络性能仍依赖架构与优化算法,需要进一步系统研究。

材料科学中的应用

材料领域的许多问题属于病态逆问题,物理信息学习可发挥重要作用。例如,文献 [144] 引入了优化 PINN,用于识别和精确表征金属板表面裂纹。该 PINN 以 5 MHz 超声表面声波数据监督,物理信息由声波方程提供,未知波速函数由神经网络表示。训练中关键是采用自适应激活函数,引入可训练超参数,大幅加快收敛,即使在噪声显著的情况下也表现优异。

另一种引入物理信息的思路是多保真度框架,如文献 [64] 用于通过仪器化压痕提取 3D 打印材料力学性能。作者通过求解深度感应压痕逆问题,确定钛合金和镍合金的弹塑性参数。框架采用两层复合神经网络结构:一层低保真度 ResNet 利用大量有限元仿真数据,另一层高保真度 ResNet 以稀疏实验数据和低保真输出为输入,目标是学习两者间的非线性映射,进而高保真预测弹性模量和屈服强度。该方法显著提升性能,将屈服强度推断误差从超 100% 降至 5% 以下。

分子模拟中的应用

文献 [145] 提出神经网络架构表示分子动力学模拟中的势能面,借助合适预处理保持分子系统的平移、旋转和置换对称性。该表示在深度势分子动力学(DeePMD)\ [146] 中得到改进,用神经网络替代传统势能函数,训练数据源自从头算模拟,达到了从头算精度且计算成本随系统规模线性增长。文献 [147] 利用高度优化的 DeePMD 代码,在 Summit 超级计算机上实现了每天模拟超 1 亿原子的 1 纳秒级轨迹,刷新了此前百万原子规模的从头算分子动力学模拟记录 [147,148]。

地球物理中的应用

物理信息学习还被应用于多种地球物理逆问题。文献 [71] 结合神经网络与全波形反演、地下流动过程和岩石物理模型,实现从地震数据估计岩石渗透率和孔隙度等地下属性。此外,文献 [149] 证明结合深度神经网络和数值 PDE 求解器(如混合方法节中所述),物理信息学习可解决广泛的地震反演问题,包括速度估计、断层破裂成像、地震定位和震源时函数反演。

软件支持

为了高效实现物理信息神经网络(PINNs),基于当前主流机器学习库(如 TensorFlow 150 ^{150} 150、PyTorch 151 ^{151} 151、Keras 152 ^{152} 152 和 JAX 153 ^{153} 153)构建新算法是有利的。目前,已有若干专门为物理信息机器学习设计的软件库,推动该领域快速发展(见表 1)。
在这里插入图片描述

当前活跃开发的库包括 DeepXDE 154 ^{154} 154、SimNet 155 ^{155} 155、PyDEns 156 ^{156} 156、NeuroDiffEq 157 ^{157} 157、NeuralPDE 158 ^{158} 158、SciANN 159 ^{159} 159 和 ADCME 160 ^{160} 160。鉴于 Python 是机器学习的主流语言,大多数库均采用 Python 实现,唯 NeuralPDE 和 ADCME 使用 Julia。它们均利用如 TensorFlow 150 ^{150} 150 等软件提供的自动微分机制。部分库(如 DeepXDE 和 SimNet)可作为“求解器”直接使用,即用户定义问题后,求解器自动处理底层细节;而如 SciANN 和 ADCME 则为“包装器”,封装底层函数为更高级接口,用户仍需自行实现问题求解步骤。

此外,软件包如 GPyTorch 161 ^{161} 161 和 Neural Tangents 162 ^{162} 162 通过核方法视角研究神经网络及 PINNs,推动了对 PINNs 训练动态的新理解,进而促使设计新架构和训练算法 76 , 77 ^{76,77} 76,77

DeepXDE 不仅支持整数阶常微分方程(ODE)和偏微分方程(PDE),还支持积分微分方程和分数阶 PDE,支持通过构造实体几何(CSG)处理复杂域,用户代码紧凑且贴近数学表达。其模块化设计良好,适合科研和教育用途。相对地,Nvidia 开发的 SimNet 针对 Nvidia GPU 优化,适合大规模工程问题。

在 PINNs 中,需计算网络输出对输入的导数。例如,使用 TensorFlow 可通过 tf.gradients( U U U, t t t) 计算一阶导数 ∂ U ∂ t \frac{\partial U}{\partial t} tU,二阶导数可通过两次调用 tf.gradients 实现。DeepXDE 提供了更便捷的高阶导数计算接口,如 dde.grad.hessian 计算 Hessian 矩阵。该函数具备延迟计算和缓存已计算梯度的特性,避免重复计算,适合耦合 PDE 系统中多次梯度计算,提升计算效率。

大多数库(如 DeepXDE 和 SimNet)将物理信息作为软约束(见 Box 3),ADCME 将 DNN 嵌入传统科学数值方案(如 Runge–Kutta 方法、有限差分/元/体积法)中,解决逆问题。ADCME 近期扩展支持隐式方案和非线性约束 163 , 164 ^{163,164} 163,164,并支持基于 MPI 的域分解方法,在复杂问题上展现良好扩展性 165 ^{165} 165

选择模型、框架和算法

随着方法和软件工具日益丰富,自然出现以下问题:面对物理系统和观测数据,选择哪个机器学习框架?采用何种训练算法?需要多少训练样本?目前尚无通用经验法则,建立有效的物理信息机器学习模型仍需一定经验,但未来元学习技术 166 − 168 ^{166-168} 166168 有望实现自动化。

从高层次分类看,PINNs 通常用于推断与物理定律兼容的确定性函数,适用于有限观测(初/边界条件或其他测量)情况。PINNs 模型的架构依问题性质而定:多层感知机适用广泛但无特殊归纳偏置;卷积神经网络适合二维网格域;傅里叶特征网络适合解含高频或周期边界的 PDE;递归神经网络适合非马尔科夫和时序离散问题。

概率 PINNs 可推断随机过程,捕捉模型不确定性(贝叶斯推断或频率学派集成)及数据噪声不确定性(变分自编码器、生成对抗网络等生成模型)。DeepONet 框架可推断算子而非函数,其架构根据数据性质调整,如多层感知机用于散乱传感器数据,卷积网络用于图像,递归网络用于时序数据。

样本复杂度一般未知,依赖架构中归纳偏置强度、观测数据与物理正则化的匹配程度及目标函数或算子复杂度。

当前限制

多尺度与多物理问题

尽管物理信息学习已在多领域取得成功,多尺度和多物理问题仍需进一步发展。全连接神经网络难以学习高频函数,称为“F-原理” 169 ^{169} 169 或“频谱偏差” 170 ^{170} 170。文献 171 , 172 ^{171,172} 171,172 证明 DNN 频率偏差存在性,导出训练收敛速率与目标频率的关系。高频解对应陡峭梯度,导致 PINN 难以准确惩罚 PDE 残差 45 ^{45} 45,多尺度问题中高频成分难学且训练易失败 76 , 173 ^{76,173} 76,173。解决方法包括域分解 105 ^{105} 105、傅里叶特征 174 ^{174} 174及多尺度 DNN 45 , 175 ^{45,175} 45,175。多物理同时学习计算量大,可先分开学习再耦合,如 DeepM&M 方法针对电荷对流 60 ^{60} 60和高超音速 61 ^{61} 61,先训练多个 DeepONet,再通过并行或串行 DeepM&M 架构基于额外数据监督学习耦合解。

目前神经网络训练中物理信息损失多以点值形式定义,虽在部分高维问题有效,某些低维特殊问题如非光滑扩散方程等可能失效 177 ^{177} 177

新算法与计算框架

物理信息机器学习模型通常涉及大规模神经网络及复杂多项损失,非凸性强 178 ^{178} 178,训练过程不稳定且不保证全局收敛 179 ^{179} 179。需发展更鲁棒网络架构和训练算法。文献 76 , 77 , 173 ^{76,77,173} 76,77,173 指出 PINNs 两大弱点,关联频谱偏差 170 ^{170} 170与不同损失项收敛率差异,导致训练不稳和梯度消失。设计合理模型架构和新训练算法可缓解此问题。文献 104 ^{104} 104 利用 PDE 弱形式和 h p hp hp-细化提升网络拟合能力。其他方法包括自适应修改激活函数 180 ^{180} 180,训练时动态采样数据和残差点 181 ^{181} 181,加快收敛且提升性能。

神经网络架构设计目前依赖用户经验,费时费力,元学习技术有望自动化该过程 166 − 168 ^{166-168} 166168。值得注意的是,系统分岔参数(如雷诺数)增大时,网络架构可能需调整。

深度学习训练代价高昂,需加速训练,例如通过 DeepONet 转移学习(裂纹扩展案例 182 ^{182} 182)。也需利用 GPU、张量处理单元等硬件开发可扩展并行训练算法,支持数据并行与模型并行。

与传统分类回归仅需一阶导数不同,物理信息学习多涉及高阶导数。目前主流软件如 TensorFlow 和 PyTorch 对高阶导数支持不足。更高效的 ML 软件库(例如基于泰勒模式自动微分 183 , 184 ^{183,184} 183,184)可显著降低计算成本,推动跨学科物理信息机器学习发展。除整数阶导数,积分算子和分数阶导数等算子 103 ^{103} 103 在物理信息学习中也十分有用。

数据生成与基准测试

在机器学习社区中,尤其是图像、语音和自然语言处理领域,使用标准基准数据集是非常普遍的做法,以评估算法的改进、结果的可复现性以及预期的计算成本。UCI 机器学习库 185 ^{185} 185,创建已有三十多年历史,是一个包含数据库和数据生成器的集合,常用于对比新算法的相对性能。目前,该库还包含物理科学领域的实验数据集,例如由机翼产生的噪声、与厄尔尼诺相关的海洋温度和洋流测量,以及不同游艇设计相关的流体阻力数据。这些数据集对机器学习中的数据驱动建模非常有用,原则上也可以用于物理信息机器学习方法的基准测试,前提是数据库中明确包含适当参数化的物理模型。

然而,在物理和化学的许多应用中,往往需要全场数据,这类数据实验上难以获取(例如密度泛函理论、分子动力学模拟或湍流的直接数值模拟),且在时间和内存资源上消耗极大。因此,如何公开这些数据、如何策划珍贵数据以及如何包含生成这些数据库所需的物理模型和所有参数,需要慎重考虑。此外,设计有意义的基准以测试新提出的物理信息算法的准确性和加速效果,也是一项复杂的任务。事实上,即使是在上述成熟的图像等机器学习应用中,现有基准和评价指标依然在不断精进,特别是当软件和硬件因素也被纳入考量时(例如图像识别的深入分析 186 ^{186} 186)。

物理系统的困难更加凸显,因其目标是预测动力学。举例来说,捕捉或识别动力系统的分岔和混沌态非常复杂。然而,诸如文献 187 ^{187} 187中提出的有效预测时间(valid-time prediction)等新指标,可能适合且具有良好的发展前景。

新的数学理论

尽管物理信息学习模型取得了经验性成功,但其理论基础尚知之甚少。需要一套新理论,严谨分析物理信息学习的能力与局限(例如神经网络的学习容量)。更具体的问题是:神经网络能否通过梯度优化找到 PDE 的解?为回答该问题,应分析深度学习中的总误差,该误差可分解为三类:

  • 逼近误差(approximation error):网络是否能以任意精度逼近 PDE 的解?
  • 优化误差(optimization error):是否能达到零或极小的训练损失?
  • 泛化误差(generalization error):较小的训练误差是否意味着更准确的预测解?

此外,需分析问题的适定性(well-posedness),以及误差的稳定性和收敛性。尤其当待求解算子部分由数据学习得到时,相关问题的适定性成为一项激动人心的数学挑战。此问题在初始/边界/内部条件本身为(可能存在不确定的)数据时更加复杂。适定性问题必须结合数学分析与机器学习计算实验加以研究。

PINNs 在正问题上的首个数学分析见文献 188 ^{188} 188,其中引入 Hölder 正则化以控制泛化误差。具体而言,文献 188 ^{188} 188分析了二阶线性椭圆和抛物型 PDE,并证明了解的一致性。文献 189 , 190 ^{189,190} 189,190在损失函数中采用数值积分点,给出了正问题和逆问题的抽象误差估计,但未报告收敛结果,因为积分点方法未量化泛化误差。后续工作中,文献 191 ^{191} 191研究线性 PDE,提出统一误差估计框架,涵盖 PINNs 和变分 PINNs 7 , 104 , 192 ^{7,104,192} 7,104,192。基于紧性假设和范数等价关系,得到了充分收敛条件,泛化误差由 Rademacher 复杂度处理。文献 49 , 193 − 195 ^{49,193-195} 49,193195基于连续损失函数形式推导了误差估计。虽然 PDE 文献中的连续范数误差界可作为(连续)PINNs 的误差界,但需结合数据样本以量化泛化误差。

一般而言,神经网络由基于梯度的优化方法训练,亟需建立新理论以更好理解训练动态(如梯度下降、随机梯度下降、Adam 196 ^{196} 196等)。文献 197 ^{197} 197分析了过参数化两层网络,证明了梯度下降在二阶线性 PDE 上的收敛性,但未纳入边界条件。文献 76 ^{76} 76将神经切线核理论 198 ^{198} 198推广到 PINNs,展示了网络宽度趋于无穷时 PINNs 训练动态可视为核回归。通过可视化不同损失函数(强形式、弱形式等)的损失地形,有助于理解网络训练过程。

此外,随着新方法快速发展,理解模型间及不同范数下损失函数的等价性也十分重要。基于严谨理论分析物理信息机器学习模型,需深度融合深度学习、优化、数值分析与 PDE 理论,不仅可催生更鲁棒有效的训练算法,也可为这代新计算方法奠定坚实基础。

展望

物理信息学习能够无缝整合数据与数学模型,即使在噪声和高维环境下,也能高效解决广泛的逆问题。本文总结了关键概念(见盒子1–3),并提供了框架和开源软件参考,帮助读者快速入门物理信息学习。还讨论了当前能力与局限,展示了流体力学、生物物理学、等离子体物理、亚稳态转变及材料等多个应用。

接下来,介绍物理信息学习机器的新应用方向及研究趋势,有望加快训练速度、提高预测准确性和增强可解释性。虽然已有 TensorBoard 等工具可视化模型图、变量和指标,但物理问题常需更高阶功能:集成多物理、多复杂几何域、解决高维解场的可视化,类似传统计算平台如 FEniCS 199 ^{199} 199、OpenFOAM 10 ^{10} 10 等。

设计用户友好、基于图形的机器学习开发环境,满足上述需求,将助力更多研究者开发物理信息机器学习算法,广泛应用于多样物理问题。

未来方向

数字孪生(Digital twins)

“数字孪生”概念由通用电气提出,指工厂制造发动机的数字副本,如今正成为多个行业的现实。通过同化真实测量数据校准计算模型,数字孪生旨在数字空间精准再现物理实体的行为。

转化该技术为实践前,需解决一系列基本问题。首先,观测数据稀缺且噪声大,数据类型异构(图像、时间序列、实验室测试、历史数据、临床记录等),某些关键变量难以直接获得。其次,基于物理的计算模型依赖繁琐的预处理和校准(如网格生成、初边界条件校准),成本高昂,限制其实时决策应用。再者,许多复杂自然系统的物理模型至多是“部分”已知的守恒律,除非假设合适的本构关系,否则无闭合方程系统。

物理信息学习具备天然融合物理模型与数据的能力,且自动微分避免了网格生成,极具潜力成为数字孪生时代的催化剂。

数据与模型变换、融合及可解释性

随着基于物理的建模与机器学习的深入融合,研究者越来越常遇到不同团队即使使用同一训练数据(或等效信息数据,通过不同传感器观测)也会得到不同的数据驱动模型(学习的潜空间、算子不同),即使其训练集预测结果近似无异。

鉴于观测现象往往无唯一物理解释,未来构建 ML 基础的模型间变换(不同保真度模型、理论间一一对应、可校准的“对偶”关系)将变得尤为重要。研究者日益发现此类变换(如非线性动力学与对应 Koopman 模型、泊松系统与对应哈密顿系统、Nesterov 迭代与对应 ODE)可通过数据驱动方式获得。这些变换有助于系统融合数据与模型。

ML 潜空间特征与物理可解释观测量,或 ML 学得算子与闭式方程间的变换,将大大提升 ML 模型的可解释性。最终,应检验这些变换的泛化能力:在哪些观测范围内 ML 模型间、或 ML 模型与物理模型间可映射,及其超出何种极限后不再可转化或校准。

寻找内在变量与新兴、有用的表征

当前大多数物理信息机器学习方法遵循这样一个范式:首先定义一组(人类可解释的)观测量或变量;然后收集数据;基于所选观测量,使用“合理”的算子字典,完整或不完整地表达物理规律;最后应用选择的学习算法。

随着机器学习的进步,一种新兴范式正在形成,即利用观测和学习方法自动确定良好或内在变量,同时寻找有用或信息丰富的物理模型表达式。超越主成分分析(PCA),流形学习技术(从 isoMAP 到 t-SNE 和扩散映射)及其深度学习对应方法——生成模型和(可能是变分)自动编码器——被用来将原始观测嵌入到降维且数学上有用的潜空间中,在该潜空间内可以学习演化规律。

值得注意的是,这些有用的表征不仅仅是对相关特征或 PDE 中因变量的嵌入。对于时空无序数据,还可以构建机器学习驱动的“新兴空间” 200 , 201 ^{200,201} 200,201,以机器学习所得的独立变量表示:即新兴的“时空”,其中模型算子将被学习。

2011 年的 DARPA Shredder Challenge 202 ^{202} 202通过有效地解开各种碎纸机粉碎的文件,重构了空间。如今,杂乱的时空观测数据也可以被嵌入到信息丰富的“独立变量”新兴空间中。例如,演化算子可以以 PDE 或随机微分方程(SODE)的形式,在这些新的新兴空间(甚至可能是时间)独立变量中被学习;这里与现代物理中对新兴时空的讨论 203 ^{203} 203有直接类比。

这种新范式可能在设计优化或复杂系统(甚至系统的系统)的数字孪生构建中起关键作用,因为人类难以写出封闭形式的整洁物理表达式。

此外,与先收集实验数据再执行学习算法不同,整合两者进入主动学习框架变得重要。借助学习算法潜空间的几何结构,可辅助明智地选择新的信息性数据,而算法则能逐步优化潜空间描述符和控制物理的数学表达,从而随着实验进展产生更逼真的预测。

最终,最核心的变化是对“理解”的定义。迄今为止,“理解”意味着 PDE 中每一项都有物理或机械的解释,作用于一些物理有意义的观测量(因变量)及物理有意义的时空(自变量)。现在,即使没有这种机械式理解,也可以实现准确预测,而“理解”可能在这一过程中被重新定义。

相关文章:

  • AI编程再突破,文心快码发布行业首个多模态、多智能体协同AI IDE
  • 【LeetCode】用双指针解决移除元素问题、合并两个有序数组求解
  • 基于openfeign拦截器RequestInterceptor实现的微服务之间的夹带转发
  • 搭建网站时用到的技术
  • VoiceAgent技术赋能债务重组:合规、高效、有温度的金融债务解决方案
  • Java面试复习指南:基础、并发、JVM与Spring框架
  • 零基础学习RabbitMQ(2)--Linux安装RabbitMQ
  • 硬件工程师笔试面试高频考点汇总——(2025版)
  • (LeetCode 面试经典 150 题) 27.移除元素
  • Spring Boot:运用Redis统计用户在线数量
  • 百度AIP:Springboot人脸对比
  • 【钓鱼预警】针对跨境销售投递Tesla间谍木马
  • <tauri><threejs><rust><GUI>基于tauri和threejs,实现一个3D图形浏览程序
  • 初探 Nacos 原理
  • Qt/C++开发监控GB28181系统/rtp解包/jrtplib库的使用/同时支持udp和tcp被动和主动三种方式解包
  • 日志技术-Logback入门程序
  • 初见语音识别(ASR)
  • 通过审计日志分析和摘要利用大型语言模型进行网络攻击检测
  • K8S: etcdserver: too many requests
  • 2025 年前端框架的深度解析与展望
  • my网站域名/app拉新推广平台
  • 政府门户网站建设目标/河南纯手工seo
  • 做百度网站电话号码/软文广告营销
  • 网站建设公司 提成/技能培训班有哪些
  • 茶具网站模板/电子商务网站建设教程
  • 数据库网站建设教程/seo公司 引擎