论文学习记录之《DiffusionVel》
文章目录
- 一、基本介绍
- 二、介绍
- 三、理论
- 3.1 常规FWI
- 3.2 生成扩散模型
- 3.3 DiffusionVel
- 3.3.1 地震数据
- 3.3.2 背景速度
- 3.3.3 地质知识
- 3.3.4 井信息
- 3.4 网络设计
- 四、实验
- 4.1 实验设置
- 4.2 地震数据驱动的GDM
- 4.3 背景速度的综合
- 4.4 地质知识的整合
- 4.5 测井信息集成
- 4.6 Hess VTI模型示例
- 六、结论
一、基本介绍
标题:《DIFFUSIONVEL: MULTI-INFORMATION INTEGRATED VELOCITY INVERSION USING GENERATIVE DIFFUSION MODELS》——扩散速度模型:利用生成扩散模型进行多信息融合的速度反演
作者: Hao Zhang;Yuanyuan Li;Jianping Huang
期刊:Geophysics
发表时间:2024年10月29日
摘要:全波形反演(FWI)能够从地震数据中以高分辨率重建地下介质属性。然而,传统的FWI面临着诸如周期跳跃和计算成本高昂等挑战。最近,深度学习方法作为一种有前景的解决方案,用于高效的地震波速度估计。我们开发了DiffusionVel,这是一种基于最先进的生成扩散模型(GDMs)的数据驱动技术,并整合了包括地震数据、背景速度、地质知识和井日志在内的多种信息。我们使用两个独立的条件GDM,即地震数据GDM和井日志GDM,以及一个无条件GDM,即地质导向GDM,分别使生成的速度模型适应地震数据、井日志和先验地质知识的约束。此外,背景速度可以通过低通滤波器整合到生成的速度模型中。然后,这些GDM的生成在采样过程中通过加权求和的方式结合起来。我们可以通过调整权重因子灵活地控制每种信息的约束。我们使用OpenFWI数据集和Hess VTI模型示例,对所提出的DiffusionVel方法与三种先前开发的方法(包括传统FWI、InversionNet和VelocityGAN)进行了全面比较。测试结果表明,所提出的DiffusionVel方法通过有效地整合多种信息,合理地预测了速度模型。
关键词:Seismic velocity inversion · Deep learning · Generative diffusion models
二、介绍
地震全波形反演(FWI)已经成为一种用于高分辨率估计地下介质属性的先进技术[1]。通过优化模拟地震数据与观测地震数据之间的匹配,迭代更新地下介质模型[2]。由于地震数据的带宽限制以及地震采集几何的局限性,FWI通常是一个不适定的反问题。特别是,当模拟数据与观测数据相差超过半个波长时,FWI常常会遇到周期跳跃问题,从而陷入局部最小值。FWI的一个典型实现包括正演模拟以预测更新模型的地震数据、优化算法、梯度计算以及用于处理不适定反问题的正则化技术。正则化技术允许我们在反演过程中引入额外的约束或惩罚,以引导反演朝着更合理、更稳定的解发展。这可以包括对模型平滑性的约束(Tikhonov正则化;[3])、稀疏性(全变差正则化;[4])或关于地下介质模型的先验知识[5, 6]。此外,多种类型的数据或测量,如井日志、垂直地震剖面、地质统计数据或重力数据,可以与地震数据在一个反演框架中整合,利用不同数据源的互补信息来提高反演结果的分辨率和准确性[7, 8]。近年来,机器学习领域,尤其是深度学习(DL)取得了巨大的进步[9, 10, 11, 12, 13, 14]。在神经网络架构、优化算法和大量可用数据的快速发展推动下,DL已经成为解决计算机视觉(CV)和自然语言处理(NLP)中各种挑战性任务的重要技术,例如图像分类、分割和语音识别。DL展示了学习数据特征和构建数据域之间映射的显著能力。它在地球物理学中是一个快速发展的主题,在地震数据处理、反演和解释中有着迅速兴起的应用[15]。
地震数据中的低频(LF)对FWI来说是宝贵的。一方面,低频减少了对起始模型的依赖,并减轻了周期跳跃问题。另一方面,低频能够深入地下介质,并携带可靠的反演所需的波场信息。然而,在实际勘探中,地震数据通常是带宽受限的,缺乏低频。借助深度学习网络的强大能力,许多研究人员提出了基于DL的方法,从带宽受限的观测地震数据中外推这些低频[16, 17, 18, 19]。
为了提高地下介质模型的准确性和可靠性,已经开发了各种深度学习技术,将先验信息整合到FWI过程中。[20]从井日志中提取岩相,并使用深度神经网络(DNN)构建岩相概率与反演模型之间的映射。然后计算先验模型以正则化弹性FWI。[8]使用井中的速度分布信息,即均值和方差,作为特征,以获得高分辨率的先验模型。[21]引入视觉变换器(ViT)构建网络架构,并使用自监督预训练和微调方案,以获得地震数据体和井信息之间的最佳映射。[22]将从生成扩散模型(GDM)中学习到的关于地下介质的先验知识引入,以正则化FWI。鉴于深度学习在处理复杂非线性算子方面的显著能力,数据驱动的技术已经出现,用于直接从观测地震数据估计地下介质模型参数。[23]提出了InversionNet,它基于带有条件随机场的编码器-解码器网络。
VelocityGAN[24]使用生成对抗网络(GAN)进行速度反演,并通过迁移学习策略增强泛化能力。[25]提出了InversionNet3D,以进一步将InversionNet扩展到三维速度反演方法。这些数据驱动技术的一个挑战是,在有限数据集上训练的DL网络通常在新数据集上表现不佳。为了解决这个问题,[26]和[27]通过从自然图像风格转换的速度模型来扩充训练数据集。
生成扩散模型(GDM)作为一种最先进的深度生成模型,具有在目标数据中学习重要特征并生成代表性样本的显著能力,在图像和视频生成方面表现出卓越的性能[28, 29, 30, 31]。最近,GDM已被用于处理一些地球物理任务。[32]、[33]和[34]使用GDM重建缺失的地震道。[35]、[36]和[37]使用条件GDM进行地震信号分离和去噪。[22]使用无条件GDM正则化传统的FWI。受这些工作的启发,我们将GDM引入地震速度反演,并开发了DiffusionVel方法,该方法能够合理地整合包括地震数据、背景速度、先验地质知识和井日志在内的多种信息。具体来说,我们分别用地震数据和井日志作为条件训练两个独立的条件GDM来预测速度模型。这些GDM,称为地震数据GDM和井日志GDM,确保生成的模型能够分别满足地震数据和井日志的约束。此外,我们在速度模型分布上训练一个无条件GDM,即地质导向GDM,以学习其地质特征。训练有素的地质导向GDM可以将生成的速度模型适应于所学的先验地质知识。此外,通过使用低通滤波器将背景速度整合到生成的模型中。我们通过在采样过程中通过加权求和将这些GDM纳入其中,实现多信息整合。我们可以通过调整权重因子有效地控制多种信息的约束。
本文的结构如下。首先,我们对传统的FWI和GDM进行简要概述。其次,我们介绍DiffusionVel中多信息整合的方法,并概述网络架构。第三,我们使用OpenFWI数据集和Hess VTI模型示例,通过整合包括地震数据、背景速度、地质知识和井日志在内的多种信息,评估所提出的DiffusionVel的性能。还将DiffusionVel方法与传统的FWI、InversionNet和VelocityGAN方法进行比较。最后,我们对我们的DiffusionVel方法的局限性和潜在改进进行了全面讨论。
三、理论
3.1 常规FWI
传统的全波形反演(FWI)通过最小化模拟地震数据与观测地震数据之间的误差来反演地下模型。控制地震波传播的波动方程可以写为:
[ 1 K ( x ) ∂ 2 ∂ t 2 − ∇ ⋅ ( 1 ρ ( x ) ∇ ) ] u ( x , t , x s ) = s ( x , t , x s ) , (1) \left[ \frac{1}{K(\mathbf{x})} \frac{\partial^2}{\partial t^2} - \nabla \cdot \left( \frac{1}{\rho(\mathbf{x})} \nabla \right) \right] u(\mathbf{x}, t, \mathbf{x}_s) = s(\mathbf{x}, t, \mathbf{x}_s), \tag{1} [K(x)1∂t2∂2−∇⋅(ρ(x)1∇)]u(x,t,xs)=s(x,t,xs),(1)
其中, ρ ρ ρ表示密度, K K K表示体积模量, x s x_s xs表示源位置, u u u表示压力波场, s s s表示源信号。通常,波动方程可以表示为:
u = F ( m ) , (2) u = F(\mathbf{m}),\tag{2} u=F(m),(2)
其中 m m m 是地下模型, F F F是正演算子。我们可以通过解决以下优化问题来估计地下模型:
min m { ∥ d o b s − F ( m ) ∥ 2 2 + λ R ( m ) } , (3) \min_{\mathbf{m}} \left\{ \left\| \mathbf{d}_{obs} - F(\mathbf{m}) \right\|_2^2 + \lambda R(\mathbf{m}) \right\}, \tag{3} mmin{∥dobs−F(m)∥22+λR(m)},(3)
其中, d o b s \mathbf{d}_{obs} dobs是观测到的地震数据, λ \lambda λ是正则化权重因子, R ( m ) R(\mathbf{m}) R(m)是正则化项。
传统的全波形反演(FWI)是一项计算密集型任务,涉及迭代正演模拟、梯度计算和优化。此外,由于固有的不适定问题,准确预测地下模型具有挑战性。在此,我们提出使用基于生成扩散模型的数据驱动方法来解决这些限制。
3.2 生成扩散模型
我们首先回顾生成扩散模型(Generative Diffusion Model,简称GDM)的理论。有关更多细节,请参阅[28]和[36]。图1展示了无条件GDM的图形说明。GDM首先定义了一个前向(或扩散)过程,该过程在T个时间步内逐渐向干净图像 m 0 \mathbf{m}_0 m0引入噪声:
q ( m 1 : T ∣ m 0 ) = ∏ t = 1 T q ( m t ∣ m t − 1 ) , q(\mathbf{m}_{1:T}|\mathbf{m}_0) = \prod_{t=1}^{T} q(\mathbf{m}_t|\mathbf{m}_{t-1}), q(m1:T∣m0)=t=1∏Tq(mt∣mt−1),
q ( m t ∣ m t − 1 ) = N ( m t ; 1 − β t m t − 1 , β t I ) , (4) q(\mathbf{m}_t|\mathbf{m}_{t-1}) = \mathcal{N}(\mathbf{m}_t; \sqrt{1-\beta_t}\mathbf{m}_{t-1}, \beta_t \mathbf{I}), \tag{4} q(mt∣mt−1)=N(mt;1−βtmt−1,βtI),(4)
其中, m t \mathbf{m}_t mt是时间步长为 t t t时的带噪声图像, β t \beta_t βt是随着 t t t增加的预定义噪声计划。在时间步长 T T T时, m T \mathbf{m}_T mT被破坏成纯噪声图像。前向过程的性质允许我们:
m t = α ˉ t m 0 + 1 − α ˉ t ϵ , ϵ ∼ N ( 0 , I ) , (5) \mathbf{m}_t = \sqrt{\bar{\alpha}_t} \mathbf{m}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}), \tag{5} mt=αˉtm0+1−αˉtϵ,ϵ∼N(0,I),(5)
其中 α t = 1 − β t \alpha_t = 1 - \beta_t αt=1−βt。然后,生成扩散模型(GDM)定义了一个反向(去噪)过程,该过程应该逐渐从纯噪声图像 m T ∼ N ( 0 , I ) \mathbf{m}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) mT∼N(0,I)中去除添加的噪声:
p θ ( m 0 : T ) = p ( m T ) ∏ t = 1 T p θ ( m t − 1 ∣ m t ) , (6) p_{\theta}(\mathbf{m}_{0:T}) = p(\mathbf{m}_T) \prod_{t=1}^{T} p_{\theta}(\mathbf{m}_{t-1}|\mathbf{m}_t), \tag{6} pθ(m0:T)=p(mT)t=1∏Tpθ(mt−1∣mt),(6)
然而,去噪算子 p θ ( m t − 1 ∣ m t ) p_{\theta}(\mathbf{m}_{t-1}|\mathbf{m}_t) pθ(mt−1∣mt)是未知的。换句话说,当我们采取反向步骤时,每一步前向过程中添加的噪声是未知的。因此,生成扩散模型(GDM)通过优化损失函数来学习预测噪声,使用深度神经网络 θ \theta θ:
E t , m t , ϵ [ ∥ ϵ − ϵ θ ( m t , t ) ∥ 2 ] . (7) \mathbb{E}_{t, \mathbf{m}_t, \boldsymbol{\epsilon}} \left[ \left\| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_{\theta}(\mathbf{m}_t, t) \right\|^2 \right]. \tag{7} Et,mt,ϵ[∥ϵ−ϵθ(mt,t)∥2].(7)
一旦生成扩散模型(GDM)的训练过程完成,GDM就能在采样过程中生成干净的图像。传统采样过程面临的一个挑战是由众多时间步长带来的计算成本。在此,我们采用扩散去噪隐式模型(Diffusion Implicit Model,简称DDIM)[8]来减少采样时间步。每个采样步骤包括两个步骤:
m 0 θ ( τ ) = m τ − 1 − α τ ϵ θ ( m τ , τ ) α τ , (8) \mathbf{m}_{0_{\theta}}(\tau) = \frac{\mathbf{m}_{\tau} - \sqrt{1 - \alpha_{\tau}} \boldsymbol{\epsilon}_{\theta}(\mathbf{m}_{\tau}, \tau)}{\sqrt{\alpha_{\tau}}}, \tag{8} m0θ(τ)=ατmτ−1−ατϵθ(mτ,τ),(8)
m τ − 1 = α τ − 1 m 0 θ ( τ ) + 1 − α τ − 1 − σ τ 2 ϵ θ ( m τ , τ ) + σ τ ϵ , ϵ ∼ N ( 0 , I ) , (9) \mathbf{m}_{\tau-1} = \sqrt{\alpha_{\tau-1}} \mathbf{m}_{0_{\theta}}(\tau) + \sqrt{1 - \alpha_{\tau-1} - \sigma_{\tau}^2} \boldsymbol{\epsilon}_{\theta}(\mathbf{m}_{\tau}, \tau) + \sigma_{\tau} \boldsymbol{\epsilon}, \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}), \tag{9} mτ−1=ατ−1m0θ(τ)+1−ατ−1−στ2ϵθ(mτ,τ)+στϵ,ϵ∼N(0,I),(9)
其中, τ \tau τ是从原始时间序列 0 … T 0 \ldots T 0…T的子序列中采样得到的时间步长,KaTeX parse error: Can't use function '\)' in math mode at position 118: …tau-1}}\right) \̲)̲,\( \mathbf{m}_…是估计的干净图像。为了清晰起见,我们将方程8称为无条件预测步骤 G θ ( m τ , τ ) G_{\theta}(\mathbf{m}_{\tau}, \tau) Gθ(mτ,τ),因为它预测当前时间步的干净图像。方程9将被称为扩散步骤 D ( m 0 θ ( τ ) , τ ) D(\mathbf{m}_{0_{\theta}}(\tau), \tau) D(m0θ(τ),τ),因为它向估计的干净图像引入噪声以生成下一个采样步骤的带噪声输入图像。
无条件生成扩散模型(GDM)的无监督性质使其能够有效学习目标分布,但它们的生成是随机的。因此,我们进一步引入条件生成扩散模型。条件生成扩散模型中的条件 y \mathbf{y} y作为生成扩散模型采样过程的指导。修改后的损失函数是:
E t , m t , y , ϵ [ ∥ ϵ − ϵ θ ( m t , y , t ) ∥ 2 ] . (10) \mathbb{E}_{t, \mathbf{m}_t, \mathbf{y}, \boldsymbol{\epsilon}} \left[ \left\| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_{\theta}(\mathbf{m}_t, \mathbf{y}, t) \right\|^2 \right]. \tag{10} Et,mt,y,ϵ[∥ϵ−ϵθ(mt,y,t)∥2].(10)
方程8和方程9中的抽样步骤变为:
m 0 θ ( τ ) = m τ − 1 − α τ ϵ θ ( m τ , y , τ ) α τ , (11) \mathbf{m}_{0_{\theta}}(\tau) = \frac{\mathbf{m}_{\tau} - \sqrt{1 - \alpha_{\tau}} \boldsymbol{\epsilon}_{\theta}(\mathbf{m}_{\tau}, \mathbf{y}, \tau)}{\sqrt{\alpha_{\tau}}}, \tag{11} m0θ(τ)=ατmτ−1−ατϵθ(mτ,y,τ),(11)
m τ − 1 = α τ − 1 m 0 θ ( τ ) + 1 − α τ − 1 − σ τ 2 ϵ θ ( m τ , y , τ ) + σ τ ϵ , ϵ ∼ N ( 0 , I ) . (12) \mathbf{m}_{\tau-1} = \sqrt{\alpha_{\tau-1}} \mathbf{m}_{0_{\theta}}(\tau) + \sqrt{1 - \alpha_{\tau-1} - \sigma_{\tau}^2} \boldsymbol{\epsilon}_{\theta}(\mathbf{m}_{\tau}, \mathbf{y}, \tau) + \sigma_{\tau} \boldsymbol{\epsilon}, \\ \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}). \tag{12} mτ−1=ατ−1m0θ(τ)+1−ατ−1−στ2ϵθ(mτ,y,τ)+στϵ,ϵ∼N(0,I).(12)
因此,方程11是条件预测步骤 G θ ( m τ , y , τ ) G_{\theta}(\mathbf{m}_{\tau}, y, \tau) Gθ(mτ,y,τ),方程12是扩散步骤 D ( m 0 θ ( τ ) , τ ) D(\mathbf{m}_{0_{\theta}}(\tau), \tau) D(m0θ(τ),τ)。
3.3 DiffusionVel
所提出的DiffusionVel方法整合了多种信息,包括地震数据、背景速度、地质知识和井日志,通过使用生成扩散模型(GDMs)来预测地下模型。图2展示了将这些多源信息整合到DiffusionVel中的图形说明。这四种信息通过以下方式融入采样过程:
1. 使用一个预训练的条件生成扩散模型(GDM)处理地震数据,称为地震数据GDM。
2. 使用低通滤波器处理背景速度。
3. 使用一个预训练的无条件生成扩散模型(GDM)处理先验地质知识,称为地质导向GDM。
4. 使用一个预训练的条件生成扩散模型(GDM)处理井日志,称为井日志GDM。
在这些信息中,地震数据是速度反演过程中的主要数据源,而其他信息则作为先验信息来规范采样过程。
3.3.1 地震数据
我们可以将观测到的地震数据作为条件 y y y和条件生成扩散模型(GDM)的目标数据分布 m 0 m_0 m0,从而建立从地震数据到速度模型的映射关系。地震数据GDM,表示为 θ , seis \theta,\text{seis} θ,seis,被视为一种数据驱动的方法。数据驱动方法使用神经网络直接近似逆算子 F − 1 F^{-1} F−1,从而生成与地震数据相对应的速度模型。根据方程11中的条件预测步骤, θ , seis \theta,\text{seis} θ,seis在时间步 τ \tau τ估计的速度模型是
m 0 θ , s e i s m ( τ ) = G θ , s e i s m ( m τ , d o b s , τ ) = F − 1 ( d o b s ) . (13) \mathbf{m}_{0_{\theta, seism}}(\tau) = G_{\theta, seism}(\mathbf{m}_{\tau}, \mathbf{d}_{obs}, \tau) = F^{-1}(\mathbf{d}_{obs}). \tag{13} m0θ,seism(τ)=Gθ,seism(mτ,dobs,τ)=F−1(dobs).(13)
3.3.2 背景速度
对于神经网络来说,从地震数据到速度模型学习这种高度非线性的映射关系是一个挑战,尤其是当速度模型呈现出复杂结构时。文献[39]利用参考图像的低频(LF)内容来约束采样过程。鉴于背景速度模型通常都是可用的,我们可以将背景模型融入到每一个采样步骤中,以约束速度估计。
我们假设背景速度代表从真实模型 m 0 m_0 m0中滤波得到的低频(LF)分量:
m 0 b a c k = f ^ l o w ( m 0 ) , (14) \mathbf{m}_{0_{back}} = \hat{f}_{low}(\mathbf{m}_0), \tag{14} m0back=f^low(m0),(14)
其中, f l o w f_{low} flow是一个低通滤波器。这个低通滤波器也应用于地震估计的速度模型中的每一个采样步骤,以提取其低频(LF)分量,表示为
m 0 θ , l o w ( τ ) = f l o w ( m 0 θ , s e i s m ( τ ) ) . (15) \mathbf{m}_{0_{\theta, low}}(\tau) = f_{low}(\mathbf{m}_{0_{\theta, seism}}(\tau)). \tag{15} m0θ,low(τ)=flow(m0θ,seism(τ)).(15)
我们计算 m 0 θ , l o w ( τ ) \mathbf{m}_{0_{\theta, low}}(\tau) m0θ,low(τ)与 m 0 back m_{0_{\text{back}}} m0back之间的模型残差,然后将它们与地震估计的速度模型 m 0 θ , seis ( τ ) m_{0\theta,\text{seis}}(\tau) m0θ,seis(τ)相加。获得背景整合速度模型的相应公式是
m 0 θ , b a c k ( τ ) = m 0 θ , s e i s m ( τ ) + m 0 b a c k − m 0 θ , l o w ( τ ) . (16) \mathbf{m}_{0_{\theta, back}}(\tau) = \mathbf{m}_{0_{\theta, seism}}(\tau) + \mathbf{m}_{0_{back}} - \mathbf{m}_{0_{\theta, low}}(\tau). \tag{16} m0θ,back(τ)=m0θ,seism(τ)+m0back−m0θ,low(τ).(16)
3.3.3 地质知识
地震数据生成扩散模型(GDM)在地震数据的监督下学习并从速度模型分布中采样。因此,经过具有相似地质特征的数据集训练的地震数据GDM倾向于生成代表相似特征的模型。例如,当将经过曲线层速度模型训练的地震数据GDM应用于由平板层速度模型产生的地震数据时,生成模型的层呈现出曲线而非平板。为了在所有数据集上都能很好地泛化,一种可行的方法是在训练期间包含这些数据集。然而,准备各种速度模型并为每个速度模型模拟地震数据在计算上是昂贵的。为了缓解这一问题,我们可以使用具有先验地质知识的速度模型分布来训练无条件GDM。然后,具有学到的地质知识的GDM可以与地震数据GDM结合。有了方程16中显示的背景速度的整合,每个采样步骤中生成的速度模型可以写为
m 0 θ , i n t e g r a t i o n ( τ ) = λ 1 m 0 θ , b a c k ( τ ) + ( 1 − λ 1 ) m 0 θ , g e o ( τ ) , (17) \mathbf{m}_{0_{\theta, integration}}(\tau) = \lambda_1 \mathbf{m}_{0_{\theta, back}}(\tau) + (1 - \lambda_1) \mathbf{m}_{0_{\theta, geo}}(\tau), \tag{17} m0θ,integration(τ)=λ1m0θ,back(τ)+(1−λ1)m0θ,geo(τ),(17)
其中,下标 θ geo \theta_{\text{geo}} θgeo表示具有学到的先验地质知识的生成扩散模型(GDM), m 0 θ , geo ( τ ) = G θ , geo ( m τ , τ ) m_{0_{\theta,\text{geo}}}(\tau)=G_{\theta,\text{geo}}(m_{\tau}, \tau) m0θ,geo(τ)=Gθ,geo(mτ,τ)是由方程8中的无条件预测步骤估计的速度模型, λ 1 \lambda_1 λ1是一个介于0和1之间的权重因子。当 λ 1 = 0 \lambda_1 = 0 λ1=0(或1)时,只有地震数据(或地质知识)对采样过程有贡献。我们可以轻松调整权重因子以平衡它们的贡献。不失一般性,在本文的其余部分,我们将每个采样步骤中整合了多源信息(除了地震数据和背景速度)的速度模型表示为 m 0 θ , integration ( τ ) m_{0_{\theta,\text{integration}}}(\tau) m0θ,integration(τ)。
3.3.4 井信息
井日志可以提供高分辨率的地下属性信息,但只在横向方向上采样有限的位置。我们通过使用井速度图像和速度模型作为生成模型的条件和目标来训练一个条件生成扩散模型(GDM)。我们通过直接在图像的井位置插入井速度,同时将图像的其余部分保持为零来产生井速度图像。经过训练过程后,井日志GDM可以生成由给定采样井速度的井信息约束的速度模型。然后,通过方程16中显示的背景速度的整合,我们将由井信息约束的生成速度模型与由地震数据驱动的生成速度模型在每个采样步骤中进行加权求和:
m 0 θ , i n t e g r a t i o n = λ 2 m 0 θ , b a c k ( τ ) + ( 1 − λ 2 ) m 0 θ , w e l l ( τ ) , (18) \mathbf{m}_{0_{\theta, integration}} = \lambda_2 \mathbf{m}_{0_{\theta, back}}(\tau) + (1 - \lambda_2) \mathbf{m}_{0_{\theta, well}}(\tau), \tag{18} m0θ,integration=λ2m0θ,back(τ)+(1−λ2)m0θ,well(τ),(18)
其中,下标 θ well \theta_{\text{well}} θwell表示井日志生成扩散模型(GDM), m 0 θ , well ( τ ) = G θ , well ( m τ , m 0 well , τ ) m_{0_{\theta,\text{well}}}(\tau) = G_{\theta,\text{well}}(m_{\tau}, m_{0_{\text{well}}}, \tau) m0θ,well(τ)=Gθ,well(mτ,m0well,τ)是由方程11中的条件预测步骤估计的速度模型,其中 m 0 well m_{0_{\text{well}}} m0well是井日志图像, λ 2 \lambda_2 λ2是一个权重因子。 λ 2 \lambda_2 λ2对最终反演结果的影响将在实验部分进行研究。
3.4 网络设计
这三种分别对应于地震数据、井信息和先验地质知识的生成扩散模型(GDM)使用了图3中展示的相同的U-net结构,这是我们在之前研究[36]中使用的一种传统骨干架构。用于学习先验地质知识的无条件GDM的U-net以噪声速度模型和时间步作为输入,并以噪声图像作为输出。对于以地震数据或井信息为条件的GDM,U-net的输入包括噪声速度模型、时间步以及地震数据或井日志图像,目标输出是噪声图像。在将地震数据与噪声速度模型连接之前,首先,我们沿着旅行时间方向用105个零填充地震数据。然后,我们应用四个卷积层来降低地震数据的维度,使其与噪声速度模型的维度相匹配。所有四个卷积层的卷积核大小、步长和填充分别为3×3、2×1和1×1。我们将残差模块和多头自注意力机制引入U-net,以增强网络的性能。时间步通过一个时间嵌入块作为U-net的输入,该块包括位置编码[11]。可以在[36]中找到所使用U-net架构的更多细节。均方误差(MSE)损失被用作训练网络的损失函数。
四、实验
4.1 实验设置
数据驱动的深度学习(DL)方法需要大量的高质量数据来训练网络,以学习两个数据空间之间良好泛化的映射关系。在此,我们使用OpenFWI数据集[40]来训练我们提出的深度学习方法。我们还使用OpenFWI数据集,将我们提出的方法与之前开发的基于深度学习的地震速度反演方法——InversionNet和VelocityGAN——进行了比较。这些数据集包括具有多样化地下结构的速度模型,以及相应的模拟地震数据。在这些数据集中,我们使用“FlatVel-B”、“CurveVel-B”、“FlatFault-B”和“CurveFault-B”数据集进行训练。图4展示了这些数据集中每个数据集的一个速度模型示例。图5展示了与图4中的CurveFault-B速度模型对应的五个炮集的模拟地震数据。所选数据集的详细描述见表1。每个速度模型使用五个间隔为175米的炮来模拟其地震数据。有70个接收器用于记录地震波。使用15赫兹的Ricker子波作为源子波。为了公平比较,我们使用相同的数据集和相同的均方误差(MSE)损失函数来训练InversionNet、VelocityGAN和由地震数据驱动的提出的生成扩散模型(GDM)。我们使用初始学习率为1e-4的Adam优化器来训练GDM。批量大小为八,最大训练周期设置为200。我们应用了[41]提出的余弦噪声时间表策略来控制方程4中的 β t \beta_t βt。总训练时间步为1000。在地震数据示例中,我们使用五个采样步骤来生成速度模型。在其他示例中,我们使用20个采样步骤来获得更好的生成效果。
4.2 地震数据驱动的GDM
我们首先将地震数据生成扩散模型(GDM)应用于我们的DiffusionVel,分别应用于FlatVel-B、CurveVel-B、FlatFault-B和CurveFault-B数据集。图6的第一列和最后一列分别显示了真实的地层速度模型和使用不同数据集训练的地震数据GDM生成的速度模型。我们可以看到,生成的模型在结构上与真实模型非常接近,且高分辨率地保留了清晰的界面。然而,某些深层的速度值没有被准确恢复。
我们随后使用相同的数据集,对提出的DiffusionVel方法与传统的全波形反演(FWI)、InversionNet和VelocityGAN方法进行了详细的比较。我们使用一个核大小为25的高斯滤波器对真实速度模型进行平滑处理,以获得传统FWI方法的初始模型。传统的FWI方法的最终结果展示在图6的第二列。我们可以看到,速度模型在一定程度上得到了恢复,但界面明显变得模糊。图6的第三列和第四列分别展示了InversionNet和VelocityGAN方法生成的速度模型。在FlatVel-B和CurveVel-B示例中,InversionNet和VelocityGAN生成的速度模型与真实模型相当。然而,在FlatFault-B和CurveFault-B示例中,InversionNet和VelocityGAN的表现并不理想。直观上,DiffusionVel生成的速度模型具有最高的分辨率和准确性。图7展示了图6中生成模型中心处的垂直速度剖面。
我们计算了这些反演方法的质量指标,使用平均绝对误差(MAE)、均方误差(MSE)和结构相似性指数(SSIM)来评估真实速度模型与生成速度模型之间的差异。较低的MAE和MSE值,以及较高的SSIM值,表明生成的速度模型与真实速度模型更为接近。这四种方法的质量指标展示在表2中。通过分析表2,我们发现:(1)在FlatVel-B和CurveVel-B数据集上,与其它三种方法相比,DiffusionVel生成的速度模型质量最高;(2)传统FWI方法估计的速度模型质量略优于DiffusionVel。这可以归因于传统方法中使用的背景速度。
4.3 背景速度的综合
然后我们测试在采样过程中整合背景速度如何影响生成结果。我们首先通过高斯滤波器对真实模型进行平滑来准备背景模型。高斯滤波器的核大小用于控制背景模型的平滑程度。表3显示了使用三种不同核大小整合背景速度的定量比较。该表表明,整合的背景模型有助于提高生成精度,并且生成模型的精度随着整合的背景速度的精度而增加。图8显示了来自FlatFault-BandCurveFault-B数据集的四个整合背景速度的例子。第一列和第二列显示了真实速度模型以及没有整合背景速度的生成速度模型。我们可以看到深层的速度值没有被准确重建。第三列和第四列显示了用49的高斯核平滑的背景模型以及通过整合背景模型生成的速度模型。我们可以看到整合的背景模型有助于提高生成精度,特别是在深层区域。第五列和第六列显示了用9的高斯核平滑的背景模型以及通过整合背景模型生成的速度模型。我们可以看到更精细的背景速度,提供了更多的速度信息,可以进一步增强反演结果。
4.4 地质知识的整合
我们随后使用FlatFault-B数据集来测试地质知识整合对生成结果的影响。图9(a)显示了真实的速度模型。我们使用FlatFault-B数据集中的速度模型来训练地质导向的GDM,以学习平板层和断层的先验地质知识。然后将训练好的地质导向GDM整合到使用CurveFault-B数据集预训练的地震数据GDM的采样过程中,以使生成适应所学到的地质知识。方程17中的权重因子 λ 1 \lambda_1 λ1用于控制它们的贡献。
图9((b))展示了当 λ 1 = 0 \lambda_1 = 0 λ1=0时生成结果中的4×4速度模型。我们可以看到,生成的速度模型主要由平板层和断层组成,这些满足了地质导向GDM从FlatFault-B速度模型中学习到的地下地质知识。然而,在没有地震数据作为条件的情况下,生成模型的准确性受到限制。图9(d)展示了当 λ 1 \lambda_1 λ1为1时生成的速度模型。我们可以看到,生成的速度模型总体上与真实速度模型接近,这得益于地震数据对生成过程的约束。然而,FlatFault-B数据集预期的地质特征并未被整合到生成的速度模型中。图9©展示了当 λ 1 \lambda_1 λ1为0.5时生成的速度模型。生成的速度模型显示出与FlatFault-B模型一致的地质知识,并且速度值受到地震数据的良好约束。这表明地震数据约束和先验地质知识得到了合理的整合。
4.5 测井信息集成
在此,我们假设有多条井日志可供使用。为了使生成的模型适应可用的井信息,我们使用CurveFault-B速度模型作为目标,井日志作为条件来训练井日志GDM。然后,将井日志GDM整合到地震数据GDM的采样过程中,使其生成的模型能够尊重可用的井日志。图10((a))展示了CurveFault-B数据集中的4×4速度模型。我们首先从真实模型中均匀选择4条轨迹作为可用的井日志。我们计算不同权重因子(介于0和1之间)的质量指标,以测试方程18中的权重因子 λ 2 \lambda_2 λ2如何影响整合结果。质量指标曲线如图11所示。我们可以看到,当权重因子接近0.5时,生成的模型倾向于达到最优。
图10(b)和©分别展示了当 λ 2 = 1 \lambda_2 = 1 λ2=1时生成的速度模型以及这些生成模型与真实模型之间的残差。我们可以看到,没有整合井日志的生成模型无法准确估计地下速度,尤其是对于深层复杂结构。图10(d)和(e)分别展示了当 λ 2 = 0.5 \lambda_2 = 0.5 λ2=0.5时生成的速度模型及其速度残差。为了直观地观察整合效果,我们将可用的井日志纳入生成的速度模型中。我们可以看到,生成的速度模型很好地适应了井日志信息所施加的约束。速度模型的生成精度得到了提高。
4.6 Hess VTI模型示例
最后,我们在Hess VTI模型示例上应用了所提出的方法,以验证其泛化能力。我们提取了P波速度模型的一部分,并将模型尺寸重新采样为OpenFWI数据集的尺寸。如图12(a)所示,提取的速度模型包含多层和一个向左倾斜的断层。用于模拟OpenFWI数据集的相同参数设置的正演建模技术也被用于合成观测到的地震数据。我们使用FlatFault-B数据集来训练地震数据GDM,以学习在地震数据作为条件下的速度模型分布。然后,我们使用观测到的地震数据来条件化地震数据GDM以生成速度模型。图12(e)展示了生成的速度模型。我们可以看到,生成的速度模型具有平板层和一个短断层。然而,地震数据GDM未能重建弯曲层,因为训练数据集不包含任何弯曲层。此外,深层的速度也没有被准确估计。
我们使用核大小为29的高斯滤波器对真实的速度模型进行平滑处理,以获得背景模型。然后,我们将背景速度模型整合到地震数据GDM的前8个采样步骤中。图12(f)展示了整合了背景模型后生成的速度模型。我们可以看到,背景模型有助于提高生成的准确性,尤其是在深层区域。
随后,为了整合先验地质信息,我们准备了一个具有以下地质特征的速度模型分布(2000个速度模型):(1)速度随深度增加,(2)层略微弯曲,(3)一个向左倾斜并在最终层之前终止的断层。这2000个速度模型被用来训练地质导向的GDM,以学习先验地质知识。图13展示了这个地质导向GDM的生成示例。除了背景模型的整合外,我们还将地质导向GDM以权重因子 λ 1 \lambda_1 λ1为0.5整合到地震数据GDM的采样过程中。图12(g)展示了将地质导向GDM整合到地震数据GDM后生成的速度模型。我们可以看到,生成的速度模型中很好地恢复了断层和弯曲层,显示出与真实速度模型一致的地下特征。然而,层界面的位置并不准确。因此,我们将可用的井日志整合到生成过程中。
假设有一些井日志可用,我们使用之前在地质导向GDM中使用过的数据集来训练井日志GDM。然后,我们将井日志GDM以权重因子 λ 2 \lambda_2 λ2为0.5整合到地震数据GDM的采样过程中。从真实的速度模型中,分别在50米、250米、450米和650米的距离处选取了四条轨迹作为可用的井日志。图12(h)展示了整合了地震数据GDM、背景速度模型和井日志GDM后最终生成的速度模型。我们可以看到,生成的速度模型与真实的速度模型非常接近。
随后,我们使用相同的FlatFault-B数据集作为训练数据集,将我们提出的方法与传统的全波形反演(FWI)、InversionNet和VelocityGAN进行了比较。从背景模型开始,传统的FWI恢复了图12((b))中所示的速度模型,由于地震数据有限,其准确性和分辨率相对较低。图12©和(d)分别展示了使用InversionNet和VelocityGAN预测的速度模型。我们可以看到,包括断层和多层在内的关键结构并未成功恢复,尤其是对于深层部分。为了进行详细比较,我们还在图14中展示了这些生成模型在350米距离处的垂直速度剖面。
在整合先验地质知识和井日志时,我们在整个采样过程中选择一个固定的权重因子。为了实现更好的整合生成,我们可以采用一个权重计划,其中权重因子随采样步骤的变化而变化。权重计划使我们能够更灵活地控制每种信息的约束。
整合背景速度的关键是合理选择低通滤波器。在数值示例中,将已知的低通滤波器应用于真实模型以获取背景模型。在实际案例中,我们需要基于试错法设计低通滤波器,以产生最佳的整合结果。地质知识整合的实验表明,我们可以整合一个学习先验地质知识的地质导向GDM,以提高地震数据GDM的泛化能力。此外,我们还可以通过提高训练数据集的质量和规模来实现更好的泛化。
六、结论
我们开发了DiffusionVel,这是一种基于生成扩散模型(GDMs)的数据驱动的速度反演方法,整合了包括地震数据、背景速度、地质知识和井日志在内的多种信息。在OpenFWI数据集和Hess VTI模型示例上的测试结果表明,DiffusionVel生成的速度模型比传统的全波形反演(FWI)、InversionNet和VelocityGAN具有更高的精度。多种信息的整合进一步提高了数据驱动速度反演方法的泛化能力。