经典论文 Science子刊:数据驱动的偏微分方程发现 —— Supplementary Materials
PDF: Supplementary Materials
PDF: 原文
1 Introduction
本补充文件详细描述了用于从空间域上收集的时间序列数据中发现控制偏微分方程的方法和算法。用于数据驱动发现动力系统的方法 [1] 包括:无方程建模 [2]、人工神经网络 [3]、非线性回归 [4]、经验动态建模 [5, 6]、涌现行为建模 [9] 以及动力学自动推断 [10, 11, 12]。其他数据驱动方法包括气候中的范式识别 [7]、非线性拉普拉斯谱分析 [8]、涌现行为建模 [9]、Koopman 分析 [26, 29, 38, 39] 以及动力学自动推断 [10, 11, 12];文献 [11] 提供了出色的综述。利用符号回归和进化算法的开创性贡献 [13, 14] 能够直接从数据中确定非线性动力系统。最近,稀疏性 [15] 被用于以高度高效的计算方式稳健地确定控制动力系统 [17, 27]。进化方法 [14] 和稀疏符号回归方法 [27] 都通过选择简约模型来避免过拟合,这些模型通过帕累托分析平衡了模型精度与复杂度。更广泛地说,稀疏性最近已被用于数据驱动发现动力系统。
为了更精确地阐述各种贡献,本文重点介绍上述引用著作的一些技术成就及其应用背景。这些方法大多是用于建模系统动力学的回归框架。所引用的多数工作,都特定于常微分方程 (ODEs),包括那些从离散化偏微分方程导出的 ODEs。所应用的数学方法极其多样,超出本文简洁精准总结的范围。再次指向文献 [11],因为它提供了详尽的综述。回归框架扩展到构建(线性或非线性)能最佳表示时间序列数据集合的模型。此类方法以动态模态分解 (Dynamic Mode Decomposition)、Koopman 理论和/或扩散映射 (diffusion maps) 等名称进行。Lipson 及其合作者的开创性贡献 [10, 13, 14] 是一种基于遗传算法搜索(即右侧项的随机组合)的方法论,用于探索大量(可能是组合爆炸式的)潜在 ODEs。该方法能够产生简约且可解释的动力学表示,并发现生成数据的正确 ODEs。一种更有效的实现简约解的算法使用了稀疏性促进技术来确定控制 ODEs [27]。
然而,上述方法尚未解决发现基于原理的、简约的且可解释的控制偏微分方程推导的问题。当前工作将此类方法扩展到偏微分方程 (PDE) 系统。请注意,该方法发现的是 PDE 的基本形式 (fundamental form),而非其离散化版本。
2 PDE-FIND
本文讨论的 PDE-FIND 算法是一种用于为离散化数据集发现控制方程的方法,本文假设该数据集是如下形式偏微分方程 (PDE) 的解:
uₜ = N(u, uₓ, uₓₓ, ..., x, t, µ) (1)
其中下标表示偏微分,µ 代表系统中的参数。假设函数 N 可以表示为少量项的和,这当然适用于本文考虑的 PDE 和/或实践中广泛使用的 PDE。用 U 表示包含 u 值的矩阵,用 Q 表示包含可能相关的附加信息的矩阵,例如对 |u| 绝对值的依赖关系,或与 u 相互作用的另一个时变函数。
虽然 PDE-FIND 对 N 中候选项的函数形式没有限制,但多项式非线性在本文的许多例子以及数学物理的许多经典模型中都很常见。也可以考虑位于更高维空间域上的数据,在这种情况下,只需考虑对每个空间维度的导数:uₓ, uᵧ, uₓᵧ, u²ₓuᵧᵧ, 等等。
PDE-FIND 创建一个可能出现在 N 中的大型候选项库,包括非线性和偏导数项,然后从这个列表中选择一个稀疏的活跃项子集。通常,总是假设一个复值函数的时间演化可能取决于其模量(magnitude)。第一步是计算数据关于时间和每个空间维度的导数。对于干净数据使用有限差分(finite differences)计算导数,对于添加噪声的数据则使用多项式插值(polynomial interpolation)。然后将导数、函数本身以及其他项组合成一个矩阵 Θ(U,Q):
Θ(U,Q) = [ 1 U U² ... Q ... Uₓ U Uₓ ... Q² U³ Uₓₓₓ ] (2)
Θ 的每一列包含一个特定候选函数在所有收集数据的网格点上的值。因此,如果有一个 n × m 网格上的数据(例如,一个 256 × 100 的网格代表在 100 个时间点进行的 256 次空间测量),并且 PDE 中有 50 个候选项,那么 Θ ∈ C^256·100×50。本文还计算时间导数得到 Uₜ,并将其重塑成一个列向量,就像处理 Θ 的列一样。这给出了一个表示本文 PDE 的线性方程:
Uₜ = Θ(U,Q)ξ (3a)
注意:如果假设 Θ 是一个超完备库(overcomplete library),意味着 Θ 拥有足够丰富的列空间(sufficiently rich column space),使得动力学将位于其值域内,那么 PDE 应该可以通过公式 (3a) 很好地表示,其中包含一个稀疏的系数向量 ξ。这等价于挑选足够多的候选函数,使得完整的 PDE 可以写成库项的加权和(weighted sum)。该线性系统的每一行代表了在特定时间和空间点对动力学的一次观测。
为了获得动力学的无偏表示(unbiased representation),只需为 ξ 求解最小二乘问题(least squares problem)。然而,即使唯一的误差来自数值舍入(numerical round-off),最小二乘解也可能不准确(inaccurate)。特别是,ξ 将主要包含非零值(predominantly nonzero values),暗示 PDE 包含了库中的每一种函数形式。最重要的是,对于类似于 (4) 的回归问题,最小二乘问题是病态的(poorly conditioned)。计算导数的误差(对于含噪声数据已经是一个病态问题(ill-conditioned problem))在求 Θ 的逆时会被数值误差放大。此外,测量误差也会影响最小二乘解。因此,如果使用最小二乘法,它可能会从根本上改变推断动力学的定性性质(qualitatively change the nature of the inferred dynamics)。相反,本文利用稀疏回归(sparse regression) 来近似求解:
这确保了只有当一项对误差 的影响超过(outweigh)其对
的添加时,该项才会出现在推导出的 PDE 中。
使得这个问题是 np-hard 的。在下一节中,将讨论近似求解公式 (5) 的方法。
2.1 PDE-FIND 的稀疏回归 (Sparse Regression for PDE-FIND)
公式 (5) 中 优化问题 (
optimization problem) 的凸松弛 (convex relaxation) 是:
本文最初利用最小绝对收缩和选择算子 (least absolute shrinkage and selection operator, LASSO) 来解决由 PDE-FIND 定义的这一凸优化问题 [15]。然而,当数据矩阵 Θ 的列之间存在高相关性 (high correlations) 时(本文的许多例子就是这种情况),LASSO 往往难以找到稀疏基 (sparse basis) [21]。
文献 [27] 中使用了另一种稀疏回归方法,称为序列阈值最小二乘 (sequentially thresholded least squares, STLS)。在 STLS 中,首先获得一个最小二乘预测器,然后对回归系数执行硬阈值 (hard threshold)。该过程在剩余的非零系数上递归重复。这在算法 1 中当 λ = 0 时进行了说明。STLS 在某些情况下优于 LASSO,但未能避免数据相关性的挑战。
为最小二乘问题使用正则化项 (regularizer) 有助于避免由相关性引起的问题。岭回归 (Ridge regression) 是正则化 (regularized) 的最小二乘变体,对应于使用高斯先验 (Gaussian prior) 的最大后验估计 [40]。其定义为:
本文在 STLS 中用岭回归替代最小二乘,并将得到的算法称为序列阈值岭回归 (Sequential Threshold Ridge regression, STRidge),其概要见算法 1。注意当 λ = 0 时,这简化为 STLS。在本工作中测试的所有稀疏回归算法中,STRidge 在 PDE-FIND 上具有最佳的经验性能 (best empirical performance)。
由于阈值容差(threshold tolerance)的每个值都会在最终解中产生不同水平的稀疏性,本文还使用了单独的方法来寻找最佳容差。在不同的容差下训练预测器(Predictors),并根据它们在留出集 (holdout set) 上的性能,同时考虑 惩罚项 (penalty),来找到最佳容差。
本文将 惩罚项设置为与 Θ 的条件数 (condition number) 成比例,以在数据高度相关且病态时强制稀疏性。基于实证依据 (empirical evidence),使用了 10⁻³ 的乘数。
本文搜索最优容差的方法概述在算法 2 中。传递给搜索算法的参数包括 Θ, Uₜ, λ, STR_iters(它们直接传递给 STRidge)以及 d_tol 和 tol_iters。d_tol 告诉搜索算法在寻找最优容差时采取多大的步长,tol_iters 表示算法将优化其对最佳容差的猜测的次数。
作为预处理步骤,Θ 的每一列都被归一化 (normalized) 为单位方差 (unit variance)。这在函数值并非大致为 O(1) 量级时尤其有用,否则更高次幂会变得非常大或非常小。
在本论文提出的所有示例中,在求解稀疏系数向量 ξ 之前,Θ 的列都被归一化为单位长度。通过将非归一化数据 (non-normalized data) 回归到识别出的项上,获得 ξ 的最终预测值。唯一一个使用该方法不如未归一化的 STRidge 成功的实例,是在从有偏随机游走 (biased random walk) 中识别平流扩散方程 (advection diffusion equation) 时。
2.2 数值微分 (Numerical Differentiation)
当对来自数值模拟的干净数据 (clean data) 使用 PDE-FIND 时,本文使用二阶有限差分 (second order finite differences) 计算导数 [35, 36]。对含噪声数据 (noisy data) 进行数值微分则更具挑战性。如果在网格间距为 O(h)、噪声幅度为 O(ε) 的网格上使用有限差分技术,那么 d 阶导数的噪声将大约为 O(ε / h^d),这将导致数值导数被噪声效应主导 (dominated by the effects of noise)。当解中添加了噪声时,本文考虑了另外四种数值微分方法。
有限差分的一个简单变体是在含噪声数据上使用平滑技术 (smoothing technique),例如使用样条插值或与平滑核进行卷积。本文尝试了后者,即在用有限差分计算导数之前,对含噪声数据使用高斯平滑核 (Gaussian smoothing kernel)。虽然本文得到的导数似乎没有噪声,但它们存在足够大的偏差 (sufficiently biased),导致识别动力学时出现问题。与高斯核卷积的效果是几乎消除了信号的高频分量,因为这等同于在谱表示上乘以一个高斯函数。这平滑掉了曲线中的尖锐拐点 (smooths out sharp inflections in the curve)。
吉洪诺夫微分 (Tikhonov differentiation) 通过平衡 fˆ' 的积分对 f 的接近度 (closeness) 和 fˆ' 的平滑度 (smoothness),为函数 f 找到一个数值导数 fˆ' [22]。实践中使用的连续问题和离散版本如下:
连续问题 (continuous problem):
离散问题 (discrete problem):
在离散问题中,A 是积分的梯形近似 (trapezoidal approximation),D 是导数的有限差分近似 (finite difference approximation)。该问题具有闭式解:
吉洪诺夫微分类似于使用平滑核,其结果数值导数比有限差分平滑得多,但也会引入少量偏差 (small amount of bias),特别是对于具有大高阶导数 (large higher order derivatives) 的函数。
当数据位于周期性域 (periodic domain) 上时,计算 d 阶导数的最佳方法可能是通过离散傅里叶变换 (discrete Fourier transform) 并在频域中乘以 (ik)^d。为了对抗噪声的影响,可以在频域中使用滤波器。然而,这样做需要一个原则性的方法来决定如何精确地阈值处理高频项 (threshold high frequency terms) 而不扭曲曲线的形状 (distorting the shape of the curve)。此外,本文不能总是假设空间域是周期的,也不能使用傅里叶变换来对时间进行微分。在本文的示例中未实现谱微分 (Spectral differentiation was not implemented)。本文怀疑对于周期性域上的数据,或者在边界处数据趋于零的足够宽的域上的数据,这将是一个有前景的工具。
本文发现对于含噪声数据最容易实现且最可靠的方法 (easiest to implement and most reliable) 是多项式插值 (polynomial interpolation) [22]。对于计算导数的每个数据点,拟合一个 p 次多项式 (fit a polynomial of degree p) 到多于 p 个点 (greater than p points),并取该多项式的导数来近似数值数据的导数。靠近边界 (close to the boundaries) 难以拟合多项式的点未被用于回归 (were not used in the regression)。这种方法远非完美;靠近边界的数据难以微分 (data close to the boundaries was difficult to differentiate),并且 PDE-FIND 的结果强烈依赖于 (depended strongly on) 所使用多项式的次数和用于拟合的点数。关于多项式微分更原则性但更复杂的方法,请参见 [23]。
2.3 数据降采样 (Subsampling data)
对于大型数据集,例如具有多于一个空间维度的数据集,PDE-FIND 可以用于降采样数据 (subsampled data)。本文随机选择一组空间点 (randomly select a set of spatial points),并以低于数据收集频率的均匀时间间隔 (evenly sample in time) 对数据进行采样,从而仅使用数据集的一小部分 (use of only a fraction of the dataset)。在数学上,这相当于忽略线性系统 Uₜ = Θ(U, Q)ξ 中的一部分行,如图 S1 的面板 2a 和 2b 所示。
fig.S1. 应用非线性动力学偏微分方程泛函识别算法从数据中推断纳维-斯托克斯方程的步骤。
(1a) 数据以 PDE 解的快照形式收集。
(1b) 取数值导数,并将数据编译成一个包含 PDE 候选项的大型矩阵 Θ。
(1c) 使用稀疏回归来识别 PDE 中的活跃项。
(2a) 对于大型数据集,可以使用稀疏采样来减小问题规模。
(2b) 对数据集进行子采样等效于从公式 2 的线性系统中取一个行的子集。
(2c) 形成一个相同的稀疏回归问题,但行数更少。
(d) 将 ξ 中的活跃项组合成一个 PDE。
尽管本文在线性系统中只使用了空间点的一小部分,但需要附近的点 (nearby points are needed) 来评估库中的导数项。导数是通过多项式插值 (via polynomial interpolation) 计算的,使用少量靠近该点的点 (small number of points close to the point in question) 来拟合一个多项式。因此,虽然降采样在回归中仅使用了点的一小部分,但本文使用的是每个测量点周围的局部信息 (using local information around each of the measurement)。
2.4 PDE-FIND 用于福克-普朗克方程 (DE-FIND for a Fokker-Planck equation)
在关于随机轨迹的一组限制性不强 (nonrestrictive) 的假设下,也可以仅从单条轨迹 (single trajectory) 推导出未来位置分布函数的偏微分方程 (PDE),也称为福克-普朗克方程 (Fokker-Planck equation) [32]。设 X(t) 为一个经历随机游走 (random walk) 的粒子的位置。本文假设轨迹遵循这样的规则:粒子在时间间隔 τ 内的位移 X(t + τ) - X(τ) 可以根据一个概率分布 (probability distribution) 来预测,该分布在时间零时是一个点质量 (point mass),并且不依赖于 τ 或 X(τ)。即:
X(t + τ) - X(τ) ~ u(x, t) 其中 u(x, 0) = δ(x) (8)
这里的关键点 (important point) 是,本文假设有足够的理由将时间序列分成若干段,这些段都遵循相同的 PDE,而与其在时间和空间中的位置无关。PDE-FIND 通过使用直方图 (histograms) 近似分布函数 u,来寻找关系 uₜ = N(u, uₓ, ...)。在论文中,本文展示了这种方法作为一种计算性地推导 (computationally deriving) 扩散方程的方法,该方程源自布朗运动的单个轨迹 (single trace of Brownian motion)。在补充代码中也展示了从有偏随机游走 (biased random walk) 推导平流扩散方程 (advection diffusion equation)。
本文从一个包含随机轨迹均匀间隔测量值 (evenly spaced measurements) 的单一时间序列开始:X = (X₀, X₁, ..., Xₙ)。该时间序列被分成许多较短的序列 Hⱼ,每个长度为 p(本文使用 p = 5):
Hⱼ = (Xⱼ₊₁, Xⱼ₊₂, ..., Xⱼ₊ₚ) - Xⱼ (9a)
= (Hⱼ¹, Hⱼ², ..., Hⱼᵖ) (9b)
其中 j = 1, ..., n - p
对于 p 个时间步中的每一个,都可以在所有 Hⱼ 时间序列上构建一个直方图。这些分箱直方图 (binned histograms) 在大小为 n × p 的网格上近似了本文的概率密度 u 的离散化版本。然后本文可以计算空间和时间导数以供 PDE-FIND 使用。
当使用直方图近似密度函数时,选择足够高的 n(分箱数)和 p(时间步数)值至关重要 (it is important to choose values of n (number of bins) and p (number of time steps) that are sufficiently high),以便能够准确微分密度函数,但又不能太高以至于过拟合分布 (over fit the distribution)。
例如,在扩散示例中,本文期望每个时间步的密度是一个高斯分布 (Gaussian)。如果 n 太低,本文将无法很好地计算空间导数;但如果太高,本文将没有足够的数据来充分近似每个分箱中的密度。在选择 p 时,本文需要足够多的时间步来评估时间导数,但由于密度函数会扩散开来,本文不能选择太高的 p,否则本文将无法近似由此产生的非常宽的分布 (very wide distribution)。
存在其他几种用于寻找最小二乘问题稀疏解的方法。贪婪算法 (Greedy algorithms) 已被证明在包括 PDE-FIND 在内的稀疏优化问题上表现出良好性能,但在某些情况下不如 STRidge 可靠 [20]。
尽管带归一化的 STRidge (STRidge with normalization) 在本文测试过的几乎所有示例上效果良好(平流扩散是例外),但本文并不声称它是最优的。弹性网算法 (elastic-net algorithm) 已被证明比 LASSO 有优势,本文也对其进行了测试,但发现它在稀疏回归方面不如 STRidge 有效 [21]。如果已知关于 PDE 的额外信息,例如本文知道其中一个项非零,那么这可以纳入对系数的惩罚 (incorporated into the penalty on the coefficients) 中。
2.5 通过奇异值分解过滤噪声 (Filtering noise via singular value decomposition)
对于某些数据集,本文可以通过利用数据中的低维结构 (exploiting low dimensional structures in the data) 来进行去噪 (denoise)。奇异值分解 (singular value decomposition, SVD) [49] 被用于发现数据中对应于加性噪声的低能量方向 (low-energy directions corresponding to additive noise)。
应用于时空数据集时,这通常被称为本征正交分解 (proper orthogonal decomposition, POD)。具有较大奇异值的模态 (Modes with larger singular values) 对应于数据中的重复结构 (recurrent structures)。通常,只需其中少数几个模态就能以低误差重构动力学 (reconstruct the dynamics with low error) [25, 27, 43]。通过 SVD 对方阵 (square matrices) 进行去噪的原则性截断方法 (Principled truncations methods) 在 [33] 中有详细解释。
向时空数据集添加噪声 (Adding noise) 会抹除 (erases) 对应于低奇异值 (low singular values) 的特征,同时很大程度上不影响 (leaving largely unaffected) 相干结构 (coherent structures)。
本文根据最优硬阈值准则 (optimal hard threshold criterion) [33] 截断 SVD (truncate the SVD)。其结果是对含噪数据集的一个低维近似 (low dimensional approximation),本文假设该近似比原始数据噪声更少,同时保留了所有重要的动力学特征。本文在纳维-斯托克斯方程和反应扩散方程的示例中,使用了 SVD 滤波器 (SVD filter) 来处理噪声。每个方程都是从其最重要的奇异向量 (most important singular vectors) 所恢复出的低维子空间 (low dimensional subspace) 中被识别出来的。
REFERENCES AND NOTES
1. J. Crutchfield, B. McNamara, Equations of motion from a data series. Complex Syst. 1, 417–452 (1987).
2. C. W. Gear, J. M. Hyman, P. G. Kevrekidis, I. G. Kevrekidis, O. Runborg, C. Theodoropoulos, Equation-free, coarse-grained multiscale computation: Enabling mocroscopic simulators to perform system-level analysis. Commun. Math. Sci. 1, 715–762 (2003).
3. R. González-García, R. Rico-Martínez, I. G. Kevrekidis, Identification of distributed parameter systems: A neural net based approach. Comput. Chem. Eng. 22,S965–S968 (1998).
4. H. U. Voss, P. Kolodner, M. Abel, J. Kurths, Amplitude equations from spatiotemporal binary-fluid convection data. Phys. Rev. Lett. 83, 3422 (1999).
5. G. Sugihara, R. May, H. Ye, C.-h. Hsieh, E. Deyle, M. Fogarty, S. Munch, Detecting causality in complex ecosystems. Science 338, 496–500 (2012).
6. H. Ye, R. J. Beamish, S. M. Glaser, S. C. H. Grant, C.-h. Hsieh, L. J. Richards, J. T. Schnute, G. Sugihara, Equation-free mechanistic ecosystem forecasting using empirical dynamic modeling. Proc. Natl. Acad. Sci. U.S.A. 112, E1569–E1576 (2015).
7. A. J. Majda, C. Franzke, D. Crommelin, Normal forms for reduced stochastic climate models. Proc. Natl. Acad. Sci. U.S.A. 106, 3649–3653 (2009).
8. D. Giannakis A. J. Majda, Nonlinear Laplacian spectral analysis for time series with intermittency and low-frequency variability. Proc. Natl. Acad. Sci. U.S.A. 109, 2222–2227 (2012).
9. A. J. Roberts, Model Emergent Dynamics in Complex Systems (SIAM, 2014).
10. M. D. Schmidt, R. R. Vallabhajosyula, J. W. Jenkins, J. E. Hood, A. S. Soni, J. P. Wikswo, H. Lipson, Automated refinement and inference of analytical models for metabolic networks. Phys. Biol. 8, 055011 (2011).
11. B. C. Daniels I. Nemenman, Automated adaptive inference of phenomenological dynamical models. Nat. Commun. 6, 8133 (2015).
12. B. C. Daniels I. Nemenman, Efficient inference of parsimonious phenomenological models of cellular dynamics using S-systems and alternating regression. PLOS ONE 10, e0119821 (2015).
13. J. Bongard H. Lipson, Automated reverse engineering of nonlinear dynamical systems. Proc. Natl. Acad. Sci. U.S.A. 104, 9943–9948 (2007).
14. M. Schmidt H. Lipson, Distilling free-form natural laws from experimental data. Science 324,81–85 (2009).
15. R. Tibshirani, Regression shrinkage and selection via the lasso. J. R. Stat. Soc. B 58, 267–288 (1996).
16. S. L. Brunton, J. L. Proctor, J. N. Kutz, Discovering governing equations from data by sparse identification of nonlinear dynamical systems. Proc. Natl. Acad. Sci. U.S.A. 113, 3932–3937 (2016).
17. N. M. Mangan, S. L. Brunton, J. L. Proctor, J. N. Kutz, Inferring biological networks by sparse identification of nonlinear dynamics. IEEE Trans. Mol. Biol. Multi-Scale Commun. 2, 52–63 (2016).
18. P. Holmes, J. L. Lumley, G. Berkooz, C. W. Rowley, Turbulence, Coherent Structures, Dynamical Systems and Symmetry (Cambridge Univ. Press, ed. 2, 2012).
19. A. Einstein, Über die von der molekularkinetischen Theorie der Wärme geforderte Bewegung von in ruhenden Flüssigkeiten suspendierten Teilchen. Ann. Phys. 322, 549–560 (1905).
20. T. Zhang, Adaptive forward-backward greedy algorithm for sparse learning with linear models, in Advances in Neural Information Processing Systems
21, D. Koller, D. Schuurmans, Y. Bengio, L. Bottou, Eds. (Curran Associates Inc., 2009), pp. 1921–1928. 21. I. Knowles, R. J. Renka, Methods for numerical differentiation of noisy data. Electron. J. Differ. Eq. 235–246 (2014).
22. O. Bruno, D. Hoch, Numerical differentiation of approximated functions with limited order-of-accuracy deterioration. SIAM J. Numer. Anal. 50, 1581–1603 (2012).
23. Z. Bai, T. Wimalajeewa, Z. Berger, G. Wang, M. Glauser, P. K. Varshney, Low-dimensional approach for reconstruction of airfoil data via compressive sensing. AIAA J. 53, 920–933 (2014).
24. G. Berkooz, P. Holmes, J. L. Lumley, The proper orthogonal decomposition in the analysis of turbulent flows. Annu. Rev. Fluid Mech. 25, 539–575 (1993).
25. S. L. Brunton, B. W. Brunton, J. L. Proctor, E. Kaiser, J. N. Kutz, Chaos as an intermittently forced linear system. arXiv:1608.05306 (2016).
26. S. L. Brunton, J. H. Tu, I. Bright, J. N. Kutz, Compressive sensing and low-rank libraries for classification of bifurcation regimes in nonlinear dynamical systems. SIAM J. Appl. Dyn. Syst. 13, 1716–1732 (2014). Rudy et al., Sci. Adv. 2017;3:e1602614 26 April 2017
27. M. Budišić, R. Mohr, I. Mezić, Applied Koopmanism. Chaos 22, 047510 (2012).
28. J. D. Cole, On a quasi-linear parabolic equation occurring in aerodynamics. Quart. Appl. Math. 9, 225–236 (1951).
29. T. Colonius, K. Taira, A fast immersed boundary method using a nullspace approach and multi-domain far-field boundary conditions. Comput. Methods Appl. Mech. Eng. 197, 2131–2146 (2008).
30. M. C. Cross, P. C. Hohenberg, Pattern formation out of equilibrium. Rev. Mod. Phys. 65, 851–1112 (1993).
31. C. Gardiner, Stochastic Methods (Springer, 2009).
32. M. Gavish, D. L. Donoho, The optimal hard threshold for singular values is 4/. IEEE Trans. Inf. Theory 60, 5040–5053 (2014).
33. E. Hopf, The partial differential equation ut +uux = muxx. Commun. Pure App. Math. 3, 201–230 (1950).
34. J. N. Kutz, Data-Driven Modeling & Scientific Computation: Methods for Complex Systems & Big Data (Oxford Univ. Press, 2013).
35. R. J. LeVeque, Finite Difference Methods for Ordinary and Partial Differential Equations: Steady-State and Time-Dependent Problems, Vol. 98 (SIAM, 2007).
36. A. Mackey, H. Schaeffer, S. Osher, On the compressive spectral method. Multiscale Model. Simul. 12, 1800–1827 (2014).
37. I. Mezić, Spectral properties of dynamical systems, model reduction and decompositions. Nonlinear Dyn. 41, 309–325 (2005).
38. I. Mezić, Analysis of fluid flows via spectral properties of the Koopman operator. Annu. Rev. Fluid Mech. 45, 357–378 (2013).
39. K. P. Murphy, Machine Learning: A Probabilistic Perspective (MIT Press, 2012).
40. B. R. Noack, K. Afanasiev, M. Morzyński, G. Tadmor, F. Thiele, A hierarchy of low dimensional models for the transient and post-transient cylinder wake. J. Fluid Mech. 497, 335–363 (2003).
41. V. Ozoliņš, R. Lai, R. Caflisch, S. Osher, Compressed modes for variational problems in mathematics and physics. Proc. Natl. Acad. Sci. U.S.A. 110, 18368–18373 (2013).
42. R. Pinnau, Model reduction via proper orthogonal decomposition, in Model Order Reduction: Theory, Research Aspects and Applications (Springer, 2008) pp. 95–109.
43. J. L. Proctor, S. L. Brunton, B. W. Brunton, J. N. Kutz, Exploiting sparsity and equation- free architectures in complex systems. Eur. Phys. J. Spec. Top. 223, 2665–2684 (2014).
44. H. Schaeffer, R. Caflisch, C. D. Hauck, S. Osher, Sparse dynamics for partial differential equations. Proc. Natl. Acad. Sci. U.S.A. 110, 6634–6639 (2013).
45. K. Taira, T. Colonius, The immersed boundary method: A projection approach. J. Comput. Phys. 225, 2118–2137 (2007).
46. G. Tran, R. Ward, Exact recovery of chaotic systems from highly corrupted data. arXiv:1607.01067 (2016).
47. L. N. Trefethen, Spectral Methods in MATLAB, Vol. 10 (SIAM, 2000).
48. L. N. Trefethen, D. Bau III, Numerical Linear Algebra, Vol. 50 (SIAM, 1997).
49. W.-X. Wang, R. Yang, Y.-C. Lai, V. Kovanis, C. Grebogi, Predicting catastrophes in non-linear dynamical systems by compressive sensing. Phys. Rev. Lett. 106, 154101 (2011).
50. H. Zou, T. Hastie, Regularization and variable selection via the elastic net. J. R. Stat. Soc. B 67, 301–320 (2005).