当前位置：首页 > news >正文

化学反应中的贝叶斯优化

news 2025/8/21 23:28:09

为了用最少的搜索次数找到全局最优产率，除了模型的核心组件外，优化策略的选择也至关重要。

4.1 启动优化活动

贝叶斯优化的初始实验设计（“热启动”阶段）至关重要，因为它为构建第一个代理模型提供了基础数据。一个糟糕的初始设计会导致模型不准确，从而降低整个优化过程的效率 21。

策略1：基于K-Means聚类的多样性驱动初始化

一种有效的策略是，首先随机生成一个庞大的候选反应库，计算它们的DRFP向量，然后使用K-Means算法将这些向量聚为 k 个簇 23。从每个簇中选择一个代表性的候选反应作为初始实验点。这样做可以确保初始批次的实验在化学变换的“特征空间”中具有高度的多样性，为模型提供一个关于反应空间全局面貌的广阔视野。

策略2：基于拉丁超立方采样 (LHS) 的覆盖度驱动初始化

另一种强大的策略是拉丁超立方采样（Latin Hypercube Sampling, LHS）25。与作用于DRFP特征空间的K-Means不同，LHS直接作用于离散的反应组分空间（如配体、碱、溶剂等）。LHS能够确保在初始设计中，每个参数的每个水平（例如，每一种配体）都至少被抽样一次，从而保证了广泛的“组合覆盖度”。

这两种初始化策略各有侧重。K-Means在特征空间中优化“化学新颖性”，而LHS在参数空间中优化“组合完备性”。一种更高级的混合策略可以结合两者的优点：首先使用LHS生成一个组合覆盖度良好的大型候选池，然后对该池中所有反应的DRFP向量进行K-Means聚类，并从每个簇中选择一个点作为最终的初始批次。这种两步法确保了初始数据集既具有组合上的全面性，又具有化学结构上的多样性，从而为构建一个高质量的初始代理模型奠定了坚实基础。

4.2 先进的代理建模

高斯过程的局限性

尽管GPR理论上很优美，但在实践中也面临挑战。其计算复杂度随数据点数量呈立方级增长（O(N3)），并且模型对核函数的选择和超参数的调整非常敏感，在高维空间中尤其如此 27。

随机森林 (RF) 代理模型

随机森林（Random Forest, RF）作为一种集成学习方法，为代理建模提供了一个可扩展且稳健的替代方案 28。

优势：RF对数据量的扩展性远优于GPR，能够自然地处理类别型变量（如配体、碱的种类）而无需进行独热编码，这对于化学反应优化问题是一个巨大的优势。此外，RF通常对超参数不那么敏感 13。
劣势：RF的主要缺点是其不确定性估计是启发式的（例如，通过森林中各决策树预测值的方差来估计），而非像GPR那样源于一个严谨的概率模型。这可能使得基于其不确定性的探索-利用权衡不如GPR可靠 29。

表3：代理模型比较 (GP vs. RF)

属性	高斯过程 (GP)	随机森林 (RF)
不确定性量化	原则性强（后验方差）	启发式（树的方差）
可扩展性 (N=数据点)	差 (O(N3))	优秀 (O(NlogN))
类别数据处理	需独热编码	原生支持
理论基础	强（贝叶斯理论）	弱（集成方法）
参数敏感度	高（核函数选择至关重要）	低

4.3 批量贝叶斯优化

现代化学实验室通常具备同时运行多个实验的能力。批量贝叶斯优化（Batch Bayesian Optimization, BBO）正是利用这一能力来缩短找到最优解所需的总“挂钟时间”的框架 30。一个常见的误区是，简单地从标准EI采集函数中选择得分最高的

q 个点作为一批并行实验。这种策略是错误的，因为它很可能会选择一组位于当前预测最优值附近的、高度相似且冗余的实验点 33。正确的做法是使用专门的批量采集函数，如q-EI。这类函数旨在选择一个联合最优的实验点

集合，它们在评估每个点的个体潜力的同时，也考虑到了批次内的多样性，确保并行实验能够探索有希望空间内的不同区域。

4.4 评估模型

评估一个优化过程的性能，通常有两种主要的“悔憾”（Regret）指标：

累积悔憾 (Cumulative Regret)：指在整个优化过程中，每一步所选点的产率与真实最优产率之差的总和：∑(f∗−f(xt))。它衡量的是整个实验过程的总体性能 34。
简单悔憾 (Simple Regret)：指在实验预算耗尽后，最终推荐的最佳点的产率与真实最优产率之差：f∗−f(xbest)。它衡量的是最终答案的质量 36。

对于化学发现的目标——即找到一个单一的最佳反应配方以供未来规模化生产或应用——最小化简单悔憾是更合适的优化目标。中间探索性实验的性能好坏并不重要，只要最终推荐的配方是最优的即可。这一判断为模型中使用EI采集函数提供了强有力的理论支持。研究表明，尽管像GP-UCB这样的采集函数可能在最小化累积悔憾方面具有更好的理论界，但EI在经验和理论上都非常适合最小化简单悔憾的任务 35。

查看全文

http://www.dtcms.com/a/339143.html