化学反应中的贝叶斯优化
为了用最少的搜索次数找到全局最优产率,除了模型的核心组件外,优化策略的选择也至关重要。
4.1 启动优化活动
贝叶斯优化的初始实验设计(“热启动”阶段)至关重要,因为它为构建第一个代理模型提供了基础数据。一个糟糕的初始设计会导致模型不准确,从而降低整个优化过程的效率 21。
策略1:基于K-Means聚类的多样性驱动初始化
一种有效的策略是,首先随机生成一个庞大的候选反应库,计算它们的DRFP向量,然后使用K-Means算法将这些向量聚为 k 个簇 23。从每个簇中选择一个代表性的候选反应作为初始实验点。这样做可以确保初始批次的实验在化学变换的“特征空间”中具有高度的多样性,为模型提供一个关于反应空间全局面貌的广阔视野。
策略2:基于拉丁超立方采样 (LHS) 的覆盖度驱动初始化
另一种强大的策略是拉丁超立方采样(Latin Hypercube Sampling, LHS)25。与作用于DRFP特征空间的K-Means不同,LHS直接作用于离散的反应组分空间(如配体、碱、溶剂等)。LHS能够确保在初始设计中,每个参数的每个水平(例如,每一种配体)都至少被抽样一次,从而保证了广泛的“组合覆盖度”。
这两种初始化策略各有侧重。K-Means在特征空间中优化“化学新颖性”,而LHS在参数空间中优化“组合完备性”。一种更高级的混合策略可以结合两者的优点:首先使用LHS生成一个组合覆盖度良好的大型候选池,然后对该池中所有反应的DRFP向量进行K-Means聚类,并从每个簇中选择一个点作为最终的初始批次。这种两步法确保了初始数据集既具有组合上的全面性,又具有化学结构上的多样性,从而为构建一个高质量的初始代理模型奠定了坚实基础。
4.2 先进的代理建模
高斯过程的局限性
尽管GPR理论上很优美,但在实践中也面临挑战。其计算复杂度随数据点数量呈立方级增长(O(N3)),并且模型对核函数的选择和超参数的调整非常敏感,在高维空间中尤其如此 27。
随机森林 (RF) 代理模型
随机森林(Random Forest, RF)作为一种集成学习方法,为代理建模提供了一个可扩展且稳健的替代方案 28。
优势:RF对数据量的扩展性远优于GPR,能够自然地处理类别型变量(如配体、碱的种类)而无需进行独热编码,这对于化学反应优化问题是一个巨大的优势。此外,RF通常对超参数不那么敏感 13。
劣势:RF的主要缺点是其不确定性估计是启发式的(例如,通过森林中各决策树预测值的方差来估计),而非像GPR那样源于一个严谨的概率模型。这可能使得基于其不确定性的探索-利用权衡不如GPR可靠 29。
表3:代理模型比较 (GP vs. RF)
属性 | 高斯过程 (GP) | 随机森林 (RF) |
不确定性量化 | 原则性强(后验方差) | 启发式(树的方差) |
可扩展性 (N=数据点) | 差 (O(N3)) | 优秀 (O(NlogN)) |
类别数据处理 | 需独热编码 | 原生支持 |
理论基础 | 强(贝叶斯理论) | 弱(集成方法) |
参数敏感度 | 高(核函数选择至关重要) | 低 |
4.3 批量贝叶斯优化
现代化学实验室通常具备同时运行多个实验的能力。批量贝叶斯优化(Batch Bayesian Optimization, BBO)正是利用这一能力来缩短找到最优解所需的总“挂钟时间”的框架 30。一个常见的误区是,简单地从标准EI采集函数中选择得分最高的
q 个点作为一批并行实验。这种策略是错误的,因为它很可能会选择一组位于当前预测最优值附近的、高度相似且冗余的实验点 33。正确的做法是使用专门的批量采集函数,如q-EI。这类函数旨在选择一个联合最优的实验点
集合,它们在评估每个点的个体潜力的同时,也考虑到了批次内的多样性,确保并行实验能够探索有希望空间内的不同区域。
4.4 评估模型
评估一个优化过程的性能,通常有两种主要的“悔憾”(Regret)指标:
累积悔憾 (Cumulative Regret):指在整个优化过程中,每一步所选点的产率与真实最优产率之差的总和:∑(f∗−f(xt))。它衡量的是整个实验过程的总体性能 34。
简单悔憾 (Simple Regret):指在实验预算耗尽后,最终推荐的最佳点的产率与真实最优产率之差:f∗−f(xbest)。它衡量的是最终答案的质量 36。
对于化学发现的目标——即找到一个单一的最佳反应配方以供未来规模化生产或应用——最小化简单悔憾是更合适的优化目标。中间探索性实验的性能好坏并不重要,只要最终推荐的配方是最优的即可。这一判断为模型中使用EI采集函数提供了强有力的理论支持。研究表明,尽管像GP-UCB这样的采集函数可能在最小化累积悔憾方面具有更好的理论界,但EI在经验和理论上都非常适合最小化简单悔憾的任务 35。