当前位置：首页 > news >正文

【AI4S】大语言模型与化学的未来，以及整合外部工具和聊天机器人的潜力

news 2025/9/30 14:06:39

大语言模型与化学的未来，以及整合外部工具和聊天机器人的潜力

分子发现中的语言模型
加速分子发现的方法和挑战
- 分子表征
- 生成式建模
- - 循环神经网络（RNN）
  - 变分自动编码器（VAE）
  - Transformer
- 属性预测
科学语言建模的软件工具介绍
- 自然语言模型
- 科学发现生成工具包——GT4SD
- 预测化学反应和确定合成路线的工具包——RNX for Chemistry
- 特定的代码库
- 通用平台
分子发现的未来
整合化学工具和聊天机器人
总结

分子发现中的语言模型

虽然近年来技术创新和变革日新月异，从根本上改变了我们对生物化学过程的认识，但化学领域仍花费大量时间和金钱——"10 年 "和 “3000 亿”——将新产品推向市场。这是由于实验室实验的高失败率、化学探索的广阔空间以及包括意外发现在内的强大运气成分。常见的情况是，设计一种分子，设计一条合成路线，并根据各种理论花费大量时间进行合成，却发现无法实现预期功能。然后，经过反复实验，可以说是机缘巧合的发现促成了新产品的诞生，如药品。

在此背景下，出现了大规模语言模型，也出现了能够像人类一样理解和生成文本的技术，并在多个领域取得了成功。化学领域也有这方面的潜力。分子也可以用语言来表示，这有可能加速分子设计和发现过程。近年来，大规模语言模型在处理从蛋白质折叠到小分子、多肽和聚合物设计等化学语言方面取得了卓越的成果。

语言模型的成功，尤其是基于Transformer架构的模型，已逐渐扩展到其他领域，催生了专为小分子、蛋白质或聚合物等对象设计的“科学语言模型”。在化学领域，语言模型正助力加速分子发现流程，这一点从近期早期药物研发中令人振奋的成果中可见一斑。本文综述了语言模型在分子发现中的关键作用，重点阐述其在从头药物设计、性质预测及反应化学等方面的独特优势。同时，我们特别推介了一系列极具价值的开源软件工具，有效降低了进入科学语言建模领域的门槛。最后，我们展望了未来分子设计的全新愿景：将聊天机器人界面与计算化学工具无缝结合，打造高效便捷的分子设计平台。我们的研究不仅为对语言模型如何推动化学发现感兴趣的科研人员、化学家及AI爱好者提供了宝贵资源，更指明了这一前沿技术发展的广阔前景。
Language models in molecular discovery
但是大语言模型究竟是什么呢？简单地说，它们是机器学习模型，能够理解文本片段并据此做出连续推断。这些模型通过学习单词序列的概率分布来完成文本生成和语言翻译等任务。

为什么语言模型对化学有用？通过学习表示化学结构，这些模型有助于探索化学空间，并设计出具有特定功能特性的分子。此外，弥合自然语言和科学语言之间的鸿沟可以让化学家用自然语言交流他们希望设计的分子功能，并通过对话找到分子结构和合成方法。

本文重点探讨了大语言模型在加速分子发现（分子设计和探索）方面的实用性。论文从传统的科学发现方法入手，介绍了分子生成和分子性质预测模型的组合，以及科学语言建模的工具和库。最后，论文探讨了通过聊天机器人将自然语言模型与分子发现过程相结合如何改变未来的分子设计。

加速分子发现的方法和挑战

传统的设计、制造、测试和分析（DMTA）循环由于合成成本和时间限制而成为瓶颈，阻碍了假设的优化。因此，需要一种加速分子发现的循环来提高速度和质量，并确保只有有前途的假设才能进入后续阶段。

深度生成模型已成为加速假设生成和分子发现设计的一种有前途的手段。然而，即使是这些先进的分子生成模型，也需要高效的大规模虚拟筛选方法来有效地测试假设。加速分子发现周期在 DMTA 周期中增加了一个验证循环，使许多假设能够以较低的成本得到快速评估。这一新的循环增强了设计阶段的生成模型，并确保只有有前景的假说才能真正进入合成和物理实验阶段。

分子表征

分子表征是关键，因为它决定了模型可以使用哪些信息。这里的 "表示 "指的是表示分子结构和性质的方式。目前流行的分子表示方法包括字符串表示法（如SMILES和SELFIES）、结构表示法（如图形和MolFile）以及特征表示法（如Morgan指纹）。随着化学语言建模（CLM）技术的进步，基于文本的分子表征方式越来越受到关注。
一种展示将化学分子表示为机器学习模型输入的常用方法的图示。
图示：一种展示将化学分子表示为机器学习模型输入的常用方法。表示方法可以是：(a) 基于字符串的，如SMILES、SELFIES或InChI，它们使用字符来表示分子的不同特征；(b) 基于结构的，如图或MolFiles，能够编码分子的连接性和原子位置；以及© 基于特征的，如Morgan指纹，将局部子结构以二进制位的形式进行编码。

SMILES 是一种描述分子的文本表示法，原子、键、分支、芳香度等均由特定字符串表示。这种表示法适合用于化学语言模型，因为分子可以很容易地标记化（拆分）。不过，SMILES 并非唯一，同一分子可由多个不同的 SMILES 字符串表示。这可用于数据扩展、分子特性预测和分子生成。另一方面，SMILES 也可能产生无效的表示法，为避免这一问题，我们采用了不同的处理和归一化方法。

**分词（Tokenization）**是将字符串分解为可向量化处理的单元的过程。这些单元通常是一个单独的字符、n-gram字符或单词。与按字符级别分割不同，SMILES通常采用正则表达式在原子级别进行分词，或者通过额外纳入位置和连接信息，从而体现同一原子因其在分子结构中所处位置的不同而可能具有不同编码方式的特点。此外，SMILES也可以在子结构级别进行分词，如SMILES对编码法（SMILES-PE）所展示的那样[52]。这种方法受字节对编码法启发，通过迭代统计并合并频繁出现的SMILES标记对，直至满足特定条件为止。分词技术有助于为SMILES表示构建词汇表。
词汇表（Vocabularies）是将标记（tokens）映射到向量（vectors）的词典，因此成为连接语言模型的入口。为了使语言模型能够从SMILES中学习，标记需被转换为向量表示，方法包括使用独热编码（其中二进制矩阵的每一行对应SMILES中的一个位置，而每一列则代表一个标记）。然而，这种离散化方法会导致稀疏且庞大的矩阵，因此，一种更具吸引力的替代方案是在训练过程中为每个token学习连续的embedding表示。这种方式有助于捕捉token之间的语义关系，从而提升模型性能。由于学习高质量的embedding通常需要大量数据，因此预先在自然语言语料库上进行过训练的模型，通过微调来学习科学语言的embedding，无疑是一个强有力的选择。

SELFIES 是作为 SMILES 的替代方案而开发的，旨在避免生成无效的分子表征。它以保证键价有效性的规则为基础，并保留了分支长度和环的尺寸，以避免生成开放的分支和环。这可确保在生成分子时始终获得有效的表示，但可能会因为太短而无法表示有用的分子。

InChI（国际化学标识符）由国际理论化学和应用化学联合会（IUPAC）推出，是一个分层编码分子结构信息的字符串。对于大分子来说，这个字符串可能又长又复杂。为了解决这个问题，开发了一种名为 InChIKey 的散列，以方便搜索和检索。然而，InChI 在化学语言模型中的应用并不普遍。

这些基于文本的分子表征在训练化学语言模型方面发挥着重要作用。模型可以从这些表征中学习分子的性质和结构，并利用它们生成新分子或预测现有分子的性质。每种表征方法都有自己的优势和局限性，应根据目的选择合适的方法。

生成式建模

生成式建模旨在学习数据的潜在分布，从而生成新的样本，这一技术对于加速从头药物发现至关重要。生成模型可分为条件型和无条件型两种。其中，条件生成模型会利用提供的数据属性或标签，生成具备特定性质的新样本；而无条件模型则仅提供一种方式，用于随机生成与训练数据相似的分子[36]。特别是在DMTA循环中，条件生成方法尤为受益，因为它有助于实现以目标为导向的假设设计[9]。本节将介绍几种颇具影响力的条件生成模型，这些模型通过化学语言对分子进行建模，以生成满足用户定义条件的化合物。

下图举例说明了使用语言模型生成条件分子的过程。

利用大模型进行条件分子生成的示意图。该过程始于多模态数据的收集与处理，随后将这些数据压缩为固定大小的潜在表示。接着，这些表示被输入到分子生成模型中。生成的分子会进一步接受计算机辅助的性质预测，并通过反馈回路在训练过程中与生成模型紧密相连。这些计算模型依据奖励函数，引导生成模型按特定性质或任务需求生成目标分子。在推理阶段，经过优化的模型所生成的候选分子将继续经历整个流程——包括实验室合成，以及随后的实验验证，以最终确定其是否具备实现预期任务的高效性。

循环神经网络（RNN）

RNN的序列特性使其成为处理化学语言的理想模型。RNN最早于90年代提出，是CLM的首个分支。它们的隐藏状态会随着新标记被送入网络而不断更新。在生成过程中，标记以自回归方式逐个产生。RNN已被广泛应用于分子库的生成，这些分子库在药物开发流程中扮演着重要角色，例如筛选阶段。此外，外部评分函数可引导生成具备特定性质的分子。值得一提的是，RNN还擅长学习复杂分布，并能生成更多独特且有效的SMILES字符串——尽管它们无法准确统计环状结构开环或闭环符号的出现次数，这确实构成了一个挑战。

变分自动编码器（VAE）

VAE能够学习分子的潜在分布参数，从而通过从该分布中采样，实现新分子的生成。它们的独特能力在于，能够学习出一个平滑的潜在空间，便于对样本进行插值操作——即便是对于像分子这样以离散性著称的实体，这一特性同样适用。为了使其适用于化学语言模型（CLMs），任何能处理字符串输入的网络均可作为VAE的编码器和解码器。早期的研究主要集中在单模态应用上，通过下游任务来评估潜在空间的质量。这种方法至今仍广泛采用，例如，利用基于RNN的VAE生成催化剂。具体而言，研究者首先学习并评估潜在空间，方法是预测催化剂的结合能。而Lim等人则更进一步，将条件向量与输入以及由循环网络驱动的VAE编码器生成的潜在嵌入拼接在一起。这种创新方法使得生成的分子能够精准匹配特定条件需求。随着研究的深入，VAE的应用范围逐步扩展到多模态场景，支持条件化分子生成，如图3所示，并以Born等人的工作为例加以说明。这些面向任务驱动型分子生成的研究，还融入了基因表达或蛋白质靶点等上下文信息，甚至同时结合两者。VAE会先学习上下文信息和先导药物的嵌入表示，随后在解码阶段将其与目标分子合并，最终生成符合预期特性的分子。此外，研究团队还引入了一种基于强化学习的方法，通过奖励机制引导模型生成具备特定理想属性的分子。

Transformer

Transformer的自注意力机制已将这类模型推至自然语言处理领域的前沿。Transformer 模型包含一个编码器模块，该模块借助自注意力机制学习输入及其相关上下文的嵌入表示；而解码器模块则通过注意力机制，结合编码器所学的上下文信息及先前生成的标记，逐步预测目标标记。在生成式建模领域，仅含解码器的 Transformer 模型，如生成式预训练 Transformer（GPT），已成为主流方法。这一成功也被成功移植到科学语言领域。其中，最早采用 GPT 架构进行条件分子生成的模型之一便是 MolGPT 。该模型将 SMILES 标记与一个汇总了目标属性和骨架信息的条件向量拼接后作为输入，并在“预测下一个标记”的任务上进行训练，从而实现分子生成。此外，结合强化学习的 GPT 类模型还可用于优化分子特性，例如 pIC50 值。在这种两阶段方法中，首先从 SMILES 字符串中学习嵌入表示，随后对嵌入空间进行优化，使模型能够采样出具备所需特性的分子。更进一步地，除了单纯利用 GPT 类架构进行分子生成外，“回归 Transformer”也是一项开创性工作，它首次将条件序列建模问题转化为回归任务，从而构建了一种天然的多任务模型，可同时完成属性预测与条件分子生成。具体而言，该方法通过将传统分子标记与属性标记拼接，并采用一种交替遮掩序列不同部分的训练方案来实现目标。

这些工作充分证明了基于Transformer模型的生成能力。所学embedding的卓越质量，加之其强大的并行处理能力和可扩展性，使其成为条件分子生成任务的首选方案，在药物发现及其他分子设计领域展现出广阔的应用前景。

属性预测

无论发现是否具有新颖性，属性预测都是验证分子适用于特定应用场景的关键步骤。分子的成功与否取决于诸多因素，其中包括其与周围环境的相互作用方式。MoleculeNet数据集是属性预测领域常用的基准测试集，它由多个公开数据集整理而成，包含超过70万种化合物，并针对多种不同性质进行了测试。Born等人[15]利用多尺度卷积注意力模型，通过SMILES字符串直接预测化合物的毒性。该模型在卷积网络中采用了三种不同大小的卷积核，并结合了Bahdanau注意力机制[5]。实验表明，相较于其他所有基于SMILES的模型，这一模型在MoleculeNet框架下的各项任务中均表现出更优异的性能。近年来，一种新兴趋势是：先使用Transformer编码器为分子学习嵌入表示，再将这些嵌入输入到多层感知机（MLP）中，以实现对分子属性的精准预测。MolBERT和ChemBERTA是两个这样的例子。这些基于Transformer的模型采用BERT作为骨干网络，从SMILES中学习分子嵌入并预测分子特性。类似地，Molformer则使用带有线性注意力和相对位置编码的Transformer编码器，学习压缩的分子表示，随后在化学性质预测基准上进行微调。为了使Transformer具备更强的归纳偏置，以更好地处理分子结构，研究者们提出了多种改进型注意力机制。其中，分子注意力Transformer（MAT）将原子间距离及图结构信息融入注意力机制中[58]。而在此基础上进一步优化的relative-MAT，则融合了distance embedding、bond embedding以及neighborhood embedding，能够在多种性质预测任务中取得具有竞争力的性能表现。

科学语言建模的软件工具介绍

开源软件在科学界的发展带来了革命性的变化，尤其是在化学领域。这在许多方面促进了新研究方法的开发，提高了科学成果的可重复性。这里的重点是对分子发现有用的软件工具，从 Python 软件包到基于云的网络应用程序，不一而足。

自然语言模型

Transformer[93]作为目前应用最广泛的神经网络架构之一，其成功故事与HuggingFace自2019年起开发的Transformers库[101]的崛起密不可分。最初，Transformers专为自然语言处理（NLP）任务而设计，但很快便被跨学科领域广泛采用，例如计算机视觉[25]、强化学习[19][19]、蛋白质折叠[47]，当然也包括化学领域[84]。如今，HuggingFace已成为全球最大规模的语言模型公共资源平台，不仅提供了所有最新模型的实现版本，还汇聚了种类丰富的预训练模型，供用户进行微调或直接用于推理任务。尽管HuggingFace的大部分模型仍聚焦于NLP领域，但其中部分模型特别针对生命科学应用而开发，尤其是分子性质预测（如ChemBerta[20]）、分子描述生成（如MolT5[26]），以及基于文本的分子生成任务（同样以MolT5[26]为代表）。此外，HuggingFace还推出了多模态文本与化学T5[22]等模型——这是一种基于提示的多任务模型，除了上述功能外，还能执行其他相关任务，比如正向或逆向反应预测。

科学发现生成工具包——GT4SD

像GT4SD（科学发现生成工具包[57]）、TdC（治疗数据共享平台[43]）或DeepChem[73][73]这样的Python库，最初都是为分子发现应用而开发的，但其中尤其是GT4SD，对语言模型（LMs）提供了全面的支持。GT4SD旨在帮助研究人员和开发者轻松使用、训练、微调并分发面向科学领域的前沿生成模型，尤其专注于有机材料的设计。它与众多现有库兼容且可无缝对接，除了Transformer模型外，还支持扩散模型（Diffusers[96]）以及图生成模型（TorchDrug[106]）。此外，GT4SD还兼容Moses[69]和GuacaMol[16]等成熟的分子生成基准测试工具，这些工具涵盖了变分自编码器（VAEs）、生成对抗网络（GANs）、遗传算法，并提供多种针对分子设计的评估指标。同时，GT4SD也支持一些非常前沿的模型，例如用于同步序列回归及基于属性驱动分子设计的回归Transformer[10]，适用于高多样性候选分子生成的GFlowNets[6]，以及能够实现基序约束分子生成的MoLeR[60]。GT4SD自带统一的接口和一系列命令行工具，用户只需几行代码即可访问生成模型注册表，从而运行或训练任意模型。训练好的模型还可共享至云端托管的模型中心，且该库专为通过容器化或分布式计算系统轻松集成和使用而打造。截至目前，GT4SD已内置约50个针对小分子、蛋白质和晶体的属性预测端点，并累计支持约30种预训练的材料设计算法，同时提供20款免费的Web应用[2]以及大量Jupyter/Colab笔记本，方便用户快速上手和深入探索。

预测化学反应和确定合成路线的工具包——RNX for Chemistry

预测化学反应和确定合成路线是化学研究中的一项关键挑战。该领域最先进的技术是 IBM RXN 化学平台提供的 "rxn4chemistry "库。该工具将自然语言处理技术应用于化学领域，将化学反应视为序列转换问题，其中原子、分子和反应分别表示为字母、单词和句子。

分子转换器（Molecular Transformer, MT）是 rxn4chemistry 的核心架构，采用自回归encoder-decoder模型。该模型与其他许多模型的不同之处在于，它以数据为驱动，无需使用模板即可预测化学反应的结果，并能直接表示立体化学。这使它在区域和立体选择性反应中具有很高的性能，MT 的应用范围很广，从单步逆合成到酶促反应。

在有机化学自动化方面，RXN for Chemistry 还能探索可在机器人平台（如 IBM RoboRXN）上自动执行的合成方案。它代表了化学反应建模和合成协议自动化领域的创新进步。使用编码器-解码器转换器，可以从专利实验程序中提取化学合成动作，并直接从反应 SMILES 中进行预测。这些模型还可由机器人平台通过网络接口直接控制和监测。

RXN 化学平台可通过 rxn4chemistry Python 软件包访问，该软件包提供了一套丰富的语言模型rxn4chemistry Python 软件包。研究人员可以自由访问该软件包，并将其用于不同的化学反应任务。它可用于多步逆向合成分析计划等复杂任务，并包括不基于 Transformer 的模型。

特定的代码库

分子属性预测。HuggingMolecules 是一个专门用于聚合、标准化和分发分子属性预测语言模型的库[33]。它包含多种仅使用编码器的自回归语言模型，其中一些模型具备几何与结构感知的归纳偏置（例如，MAT[58] 或其后继模型 R-MAT[[59]]），而另一些则是纯粹基于 BERT 的模型，这些模型曾在 SMILES 数据上进行过训练（如 MolBERT[29] 或 ChemBERTA[20]）。
数据处理。RDKit[50] 是一个用于在 Python 中操作分子的库。对于更具体的应用，例如机器学习的数据准备，目前已有多种工具可供选择。其中，rxn-chemutils 是一个库，包含 RXN for Chemistry 的化学相关实用程序，包括 SMILES 标准化功能（如规范化和消毒）以及与其他表示法（如 InChI）的转换功能。）的转换功能，包括以下内容。它协调反应 SMILES 并为 CLM 的使用做好准备，还包括 SMILES 的扩展（如以非规范化顺序遍历分子图）和标记化。另一个具有类似功能的库是 pytoda。它也支持不同的语言（如 SELFIES 和 BigSMILES）和标记化方案（如 SMILES-PE）。蛋白质也有类似的功能，包括不同的语言（IUPAC、UniRep、Blosum62）和蛋白质序列扩展策略。对于小分子、蛋白质和聚合物，专用的语言类有助于与 LM 集成、存储词汇表、执行在线转换和输入自定义数据集。数据集可用于预测小分子、蛋白质和聚合物的分子特性、药物敏感性、蛋白质配体亲和性或自我监督。

通用平台

近期，多个面向分子发现的通用平台相继问世，其中一些平台甚至通过联邦学习（即采用去中心化、分布式训练的方式）来保护用户隐私。例如，MELLODDY[42] 是一项跨制药行业的协作项目，旨在对26亿个高度敏感的活性数据点进行联邦学习；而VirtualFlow[37]则是一个开源平台，可支持大规模虚拟筛选，并已被证实能有效识别出强效的KEAP1抑制剂。此外，专注于从头药物设计的Chemistry42[44] 是一款专有平台，它将人工智能与计算化学及药物化学技术深度融合。

分子发现的未来

直到几年前，利用人工智能模型进行科学知识提取和计算分析的想法还是一个雄心勃勃的梦想，就像想象搜索引擎的存在一样。科学思维的核心是推理能力，而人工智能以与人类相同的方式进行推理的那一天尚未到来。不过，人工智能可以学习和模仿人类行为：ChatGPT 和 GitHub Copilot 等大型语言模型就是在我们记录的大量数据基础上训练出来的。如果将其应用到计算科学领域，非专业人员也能通过精心设计的提示自信地进行计算分析。这一过程允许科学家为模型提供反馈并对其进行优化。这将使非科学背景的人更容易进行科学探索，因为他们无需专业培训就能进行科学分析。这一发展为分子发现领域的新革命打开了大门。未来，类似聊天机器人的界面将负责所有计算过程。这种界面将支持分子发现的整个过程，从设计构思开始，到合成规划、材料采购、定期安全检查和实验验证。

传统上，为特定任务专门训练的神经网络需要开发新的模型来应对新的任务。然而，最近在大规模语言建模方面取得的进展正在从根本上改变这种方法。现在，"基础模型 "通过在庞大的数据集上进行训练，已经能够执行多种任务。这为自然语言处理领域开辟了新的研究方向，如提示工程和语境学习。

化学领域也正在引入基础模型。结合自然语言和化学语言的特定任务模型正在开发中，而结合性质预测、反应预测和分子生成的多任务模型也正在出现。这些模型通过支持从自然文本到发现新分子、提出合成途径和执行实际合成协议的整个过程，显示出优于传统模型的性能。

这些进步极大地促进了科学探索和技术创新的加速。分子发现领域的未来进展也备受期待。

整合化学工具和聊天机器人

鉴于大语言模型的强大多功能性，围绕它们构建聊天机器人界面是一个自然的发展过程；许多类似的工具已经出现，如 ChatGPT。这些工具在简单的化学任务中表现出色，让化学家可以与化学数据交互，解决化学任务。此外，计算机科学家为药物发现和材料科学开发的模型也可通过大规模语言模型使用。这使得不具备使用这些人工智能模型所需的编程技能的专家也能轻松获得最新技术。

通过将聊天机器人与 PubChem、RDKit 和 GT4SD 等现有化学软件工具集成，可以为聊天机器人提供便利。这些应用可以提高这些模型的使用率，最大限度地发挥其潜力和价值。下图展示了使用本文构建的 ChemChat 聊天界面使用各种化学工具的示例。

搭载LLM技术的聊天机器人应用ChemChat的截图。通过整合PubChem[48]、RDKit[50]或GT4SD[57]等现有资源的功能，该助手能够在后台执行编程任务，从而无需用户具备编程技能，即可高效解答高度专业化的用户请求。

在这个例子中，用户首先提供了一个分子结构，并被要求识别该分子。用户输入的信息会被发送到大语言模型，如果认为 PubChem 等支持工具能够回答问题，聊天机器人就会向 PubChem API 发送请求，PubChem API 会返回分子的简要描述。然后会要求用户计算 logP 分布系数和类药物特性定量估计值 (QED)。这些性质的计算通过 GT4SD 工具完成，并由聊天机器人回答。

将现有工具与大规模语言模型相结合，可创建一个用于材料科学和数据可视化的聊天机器人助手，它可以执行简单的编程任务，而用户无需了解编程或访问计算资源。下图展示了用户提出更复杂问题后，对话的延续内容。
ChemChat连续对话示例
截图展示了由大模型驱动的聊天机器人ChemChat，其中包含通过GT4SD的回归Transformer[10]以及属性[28]和相似性计算[74, 86]展开的生成式任务对话延续内容。