当前位置: 首页 > news >正文

【AI4S】利用大语言模型 LLM 进行分子设计

利用大语言模型 LLM 进行分子设计

  • 1. 基于大语言模型的分子生成
  • 2. 语言模型驱动的分子结构修改
    • 2.1 代表性示例和分子指纹潜在空间
    • 2.2 基本提示性能和偏差评估
    • 2.3 引导生成和受控分子生成性能
  • 3. 总结
  • 参考资料

现代合成化学提供了广阔的设计空间,因此研究人员越来越多地寻求利用数据驱动和机器学习方法来探索这一领域。尽管生成式机器学习方法最近在计算分子设计方面展现出潜力,但其应用受到复杂训练过程的阻碍,并且常常无法生成有效且独特的分子。

在此背景下,预训练大型语言模型 (LLM) 作为分子设计的潜在工具应运而生。LLM 似乎能够根据通过自然语言提示提供的简单指令来创建和修改分子。
预训练大模型进行分子设计
本研究表明,Claude 3 Opus LLM 可以根据提示读取、编写和修改分子,生成有效且独特的分子比例高达 97%。通过在低维潜在空间中量化这些修改,研究人员系统地评估了模型在不同提示条件下的行为。值得注意的是,当被要求使用简单的自然语言提示操纵分子的电子结构时,该模型能够执行引导式分子生成。
使用 Claude API 进行分子修饰过程的母体 SMILES 生成过程
图 1. (a) 表示使用 Claude API 进行分子修饰过程的母体 SMILES 生成过程。(b) 表示 Claude API 工作流程以及如何获得唯一的(由 RDKit 验证的)SMILES。

1. 基于大语言模型的分子生成

作者利用包含约 130 万个小分子的 ZINC 数据库子集进行研究。

首先,采用基于计数的 Morgan 指纹策略对分子进行特征化,并使用主成分分析 (PCA) 生成三维潜在嵌入。然后,通过 K 均值聚类选择 64 个母体,并使用其规范 SMILES 表示进行分子修饰。

研究采用 Anthropic 的 Claude 3 Opus 模型,并使用 Anthropic Python SDK 与模型交互。通过设置 temperature = 0,确保模型始终倾向于最可能的输出。最大标记参数设置为 max_tokens=1024,以限制生成输出的长度。

研究设计了三种类型的提示:基本提示引导生成提示控制分子生成提示

  • 基本提示要求模型生成与给定分子相似或完全不同的新分子。
  • 引导生成提示进一步要求模型在生成分子时考虑电子结构,例如加入给电子基团或吸电子基团。
  • 控制分子生成提示则使用语言描述符来控制生成分子与母体分子的相似程度。

对于模型生成的候选 SMILES 字符串,作者使用 RDKit工具包进行验证。首先,通过 RDKit 的 Chem.MolFromSmiles 函数检查字符串是否代表有效的分子结构。然后,将有效的分子转换为规范形式,并去除重复项和未经修饰的母体分子。

结果表明,大语言模型可以有效地用于生成新的分子结构。通过调整提示的细节,可以控制生成分子的相似性和结构特征。

2. 语言模型驱动的分子结构修改

2.1 代表性示例和分子指纹潜在空间

首先使用一组代表性母体分子来测试不同的提示。研究发现,提示的措辞显着影响了生成分子的特性。例如,“细微”提示(例如,“生成与母体分子相似的分子”)产生了与母体分子具有高度结构相似性的子分子。相反,“粗略”提示(例如,“生成与母体分子完全不同的分子”)产生了结构差异更大的子分子。

为了量化这些变化,作者使用基于摩根指纹的潜在空间嵌入。该嵌入为每个分子生成一个三维坐标,捕获其结构特征。通过分析潜在空间中分子分布,研究者观察到不同的提示导致了化学空间中不同的探索轨迹

2.2 基本提示性能和偏差评估

为了系统地评估不同提示的影响,作者采用了三个指标:相似性、有效性比率和化学多样性。结果表明,“细微”提示通常会导致更高的相似性,而“粗略”提示会导致更大的化学多样性。

此外,作者还分析了每个提示中固有的偏差。他们发现,某些提示倾向于生成具有特定结构特征的分子,这表明 LLM 在学习过程中可能存在潜在的偏差

2.3 引导生成和受控分子生成性能

除了基本提示外,作者还探索了更具体的化学提示,例如指示 LLM 引入吸电子或供电子基团。结果表明,LLM 能够理解和响应这些指令,生成具有所需电子特性的分子

最后,作者研究了在受控相似性下生成分子的可能性。他们发现,通过在提示中使用特定的关键词(例如,“几乎相似”、“中等相似”和“略微相似”),他们可以控制生成分子与母体分子的相似程度。

3. 总结

这项研究证明了 LLM 在分子结构修改方面的潜力。通过利用自然语言处理的能力,LLM 为分子设计提供了一种强大而灵活的方法。随着 LLM 技术的不断发展,我们可以预期它们将在药物发现、材料科学和催化等各个领域发挥越来越重要的作用。

Bhattacharya D, Cassady H J, Hickner M A, et al. Large language models as molecular design engines[J]. Journal of Chemical Information and Modeling, 2024, 64(18): 7086-7096.

参考资料

  1. Large Language Models as Molecular Design Engines
  2. 利用大语言模型 LLM 进行分子设计
http://www.dtcms.com/a/469715.html

相关文章:

  • 零用贷网站如何做p2p网站建设公司排名
  • 从 Home Assistant 到 JetLinks:构建双层智能家居与社区管理平台实训全景
  • 什么是BUG,你对BUG的了解有多少?
  • 有哪些网站做任务有佣金手机活动网站模板
  • 阿里下场造“机器人”:从通义千问到具身智能,中国AI正走向“实体化”阶段
  • 盐城网站建设jsxmt公司网站域名管理
  • Cherry Studio 核心功能简介
  • 阿里巴巴国际站开店流程及费用网站建设与网络编辑综合实训课程指导手册pdf
  • 网站备案收费幕布用wordPress搭建图片库
  • Java版座位预约系统★共享自习室系统源码★学校/培训机构座位预约系统
  • 全网首发/Qt结合ffmpeg实现rist推拉流/可信赖的互联网流媒体协议/跨平台支持各个系统
  • leetcode二分查找(C++)
  • 生成对抗网络(Generative Adversarial Network,GAN)
  • 18-基于STM32的智能医嘱手环设计与实现
  • encodeURIComponent() 函数详解
  • 在JavaScript中,map方法使用指南
  • 手机网站好还是h5好找大学生做家教的网站
  • vue项目安装使用,npm、webpack版本问题注意
  • Arbess从入门到实战(12) - 使用Arbess+Gitee+SonarQube实现Node.js项目自动化构建部署
  • 旅游网站模板 手机网站构建
  • 单遍聚类:实时数据流聚类解决方案
  • 使用TimeSformer进行模型训练(mvp验证)
  • MES系统业务流程全面解析
  • ASE03-树叶随风晃动-02收尾
  • 有哪些网站可以免费做外销用自己电脑建网站
  • 【算法】1019.链表中的下一个更大节点--通俗讲解
  • 福州seo建站互联网营销师考试题库
  • Flutter中的动效实现方式
  • Agent 的感知-决策-行动循环实现
  • Azure托管标识完整指南:安全无密码的云身份验证