rxnfp 仓库介绍(https://rxn4chemistry.github.io/rxnfp)
rxnfp
(Reaction Fingerprint)是一个基于 Transformer 模型的化学反应指纹工具库,由 IBM 欧洲研究院与伯尔尼大学团队联合开发,核心用于从化学反应的文本表示(反应 SMILES)中提取 “反应级特征”,支持反应分类、产率预测、反应空间映射等化学信息学任务。相关研究成果发表于《Nature Machine Intelligence》等期刊,是化学 AI 领域的重要基础工具。
核心功能与特点
-
反应指纹生成:基于预训练的 BERT 模型(Transformer 架构),直接从 “反应 SMILES”(如
反应物.试剂>>产物
的字符串)中提取固定长度的向量(rxnfp 指纹),无需手动区分反应物 / 试剂、无需原子映射,适配任意类型的有机化学反应。- 指纹维度:默认 256 维(可通过模型微调调整);
- 核心优势:通过 “掩码语言建模” 预训练,自动学习反应中的键断裂 / 形成规律、试剂作用等 “化学语义”,远超传统结构型指纹(如 AP3)的表达能力。
-
支持的任务:
- 反应分类(如识别 Suzuki 偶联、Buchwald-Hartwig 胺化等反应类型);
- 反应产率预测(作为 Yield-BERT 模型的基础特征);
- 化学反应空间映射(结合 TMAP 降维实现反应聚类与相似性搜索)。
-
易用性:提供 Python 库(
rxnfp
)和预训练模型,可直接通过代码调用生成指纹,示例如下:from rxnfp.transformer_fingerprints import (RXNB