nvMolKit:一套基于GPU加速的RDKit核心函数集
在过去的 15 至 20 年间,传统的化学信息学工具逐渐难以跟上现代分子发现的需求。这一趋势由三个相互关联的因素所推动:可合成化学空间的指数级增长、深度学习的崛起,以及基础模型(foundation models)的出现。随着化学领域中生成和共享的数据量不断增长,以及分子可合成性障碍的逐步消除,庞大的分子空间正变得越来越容易被基础模型的构建者所利用,从而推动药物发现中**生成式化学(generative chemistry)**的发展。
目前,化学信息学中最广泛使用的数据科学工具包 RDKit,提供了一整套稳健且全面的分子操作、分析与可视化函数,这些都是现代化学 AI 工作流中不可或缺的基础模块。尽管 RDKit 的实用性已被广泛认可,但随着数据规模和模型规模的不断扩大,其基于 CPU 的任务开始在高通量工作流中形成性能瓶颈。
为此,研究团队与 RDKit 开发者紧密合作,承担了一个具有挑战性的任务——将 RDKit 中在传统化学信息学与机器学习工作流中最关键的核心函数迁移至 GPU 平台并进一步加速。这一努力的成果便是 nvMolKit:一个独立的、GPU 加速的 RDKit 函数库,在五项关键任务中实现了 1 至 4 个数量级的性能提升,包括:
-
Morgan 指纹(Morgan Fingerprinting)
-
Tanimoto 相似度(Tanimoto Similarity)