RDKit | 深入探讨用于捕获立体化学特征的分子指纹
在分子描述符中捕获立体化学特征并非易事。传统的 QSAR 描述符通常基于二维结构,可能完全忽略立体化学差异,从而导致模型无法区分对映体。完全三维的方法(如 CoMFA 或 CoMSIA)虽然能够考虑立体化学信息,但依赖于可靠的构象生成与分子对齐,这一过程计算开销大,不适合规模庞大且结构多样的数据集。
一种更为实用且具可扩展性的方案是使用能够编码立体化学信息的二维分子指纹。不同类型的指纹对立体化学差异的敏感度各不相同,因此,选择合适的指纹类型对于构建稳健且可解释的建模体系至关重要。
实用比较:分子指纹能多好地捕获立体化学信息?
为了评估不同分子指纹在立体化学识别方面的表现,研究人员使用 RDKit 与 mapchiral 库,对 沙利度胺(thalidomide) 的 R 型和 S 型对映体进行了对比分析,生成了多种类型的分子指纹,包括:
-
Morgan (ECFP)(启用立体化学信息,半径分别为 1 和 2)
-
RDKit 指纹
-
MACCS 键集(MACCS keys)
-
Topological Torsion 指纹(参数
includeChirality=True
) -
MapChiral(MinHashed Atom-Pair Chiral)