B3clf: 最新的精准预测药物血脑屏障透过能力的开源app
B3clf 是一款集成重采样技术的机器学习框架,专为预测小分子的血脑屏障(BBB)渗透性设计,旨在解决中枢神经系统(CNS)药物研发中,实验测定 BBB 渗透性成本高、效率低,且现有模型受数据类别不平衡影响的核心问题,为药物筛选提供高效、可靠的计算工具。
paper:
https://doi.org/10.26434/chemrxiv-2025-xschc
软件地址:
https://github.com/theochem/B3clf
01 性能表现
B3clf 在预测小分子能否穿过血脑屏障方面表现出色。它基于包含 7407 个分子的数据集,通过严谨的验证和参数优化,构建的 24 种模型里,以 XGBoost 为基础的模型效果最好,在区分能穿过和不能穿过血脑屏障的分子上表现稳定,对能穿过的分子识别率达 92.75%,对不能穿过的识别率达 82.33%。
02 在线使用
该工具除了提供可供本地部署的代码外,还将模型部署到了huggingface,让实验人员也能轻易上手使用。
网页地址为:
https://huggingface.co/spaces/QCDevs/b3clf
① 准备好手头上要预测的小分子候选药物的结构文件(sdf文件)或SMILE文件。
sdf文件是存储一个或多个小分子三维结构信息的常见格式(如果想了解该格式文件的详细信息可以在评论区留言,如果需求很多的话,我会在近期专门出一期详解)。
SMILE文件中存储一个或多个候选小分子药物结构的SMILE式,存储为csv表格文件的格式(本例的文件名为sample_input_smiles.csv),形式如下:
② 我们以上述介绍的SMILE文件为例进行演示:
稍等片刻页面下方出现结果:
第一列的数据是小分子的SMILE式,第二列表示对应小分子透过血脑屏障的概率,最后一列数值只有0或1两个值(0表示该分子不能透过BBB,1表示可以透过)