当前位置: 首页 > news >正文

DTI综述(更新中)

Deep Learning for drug repurposing:methods,datasets,and applications

综述读完,觉得少了点东西,自己写个DTI综述

Databases(包括但不限于文章中的)

DATABASEDESCRIBE
BindingDB有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI)
KEGG(Kyoto Encylopedia of Genes and Genomes)集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集,
Pubchem化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
CCLE对抗癌药物有用
ChemDB提供了化学结构和分子性质,还预测了分子3D结构
CTD(Comparative Toxicogenomics Database)CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
DGIdb从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database
DrugBank将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合
DrugCentral提供了active chemical entities and dug mode of action
DTC(Drug Target Commons)DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications
DTP(Drug Target Profiler)DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息
GCLIDA包含DTI for G-protein-coupled receptors(GPCRs)
GtopDB包含已批准的药物和在调查中的化合物的定量生物活性数据
PathwayCommon包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物
PharmGKB包含临床以实和研究人员药物反应的遗传变异的综合数据
STITCH存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质
Supertarget用于分析DTI和药物副作用
BioSNAPDTI
HUMANDTI
TTD(Therapeutic Target Database)提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息
AOPEDF从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。

上述都是数据库,数据集还要自己造,或者看看别的论文的数据集开源没

数据集

datasetcontentssource
BindingDB药物序列,蛋白质序列,label(0/1)DrugBAN-github
BioSNAP药物序列,蛋白质序列,label(0/1)DrugBAN-github
HUMAN药物序列,蛋白质序列,label(0/1)DrugBAN-github

Representation Learning

Sequence-based

在这里插入图片描述

Drug representations(对于分子化合物).

(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号

(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。

© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.

此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

在这里插入图片描述

Target representations.

(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码

(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.

同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

Strodthoff等人提出了一种通用深度序列模型,该模型在未标记的蛋白质序列上进行了预训练,可以在下游分类任务上进行微调。然而,上面提到的蛋白质表示仅使用由 20 个不同的字符组成的蛋白质序列的特殊顺序提供的信息,而忽略了蛋白质的物理、化学和生物学特性。Rifaioglu等人提出了一种新的特征化方法,根据蛋白质序列的物理、化学和生物学特性,将蛋白质序列表示为数字矩阵。MDeePred与化合物类似,基于序列的表示方法没有考虑更多关于蛋白质三维结构的信息。

Network/graph-based representation learning

RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。

对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

模型

药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。

Modeldrugtarget(pr)architecturetaskyear
Gao et alMolecular graphAmino acid sequenceGCN,LSTM,two-way attention mechanismDTI2018
DeepAffintiySMILESProtein SPS(Structural property sequence)RNN,CNN,Attention MechanismDTA2019
GraphDTAMolecular graphProtein sequenceGCN,DNNDTA2019
DeepConv-DTIFingerprintProtein sequenceCNN,DNNDTI2019
MCPINNECFP&Mol2Vec&SMILESAmino acid sequence & ProtVecDNNCPI2019
Tsubaki et al.Molecular graphAmino acid sequenceGCN,CNN,attention mechanismCPI2019
TrimodelBiomedical knoledge graphs about drug and target-Knowledge Graph EmbeddingDTI2019
MOVE
MultiDTI
Rifaioglu et al.SMILESProtein sequence structural,evolutionary and physicochemical propertiesCNNDTA2020
MolTransSMILES->子结构序列Protein sequence ->子结构序列encoder: transformer ,fusion: CNNDTI2020
TransformerCPIMolecular graphProtein sequence(CONV1D+ GLU)Transformer encoder,transformer decoderCPI2020
Yang li et al.
DeepDTI
ImageMol
DrugBANMolecular graphProtein sequenceGCN,CNN,biattentionDTI2023
CLOOME

Drug encoder

MODELINPUT
GCNMolecular graph
Graph Transformer没找到
Transformer encodersequence(one-hot 向量,MolTrans)

Protein encoder

MODELINPUT
CNNProtein sequence
Protein BertProtein sequence
ESMProtein sequence

相关文章:

  • Eclipse Xtext 实现PLC ST 语言到C的转换
  • 【LeetCode字符串】--14.最长公共前缀
  • 小红书达人怎么对接,博主沟通流程汇总!
  • 切水果游戏开发1
  • 关于电路的输入阻抗与输出阻抗的理解
  • 面试算法32:有效的变位词
  • 【论文阅读】基于卷积神经的端到端无监督变形图像配准
  • SQLAlchemy学习-12.查询之 order_by 按desc 降序排序
  • 竞赛选题 深度学习YOLO安检管制物品识别与检测 - python opencv
  • STM32内部flash闪存的总结
  • 数字图像处理实验记录四(图像的空间域增强-平滑处理)
  • 云计算认证有哪些?认证考了有什么用?
  • 华为智选SF5,AITO问界的车怎么样
  • 使用Gitlab构建简单流水线CI/CD
  • 【数据结构】顺序表
  • 由Django-Session配置引发的反序列化安全问题
  • 留学教育咨询机构如何通过软文强势突围
  • langchain sql agent 案例
  • RUST持续学习 一点borrow问题的心得记录
  • GitHub-使用 Git工具 创建密钥id_rsa.pub
  • 上海:以税务支持鼓励探索更多的创新,助力企业出海
  • 奔驰一季度利润降四成,受美国加征关税影响放弃全年盈利展望
  • 美国参议院投票通过戴维·珀杜出任美国驻华大使
  • 深入贯彻中央八项规定精神学习教育中央指导组派驻地方和单位名单公布
  • 商务部:一季度我国服务贸易较快增长,进出口总额同比增8.7%
  • 央媒关注给保洁人员设休息室:让每一份踏实奋斗得到尊重呵护