当前位置: 首页 > news >正文

解码生命语言:深度学习模型TranslationAI揭示RNA翻译新规则

RNA翻译是基因表达的核心环节,其精确调控依赖于翻译起始位点(TIS)和终止位点(TTS)的准确识别。传统方法依赖于简单的经验规则(如Kozak序列或最长开放阅读框ORF),但忽略了RNA结构、顺式调控元件等复杂因素,导致预测准确性有限。近年来,深度学习技术在生物学领域的应用为解决此类复杂问题提供了新思路。近日,《Nucleic Acids Research》发表了一项突破性研究——TranslationAI,一个基于深度学习的模型,能够直接从全长度mRNA序列预测翻译起始位点(TIS)和终止位点(TTS),并揭示了翻译调控的新规律!

 

图示摘要

TranslationAI的架构与训练

TranslationAI基于深度残差卷积神经网络构建,采用独热编码表示mRNA序列作为输入(图1A)。模型包含32层扩张卷积结构,能够处理长达2000 nt的侧翼序列,输出每个位置作为TIS、TTS或非翻译位点(NS)的概率(图1A,补充图S1)。训练数据集来自RefSeq注释的47,098个人类蛋白质编码转录本,其中70%用于训练,30%用于测试。模型通过优化分类交叉熵损失函数,结合Adam优化器进行训练,最终在测试集上实现了>99%的精确召回曲线下面积(PR-AUC)(图1B)。

 

图1:用于翻译预测的深度学习网络构建

模型性能与特征分析

TranslationAI在预测经典TIS/TTS时表现出色,其准确性随输入窗口增大而显著提升(图1B)。值得注意的是,长序列上下文(如2k nt)对预测至关重要,尤其是对于长转录本(图1C)。模型通过系统扰动实验揭示了其学习的关键特征:

  • 密码子身份:替换经典起始或终止密码子会显著降低预测分数(图1F)。

  • UTR序列:5'-UTR的扰动对TIS预测影响显著,而3'-UTR的扰动对TTS预测影响较小(图1G)。

  • 密码子偏好:高密码子适应指数(CAI)的 synonymous 突变提升预测分数,反之则降低(图1I)。

  • 三联体规则:单或双核苷酸缺失破坏阅读框,显著影响预测,而三核苷酸缺失影响较小(图1H)。

 

翻译终止的新调控机制

TranslationAI揭示了密码子使用在翻译终止中的重要作用。强终止位点上游倾向于富含C/G的密码子,且第三位碱基的C/G偏好尤为显著(图2D)。这种密码子偏好可能与进化选择有关,暗示着密码子使用在翻译终止中的未被充分认识的作用(图2D)。实验验证显示,在终止密码子上游引入C/G富集的 synonymous 突变可减少翻译通读,而A/U富集的突变则增加通读(图2F)。此外,核糖体分析数据支持弱TTS位点后存在更高的翻译泄漏(图2G)。

 

图2:TranslationAI预测特征的评估

非经典ORF的发现

TranslationAI成功预测了人类转录组中大量非经典ORF,包括上游ORF(uORF)、下游ORF(dORF)及lncRNA中的新ORF(图3A)。例如,模型在lncRNA中鉴定了3,794个潜在可翻译ORF,其中部分通过核糖体分析(Ribo-seq)和质谱(MS)验证(图3F, 3G)。值得注意的是,模型对经典TIS/TTS的预测准确性高于非经典位点(图3C),可能源于训练数据的偏差。

 

图3:人类转录组中非经典开放阅读框的鉴定

跨物种与病毒的适用性

TranslationAI在多种真核生物(如小鼠、斑马鱼、果蝇等)中表现出高预测准确性(图4A),且优于现有工具(如TITER和TIS-predictor)。此外,模型对依赖宿主翻译机制的病毒(如埃博拉病毒)的ORF预测效果良好(图4B),但对SARS-CoV-2等复杂基因组的预测准确性较低(图4C),可能与多顺反子结构有关。

 

图4:TranslationAI精确预测真核生物、原核生物和病毒翻译起始与终止位点

讨论与展望

TranslationAI通过深度学习框架揭示了RNA翻译的复杂调控规则,其成功依赖于对全长mRNA序列的全局分析。模型的局限性包括对非经典起始密码子(如非AUG)的预测不足,以及对组织特异性翻译调控的有限覆盖。未来可通过整合更多实验数据(如多组织Ribo-seq)进一步优化模型。

总之,TranslationAI不仅为翻译调控研究提供了高效工具,还通过其预测结果拓展了对翻译机制的理解,为基因注释和疾病相关变异研究开辟了新途径。

关注我们,获取更多前沿生物信息学研究成果!有什么想法可以在评论区评论,也可以私信获取原文PDF哦!

 

相关文章:

  • Quic如何实现udp可靠传输
  • 缓存的相关内容
  • 该如何了解联排半孔的使用规范?
  • FPGA: UltraScale+ bitslip实现(ISERDESE3)
  • 2025年长三角+山东省赛+ 认证杯二阶段资料助攻说明
  • 快速搭建一个electron-vite项目
  • 套路化编程:C# winform ListView 自定义排序
  • 学习笔记:黑马程序员JavaWeb开发教程(2025.4.4)
  • MySQL DBA数据运维管理经验分享:新手入门快速提升效率的新工具与技巧
  • NuGet程序包还原失败
  • 智能包装机控制终端技术方案:基于EFISH-SCB-RK3588/SAIL-RK3588的全场景国产化替代解析
  • Docker 安装 MySQL8
  • 【iOS】源码阅读(四)——isa与类关联的原理
  • Vue 学习随笔系列二十三 -- el-date-picker 组件
  • Inventor 转 STP 全攻略:软件操作与迪威模型在线转换推荐
  • 从零开始创建一个 Next.js 项目并实现一个 TodoList 示例
  • sap migo 保存增强点
  • 专项智能练习(加强题型)
  • 【图书推荐】几本人工智能实用性图书
  • C语言-指针数组和数组指针
  • 上海虹桥国际咖啡文化节开幕,推出茶咖文化特色街区、宝妈咖啡师培训
  • 中国进出口银行:1-4月投放制造业中长期贷款超1800亿元
  • 上海虹桥国际咖啡文化节周五开幕,来看Coffeewalk通关攻略
  • 费高云不再担任安徽省人民政府副省长
  • 横跨万里穿越百年,《受到召唤·敦煌》中张艺兴一人分饰两角
  • 李强会见巴西总统卢拉