作物改良中的综合生物技术与人工智能创新--文献精读160
Integrated biotechnological and AI innovations for crop improvement
作物改良中的综合生物技术与人工智能创新
摘要
作物为全球人口提供食物、衣物和其他重要产品。为了满足不断增长的人口需求,作物的产量、质量和生产可持续性需要大幅提升。然而,这些目标受到各种环境因素和有限的遗传资源的制约。克服这些限制需要在作物改良中进行范式转变,通过充分利用自然遗传多样性,结合基因组编辑、设计蛋白的异源表达等生物技术方法,并进行多模态数据整合。在这篇综述中,我们深入分析了基因组编辑、蛋白质设计、高通量表型分析和组学技术在作物改良中的集成应用,借助人工智能驱动的工具支持。我们讨论了这些技术在作物改良中的新兴应用及当前挑战。最后,我们提出了如何将通过这些技术生成的优良等位基因融入现有和新驯化作物基因组的前景,并辅以人工智能模型的建议。我们认为,将这些技术与农业实践相结合,将推动作物改良的新革命,以可持续的方式促进全球粮食安全。
技术进步加速了科学发现,并为长期存在的挑战提供了新的解决方案,例如确保全球粮食安全。世界人口的增长需要保障食品生产,但这一目标正受到气候极端(如高温、寒冷、干旱和洪水)、土壤盐碱、作物害虫和疾病以及有限遗传资源等挑战的日益威胁,而这些挑战发生在耕地人均面积下降的背景下。作物遗传改良旨在为应对这些挑战提供可持续的解决方案。
在过去的一个世纪里,新技术极大地加速了作物的遗传改良。20世纪20年代,杂交育种(交配两种基因上有区别的亲本)利用了杂种优势,也就是所谓的杂种 vigor,导致玉米产量显著增加。1960年代,传统育种引入了半矮化表型,改良了小麦和水稻等主要作物,推动了农业生产力的巨大增长,这被称为绿色革命。以此为基础,基因工程使得外源DNA及其相关特征可以导入植物中,推动了抗虫作物(例如Bt棉花)和抗除草剂作物的发展。这些进展减少了农药使用和杂草管理中的劳动需求,激发了一波农业创新。同时,发现技术如组学技术(例如基因组学、转录组学、蛋白质组学和代谢组学)——尤其是基因组学——生成了大量数据,并提供了对植物生物学的深入理解。这些见解揭示了植物生长、发育和应对压力的基本规律,从而大大加速了作物改良。新兴的单细胞组学现在提供了分子和细胞层面的信息,供深入理解植物生物学,为精确工程提供了新目标。基因组编辑技术现已广泛用于功能研究,使得优良性状能够迅速导入,同时实现作物的全新驯化——通过修改几个控制关键农艺性状的基因,实现野生植物到作物品种的快速转变。现在,正在出现的人工智能(AI)驱动技术正在赋能生物学,具有明确的作物改良应用。例如,AlphaFold 3预测高质量的蛋白质结构,使得许多植物蛋白的结构可以轻松获取。蛋白质设计,包括现有蛋白质的优化和新蛋白质的全新设计,已经发展到可以应用于作物改良(即设计蛋白质编码基因的工程)。此外,最近的进展展示了人工智能在解构复杂关系和进行组合优化方面的前所未有的能力,这将通过优化基因组组合加速育种过程。高通量表型分析(HTP)能够评估通过各种育种和工程技术生成的遗传变异和基因组组合,将基因型与表型联系起来,为作物改良提供宝贵的见解。
在本综述中,我们探讨了组学、基因组编辑、蛋白质设计和HTP技术的集成应用,重点关注它们对作物改良的共同贡献(见框1)。我们突出展示了人工智能在增强这些技术方面的作用,并促进它们在作物改良过程中融合应用。与任何新技术一样,这些技术也面临着挑战。我们讨论了关键技术限制、相关设备和专业要求以及潜在的社会问题。此外,我们还讨论了将基因组编辑与传统转基因方法区分开来的最新监管发展,这可能简化基因组编辑作物的审批流程。最后,我们提出了基于人工智能辅助的作物设计视角,认为将这些技术与人工智能整合将推动可持续作物改良的新革命。关于每项技术的最新进展,读者可参考其他详细的综述文献。
框1:通过集成新技术促进潜在作物改良
图中的每个面板列出了可以用来改进与所示植物部分相关的性状的技术。天然和诱变的遗传资源,通过组学和基因组编辑技术的支持,在植物生物学中广泛应用于挖掘优良等位基因。高通量表型技术对大多数性状具有重要价值,而蛋白质设计则在特定情况下尤为有用。a,使用设计的生物传感器实时监测植物代谢,可能促进产量的提高。b,为营养代谢物定制设计的生物传感器可能有助于作物质量的提升。c,开花时间对于种子作物至关重要,标志着植物从营养生长到生殖生长的过渡。精准调控开花时间对于作物适应当地环境和提高产量非常重要,同时操控植物繁殖力也有助于利用杂种优势。d,理想的地上部分植物形态对作物产量和抗病性具有重要意义。实现理想的根系形态可能成为改良作物的新途径,特别是在水分捕获、养分吸收和土壤病害防控方面。e,植物微生物组为抗旱、抗土壤盐碱和病害防控提供了新方案。针对重金属的生物传感器可以促进低污染土壤栽培品种的育种。淹水(如洪水)是另一种类型的非生物压力,一些基因(如水稻中的Sub1A)在提高抗淹水性方面非常重要。f,蛋白质设计与基因组编辑相结合,可以产生新的性状,如形态标志物,能够被机器识别以便实现除草。g,定制设计的R蛋白可能在应对新出现的作物病害时提供关键解决方案,特别是当自然R基因不可用时。h,气孔的开闭由保卫细胞控制,这对二氧化碳进入、光合作用、水分流失和病原入侵至关重要。在不同环境条件下,单细胞多组学对保卫细胞的研究可能为培育抗旱、抗病和高产作物提供知识。i,设计的蛋白质表现出极高的热稳定性,这可以用于增强作物的耐热性。j,利用促进有益植物-微生物互作的等位基因可以提升养分利用效率并减少化肥使用。作物与固氮细菌(结节)和丛枝菌根真菌的共生关系是养分获取的关键。P,磷。
组学技术
组学技术已被用于系统地表征基因组序列(基因组学)、基因表达(转录组学)、蛋白质组成和丰度(蛋白质组学)、代谢物谱(代谢组学)以及其他方面,如表观遗传学和分子相互作用。在本节中,我们重点介绍基因组学、代谢组学和单细胞多组学,作为植物生物学和作物改良中既有的和新兴的工具。关于作物改良中其他组学技术的详细内容,读者可以参考最新的综述文献 。
基因组学
高质量的基因组和泛基因组(物种的集体基因组)是作物遗传改良的关键资源 。20多年前,水稻基因组的测序标志着加速功能基因组学的一个里程碑,并确立了水稻作为模式谷物作物 。此后,技术进步,如PacBio高保真(HiFi)和Oxford Nanopore超长读取测序技术,以及AI辅助的基因组组装算法 推动了基因组学进入端到端(T2T)时代,使染色体序列能够无间隙地组装 。这些创新极大地提高了作物及其野生亲缘种群的高质量基因组和泛基因组的可用性 。与单一参考基因组不同,泛基因组捕捉到更多的遗传变异,并提供更多的育种标记,包括以前难以获取的结构变异(即大于50 bp的变异),这些变异代表了遗传多样性和表型变异的关键来源 。通过染色体工程所推动的结构变异的操作,以及单核苷酸多态性和小的插入和缺失,代表了作物改良中遗传多样性的全面利用(见框1)。有了高质量的基因组,其他策略如全基因组关联研究(GWAS)也得到了加速。通过GWAS,Alkaline Tolerance 1 (AT1) 基因编码一种保守的Gγ蛋白,已从已测序的高粱种群中克隆出来,AT1的敲除被证明能增强耐碱性 。这一性状已迅速被引入水稻、小麦、玉米和小米中,这在一定程度上得益于高质量的作物基因组和高效的基因组编辑技术 ,展示了我们在作物改良中快速转移知识的能力。
随着测序成本的快速下降,许多谷物、豆类、十字花科植物、马铃薯和番茄及其野生亲缘种群的大规模重测序自然和诱变种群已经可用 ,为育种和表型分析提供了广泛的遗传多样性。这些已测序的种群也有助于回答关键问题,如作物驯化路径 、与驯化和育种相关的遗传瓶颈 、杂种优势 和有害突变 。对1,035个小麦地方品种和栽培品种的重测序揭示了5个小麦的祖先群体,这些群体在现代小麦育种中很少被使用,从而为未来的育种计划确定了未被开发的遗传资源 。基因组学还促进了基因型-环境相互作用(决定表型的相互作用)、全新驯化以及基因组广泛编辑和选择作物设计的研究 。
基因组学对于研究作物相关微生物也非常重要,尤其是在操作微生物组的遗传多样性以促进育种 和病原控制方面。植物与土壤中的多种微生物、表面(如根部和叶片)和内部(例如内生菌)相互作用,研究这些相互作用得到了各种组学技术的支持,如扩增子测序和宏基因组学(环境微生物基因组学)。例如,来自沙漠和盐碱土等极端环境的土壤微生物被证明能够在不利条件下提供保护并促进植物生长。从沙漠植物根部分离出的五种细菌菌株已被证明能赋予番茄抗盐胁迫的能力 。微生物还能够增强小麦的抗旱性 、番茄的抗土壤病害能力 和玉米的氮利用效率 。现在,可以利用特定的植物等位基因进行育种,例如来自水稻的NRT1.1B和OsCERK1DY(微生物组调节基因M),以增强与有益微生物(包括细菌和丛枝菌根真菌)的关联 ,可能减少化肥的使用并增强病害抵抗力。在植物病原的背景下,组学对功能基因组学、快速诊断、流行病学以及识别新型控制策略的潜在靶点至关重要 。重要的是,定期对地理病原种群进行测序,并结合包含全套抗病基因的作物基因组数据,可以指导合理部署抗病基因,实现环保且持久的病害控制 。
在水稻和玉米的案例中,作物基因组学已达到了最高标准 ,并且测序成本已变得具有成本效益,但基因组注释仍需改进,以充分利用基因组编辑和精确调控设计蛋白质表达来推动作物改良。基因组注释涉及定义编码蛋白质的基因并识别各种功能元件,如启动子、顺式调控元件(CRE)和非编码RNA。挑战包括转录组和蛋白质组的时空异质性,以及一些基因-表型关系的复杂性。例如,TATA框在超过一半的水稻基因中未被识别 。通过将(单细胞)转录组学、蛋白质组学和代谢组学数据与改进的计算算法结合,基因组注释可以得到改进,这些算法迭代地使用RNA和蛋白质证据 。新兴的宏转录组学有望为作物相关微生物提供新的见解,并通过利用有益微生物促进作物改良——这些微生物被统称为“第二作物基因组”,其规模可能远大于宿主作物的基因组。
代谢组学
代谢组学通过识别和定量涉及植物生物学各方面的代谢物,对于理解植物发育、生物性和非生物性胁迫反应,以及改善我们食品的风味和营养特性至关重要 。例如,水稻等作物的代谢组图谱已被开发,为各种研究提供了丰富的资源 。与遗传标记类似,代谢标记物,如某种营养成分,已被应用于作物改良,并特别有价值于改善农业产品的风味、营养成分和作物的抗胁迫性。在使用代谢标记物时,代谢组学已与基因组学、转录组学和基因组编辑等其他工具结合。在风味和营养方面,代谢物GWAS(mGWAS)结合基因组重测序揭示了作物驯化和育种如何塑造代谢组。番茄驯化与选择涉及减少抗营养类固醇糖苷类的主要基因座 ,而色素水稻的代谢组学揭示了改善营养特性相关的代谢变化 。类似地,通过对尼古丁叶分析进行的高通量基因组学、转录组学和代谢组学分析,鉴定了与叶蝉抗性相关的关键信号分子——绿叶挥发物咖啡酰胺 。此外,通过多重基因组编辑精细调控水稻磷脂酰肌醇4,5-双磷酸水平,证明了无需牺牲产量即可实现对多种病原的抗性 。后一项研究突出了通过基因组编辑实现的精确代谢工程的价值。
尽管取得了这些成就,代谢组学仍面临一些挑战,如通量限制、建立自动化计算注释程序的困难和覆盖面有限,使其在作物改良中的应用不如基因组学普遍。然而,通过改进的代谢物分离技术、增强的质谱检测灵敏度 和基于深度学习的多维质谱数据注释和分析 等方式,这些局限性可以部分克服。虽然实现代谢物的高水平积累相对容易,但我们目前面临的问题是如何在不牺牲作物产量的情况下做到这一点 ,并且对代谢物功能和代谢网络的了解仍不完全 ,尤其是在组织和细胞层面。随着技术的不断进步,代谢组学预计将在提高作物质量方面发挥更大的作用。
单细胞和空间组学
单细胞和空间组学(在三维(3D)上下文中测量细胞事件)是革命性的工具,用于分析细胞分化、组织和器官发育、养分利用和应对胁迫的反应 。例如,通过单细胞转座酶可接入染色质测序(ATAC-seq)鉴定的CREs可以利用基因组编辑精确调控基因表达。在植物发育生物学中,各种组织的单细胞RNA测序提供了关键信息,如基因表达谱、启动子活性和参与发育过程的CREs,如芽和根的形成 。这些见解可以促进机制研究,并使通过操控细胞特定的CREs来进行精确育种和基因工程,进而实现理想的植物形态,包括理想的根系形态(见框1)。对于特定植物结构(如毛状根或油腺)的单细胞多组学分析为精确育种和工程代谢性状提供了巨大潜力。通过靶向专门在代谢合成细胞中发挥作用的基因和CREs,这些研究可以改善如茶叶、咖啡、水果和药用植物等作物的风味和活性代谢物含量,从而最大化其商业价值 。单细胞组学还促进了各种技术的新应用。例如,当与GWAS结合时,对玉米耳的单细胞转录组分析揭示了与特定细胞类型产量相关的基因,增加了GWAS驱动的作物改良的精确性。
除了作物性状外,单细胞和空间组学对探索有益和致病性植物-微生物相互作用也非常有价值,这些相互作用通常始于特定的细胞类型,并由早期的细胞事件决定(见框1)。在植物病原感染中,单细胞组学揭示了初级免疫应答细胞中的非经典免疫特征,并识别了参与抗细菌的未曾描述的植物转录因子 。类似地,通过单细胞和空间RNA测序,研究发现豆类-微生物共生中的表皮和皮层细胞在定殖过程中的阶段特异性基因表达模式,突显了植物黄酮合成酶基因在共生中的重要性 。这些见解不可能通过批量组织分析获得。这类组学研究对于增强营养利用中的有益相互作用和最小化致病性相互作用非常重要。例如,通过单细胞和空间组学鉴定的病原诱导启动子可用于基因工程,将免疫反应限制在初始感染部位,从而实现病害抗性,同时保持高产。
尽管具有变革潜力,植物单细胞组学仍面临技术挑战,如从复杂组织中高效分离单细胞、非模型植物中细胞类型特异性标记的有限可用性 以及高成本。目前,一些作物器官或组织,如根、玉米耳和棉花纤维,由于具有许多可用标记或较大的细胞大小,是单细胞组学的良好模型 。随着技术的进步和成本的降低,我们预见单细胞和空间组学将应用于其他更多样化的植物组织。诸如AI辅助的单细胞表观基因组学、蛋白质组学和代谢组学等新兴创新,极有可能推动植物生物学的进步 。与哺乳动物的单细胞组学已获得的广泛见解 相比,作物改良中的许多潜在靶点仍未被发现。总体而言,单细胞组学有望揭示作物的遗传构成,为通过基因组编辑等技术进行精确基因干预铺平道路。
基因组编辑
基因组编辑已成为农业中一项强大的工具,为修改作物基因组提供了精确高效的方法(见图1)。在过去十年中,植物基因组编辑技术已从CRISPR-Cas9扩展到包括碱基编辑、原始编辑和衍生系统。这些工具现在能够在许多植物物种中引入各种核苷酸替代、小的插入和缺失以及大的染色体重排,涉及核基因组和细胞器基因组。随着这些工具的准确性和效率不断提高,相关进展已在最近的综述中进行了总结。本文重点关注四个快速发展的关键领域:新生物功能的发现、精确染色体工程、基因表达的精细调控以及人工智能与基因组编辑的结合。
基因组编辑
a. 单基因编辑已导致多种理想作物性状的发展【20】。
b. 多重基因组编辑使得可以同时修改两个或更多的遗传位点,促进了多倍体育种的高效改良、多个性状的增强以及全新驯化的实现。
c. 基因组编辑方法,包括群体的广泛诱变和特定遗传位点的饱和诱变,可以生成在自然变异中缺失的具有有益功能的新等位基因【20】。
d. 精确的染色体工程正在成为一种强大的工具,用于基因叠加(插入基因盒)以及利用结构变异,包括大插入、缺失、倒位、重复、替换和易位【20】。
e. 通过启动子编辑调控转录和通过操控上游开放阅读框(uORF)调控翻译,精细调节基因表达【20】。
f. 正在开发AI驱动的工具,以预测不同基因组编辑系统的效率和特异性,并设计用于农业应用的新型基因组编辑酶【20】。
新生物功能的发现
新生物功能的发现与遗传多样性密切相关。然而,DNA复制的高保真性限制了这些变异的自然产生,使得大量的遗传序列领域尚未被探索。基因组编辑克服了这一限制,通过精确的诱变生成新等位基因【图1a,b】。例如,主要使用CRISPR-Cas系统开发的水稻、大豆和玉米等作物的大规模基因组编辑集合,促进了新基因功能的发现【82】【83】【84】【85】【86】。随着基因组编辑技术的进步,像双碱基编辑器(例如饱和靶向内源诱变编辑器)和原始编辑器等工具已经提高了技术能力,可以深入研究特定的遗传区域,从而发现新的特性目标,如抗除草剂特性,并获得新的生物学见解【87】【88】(图1c)。
新型基因组编辑技术促进了植物基因的系统性工程。然而,定向进化作为获取具有期望功能的变异的强大策略,在植物中尚未建立,部分原因是缺乏高通量表型分析技术(见“高通量表型分析”),这限制了基因组编辑工具的应用,使其主要应用于那些具有易观察表型的特性,如抗除草剂性。通过将新兴的基因组编辑工具与高通量表型技术结合,克服这些挑战将使得植物基因的定向进化成为可能,从而促进新生物功能的生成并推动作物改良的植物特定创新。
精确的染色体工程
组学技术的进展凸显了结构变异在植物遗传多样性、环境适应性、复杂性状形成以及驱动植物适应和驯化过程中的关键作用【30】【31】。结构变异对于作物育种至关重要,但使用传统基因组编辑方法操作时可能具有挑战性。然而,精确的染色体工程技术能够实现大规模的DNA插入、缺失、替换、倒位和易位,这些技术正变得越来越可用【89】【90】。
这些技术的一个关键应用是基因叠加。通过精确地将一个多基因盒插入特定的基因组位置,可以在单一世代中创建所需的性状(图1d),绕过传统转基因育种中需要的多代筛选和选择过程。通过这种方法,研究人员成功地开发了抗稻瘟病和富含胡萝卜素的水稻品系,通过将PigmR和胡萝卜素生物合成基因盒插入基因组的“安全港”——这些特定基因位点能够稳定表达基因,同时最小化对宿主基因组的干扰【91】【92】。基因叠加加速了育种过程,特别是在将与多个性状(如产量、质量和抗逆性)相关的基因组合时。
染色体工程的另一个重要应用是创造有益的结构变异。例如,基因重复已被用来赋予抗除草剂的能力【93】。类似地,在小麦中,mlo突变体表现出抗白粉病,但伴随着生长缺陷。通过多重基因组编辑生成304-kb的缺失,改变了染色质结构,促进了糖转运蛋白的表达,并保持了广谱抗病性【94】。染色体工程还通过修改不需要的染色体重排提高了植物育种效率。一些倒位抑制了同源染色体之间的重组,从而通过阻止减数分裂中的正常交叉作用降低了育种效率。通过修改这些倒位,研究人员可以调整遗传连锁群,优化基因交换频率【95】并稳定所需的性状。此外,优良等位基因有时与不利基因连锁,导致遗传连锁拖累。通过创建精确的染色体重排,这些连锁可以被打破,从而有效利用来自各种种质资源(包括野生物种)的优良等位基因,从而加速育种【96】。最后,开发能够生成染色体重排的基因组编辑工具为合成染色体的体内工程和重构提供了令人兴奋的前景,代表了现代作物育种的重大创新【90】。
精细调节基因表达
基因组编辑工具在精细调节植物基因表达方面非常有效,而无需引入外源基因【图1e】。通过使用多重导向RNA编辑启动子区域中的CREs,研究人员可以创建一系列等位基因启动子,导致不同的转录水平【20】【97】。上游开放阅读框(uORFs),位于许多真核生物mRNA的5′非翻译区,是重要的翻译调控CRE。利用基因组编辑工具工程化内源性uORFs,可以精确控制蛋白质的丰度【98】【99】。这些策略已经成功地产生了新的表达定量性状位点,并改进了作物种质资源,如具有不同果实大小的番茄【97】、增强维生素C含量的生菜【99】和糖含量增加的草莓【100】。此外,通过基因组编辑精细调节基因表达的多效性,有助于缓解水稻中的性状权衡,例如每穗粒数与分蘖数的平衡【101】以及抗病性与适应性的平衡【102】。这些成就突出了基因组编辑在优化基因转录和蛋白质翻译方面提升作物表现的变革潜力。
尽管以前的方法在精细调节基因表达方面已取得成功,它们主要侧重于改变基因表达水平,并且难以预测CRE工程所产生的表型结果。为了使这一方法更加有效,必须开发精确控制组织特异性和条件性基因表达的新技术。新兴技术,如单细胞组学和AI驱动分析,将对识别具有所需调控特性的CRE至关重要。此外,高通量筛选平台的发展将加速这些CRE的功能表征。CRISPR基础的植物基因组工程的进一步创新,包括大DNA片段的操控,正不断拓展遗传调控的边界。新的方法,如可编程的替代RNA剪接和翻译,用于精确控制蛋白质同工型和定位,以及三维基因组定位和细胞核重组,代表了植物基因调控的激动人心的前沿领域。
AI与基因组编辑
人工智能正在通过提高效率、特异性和蛋白质工程能力,快速推进基因组编辑【图1f】。它有助于评估CRISPR-Cas系统、碱基编辑器和原始编辑器的效率和特异性【103】【104】,并帮助分析CRISPR筛选的结果【105】。最近的突破,如AlphaFold 3和蛋白质语言模型【14】【106】大大推动了AI驱动的蛋白质工程用于基因组编辑。这些技术使得Cas9核酸酶和碱基编辑器得到了完善【106】【107】【108】。此外,各种基因组编辑酶,如紧凑型核酸酶、逆转录酶和重组酶,已通过主动学习框架得到了高效工程化【106】【107】。这些AI驱动的基因组编辑进展为作物改良提供了前所未有的机会。然而,仍然存在挑战【109】,包括可靠训练数据的缺乏、复杂的生物系统和深度学习模型的有限可解释性。为了解决这些挑战,有必要开发成本效益高的高通量测试系统,设计创新的模型架构,创建快速的微调方法,并探索可解释模型评估技术。
植物基因组编辑的第一个十年成就只是其在作物改良中广泛影响的开始。未来的进展将集中在提高通量和提升大DNA片段编辑效率(百万碱基以上)。随着AI的不断进步,蛋白质设计工具【110】和自动化平台,如CRISPR-GPT【111】预计将在定向作物改良中发挥变革性作用。除了技术改进外,对植物基因功能和调控机制的深入理解,以及体内定向进化技术的建立,将是充分实现这些创新潜力的关键。总之,将先进的基因组编辑工具与日益扩展的生物学知识结合,承诺将大大加速改良作物的发展。尽管基因组编辑通过利用自然资源大大增加了遗传多样性,但新兴技术如蛋白质设计有潜力创造出全新的资源。
蛋白质设计
AI驱动的蛋白质设计在许多生物工程领域已证明其强大作用。全新设计的蛋白质展现出高稳定性、模块化和可工程化性,使得能够进入进化未曾探索的适应性景观【112】。已证明设计的蛋白质在多个场景中有效,包括疫苗设计、抗体生成和其他医学应用【113】【114】【115】【116】。然而,尚未有太多努力将其应用扩展到作物改良中。植物在使用设计蛋白质方面提供了许多优势:(1)蛋白质可以在植物体内轻松表达;(2)植物通常不具免疫反应,因为植物缺乏适应性免疫;(3)可以直接进行低成本、高通量的筛选,而不像医学应用那样需要昂贵且费时的多系统功能验证,尽管植物应用必须遵守生物安全法规【117】;(4)可以直接选择表达设计蛋白质的作物品系,以优化性能,从而减少农业应用的开发成本。在图2中,我们列出了蛋白质设计在植物生物学和作物改良中的一些应用。它们包括设计各种结合蛋白、植物激素和代谢物的生物传感器以及跨膜孔,这些应用可能在未来五年内实现。酶设计,尽管是关键且具有挑战性的,现在变得可行【106】【118】。由于酶设计已经部分涵盖在“基因组编辑”中,本文未进一步讨论;最近的综述已经涉及了蛋白质结构预测和这些应用背后的设计技术【15】【17】【119】。
a, 具有高亲和力的设计结合蛋白可以被视为单域抗体(纳米抗体)。
b, 针对植物病原效应子设计的结合蛋白可用于替代含有核苷酸结合序列亮氨酸重复(NLR)蛋白的集成域,从而赋予抗病性。CC,螺旋结构。CC-NLR蛋白代表了植物R蛋白的大类。
c, 基因编码的生物传感器通常由一个目标结合域和一个报告(荧光;绿色或红色)域组成。IAA,植物激素吲哚乙酸;Cd2+,一种重金属污染物。
d, 一些病原体分泌毒素作为致病因子,而设计的结合蛋白可以中和这些毒素,从而减少病害的严重性【190】。
e, 用于植物营养代谢物(例如叶酸)的生物传感器设计,采用形状互补的伪环【129】。
f, 钠离子(Na+)和钾离子(K+)可透过的跨膜孔的计算设计可以促进植物离子通道的机制研究。
结合蛋白
近年来,通过AI驱动的程序(如RFdiffusion和AlphaProteo【116】【120】【121】),在生成针对具有结构信息的蛋白的全新结合蛋白方面取得了显著成功。针对肽段(即便是没有定义的二级结构,如内在无序蛋白)设计的全新结合蛋白也已取得成功【122】(图2a)。作物疾病、害虫以及衍生毒素(如小麦赤霉病菌产生的脱氧雪腐镰刀菌烯醇(DON))导致全球严重的经济损失,年估算约2200亿美元【4】。然而,疾病控制和毒素清除应用的成功有限。概念验证研究表明,经过工程化的抗病(R)蛋白与病毒蛋白的GFP标签结合,触发了强烈的免疫反应,从而有效控制了GFP标签病毒株【123】。然而,这些工程化的R蛋白未能识别自然病毒株,因此其应用受限。蛋白设计有望克服这些局限:我们设想设计的全新蛋白可以与植物病原效应子(病原体分泌的小蛋白,帮助感染和病害发展)及真菌毒素结合,以中和这些致病因子,从而实现疾病控制【图2b,c】。水稻稻瘟病真菌的效应子AvrPia和真菌毒素DON与其相互作用的蛋白的结构已被报道【124】【125】, 这为精确设计结合蛋白提供了便利【121】【126】。
生物传感器
生物传感器是植物生物学中用于检测和追踪小分子(如植物激素和代谢物)的有用工具。然而,由于技术挑战,植物生物传感器的研究仍有限,例如AuxSen(用于检测生长素)【127】和PAleon(用于磷脂酸的检测)【128】。最近的蛋白设计技术,如基于RoseTTAFold All-Atom和AlphaFold 2的幻觉设计,已在生成小分子配体结合蛋白和设计传感器方面取得了巨大进展【129】【130】【131】。针对多种配体的全新设计结合蛋白,其亲和力可达纳摩尔范围【129】。通过计算设计方法,可以创造用于不同植物代谢物的生物传感器,进一步提高配体结合蛋白的亲和力和特异性【图2d】。此外,用于营养和风味相关代谢物的生物传感器能够替代更昂贵的技术(如质谱),实现可视化检测,因此可以促进高通量表型分析(HTP)以提高作物质量【图2e】。借助最近开发的蛋白设计方法【110】【121】, 金属结合蛋白的设计将使得开发金属(如镉)生物传感器成为可能,有助于开发低镉含量的作物品种。
跨膜孔
离子通道在植物的生长、发育和环境胁迫反应中起着重要作用。例如,Na+和K+转运蛋白对抗旱胁迫反应至关重要【132】【133】。计算设计Na+和K+可透过的跨膜孔——即使它们未完全开闭——为这些通道的机制研究提供了独特的机会【134】【135】(图2f),从而有助于提高作物的抗逆性。在植物免疫中,植物R蛋白如ZAR1、WeiTsing和NRC4作为Ca2+可透过的通道执行其功能【136】【137】【138】【139】。进一步扩展纳米孔和跨膜β桶的设计【129】【140】,可以设想创造新的Ca2+可透过的跨膜孔【141】以增强作物的抗病性。
AI驱动的蛋白设计
AI驱动的蛋白设计是一个快速发展的领域,具有巨大的作物改良潜力,但也伴随挑战。一个主要挑战是植物蛋白的结构和生化知识有限。解决这一挑战的一种方法是优先选择具有结构知识的目标或具有高质量预测结构的高度保守目标。同时,随着全原子预测模型(如AlphaFold 3和ESM-AA【14】【142】)的快速发展,许多设计任务可以更好地定义并可能得以实现。当前蛋白设计的低成功率(通常低于1%)是由于现有算法尚不完善且植物蛋白网络复杂,可以通过AI驱动的蛋白设计算法【115】和有效的筛选方法部分克服。简单的快速结果,如烟草叶片坏死【143】可以用于快速的体内筛选新设计的R蛋白,这对进一步的全植物筛选非常有价值。综上所述,这些进展预计将使蛋白设计越来越适用于广泛的设计任务。
一个需要关注的关键领域是使用全新设计蛋白可能带来的生物安全问题。避免这一问题的一种方法是将设计蛋白限制为辅助相关研究的工具。例如,设计的代谢物生物传感器可以促进代谢物生物合成相关基因的高效克隆,随后这些克隆的基因可以用于传统育种。或者,如果设计的蛋白直接用于转基因育种,则应严格遵守蛋白设计社区、植物工程学会和相关监管机构制定的指南【117】和当地法规。最后,基因组编辑和合成生物学方法应用于通过使用应激和病原诱导的启动子、uORFs以及设计的基因电路和逻辑门【102】【144】【145】【146】来严格控制全新设计的蛋白的转录和翻译水平,从而最大限度地减少对转基因作物的担忧。
高通量表型分析
新技术能够以前所未有的数量获取自然遗传变异(见“组学”),同时也能创造新型的工程化变异(见“基因组编辑”和“蛋白质设计”)。这些技术的规模和范围要求使用高通量表型(HTP)方法,这些方法能够高效评估这些新变异。在此,我们突出展示了能够评估多种表型和参数的HTP技术【图3】,并使育种者能够高效选择优良基因型,从而加速作物改良。
高通量表型分析(HTP)
高通量表型分析(HTP)利用配备先进光学传感器的各种表型设备,结合计算机视觉和人工智能(AI),实现精确的多维作物表型分析。
a,作物育种中的多样化表型平台。卫星影像提供了成本效益高的田间调查方式,用于育种和田间管理【191】,而无人机则能灵活低成本地评估生物量、叶面积指数和植物高度【192】。配备传感器的无人地面车辆增强了田间表型分析,起重系统则提供比无人机更精确的成像。设施表型分析监测盆栽植物的整个生命周期,而种子表型分析则将粒重和种子大小等性状与产量潜力联系起来。根系表型分析曾经被忽视,但随着生物传感器技术的发展,现在正迅速推进,并将在作物改良中扮演重要角色。此外,显微结构表型分析将宏观性状与遗传学见解相结合,进一步提升育种策略的效果。
b,不同传感器捕获的图像类型。主要的图像类型包括二维和三维可见光图像、结构图像和光谱图像。前三种主要用于形态表型分析,捕捉外部特征和内部结构,而光谱成像则能进行无损代谢物和质量分析。
c,六个维度的表型分析:群体、单株植物、器官、组织、单细胞和代谢物。
非破坏性动态表型分析
非破坏性高通量表型分析,主要基于光学成像传感器,从简单的测量发展到多维时间戳的表型和环境信息,涵盖了从田间和田间小块到单个植物的尺度,甚至是显微和生理层面【18】。遥感卫星、无人机、无人地面车辆和起重系统被广泛应用于提供从田间到精细尺度的表型分析【图3a】。这些平台的高度可扩展性使得更多传感器的整合成为可能,包括超声传感器、红外相机和光谱仪,从而获得更深入的表型数据,如植物温度和光谱信息。利用这些技术,对全基因组测序的自然、诱变和基因组编辑作物种群的高通量表型分析【38】【84】【148】预计将生成大量有价值的数据,促进功能基因组学和作物改良。
根系系统对水分和养分的吸收至关重要,对于作物产量和抗逆性具有重要作用。根系表型分析通常涉及从土壤中挖掘根系【149】【150】,而大规模测量根系功能仍然具有挑战性。然而,基于图像的根系表型分析【图3a】已发展到可以为作物育种提供信息的程度。较少劳动密集的传感器方法正在兴起,能够实现根系的动态就地观察和土壤中根系的动态评估【151】。在控制环境中,高通量的地上部分和联合根系表型分析也提供了可靠的数据【152】,尤其是与植物激素或土壤污染物(如镉)设计生物传感器结合时(见“蛋白质设计”)。对9,000个玉米品种及其野生亲缘种群的根系表型分析已鉴定出ZmHb77基因,该基因参与侧根发育并赋予抗旱性【153】。根系表型技术将在功能研究和作物改良中建立理想根系结构方面发挥越来越重要的作用。
高效挖掘遗传变异
高通量表型分析与全基因组关联研究(GWAS)的结合是挖掘有用遗传变异的强大工具。首次GWAS研究探讨了水稻的14个农艺性状,建立了517个品种的高密度单倍型图谱【154】。此后,GWAS广泛应用,发现了作物中的众多基因与性状的关系【155】,包括水稻【156】、小麦【157】、玉米【155】、棉花【158】和番茄【159】。玉米的高通量表型分析提取了10,080个与旱灾相关的性状,并鉴定了1,529个定量性状位点和2,318个候选基因【155】。然而,获得所需的大量基因型和表型信息可能是劳动密集型且成本高昂的,且群体的遗传多样性也是成功开展GWAS的关键。低成本的基因组重测序结合更广泛的高通量表型分析将是加速多种作物GWAS的关键【18】。
基因组选择利用全基因组标记预测性状的基因组估计育种值,目的是从群体中选择最佳的等位基因组合。利用动态高通量表型数据,已经开发了预测小麦产量和玉米高度的改进模型【160】【161】。由于高误差和低效的表型估计仍然是基因组选择中的问题,提高高通量表型技术的规模和准确性对于改变育种技术至关重要【42】。非常高维的表型分析,如高光谱反射和近红外反射光谱,为定量性状提供了附加的预测能力【162】【163】。对于定量性状,表型选择可能与基因组选择一样好或更好【164】。
多模态表型分析
新型和改进的表型技术需要生物学家、计算机科学家、统计学家和工程师之间的合作。这种合作已经使得通过使用新型三维相机【165】、LiDAR(激光探测与测距技术)【166】和光场相机【167】,能够精确建模地上部分植物和冠层结构,为地上部分表型分析提供了至关重要的信息。与此同时,基于深度学习的三维重建算法减少了重建时间并提高了准确性【168】。有效整合这些技术能够增加生理评估的规模,从而实现对植物质量性状的精确评估。例如,LiDAR与多光谱数据的融合可以量化小麦的4D光合作用特性,用于胁迫检测、光利用效率评估和产量预测【169】。计算机断层扫描还提供了作物组织和器官的全面形态和几何参数【155】【170】。
组织和细胞层面的高分辨率表型分析可以将植物级别的宏观性状与潜在机制联系起来【171】。例如,营养胁迫下的根毛长度与养分利用效率相关,并作为一种简单的技术已用于育种【149】。先进技术如双光子显微镜【172】和光片荧光显微镜【173】可以实时、三维成像活体样本,而超分辨率显微镜揭示了细胞结构的细微之处【图3c】。结合单细胞组学和设计生物传感器,这些工具将提供前所未有的植物发育和应对胁迫的见解。
除了形态性状,生理性状表型分析对质量性状同样重要。拉曼光谱【174】、近红外光谱【175】、荧光光谱【176】和傅里叶变换红外光谱【177】通过独特的光谱特征建模代谢物,能够进行植物生物化学和生理性状的无损定量评估,从而促进作物产量和质量改良。例如,拉曼光谱通过测量光与物质相互作用产生的散射光谱,提供分子振动和旋转的信息,能够量化蛋白质、碳水化合物(如蔗糖)和次生代谢物(如风味分子),并检测作物的胁迫反应。类似地,近红外光谱已被用于作物的营养研究,如水稻和玉米【178】。太赫兹光谱成像由于其低能量、强穿透力和对水的高度敏感性,已广泛应用于作物质量评估【179】。此外,尽管质谱成像当前成本较高且样本制备复杂,但它已经使得植物代谢物的高精度现场成像成为可能【180】。
创新的高通量表型分析方法将继续利用传感器技术、平台开发和数据科学的进步,尽管某些设备和数据收集及分析所需的专业技术仍存在成本问题【181】。单独的单位和平台可能是专业化的,或具有有限的能力,但国家甚至全球分布的技术和平台(见补充表1)应被整合,以实现多尺度表型分析,此外,还要促进数据共享和再利用【182】。最近开发的AI驱动工具显著增强了自动化数据收集、整合和再利用能力,并有助于探索复杂的基因-环境-表型相互作用【183】。此外,基于AI的仿真和大型语言模型有望减少工作负担并优化设备设计,从而提高高通量表型分析的成本效益及其在作物改良中的应用。尽管需要长期的多地点田间试验来充分理解基因型-环境相互作用,这些技术进步已经扩展了高通量表型分析系统的潜力,并加速了作物改良。
AI辅助作物设计展望
作物的遗传改良依赖于将优良等位基因组装到优质基因组中。优良等位基因的挖掘和创造正通过上述四种技术加速。然而,将这些等位基因整合到复杂的作物基因组中仍然是一个巨大的挑战,因为基因-基因和基因型-环境之间的相互作用复杂。尽管传统育种方法在部分克服这些挑战方面取得了一定成功【184】, 但一套复杂的分子和计算工具正准备彻底改变这一过程。在传统育种中,具有重大效应的优良等位基因推动了作物的改良,但未来的进展可能会通过系统地利用具有微小效应的优良等位基因(即那些产量增加不到5%的等位基因)大大加速这一过程。通过最近在单细胞组学、精确基因组编辑和高通量表型分析中的进展,这一目标已变得可行。此外,蛋白质设计提供了创造超越自然进化的新性状的潜力,使其成为产生全新优良等位基因的强大工具。通过利用植物的进化遗传多样性和工程遗传多样性,育种者将获得新的机会,将这些遗传变异整合到作物基因组中,既可以使用传统的重组方法,也可以使用像基因组编辑这样的新技术,绕过减数分裂的限制。除了植物的遗传多样性,作物相关微生物提供了作物改良的另一种遗传多样性来源,可以通过“微生物组育种”——利用“第二作物基因组”进行育种【43】。这些进展共同承诺加速现有作物的改良,并加速全新作物类型的重新驯化和全新驯化。
AI辅助作物设计旨在理性地将优良等位基因整合到作物基因组中。由于生物学知识的扩展、强大的计算模型以及上述工具和资源的可用性,这一目标正变得越来越可行。植物的功能基因组研究和长期历史作物育种积累了大量数据,这些数据可以通过各种数据库(例如水稻数据库【185】)访问,为AI辅助作物设计奠定了生物学基础(框2),并可能促使合成植物的创建。由变革性的基础模型驱动的方法,如在其他领域建立的方法【186】【187】,正准备加速遗传改良,并可能使我们能够探索超越当前育种计划限制的适应性景观。通过利用组学和高通量表型分析等技术,跨物种和跨环境的多模态数据,AI模型可以指导育种,开发优良品种(框2)。针对作物育种的AI模型的开发兴趣日益增加【188】【189】。这些模型的成功依赖于大量、多样化和高质量数据集的可用性。此外,研究机构、育种公司和跨学科专家之间的合作对于生成高质量、标准化的数据集并为各种作物和性状要求优化算法至关重要。尽管初步工作可能优先考虑水稻等作物和如抗病性等定性性状,但这些方法可以在多个性状和物种中进行扩展。
这些先进技术的应用必须严格遵守监管要求。从监管角度来看,基因组编辑引入的点突变与传统的物理和化学诱变方法类似。因此,在中国、印度和美国等国家,基因组编辑的农业应用的监管相比转基因作物更加宽松,涵盖了不仅是点突变,还包括其他类型的遗传修改。即使在转基因作物仍然受到高度限制的地区,如欧洲和新西兰,基因组编辑植物育种创新的最新监管提案也激发了对这些快速发展的生物技术广泛采用的日益乐观的情绪。事实上,基因组编辑作物的监管批准和放松规定的增加,突显了全球对这些技术日益增长的兴趣。
总结
AI辅助的作物改良,借助现代技术的赋能,必须与可持续农业的最佳实践相结合,并符合监管要求,以最大化全球影响。这包括将育种目标与农业机械化和自动化对接,减少化学和能源输入,并与公众互动以建立对生物技术的信任。为了确保AI辅助作物设计的利益能够公平分配,特别是对于这些进展迫切需要的欠发达地区,全球在数据标准化、遗传资源共享和知识交流方面的合作至关重要。尽管实现这些目标并非易事,但我们很高兴能够通过将技术进步与适应性农业实践结合起来,为AI驱动的作物改良提供一条发展路线图。这些努力旨在确保全球粮食安全的长期可持续性。
框2:走向AI辅助作物设计
提出的AI模型在多模态数据的基础上进行训练(见图,底部面板)。基因型包括多组学数据和相关网络。表型包括作物产量、质量、抗逆性及其他农艺性状。环境包括非生物环境因素(如气候和土壤条件)和生物环境因素(如病原体、害虫、杂草和微生物组)。田间管理包括灌溉、施肥以及农药或除草剂的应用等措施。此外,AI模型还整合了农业领域的知识,如作物改良中使用的资源和技术。使用AI模型时,将目标作物或通过全新驯化开发的新底盘作物的多模态数据输入模型(见图,顶部面板)。与此同时,育种者与AI模型互动,设定适当的育种目标。AI模型随后生成一个全面的作物改良协议,按照特定需求的技术优先顺序执行。 (1) 传统育种,利用天然和诱变资源。诱变资源通过诱导诱变获得,包括物理诱变(例如使用X射线)和化学诱变(例如使用乙基甲烯磺酸盐)。 (2) 基因组编辑,引入靶向修改。 (3) 转基因方法,如插入嵌合基因或编码设计蛋白的基因。如果需要,将进行设计(AI模型)——构建(执行技术)——测试(表型分析)——学习(组学)的迭代循环,以进一步完善。其他技术,如双单倍体技术【200】、加速育种【201】和微生物组育种,也可以集成到作物设计过程中。