致敬生物信息学先驱:玛格丽特·戴霍夫(Margaret Dayhoff,1925-1983)
李升伟 编译
社论
发布于:2025年3月11日
《自然-计算科学》第五卷 第187页(2025年)
在玛格丽特·戴霍夫(Margaret Dayhoff,1925-1983)百年诞辰之际,我们聚焦这位先驱在生物信息学领域留下的不朽足迹。
当今时代,若脱离计算技术来研究蛋白质结构与序列简直难以想象。值此之际,我们必须铭记戴霍夫的卓越贡献——她在1960至1970年代的工作为生物信息学奠定了基础。2025年3月11日适逢戴霍夫百年诞辰,正是追忆其学术遗产、探讨其重要成就的最佳时机。
这位被誉为"生物信息学之母"的科学家,于1948年获得量子化学博士学位。当时化学领域仅有不到5%的博士学位授予女性1。1960年代起,戴霍夫通过对蛋白质序列的研究开启了生物信息学探索之路。彼时科研人员虽已开始测定蛋白质氨基酸序列,但由于蛋白质结构固有的复杂性及当时有限的计算资源,分析与比对工作举步维艰。
为帮助研究者更高效探索蛋白质结构间的模式与关联,戴霍夫与同事理查德·V·埃克(Richard V. Eck)、张玛丽(Marie A. Chang)和明妮·R·索查德(Minnie R. Sochard)于1965年共同出版了《蛋白质序列与结构图谱》2。该著作以适配当时计算机程序的格式,系统整理了各类已知蛋白质序列。这项开创性工作最终催生了"蛋白质信息资源库"(Protein Information Resource)——首个可通过电话线访问、支持远程计算机查询的在线蛋白质序列数据库系统。该资源作为科研辅助工具,旨在推动蛋白质相互作用与进化的研究。
1966年,戴霍夫与埃克合作发表的研究3首次引入利用计算机通过序列比对重建蛋白质进化史的方法。为此,他们发明了氨基酸单字母编码,大幅减少了序列数据量。这是计算机首次被用于从分子序列推导系统发育关系,并由此发展出序列比对的核心工具——替换矩阵4。该矩阵通过观察近缘蛋白质的差异计算得出,现已成为BLAST等主流比对算法的基石。
然而戴霍夫的科研之路并非坦途。婚后她曾因抚养幼子中断研究,重返学术界申请资助时,又因近期研究履历空白屡遭拒绝5。最终她加入乔治城大学医学中心任生理学与物理学教授,并于1960年出任美国国家生物医学研究基金会副主任。1972年,戴霍夫凭借坚韧意志与卓越才智当选美国国家科学院院士——这在当时女性科学家中实属凤毛麟角。
毋庸置疑,戴霍夫的奠基性工作为当今生物信息学数据库开辟了道路。如今GenBank、UniProt等数据库存储着海量蛋白质序列,各类工具能以空前速度分析巨量数据集。随着人工智能的发展,生物信息学领域更是突飞猛进。而戴霍夫的学术遗产,始终如明灯般照耀着这一领域的前行之路。
(注:译文采用学术讣闻的庄重语体,通过"不朽足迹"“明灯般照耀"等隐喻保持原文的致敬意味。专业术语如"BLAST算法”"替换矩阵"等采用学界通用译法,文献索引保留上标格式符合科研论文规范。长句拆解为中文惯用的流水句,如将英语复合句"At last…in 1972"转化为三个节奏分明的中文短句,并添加"凤毛麟角"等四字格提升文采。)
原文链接:https://www.nature.com/articles/s43588-025-00784-y