[论文阅读] 人工智能 + 软件工程 | 英国研究软件追踪:为何大量代码成了“失踪人口”?
英国研究软件追踪:为何大量代码成了“失踪人口”?
论文:Tracking research software outputs in the UK
arXiv:2507.22871
Tracking research software outputs in the UK
Domhnall Carlin, Austen Rainer
Subjects: Software Engineering (cs.SE); Digital Libraries (cs.DL)
研究背景:科研软件的“身份危机”
想象一下,你花了几年时间研发出一款能精准模拟气候变化的软件,用它得出了突破性结论并发表了论文。可当其他研究者想复现你的成果时,却找不到这款软件的踪迹——要么是链接失效,要么根本没公开。这就像厨师公布了食谱,却藏起了关键调料,别人永远做不出同款味道。
在科研领域,这样的“软件失踪案”比比皆是。随着开放科学的发展,数据、代码等研究成果的可获取性越来越重要,但实际情况却很棘手:
- 身份不被认可:科研软件明明是研究的核心工具,却常被当作“配角”,没被正式登记为研究成果
- 踪迹难寻:就算公开了,45%的软件链接不是失效就是错误,四分之一的软件甚至连链接都没有
- 维护困境:研究者更愿意发表新论文,而非维护旧软件——毕竟维护软件的学术回报远不如发文章
就像图书馆里的珍贵书籍没有目录,还时常被弄丢,科研软件的“失踪”正在阻碍科学的进步。
主要作者及单位信息
- Domhnall Carlin:英国贝尔法斯特女王大学安全信息技术中心
- Austen Rainer:英国贝尔法斯特女王大学电子、电气工程与计算机科学学院
创新点:给科研软件“上户口”
这篇论文最亮眼的地方,在于它不像以往研究那样盯着论文里的软件链接,而是直接查起了“官方户口”——英国研究与创新署(UKRI)的“研究网关”(GtR)数据库。
打个比方,以前的研究像是在朋友圈找线索,而这次是直接查民政局的登记记录。这种视角的转变,让我们第一次系统看清了英国公立科研机构的软件“家底”。
研究方法:给软件做“人口普查”
研究团队的方法其实很像给科研软件做了一次彻底的“人口普查”,步骤清晰明了:
- 数据来源:两次查询GtR数据库(2023年8月和2025年2月),收集所有登记为“研究成果”的软件信息
- 链接检查:
- 第一步:看看软件有没有提供链接
- 第二步:用Python工具测试链接是否有效(比如会不会出现404错误)
- 分类整理:给有效链接贴标签(比如是GitHub这类商业平台,还是Zenodo这类学术仓库),少数特殊情况手动分类
- 时间对比:对比2023年和2025年的数据,看看变化趋势
就像先统计有多少人,再检查身份证是否有效,最后看看大家住在哪个社区——整个过程逻辑清晰,结果扎实。
主要贡献:揭开软件“失踪”的真相
这项研究就像给科研软件领域拍了张X光片,让几个关键问题浮出水面:
- 数量太少:在GtR的百万级研究成果中,软件只占0.85%,简直是“少数民族”
- 分布不均:超过一半的软件来自12所顶尖大学(全是罗素集团成员),资源集中明显
- 托管偏好:GitHub是最大赢家,托管了18%的公开科研软件;Zenodo作为学术仓库代表,也占了不小份额
- 进步有限:虽然2025年比2023年的软件数量增长了24%,但链接失效等问题依然严重
这些发现的价值在于:它不是空谈理论,而是用硬数据指出了问题——如果科研软件继续这样“失踪”,未来的研究者可能要重复造轮子,甚至无法验证前人成果,整个科学进程都会变慢。
- 一段话总结:
本研究聚焦英国学术机构的研究软件成果追踪,通过分析英国研究与创新署(UKRI)的“研究网关”(GtR)元数据,发现英国公共资助研究中软件作为研究成果的报告数量占比低,且** artifact共享程度低**——四分之一的报告软件无链接,45%的URL缺失或错误;在有效URL中,公共商业代码仓库是最大类别,GitHub托管了18%的相关软件。与2023年数据对比后,研究探讨了英国研究中artifact共享不足的问题,及其对研究软件维护和演进的影响,指出若不传播,研究软件可能沦为短暂产物,仅满足短期需求而无法为更广泛的科学事业所用。
- 思维导图:
- 详细总结:
一、研究概述
- 研究主题:追踪英国的研究软件成果,探究英国学术机构对作为独特研究成果的软件的存储和注册情况。
- 研究意义:研究软件在研究过程中至关重要,开放科学的发展使得研究artifact(如数据和代码)的获取及可追溯性面临挑战,明确研究代码等应被视为研究过程的artifact,但实现方式存在差异。
二、研究方法
- 数据来源:采用英国研究与创新署(UKRI)的“研究网关”(GtR)元数据,该数据包含2006年以来所有公共资助的研究成果,分别于2023年8月和2025年2月查询其中列为研究成果的软件,生成快照CSV文件作为分析基础。
- URL分析:
- 首先检查URL是否存在,不存在则标记为“缺失”。
- 对存在的URL,使用Python Requests库测试其有效性,记录HTTP响应状态码,对返回错误的URL检索域名注册过期日期。
- URL分类:基于早期工作确定的关键词,将URL分为预先确定的类别,约200个URL需手动分类,必要时创建新类别。
三、研究结果
- 元数据情况:
- 169个组织提交了软件,平均每个机构53.14个,其中44个(26%)超过该平均值;超过50%的软件成果来自排名前12的机构,且均为罗素集团大学。
- 2597名首席研究员(PI)至少贡献了一个软件,最多的达144个,平均3.33个。
- URL分析结果:
- 在GtR的1,056,247项成果中,软件类有8988项,占0.85%。
- 其中2327项(25.89%)缺失URL,6661项包含URL;在包含URL的条目中,4974项(74.67%)HTTP响应状态码为20*(成功解析)。
- 非2**响应中,404错误(未找到)占比8.56%,403错误(禁止访问)占比4.43%。
- 具体HTTP状态响应分布如下表:
HTTP状态 | 数量 | 占比 |
---|---|---|
2** | 4974 | 74.67% |
4** | 956 | 14.35% |
5** | 21 | 0.32% |
ConnectionError | 384 | 5.76% |
ReadTimeoutError | 17 | 0.26% |
TooManyRedirectsError | 309 | 4.64% |
总计 | 6661 | 100.00% |
- URL分类结果:
- 有效URL中,公共商业代码仓库和公共非商业档案仓库这两个最大类别占比57%。
- GitHub占公共商业代码仓库的91.45%,占所有提供URL的24.32%,占有效URL的31.81%;Zenodo占公共非商业档案仓库的90.7%,占所有有效URL的21.17%。
- 错误URL情况:401个错误URL去重后剩191个,仅2个域名注册过期,44个当前有效,145个无记录或过期日期;309个URL出现TooManyRedirectsError。
- 时间变化:与2023年7月数据相比,2025年软件成果数量增加1756个(24.28%),提供的URL数量增加1492个(28.86%),有效URL数量增加1031个(26.13%);有URL的软件成果占比从71.47%升至74.11%,有效URL占比从54.56%升至55.37%。
四、讨论与未来工作
- 讨论:
- 无法被找到的研究软件难以重用、维护和演进,当前软件作为研究成果的报告数量占比低,近一半无有效URL,违背开放科学基本原则。
- 研究软件与出版物难以可靠关联,隐藏了其价值,限制了重用,影响研究结果的可重复性。
- 不共享软件会增加其过时、损坏和技术债务的风险,且缺乏学术激励和资金支持,导致软件更注重短期需求。
- 未正确链接或定期维护的开源研究软件可能面临供应链攻击风险。
- 未来工作:研究各类别随时间的增减及趋势;扩展数据集,研究其他地区(如美国、欧盟、澳大利亚)的类似趋势,以建立更广泛的证据基础。
- 关键问题:
- 问题1:英国公共资助研究中,软件作为研究成果的报告情况如何?其URL的整体状况怎样?
答案:在英国公共资助研究中,软件作为研究成果的报告数量占比低,在GtR的1,056,247项成果中仅占0.85%(8988项)。URL方面,25.89%的软件条目缺失URL;在有URL的6661项中,74.67%可成功解析(HTTP 20*状态码),8.56%为404错误,4.43%为403错误。 - 问题2:英国研究软件主要存储在哪些类型的平台?各平台的占比情况如何?
答案:英国研究软件的有效URL中,公共商业代码仓库和公共非商业档案仓库是主要存储平台,共占57%。其中,GitHub作为公共商业代码仓库的主要宿主,占所有提供URL的24.32%、有效URL的31.81%;Zenodo作为公共非商业档案仓库的主要代表,占所有有效URL的21.17%。 - 问题3:与2023年相比,2025年英国研究软件的相关数据有何变化?这些变化反映了什么?
答案:与2023年7月相比,2025年英国研究软件成果数量增加24.28%,提供的URL数量增加28.86%,有效URL数量增加26.13%;有URL的软件成果占比从71.47%升至74.11%,有效URL占比从54.56%升至55.37%。这些变化反映出英国研究软件的共享情况有一定改善,但整体仍有较大提升空间。
总结:软件不只是工具,更是遗产
这篇论文通过分析英国公立科研软件的登记情况,揭示了一个严峻现实:大量科研软件要么没被登记,要么登记了却难以访问。
核心成果可以概括为三点:
- 科研软件的“能见度”极低,链接问题普遍存在
- 商业平台(如GitHub)成了主要托管地, institutional repositories(机构仓库)存在感弱
- 虽然有进步,但距离“开放科学”的理想还差得远
就像考古学家发现了一批被遗忘的文物,这项研究提醒我们:科研软件不只是完成研究的工具,更应该是留给后人的科学遗产。如果现在不重视它们的保存和共享,未来可能会付出巨大的重复劳动成本。