当前位置: 首页 > news >正文

[论文阅读] 人工智能 + 软件工程 | 英国研究软件追踪:为何大量代码成了“失踪人口”?

英国研究软件追踪:为何大量代码成了“失踪人口”?

论文:Tracking research software outputs in the UK

arXiv:2507.22871
Tracking research software outputs in the UK
Domhnall Carlin, Austen Rainer
Subjects: Software Engineering (cs.SE); Digital Libraries (cs.DL)

研究背景:科研软件的“身份危机”

想象一下,你花了几年时间研发出一款能精准模拟气候变化的软件,用它得出了突破性结论并发表了论文。可当其他研究者想复现你的成果时,却找不到这款软件的踪迹——要么是链接失效,要么根本没公开。这就像厨师公布了食谱,却藏起了关键调料,别人永远做不出同款味道。

在科研领域,这样的“软件失踪案”比比皆是。随着开放科学的发展,数据、代码等研究成果的可获取性越来越重要,但实际情况却很棘手:

  • 身份不被认可:科研软件明明是研究的核心工具,却常被当作“配角”,没被正式登记为研究成果
  • 踪迹难寻:就算公开了,45%的软件链接不是失效就是错误,四分之一的软件甚至连链接都没有
  • 维护困境:研究者更愿意发表新论文,而非维护旧软件——毕竟维护软件的学术回报远不如发文章

就像图书馆里的珍贵书籍没有目录,还时常被弄丢,科研软件的“失踪”正在阻碍科学的进步。

主要作者及单位信息

  • Domhnall Carlin:英国贝尔法斯特女王大学安全信息技术中心
  • Austen Rainer:英国贝尔法斯特女王大学电子、电气工程与计算机科学学院

创新点:给科研软件“上户口”

这篇论文最亮眼的地方,在于它不像以往研究那样盯着论文里的软件链接,而是直接查起了“官方户口”——英国研究与创新署(UKRI)的“研究网关”(GtR)数据库。

打个比方,以前的研究像是在朋友圈找线索,而这次是直接查民政局的登记记录。这种视角的转变,让我们第一次系统看清了英国公立科研机构的软件“家底”。

研究方法:给软件做“人口普查”

研究团队的方法其实很像给科研软件做了一次彻底的“人口普查”,步骤清晰明了:

  1. 数据来源:两次查询GtR数据库(2023年8月和2025年2月),收集所有登记为“研究成果”的软件信息
  2. 链接检查
    • 第一步:看看软件有没有提供链接
    • 第二步:用Python工具测试链接是否有效(比如会不会出现404错误)
  3. 分类整理:给有效链接贴标签(比如是GitHub这类商业平台,还是Zenodo这类学术仓库),少数特殊情况手动分类
  4. 时间对比:对比2023年和2025年的数据,看看变化趋势

就像先统计有多少人,再检查身份证是否有效,最后看看大家住在哪个社区——整个过程逻辑清晰,结果扎实。

主要贡献:揭开软件“失踪”的真相

这项研究就像给科研软件领域拍了张X光片,让几个关键问题浮出水面:

  1. 数量太少:在GtR的百万级研究成果中,软件只占0.85%,简直是“少数民族”
  2. 分布不均:超过一半的软件来自12所顶尖大学(全是罗素集团成员),资源集中明显
  3. 托管偏好:GitHub是最大赢家,托管了18%的公开科研软件;Zenodo作为学术仓库代表,也占了不小份额
  4. 进步有限:虽然2025年比2023年的软件数量增长了24%,但链接失效等问题依然严重

这些发现的价值在于:它不是空谈理论,而是用硬数据指出了问题——如果科研软件继续这样“失踪”,未来的研究者可能要重复造轮子,甚至无法验证前人成果,整个科学进程都会变慢。
在这里插入图片描述

  1. 一段话总结:
    本研究聚焦英国学术机构的研究软件成果追踪,通过分析英国研究与创新署(UKRI)的“研究网关”(GtR)元数据,发现英国公共资助研究中软件作为研究成果的报告数量占比低,且** artifact共享程度低**——四分之一的报告软件无链接,45%的URL缺失或错误;在有效URL中,公共商业代码仓库是最大类别,GitHub托管了18%的相关软件。与2023年数据对比后,研究探讨了英国研究中artifact共享不足的问题,及其对研究软件维护和演进的影响,指出若不传播,研究软件可能沦为短暂产物,仅满足短期需求而无法为更广泛的科学事业所用。

  1. 思维导图:
    在这里插入图片描述

  1. 详细总结:

一、研究概述

  • 研究主题:追踪英国的研究软件成果,探究英国学术机构对作为独特研究成果的软件的存储和注册情况。
  • 研究意义:研究软件在研究过程中至关重要,开放科学的发展使得研究artifact(如数据和代码)的获取及可追溯性面临挑战,明确研究代码等应被视为研究过程的artifact,但实现方式存在差异。

二、研究方法

  • 数据来源:采用英国研究与创新署(UKRI)的“研究网关”(GtR)元数据,该数据包含2006年以来所有公共资助的研究成果,分别于2023年8月和2025年2月查询其中列为研究成果的软件,生成快照CSV文件作为分析基础。
  • URL分析
    • 首先检查URL是否存在,不存在则标记为“缺失”。
    • 对存在的URL,使用Python Requests库测试其有效性,记录HTTP响应状态码,对返回错误的URL检索域名注册过期日期。
  • URL分类:基于早期工作确定的关键词,将URL分为预先确定的类别,约200个URL需手动分类,必要时创建新类别。

三、研究结果

  • 元数据情况
    • 169个组织提交了软件,平均每个机构53.14个,其中44个(26%)超过该平均值;超过50%的软件成果来自排名前12的机构,且均为罗素集团大学。
    • 2597名首席研究员(PI)至少贡献了一个软件,最多的达144个,平均3.33个。
  • URL分析结果
    • 在GtR的1,056,247项成果中,软件类有8988项,占0.85%。
    • 其中2327项(25.89%)缺失URL,6661项包含URL;在包含URL的条目中,4974项(74.67%)HTTP响应状态码为20*(成功解析)。
    • 非2**响应中,404错误(未找到)占比8.56%,403错误(禁止访问)占比4.43%。
    • 具体HTTP状态响应分布如下表:
HTTP状态数量占比
2**497474.67%
4**95614.35%
5**210.32%
ConnectionError3845.76%
ReadTimeoutError170.26%
TooManyRedirectsError3094.64%
总计6661100.00%
  • URL分类结果
    • 有效URL中,公共商业代码仓库和公共非商业档案仓库这两个最大类别占比57%。
    • GitHub占公共商业代码仓库的91.45%,占所有提供URL的24.32%,占有效URL的31.81%;Zenodo占公共非商业档案仓库的90.7%,占所有有效URL的21.17%。
  • 错误URL情况:401个错误URL去重后剩191个,仅2个域名注册过期,44个当前有效,145个无记录或过期日期;309个URL出现TooManyRedirectsError。
  • 时间变化:与2023年7月数据相比,2025年软件成果数量增加1756个(24.28%),提供的URL数量增加1492个(28.86%),有效URL数量增加1031个(26.13%);有URL的软件成果占比从71.47%升至74.11%,有效URL占比从54.56%升至55.37%。

四、讨论与未来工作

  • 讨论
    • 无法被找到的研究软件难以重用、维护和演进,当前软件作为研究成果的报告数量占比低,近一半无有效URL,违背开放科学基本原则。
    • 研究软件与出版物难以可靠关联,隐藏了其价值,限制了重用,影响研究结果的可重复性。
    • 不共享软件会增加其过时、损坏和技术债务的风险,且缺乏学术激励和资金支持,导致软件更注重短期需求。
    • 未正确链接或定期维护的开源研究软件可能面临供应链攻击风险。
  • 未来工作:研究各类别随时间的增减及趋势;扩展数据集,研究其他地区(如美国、欧盟、澳大利亚)的类似趋势,以建立更广泛的证据基础。

  1. 关键问题:
  • 问题1:英国公共资助研究中,软件作为研究成果的报告情况如何?其URL的整体状况怎样?
    答案:在英国公共资助研究中,软件作为研究成果的报告数量占比低,在GtR的1,056,247项成果中仅占0.85%(8988项)。URL方面,25.89%的软件条目缺失URL;在有URL的6661项中,74.67%可成功解析(HTTP 20*状态码),8.56%为404错误,4.43%为403错误。
  • 问题2:英国研究软件主要存储在哪些类型的平台?各平台的占比情况如何?
    答案:英国研究软件的有效URL中,公共商业代码仓库和公共非商业档案仓库是主要存储平台,共占57%。其中,GitHub作为公共商业代码仓库的主要宿主,占所有提供URL的24.32%、有效URL的31.81%;Zenodo作为公共非商业档案仓库的主要代表,占所有有效URL的21.17%。
  • 问题3:与2023年相比,2025年英国研究软件的相关数据有何变化?这些变化反映了什么?
    答案:与2023年7月相比,2025年英国研究软件成果数量增加24.28%,提供的URL数量增加28.86%,有效URL数量增加26.13%;有URL的软件成果占比从71.47%升至74.11%,有效URL占比从54.56%升至55.37%。这些变化反映出英国研究软件的共享情况有一定改善,但整体仍有较大提升空间。

总结:软件不只是工具,更是遗产

这篇论文通过分析英国公立科研软件的登记情况,揭示了一个严峻现实:大量科研软件要么没被登记,要么登记了却难以访问。

核心成果可以概括为三点:

  • 科研软件的“能见度”极低,链接问题普遍存在
  • 商业平台(如GitHub)成了主要托管地, institutional repositories(机构仓库)存在感弱
  • 虽然有进步,但距离“开放科学”的理想还差得远

就像考古学家发现了一批被遗忘的文物,这项研究提醒我们:科研软件不只是完成研究的工具,更应该是留给后人的科学遗产。如果现在不重视它们的保存和共享,未来可能会付出巨大的重复劳动成本。

http://www.dtcms.com/a/312941.html

相关文章:

  • Mysql 9.4主从复制部署(传统文件日志位置mysqldump)
  • 【暑期每日一题】洛谷 P1749 [入门赛 #19] 分饼干 II
  • Python中的import和from...import有什么区别?
  • Python篇---PyPI
  • 自私挖矿攻击
  • 安卓audio 架构解析
  • 决策树的实际案例
  • Ethereum: 了解炙手可热 Layer 2 解决方案 Base
  • C++手撕基于ID3算法的决策树
  • 玩转 Playwright 有头与无头模式:消除差异,提升爬虫稳定性
  • Linux 系统调用 stat 完全用例
  • Memcached Slab分配器:零碎片的极速内存管理
  • FFT/STFT/小波/HHT:振动诊断工具生死局,选错=灾难
  • MySQL——增删改查操作
  • Compose笔记(四十一)--ExtendedFloatingActionButton
  • 嵌入式开发学习———Linux环境下IO进程线程学习(二)
  • 【C++】面向对象编程:继承与多态的魅力
  • kafka创建topic报错解决思路之一
  • 日常--详细介绍qt Designer常用快捷键(详细图文)
  • 硅基计划3.0 知识探究 常见类方法
  • 关于Web前端安全防御之安全头配置
  • PHP入门及数据类型
  • 【2025ICCV-目标检测方向】WaveMamba:用于 RGB-红外目标检测的小波驱动曼巴融合
  • 《金字塔原理》读书思考笔记
  • GitOps:云原生时代的革命性基础设施管理范式
  • 关于 xrdp远程桌面报错“Error connecting to sesman on 127.0.0.1:3350“的解决方法
  • Python 基础语法(一):从常量到运算符
  • LeetCode 126:单词接龙 II
  • C语言的基本结构
  • http://localhost:8080/photos/xxx.png的本地图片访问方案