迈向AI辅助数据分析代码生成的透明性与知识共享
李升伟 摘译
生成式人工智能(AI)及尤其大型语言模型(LLMs)正在改变我们进行数据科学研究的方式. 最显著的例子包括科学家使用该技术与科学数据交互, 回答数据分析问题, 生成数据分析代码以及(重新)撰写科研手稿. 然而遗憾的是,在科研成果发表时常常难以区分人类创作与AI生成的内容——因为发送给LLM的提示信息通常未被保存下来;当代科学文化中也尚未建立专业的同行评审体系来记录LLM是如何被引导产生代码以及由哪些研究人员进行了人工审核工作.
值得借鉴的是,在涉及多人协作编写代码的文化中已存在成熟的解决方案:例如GitHub和GitLab等源码仓库平台在开源社区中已被广泛用于讨论问题解决方案、协同开发程序并实施同行评审机制. 鉴于此前研究证实了LLMs能够解决真实场景下的GitHub问题, 我们认为下一步自然应该是开发能在GitHub平台上直接与人类交互的人工智能助手.
在此我提出git-bob——一个集成于GitHub/GitLab平台上的基于大模型构建的人工智能助手系统框架. 它能够响应开发者提交的问题单(Issue), 通过多轮迭代讨论提供潜在解决方案建议并自动生成相应代码片段最终形成待审拉取请求(Pull Request). 技术实现上它类似于现有的在线分析服务如OpenAl ChatGPT Data Analyst 或者 GitHub Copilot工作流但具有三大创新突破:
第一项革新在于支持多方人员在同一对话线程内共同参与: 生命科学家/数据分析师等不同领域专家可以联合人工智能助理展开研讨交流从而促进人机互动方法的知识传播;
第二项优势体现在所有人机对话过程及其引发的相关修改都会完整保留在公开可见的合作平台上实现了对整个决策链路的高度透明化追踪;
第三重价值则源于其完全开放源码的设计理念: 开发者不仅可以直接查阅内置提示模板进行个性化调整还能自行接入其他云服务商的大规模预训练模型甚至定制专属插件以适配特定领域的Issue处理逻辑需求.
原文:Haase, R. Towards transparency and knowledge exchange in AI-assisted data analysis code generation. Nat Comput Sci 5, 271–272 (2025). https://doi.org/10.1038/s43588-025-00781-1