当前位置: 首页 > news >正文

迈向AI辅助数据分析代码生成的透明性与知识共享

李升伟 摘译

生成式人工智能(AI)及尤其大型语言模型(LLMs)正在改变我们进行数据科学研究的方式. 最显著的例子包括科学家使用该技术与科学数据交互, 回答数据分析问题, 生成数据分析代码以及(重新)撰写科研手稿. 然而遗憾的是,在科研成果发表时常常难以区分人类创作与AI生成的内容——因为发送给LLM的提示信息通常未被保存下来;当代科学文化中也尚未建立专业的同行评审体系来记录LLM是如何被引导产生代码以及由哪些研究人员进行了人工审核工作.

值得借鉴的是,在涉及多人协作编写代码的文化中已存在成熟的解决方案:例如GitHub和GitLab等源码仓库平台在开源社区中已被广泛用于讨论问题解决方案、协同开发程序并实施同行评审机制. 鉴于此前研究证实了LLMs能够解决真实场景下的GitHub问题, 我们认为下一步自然应该是开发能在GitHub平台上直接与人类交互的人工智能助手.

在此我提出git-bob——一个集成于GitHub/GitLab平台上的基于大模型构建的人工智能助手系统框架. 它能够响应开发者提交的问题单(Issue), 通过多轮迭代讨论提供潜在解决方案建议并自动生成相应代码片段最终形成待审拉取请求(Pull Request). 技术实现上它类似于现有的在线分析服务如OpenAl ChatGPT Data Analyst 或者 GitHub Copilot工作流但具有三大创新突破:

第一项革新在于支持多方人员在同一对话线程内共同参与: 生命科学家/数据分析师等不同领域专家可以联合人工智能助理展开研讨交流从而促进人机互动方法的知识传播;

第二项优势体现在所有人机对话过程及其引发的相关修改都会完整保留在公开可见的合作平台上实现了对整个决策链路的高度透明化追踪;

第三重价值则源于其完全开放源码的设计理念: 开发者不仅可以直接查阅内置提示模板进行个性化调整还能自行接入其他云服务商的大规模预训练模型甚至定制专属插件以适配特定领域的Issue处理逻辑需求.

原文:Haase, R. Towards transparency and knowledge exchange in AI-assisted data analysis code generation. Nat Comput Sci 5, 271–272 (2025). https://doi.org/10.1038/s43588-025-00781-1

相关文章:

  • Java游戏服务器开发流水账(1)游戏服务器的架构浅析
  • 【C++游戏引擎开发】第32篇:物理引擎(Bullet)—约束系统
  • java基础-数组
  • 【AI论文】
  • oracle 数据库sql 语句处理过程
  • 用 NGINX 打造高性能 FastCGI 加速 `ngx_http_fastcgi_module`
  • RabbitMQ高级特性
  • LeetCode 267:回文排列 II —— Swift 解法全解析
  • lc3341. 到达最后一个房间的最少时间 Ⅰ 算法解析
  • LeetCode20_有效的括号
  • 数据结构与算法-单链表的应用
  • 大数据处理利器:Hadoop 入门指南
  • 如何在Ubuntu上安装NVIDIA显卡驱动?
  • 【C++】C++中的类型转换
  • 使用JMeter 编写的测试计划的多个线程组如何生成独立的线程组报告
  • 一个项目的周测试的文档(Billing Service 测试文档)
  • 2025-05-07 学习记录--Python-变量 + 常量 + 命名规则 + 变量的数据类型 + 数据类型
  • PostgreSQL给新用户授权select角色
  • 【强化学习】强化学习算法 - 多臂老虎机问题
  • (三)Java数据类型与进制详解
  • 韩国前国务总理韩德洙加入国民力量党
  • 新修订的《婚姻登记条例》明起施行,领证不用户口本了
  • 数说母亲节|妈妈的妈妈带娃比例提升,托举效果如何?
  • 新疆维吾尔自治区乌鲁木齐市米东区政协原副主席朱文智被查
  • 马上评|比余华与史铁生的友情更动人的是什么
  • 特朗普政府拟终止太空污染研究,马斯克旗下太空公司将受益