当前位置: 首页 > news >正文

【AI论文】ReasonMed:一个370K的多智能体生成数据集,用于推进医疗推理

摘要:尽管基于推理的大型语言模型(LLM)在数学和编程方面表现出色,但它们在知识密集型医疗问题回答方面的能力仍未得到充分探索。为解决这一问题,我们推出了ReasonMed,这是最大的医疗推理数据集,包含从各种LLM生成的170万条初始推理路径中提炼出的37万个高质量示例。ReasonMed是通过多代理验证和细化过程构建的,我们设计了一个错误细化器,通过识别和纠正验证器标记的易出错步骤来增强推理路径。借助ReasonMed,我们系统地研究了训练医疗推理模型的最佳实践,发现将详细的思维链(CoT)推理与简洁的答案摘要相结合,能产生最有效的微调策略。基于这一策略,我们训练了ReasonMed-7B,它为10B以下的模型设定了新的基准,比之前的最佳模型高出4.17%,甚至在PubMedQA上比LLaMA3.1-70B高出4.60%。Huggingface链接:Paper page,论文链接:2506.09513

研究背景和目的

研究背景

近年来,基于推理的大型语言模型(LLMs)在逻辑推理、数学和编程等领域取得了显著进展,如Deepseek-R1和QwQ等模型在相关任务中展现出了卓越的能力(Liu et al., 2025a; Ahn et al., 2024; OpenAI et al., 2025)。然而,在医疗领域,这些模型的应用仍面临诸多挑战。医学知识具有高度的专业性和复杂性,要求模型不仅具备广泛的知识覆盖,还需能够进行深入、准确的推理。然而,现有的医疗推理数据集规模有限,且通常来源于单一的教师模型,这限制了模型的知识覆盖和推理能力。

具体而言,现有的医疗推理数据集存在以下几个主要问题:

  1. 规模有限:现有数据集的大小通常不足以支撑大规模模型的训练,导致模型在处理复杂医疗问题时表现不佳。
  2. 知识覆盖不足:由于数据集通常来源于单一模型,其知识覆盖有限,难以涵盖医学领域的各个方面。
  3. 缺乏系统性分析:现有研究缺乏对多步思维链(Chain-of-Thought, CoT)推理与简洁答案摘要之间权衡的系统性分析,导致难以确定哪种策略在医疗问答系统中更为有效。
研究目的

为解决上述问题,本研究旨在开发一个大规模、高质量的医疗推理数据集ReasonMed,并通过系统分析不同推理训练策略对模型性能的影响,提出最有效的微调方法。具体目标包括:

  1. 构建大规模医疗推理数据集:通过多智能体系统生成并验证超过170万条初始推理路径,最终提炼出37万个高质量示例,形成ReasonMed数据集。
  2. 探索最佳推理训练策略:通过对比传统思维链(CoT)推理、简洁答案摘要以及两者结合的混合方法,确定哪种策略在医疗问答任务中表现最佳。
  3. 训练并评估医疗推理模型:基于确定的最佳策略,训练ReasonMed-7B模型,并在多个医疗问答基准数据集上评估其性能,验证其有效性。

研究方法

数据集构建
  1. 数据收集:从MedQA、MMLU、PubMedQA和MedMCQA等现有医疗问答基准数据集中收集约19.5万个问题。
  2. 多智能体系统生成推理路径:结合Qwen-2.5-72B、DeepSeek-R1-Distill-Llama-70B和HuatuoGPT-o1-70B三个LLM,通过调整采样超参数(如温度、top-p),生成约175万条多样化的多步推理路径。
  3. 质量验证与细化:设计验证器(Verifier)检查每条推理路径的正确性、逻辑连贯性和医学事实性,并根据验证结果将问题分为简单、中等和困难三个等级。针对不同等级的问题,采用不同的细化策略:简单问题直接保留前两条最优路径;中等问题使用错误细化器(Error Refiner)修正并扩展路径;困难问题则直接利用GPT-o1生成准确路径。
推理训练策略分析
  1. 数据准备:利用响应摘要器(Response Summarizer)将每条思维链压缩成简洁的答案解释,生成三种不同粒度的数据实例:CoT实例(包含完整思维链)、Response实例(仅包含答案摘要)和Reason实例(结合思维链与答案摘要)。
  2. 模型微调:使用LlamaFactory框架对Qwen2.5-7B模型进行三轮监督微调,分别基于CoTMed-7B(仅CoT实例)、ResponseMed-7B(仅Response实例)和ReasonMed-7B(Reason实例)数据集。
  3. 性能评估:在MedQA、MedMCQA、PubMedQA和MMLU等医疗问答基准数据集上评估微调后模型的性能,分析不同训练策略对模型性能的影响。

研究结果

数据集质量
  1. 规模与多样性:ReasonMed数据集包含37万个高质量医疗推理示例,规模远超现有数据集,且通过多智能体系统生成,确保了数据的多样性和覆盖面。
  2. 质量验证:通过严格的验证和细化流程,确保了数据集中每条推理路径的正确性和逻辑连贯性。实验结果表明,经过细化后的数据集在质量上显著优于原始数据集。
模型性能
  1. CoTMed-7B:基于完整思维链进行微调的模型,在大多数基准数据集上表现出色,尤其在MedQA、MedMCQA和PubMedQA等复杂医疗问答任务中取得了显著成绩。
  2. ResponseMed-7B:仅基于答案摘要进行微调的模型,在保持较低计算成本的同时,仍能在MedQA等数据集上取得竞争性结果,表明简洁答案摘要在医疗问答中的有效性。
  3. ReasonMed-7B:结合完整思维链与答案摘要的混合策略进行微调的模型,在所有基准数据集上均取得了最佳性能,尤其在MedMCQA和PubMedQA等复杂任务中表现突出,验证了混合策略的有效性。
训练策略分析
  1. 多步思维链的重要性:实验结果表明,包含完整思维链的微调策略能显著提升模型在复杂医疗问答任务中的性能,表明多步推理在医疗领域的重要性。
  2. 简洁答案摘要的潜力:尽管ResponseMed-7B在整体准确性上略低于CoTMed-7B,但其计算成本更低,且在某些任务中仍能取得竞争性结果,表明简洁答案摘要在医疗问答中具有一定的应用潜力。
  3. 混合策略的优势:ReasonMed-7B通过结合完整思维链与答案摘要,实现了性能与效率的平衡,为医疗推理模型的训练提供了新的思路。

研究局限

  1. 计算资源限制:由于计算资源的限制,本研究未将多尺度微调实验扩展到7B参数以上的模型。因此,对于更大规模模型在医疗推理任务中的表现仍需进一步探索。
  2. 数据过滤与评估的依赖性:本研究的数据过滤(验证器和质量排名器)和最终质量评估(评分评估器)均依赖于其他大型语言模型(如Qwen-2.5-72B和GPT-4o),这些模型可能存在偏差或系统错误,偶尔会导致误判。
  3. 模型泛化能力:尽管ReasonMed-7B在多个基准数据集上表现出色,但其在实际医疗场景中的泛化能力仍需进一步验证。医疗领域的复杂性和多样性要求模型具备更强的泛化能力,以应对各种未知情况。

未来研究方向

  1. 扩展数据集规模与多样性:未来研究可进一步扩展ReasonMed数据集的规模和多样性,纳入更多医疗领域的知识和案例,以提升模型的覆盖面和推理能力。
  2. 探索更大规模模型的微调:随着计算资源的不断增加,未来研究可尝试将多尺度微调策略应用于更大规模的模型(如10B-100B参数范围),以探索其在医疗推理任务中的潜力。
  3. 增强模型的泛化能力:通过引入更多样化的训练数据和更先进的微调策略,增强模型在复杂医疗场景中的泛化能力,提高其在实际应用中的可靠性和准确性。
  4. 结合多模态信息:医疗领域不仅包含文本信息,还涉及图像、视频等多种模态的数据。未来研究可探索如何将多模态信息融入医疗推理模型中,以进一步提升其性能和应用范围。
  5. 伦理与安全性研究:随着医疗推理模型在实际应用中的不断推广,其伦理和安全性问题也日益凸显。未来研究需关注模型的伦理和安全性问题,制定相应的规范和标准,确保其在医疗领域的健康、可持续发展。

综上所述,本研究通过构建大规模、高质量的医疗推理数据集ReasonMed,并系统分析不同推理训练策略对模型性能的影响,为医疗推理模型的训练和应用提供了新的思路和方法。未来研究可在此基础上进一步探索数据集扩展、模型微调、泛化能力提升以及多模态信息融合等方面的问题,推动医疗推理模型在医疗领域的广泛应用和发展。

相关文章:

  • OpenStack 入门体验
  • wireshark过滤器的使用
  • 21.加密系统函数
  • 海豚人工智能与大数据实验室的指导和系统内的指导文件是不一样的​
  • Pandas 中的 Period 对象
  • Android 中 解析 JSON 字符串的几种方式
  • man 的用法
  • 数据卷能管理两边,使其数据一致?——补充
  • 5G光网络新突破:<Light: Science Applications>报道可适应环境扰动的DRC实时校准技术
  • FPGA基础 -- Verilog行为建模之循环语句
  • WordPress用 Options Framework 创建一个自定义相册功能
  • linux内核调试
  • 【JUC】显示锁
  • 【计算机常识】--docker入门+docker desktop的使用(一)
  • 【JAVA】的SPI机制
  • 对象模型与LLM融合:人形机器人的智能革命与产业化路径
  • 基于Cookie和Session的模拟登录爬取实战:突破登录认证的高级技术
  • eps转pdf-2025年6月18日星期三
  • 【为什么在触发的事件中修改控件属性需要使用`Invoke`】
  • 轻量化分布式AGI架构:基于区块链构建终端神经元节点的互联网智脑
  • 哪个汽车网站汽贸店免费做/广州营销推广
  • 建设厅施工员证查询网站/优化防控措施
  • wordpress 摘要/衡阳seo外包
  • 朝阳做网站的公司/网络营销推广公司
  • 兴义市住房城乡建设局网站/免费好用的网站
  • 网站ip域名查询/搜索引擎yandex入口