AI推介-大语言模型LLMs论文速览(arXiv方向):2025.04.25-2025.04.30
文章目录~
- 1.TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments
- 2.MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
- 3.Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models
- 4.Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA
- 5.Trace-of-Thought: Enhanced Arithmetic Problem Solving via Reasoning Distillation From Large to Small Language Models
- 6.ReasonIR: Training Retrievers for Reasoning Tasks
- 7.Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training
- 8.Enhancing Systematic Reviews with Large Language Models: Using GPT-4 and Kimi
- 9.Generative AI for Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions
- 10.Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
- 11.SynLexLM: Scaling Legal LLMs with Synthetic Data and Curriculum Learning
1.TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments
标题:TRUST:基于 LLM 的创伤理解和结构化评估对话系统
author:Sichang Tu, Abigail Powers, Stephen Doogan, Jinho D. Choi
publish:5 figures, 4 tables
date Time:2025-04-30
paper pdf:http://arxiv.org/pdf/2504.21851v1
摘要:
目标:虽然大语言模型(LLM)已被广泛用于协助临床医生和支持患者,但目前还没有任何研究探索过用于标准诊断面谈和评估的对话系统。本研究旨在通过开发一种由大语言模型驱动的对话系统来复制临床医生的行为,从而弥补心理保健可及性方面的差距。材料与方法:我们介绍 TRUST,这是一个由合作式 LLM 模块组成的框架,能够对创伤后应激障碍(PTSD)进行正式的诊断面谈和评估。为了指导生成适当的临床反应,我们提出了专门为临床访谈设计的对话行为模式。此外,我们还开发了一种基于真实访谈记录的患者模拟方法,以取代临床医生耗时耗钱的人工测试。结果:我们设计了一套全面的评估指标,从代理和患者模拟两个角度对对话系统进行评估。由对话和临床专家进行的专家评估表明,TRUST 的表现与真实的临床访谈不相上下。讨论我们的系统达到了一般临床医生的水平,未来在交流方式和回应适当性方面仍有提升空间。结论我们的 TRUST 框架显示了其促进心理保健可用性的潜力。
2.MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
标题:MAC-Tuning:增强知识边界意识的 LLM 多组合问题推理
author:Junsheng Huang, Zhitao He, Sandeep Polisetty, Qingyun Wang, May Fung
date Time:2025-04-30
paper pdf:http://arxiv.org/pdf/2504.21773v1
摘要:
随着大语言模型(LLM)的广泛应用,产生不存在事实(即幻觉)的问题日益受到关注。以往关于增强 LLM 置信度估计的研究主要集中在单一问题设置上。然而,在更具挑战性的多问题环境下(需要同时准确回答多个问题),LLM 对其内部参数化知识边界的认识仍未得到充分探索。为了弥补这一差距,我们引入了一种新方法–多答案和置信度逐步调整法(MAC-Tuning),该方法在对指令数据进行微调时将答案预测和置信度估计的学习分开。广泛的实验证明,我们的方法在平均精度上比基准方法高出 25%。
3.Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models
标题:强化多模态大语言模型:基于 RL 的多模态大语言模型推理概览
author:Guanghao Zhou, Panjia Qiu, Cen Chen, Jie Wang, Zheming Yang, Jian Xu, Minghui Qiu
date Time:2025-04-30
paper pdf:http://arxiv.org/pdf/2504.21277v1
摘要:
将强化学习(RL)整合到多模态大型语言模型(MLLMs)的推理能力中,已迅速成为一个变革性的研究方向。虽然 MLLMs 极大地扩展了大型语言模型 (LLM),使其能够处理视觉、音频和视频等多种模式,但在多模式输入中实现稳健推理仍然是一项重大挑战。本研究系统回顾了基于 RL 的 MLLMs 推理的最新进展,涵盖了关键算法设计、奖励机制创新和实际应用。我们重点介绍了两种主要的 RL 范式–无值方法和基于值的方法–并分析了 RL 如何通过优化推理轨迹和调整多模态信息来增强推理能力。此外,我们还对基准数据集、评估协议和现有限制进行了广泛概述,并提出了未来的研究方向,以解决当前的瓶颈问题,如奖励稀疏、跨模态推理效率低下以及现实世界的部署限制等。我们的目标是为有兴趣在多模态时代推进基于 RL 的推理的研究人员提供一份全面而有条理的指南。
4.Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA
标题:检索之前先讨论:代理主导讨论,提高医疗质量保证的 RAG
author:Xuanzhao Dong, Wenhui Zhu, Hao Wang, Xiwen Chen, Peijie Qiu, Rui Yin, Yi Su, Yalin Wang
date Time:2025-04-30
paper pdf:http://arxiv.org/pdf/2504.21252v1
摘要:
医学问题解答(QA)是一项推理密集型任务,由于幻觉和过时的领域知识,这项任务对大型语言模型(LLM)来说仍然具有挑战性。检索增强生成(RAG)通过利用外部知识,提供了一种前景广阔的后训练解决方案。然而,现有的医学 RAG 系统存在两个主要局限:(1) 缺乏对信息检索期间类人推理行为的建模;(2) 依赖次优医学语料库,这往往会导致检索到不相关或嘈杂的片段。为了克服这些挑战,我们提出了 Discuss-RAG,这是一个即插即用模块,旨在通过基于协作代理的推理来增强医学质量保证 RAG 系统。我们的方法引入了一个摘要代理,它可以协调一个医学专家团队,模拟多轮头脑风暴,从而提高检索内容的相关性。此外,决策代理会在最终整合之前对检索到的片段进行评估。在四个基准医疗质量保证数据集上的实验结果表明,Discuss-RAG 的性能始终优于 MedRAG,特别是在 BioASQ 上显著提高了 16.67% 的答案准确率,在 PubMedQA 上提高了 12.20%。代码见:https://github.com/LLM-VLM-GSL/Discuss-RAG。
5.Trace-of-Thought: Enhanced Arithmetic Problem Solving via Reasoning Distillation From Large to Small Language Models
标题:思维轨迹:通过从大型语言模型到小型语言模型的推理提炼增强算术问题的解决
author:Tyler McDonald, Ali Emami
date Time:2025-04-29
paper pdf:http://arxiv.org/pdf/2504.20946v1
摘要:
随着大型语言模型(LLM)不断被用于日常任务,提示工程仍然是计算语言学中一个活跃的贡献领域,尤其是在需要专业知识的领域,如算术推理。虽然这些 LLM 针对各种任务进行了优化,但对于小型团队来说,详尽地使用这些 LLM 可能会在计算或经济上造成负担。此外,完全依赖专有的闭源模型往往会限制定制和适应性,给研究和应用的可扩展性带来巨大挑战。相反,通过利用参数不超过 70 亿个的开源模型,我们可以优化资源使用,同时仍能观察到比标准提示方法更显著的收益。为了培养这种观念,我们引入了 “思维轨迹提示”(Trace-of-Thought Prompting),这是一种简单的零次提示工程方法,它指示 LLM 使用关键问题解决方法创建可观察的子问题,专门用于增强算术推理能力。在将开放源代码模型与 GPT-4 同步应用时,我们发现思维轨迹不仅能让人对问题解决过程有新的认识,还能在参数不超过 70 亿的语言模型上带来高达 125% 的性能提升。这种方法强调了开源计划在实现人工智能研究民主化和提高高质量计算语言学应用的可及性方面的潜力。
6.ReasonIR: Training Retrievers for Reasoning Tasks
标题:ReasonIR:训练检索器完成推理任务
author:Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer
publish:Our code is released at
\url{https://github.com/facebookresearch/ReasonIR}
date Time:2025-04-29
paper pdf:http://arxiv.org/pdf/2504.20595v1
摘要:
我们推出了 ReasonIR-8B,这是第一款专门针对一般推理任务训练的检索器。现有的检索器在推理任务上的收益有限,部分原因是现有的训练数据集侧重于与直接回答这些问题的文档相关联的简短事实性查询。我们开发了一个合成数据生成管道,对于每份文档,我们的管道都会创建一个具有挑战性的相关查询,以及一个看似相关但最终无益的硬性否定。通过在我们的合成数据和现有公共数据上进行混合训练,ReasonIR-8B 在广泛使用的推理密集型信息检索(IR)基准 BRIGHT 上实现了 29.9 nDCG@10 的新的一流水平(不带反向链接器)和 36.9 nDCG@10 的反向链接器水平(带反向链接器)。当应用于 RAG 任务时,相对于闭卷基线,ReasonIR-8B 的 MMLU 和 GPQA 性能分别提高了 6.4% 和 22.6%,表现优于其他检索器和搜索引擎。此外,ReasonIR-8B 还能更有效地利用测试时间计算:在 BRIGHT 上,随着重写查询的时间越来越长、信息量越来越大,它的性能也在不断提高;与 LLM 重排器结合使用时,它的性能仍然优于其他检索器。我们的训练方法是通用的,可以很容易地扩展到未来的 LLM;为此,我们开源了我们的代码、数据和模型。
7.Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training
标题:通过跨语言语境预培训增强 LLM 语言适应能力
author:Linjuan Wu, Haoran Wei, Huan Lin, Tianhao Li, Baosong Yang, Weiming Lu
publish:12 pages, 6 figures, Under Review
date Time:2025-04-29
paper pdf:http://arxiv.org/pdf/2504.20484v1
摘要:
大型语言模型(LLMs)尽管在预训练中以英语为主,但仍表现出卓越的多语言能力,这归功于预训练中的跨语言机制。现有的增强跨语言迁移的方法仍然受到并行资源的限制,语言和领域覆盖范围有限。我们提出了跨语言上下文预训练(CrossIC-PT),这是一种简单、可扩展的方法,通过简单的下一单词预测,利用语义相关的双语文本来增强跨语言迁移。我们通过将语义相关的双语维基百科文档交错到一个上下文窗口中来构建 CrossIC-PT 样本。为了适应窗口大小的限制,我们采用了一种系统化的分割策略,将长的双语文档对分割成块,同时调整滑动窗口机制以保持上下文的一致性。我们通过语义检索框架进一步扩展数据可用性,从网络抓取的语料库中构建 CrossIC-PT 样本。实验结果表明,CrossIC-PT 提高了三种模型(Llama-3.1-8B、Qwen2.5-7B 和 Qwen2.5-1.5B)在六种目标语言上的多语言性能,性能分别提高了 3.79%、3.99% 和 1.95%,数据增强后还会有更多提高。
8.Enhancing Systematic Reviews with Large Language Models: Using GPT-4 and Kimi
标题:利用大型语言模型增强系统性综述:使用 GPT-4 和 Kimi
author:Dandan Chen Kaptur, Yue Huang, Xuejun Ryan Ji, Yanhui Guo, Bradley Kaptur
publish:13 pages, Paper presented at the National Council on Measurement in
Education (NCME) Conference, Denver, Colorado, in April 2025
date Time:2025-04-28
paper pdf:http://arxiv.org/pdf/2504.20276v1
摘要:
本研究深入研究了用于系统综述的两个大型语言模型(LLM)–GPT-4 和 Kimi。我们将 LLM 生成的代码与同行评议系统综述中人类生成的代码进行了比较,从而评估了它们的性能。我们的研究结果表明,LLM 的性能会因系统综述的数据量和问题复杂程度而波动。
9.Generative AI for Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions
标题:角色动画的生成人工智能:技术、应用和未来方向的全面调查
author:Mohammad Mahdi Abootorabi, Omid Ghahroodi, Pardis Sadat Zahraei, Hossein Behzadasl, Alireza Mirrokni, Mobina Salimipanah, Arash Rasouli, Bahar Behzadipour, Sara Azarnoush, Benyamin Maleki, Erfan Sadraiye, Kiarash Kiani Feriz, Mahdi Teymouri Nahad, Ali Moghadasi, Abolfazl Eshagh Abianeh, Nizi Nazar, Hamid R. Rabiee, Mahdieh Soleymani Baghshah, Meisam Ahmadi, Ehsaneddin Asgari
publish:50 main pages, 30 pages appendix, 21 figures, 8 tables, GitHub
Repository:
https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey
date Time:2025-04-27
paper pdf:http://arxiv.org/pdf/2504.19056v1
摘要:
生成式人工智能正在重塑艺术、游戏,尤其是动画。最近在基础和扩散模型方面取得的突破缩短了制作动画内容的时间并降低了成本。角色是动画的核心组成部分,涉及动作、情感、手势和面部表情。近几个月来,该领域的进展速度之快、范围之广,让人难以保持对该领域的一致看法,因此有必要进行一次综合评述。与之前孤立地讨论头像、手势或面部动画的综述不同,本综述从单一、全面的角度探讨了角色动画的所有主要生成式人工智能应用。我们首先探讨了面部动画、表情渲染、图像合成、头像创建、手势建模、动作合成、对象生成和纹理合成等方面的最新技术。我们重点介绍了每个领域的领先研究、实际部署、常用数据集和新兴趋势。为了支持新读者,我们还提供了一个全面的背景部分,介绍基础模型和评估指标,让读者掌握进入该领域所需的知识。我们讨论了尚未解决的挑战,并描绘了未来的研究方向,为推进人工智能驱动的角色动画技术提供了路线图。本调查旨在为进入生成式人工智能动画领域或相邻领域的研究人员和开发人员提供资源。相关资源请访问:https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey。
10.Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
标题:通过维度位置嵌入操作进行有效长度外推
author:Yi Lu, Wanxu Zhao, Xin Zhou, Chenxin An, Chenglong Wang, Shuo Li, Yuming Yang, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
date Time:2025-04-26
paper pdf:http://arxiv.org/pdf/2504.18857v1
摘要:
大型语言模型(LLM)在处理和生成连贯的上下文时,往往会因输入词组数量超过预训练长度而陷入困境。最近在长语境扩展方面取得的进展大大扩展了 LLM 的语境窗口,但使用长语境训练大规模模型需要昂贵的开销。在这项工作中,我们提出了 “维度定位嵌入操作”(DPE),这是一种无需训练的框架,可通过深入研究 RoPE 的不同隐藏维度来推断 LLM 的上下文窗口。DPE 并非对所有维度进行同等处理,而是检测每个维度的有效长度,并找到用于语境扩展的关键维度。我们重新使用预训练模型中的原始位置指数及其嵌入,并将关键维度的位置指数调整为最有效长度。这样,DPE 就能以最小的改动调整预训练模型,同时确保每个维度都能达到外推的最佳状态。DPE 大大超越了 YaRN 和 Self-Extend 等知名基线。DPE 使 Llama3-8k 8B 无需持续训练即可支持 128k 标记的上下文窗口,并与 Flash Attention 2 无缝集成。除了令人印象深刻的外推能力外,DPE 还显著提高了模型在训练长度内的性能,例如 Llama3.1 70B 在流行的长语境基准 RULER 上提高了 18 分以上。与商业模型相比,使用 DPE 的 Llama 3.1 70B 甚至比 GPT-4-128K 性能更好。
11.SynLexLM: Scaling Legal LLMs with Synthetic Data and Curriculum Learning
标题:SynLexLM:利用合成数据和课程学习扩展法律LLM
author:Ojasw Upadhyay, Abishek Saravanakumar, Ayman Ismail
publish:9 pages, 4 figures, 4 tables
date Time:2025-04-26
paper pdf:http://arxiv.org/pdf/2504.18762v2
摘要:
大型语言模型(LLM)功能强大,但对于法律等专业领域而言,往往需要大量的微调和大型数据集。通用的预训练可能无法捕捉到法律上的细微差别,而获取足够的法律数据也具有挑战性。我们引入了 SynLexLM,这是一种高效预训练法律 LLM 的新方法。我们的方法采用课程学习法,从简单到复杂的法律文本和查询,结合使用 Gemini Pro 等模型进行合成数据扩充,以解决数据稀缺的问题。与传统模型和微调版本相比,我们的目标是提高法律基准(BigLaw-Bench、EUR-Lex-Sum)的性能。初步工作包括生成反映法律推理的合成 QA 对。这项工作旨在加强法律文件分析和研究工具,使先进的法律人工智能技术平民化。