当前位置：首页 > news >正文

苹果RL4HS框架的技术原理

news 2025/10/8 5:59:04

苹果RL4HS（Reinforcement Learning for Hallucination Span Detection）框架的技术原理围绕精准定位大语言模型(LLM)输出中的幻觉片段展开，核心是通过强化学习训练模型进行细粒度的幻觉检测。其创新点在于突破了传统"是否存在幻觉"的二分类局限，实现了"具体哪些片段是幻觉"的定位能力，技术架构可拆解为四个核心模块：任务建模层、推理增强层、奖励机制层和策略优化层。

一、任务建模：将幻觉检测转化为序列标注问题

RL4HS的首要突破是对任务的重新定义：不再将幻觉检测视为整体文本的二分类任务（有/无幻觉），而是转化为片段级序列标注任务——对输出文本中的每个片段标注"幻觉"或"非幻觉"标签。

输入形式：模型输入为「源文本+目标文本」对（如问答任务中的问题+回答）
输出形式：目标文本的每个token被标注为0（非幻觉）或1（幻觉）
标注粒度：支持灵活调整（word级、phrase级或sentence级），实验中采用phrase级标注以平衡精度与效率

这种建模方式使模型能够精准定位错误片段，例如在回答"埃菲尔铁塔位于哪个国家"时，若模型输出"埃菲尔铁塔位于意大利巴黎"，RL4HS能单独标记"意大利"为幻觉片段，而非仅判断整个句子有误。

二、推理增强：思维链(CoT)引导的多步推理机制

RL4HS引入思维链推理作为中间环节，让模型先生成"检测依据"，再输出标注结果，通过显式推理提升定位准确性。

技术细节：

双阶段输出结构：
- 第一阶段：生成推理过程（如"根据常识，埃菲尔铁塔位于法国巴黎，因此’意大利’是错误的"）
- 第二阶段：基于推理结果输出片段级标注
多采样策略：
- 对同一样本进行K次独立推理（实验中K=10）
- 采用多数投票机制融合结果，解决单次推理的随机性问题
- 关键发现：当K≥5时，幻觉定位准确率提升≥15%，证明多采样对捕捉幻觉模式的有效性
推理质量优化：
- 训练数据中加入人工编写的"优质推理范例"
- 采用对比学习策略，强化"合理推理→正确标注"的映射关系