苹果RL4HS框架的技术原理
苹果RL4HS(Reinforcement Learning for Hallucination Span Detection)框架的技术原理围绕精准定位大语言模型(LLM)输出中的幻觉片段展开,核心是通过强化学习训练模型进行细粒度的幻觉检测。其创新点在于突破了传统"是否存在幻觉"的二分类局限,实现了"具体哪些片段是幻觉"的定位能力,技术架构可拆解为四个核心模块:任务建模层、推理增强层、奖励机制层和策略优化层。
一、任务建模:将幻觉检测转化为序列标注问题
RL4HS的首要突破是对任务的重新定义:不再将幻觉检测视为整体文本的二分类任务(有/无幻觉),而是转化为片段级序列标注任务——对输出文本中的每个片段标注"幻觉"或"非幻觉"标签。
- 输入形式:模型输入为「源文本+目标文本」对(如问答任务中的问题+回答)
- 输出形式:目标文本的每个token被标注为0(非幻觉)或1(幻觉)
- 标注粒度:支持灵活调整(word级、phrase级或sentence级),实验中采用phrase级标注以平衡精度与效率
这种建模方式使模型能够精准定位错误片段,例如在回答"埃菲尔铁塔位于哪个国家"时,若模型输出"埃菲尔铁塔位于意大利巴黎",RL4HS能单独标记"意大利"为幻觉片段,而非仅判断整个句子有误。
二、推理增强:思维链(CoT)引导的多步推理机制
RL4HS引入思维链推理作为中间环节,让模型先生成"检测依据",再输出标注结果,通过显式推理提升定位准确性。
技术细节:
-
双阶段输出结构:
- 第一阶段:生成推理过程(如"根据常识,埃菲尔铁塔位于法国巴黎,因此’意大利’是错误的")
- 第二阶段:基于推理结果输出片段级标注
-
多采样策略:
- 对同一样本进行K次独立推理(实验中K=10)
- 采用多数投票机制融合结果,解决单次推理的随机性问题
- 关键发现:当K≥5时,幻觉定位准确率提升≥15%,证明多采样对捕捉幻觉模式的有效性
-
推理质量优化:
- 训练数据中加入人工编写的"优质推理范例"
- 采用对比学习策略,强化"合理推理→正确标注"的映射关系
三、奖励机制:片段级F1驱动的强化信号设计
RL4HS的核心创新在于片段级奖励函数,不同于传统强化学习中基于整体性能的奖励,而是为每个标注片段设计精细奖励信号。
奖励计算方式:
-
基础奖励(R_base):
Rbase=F1span(ypred,ytrue)R_{base} = F1_{span}(y_{pred}, y_{true})Rbase=F1span(yp