苹果发布 RL4HS 框架精准定位 LLM 幻觉
苹果RL4HS是一个革命性的强化学习框架,能够精准定位大语言模型(LLM)输出中的幻觉片段,而不仅是判断是否存在幻觉。该框架通过片段级奖励机制和类别感知策略优化,使模型能够明确指出输出中哪些具体段落是错误的,而非仅给出笼统提示。实验证明,RL4HS在幻觉片段检测任务上的表现超越了GPT-5和o3等商用大模型,为提升大语言模型的可靠性和可审计性提供了新路径。
RL4HS框架的技术原理与核心创新
RL4HS(Reinforcement Learning for Hallucination Span Detection)是苹果公司开发的强化学习框架,其核心在于通过强化学习训练模型进行思维链(CoT)推理,从而精确定位幻觉片段。
核心技术原理
RL4HS框架采用了以下关键技术:
-
片段级奖励机制:不同于传统幻觉检测的二分类任务,RL4HS使用基于片段级F1指标的奖励函数,激励模型进行更细致的推理
-
组相对策略优化(GRPO):基于GRPO方法构建,该方法通过比较组内输出而非依赖单独的值模型来改善数学推理
-
类别感知策略优化(CAPO):为解决奖励不平衡问题,RL4HS引入了CAPO,为非幻觉类别的样本引入缩放因子α(实验中设为0.5),调整其对应的优势值,缓解奖励偏差
技术创新与突破
苹果研究人员通过实验发现了一个关键现象:思维链(CoT)推理在单次采样(K=1)时效果有限,但随着采样次数(K)增加,其优势显著提升。这证明了CoT推理在多次采样时至少能产生一次准确预测的潜力。
这一发现促使研究团队开发RL4HS框架,将CoT推理的多采样优势提炼为更强的预测能力。通过片段级奖励机制,RL4HS能够引导模型不仅判断是否存在幻觉,还能精确定位具体的幻觉片段