当前位置：首页 > news >正文

应对LLM应用中的AI幻觉，如何通过Token对数概率预测LLM的可靠性

news 2025/10/23 5:43:46

应对LLM应用中的AI幻觉

如何通过Token对数概率预测LLM的可靠性

内容：

1. 相关机器学习（ML）概念回顾（精准度/召回率，LLM直觉）

2. 使用序列对数概率度量作为LLM信心

3. 通过案例研究结果过滤低质量LLM输出

引言

使用LLM还是不使用LLM？

像ChatGPT、Claude、LLaMA这样的大型语言模型（LLMs）非常强大，但仍然是一项新兴技术，可能带来独特的风险。有时LLM似乎完全知道发生了什么，并能轻松回答复杂的问题。但在其他时候，它们输出无关的信息，甚至“幻觉”出虚假的信息（编造信息）。

ChatGPT幻觉了法律案件，随后被一家律师事务所引用。[卫报]

为什么选择LLM？

许多公司正在探索使用LLM和机器学习来改善客户体验。一种常见的应用场景是处理客户支持问题。例如，一家公司可能每天收到成千上万的支持问题，其中一些可以通过适当的内部文档进行回答（例如，“如何添加承包商？”、“如何将员工状态更改为兼职？”）。在这种情况下，基于LLM的问答服务可以帮助客户通过自然语言查询快速找到相关信息。

在这种应用中，至关重要的是要保持高度的信心，确保LLM理解请求并能准确回答。我们来看看使用LLM信心度量的一个潜在方法。

机器学习回顾

精准度-召回率曲线

在传统的机器学习（ML）建模方法中，我们通常有方法通过控制模型的信心来防止低质量输出。

通常，机器学习模型的低信心水平输出会包含更多错误。

我们的目标是平衡权衡：最大化展示给用户的“好预测”数量（高召回率），并最小化展示给用户的“坏预测”数量（高精准度）。

我们选择一个平衡我们需求的信心水平阈值。

ROC曲线和精准度-召回率曲线（PR曲线）是常用的衡量这种权衡的方法。

PR曲线示例，每个点是模型在不同信心水平阈值下的表现 [来源]

然而，LLM输出是自由格式文本，而不像传统机器学习系统中那样有明确的类别标签和信心。因此，这些技术似乎不适用于依赖LLM的机器学习系统。但在我们放弃之前（剧透：我们可以非常接近我们需要的东西），让我们回顾一下LLM实际上是如何工作的。

回顾：GPT直觉

生成预训练变换器（GPT）是LLM的常见架构。

GPT模型使用有限的词汇（tokens）——T

在生成序列的每个token位置上，GPT计算一个在词汇T上的可能性概率分布——P(T_i | context)。你可以把它想象成一个n-gram模型，其中token的概率是通过一个大型神经网络（GPT-4有1.76万亿个参数）来估算的。

GPT的“知识”实际上存储为每个token在当前上下文下的条件概率（见图1）。

图1 [来源] GPT/LLM计算最可能跟随当前上下文“the boy went to the ____”的单词的概率分布。根据它对世界的理解，LLM预测，如果没有其他信息，典型的男孩最可能去操场或学校，而不是医院。

我们能从这些t

oken对数概率中学到什么吗？

在LLM中找到信心

LLM信心得分

通过查看机器翻译文献，我们找到了检测幻觉的线索，在这些文献中常用变换器类型的机器学习模型。

“我们假设当发生幻觉时，模型的信心不高。”[1] 这一点可以通过token对数概率来捕捉。

Seq-Logprob（即“LLM信心”）——序列生成的对数概率的平均值。如果GPT生成了序列“the boy went to the playground”，并且这些top-token对数概率为（[-0.25, -0.1, -0.15, -0.3, -0.2, -0.05]），我们可以计算GPT的信心为：

llm_confidence = np.mean([-0.25, -0.1, -0.15, -0.3, -0.2, -0.05]) # -0.175