大语言模型困惑度:衡量AI语言能力的核心指标
LLM 的困惑度(Perplexity,简称 PPL)是衡量大语言模型**“语言理解能力”和“预测准确性”** 的核心指标
简单说,困惑度越低,说明模型对文本的“理解越到位”,预测下一个词的能力越强。
用“猜词游戏”理解困惑度
可以把困惑度类比成一个“猜词游戏”:
假设让模型读一句话,比如“我今天想吃____”,然后让它猜横线处的词(可能是“饭”“火锅”“面条”等)。
- 如果模型能精准猜到“饭”(概率 90%),说明它对这句话的上下文理解很准,“困惑度低”;
- 如果模型觉得“饭”“火锅”“面条”“电影”(甚至不相关的词)都有可能(每个词概率都很低),说明它没吃透上下文,“困惑度高”。
本质:困惑度是模型对“已知文本”的“平均惊讶程度”——文本越符合模型的预期(预测越准),困惑度越低。