当前位置: 首页 > news >正文

大语言模型困惑度:衡量AI语言能力的核心指标

LLM 的困惑度(Perplexity,简称 PPL)是衡量大语言模型**“语言理解能力”和“预测准确性”** 的核心指标

简单说,困惑度越低,说明模型对文本的“理解越到位”,预测下一个词的能力越强。

用“猜词游戏”理解困惑度

可以把困惑度类比成一个“猜词游戏”:
假设让模型读一句话,比如“我今天想吃____”,然后让它猜横线处的词(可能是“饭”“火锅”“面条”等)。

  • 如果模型能精准猜到“饭”(概率 90%),说明它对这句话的上下文理解很准,“困惑度低”;
  • 如果模型觉得“饭”“火锅”“面条”“电影”(甚至不相关的词)都有可能(每个词概率都很低),说明它没吃透上下文,“困惑度高”。

本质:困惑度是模型对“已知文本”的“平均惊讶程度”——文本越符合模型的预期(预测越准),困惑度越低。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/299562.html

相关文章:

  • 数据结构自学Day15 -- 非比较排序--计数排序
  • MySQL相关概念和易错知识点(2)(表结构的操作、数据类型、约束)
  • 推荐系统(第三课第二周)
  • Deepseek要凉了吗?
  • go-admin 构建arm镜像
  • 基于遗传算法的多无人车协同侦察与安全保护策略优化
  • Java 封装、继承与多态:从基础到实践的核心思想
  • TypeScript 中的 typeof
  • 【17】C# 窗体应用WinForm ——【文本框TextBox、富文本框RichTextBox 】属性、方法、实例应用
  • SpringBoot总结
  • 秋招Day19 - 分布式 - 限流
  • VUE2 学习笔记7 v-model、过滤器
  • 各种前端框架界面
  • ARM SMMUv3控制器注册过程分析(八)
  • odoo代码分析(一)
  • 以太坊下一阶段的关键——隐私
  • 根本是什么
  • Transformer:颠覆NLP的自注意力革命
  • ts-node 深入全面讲解
  • nginx一个域名下部署多套前端项目
  • 松茸第一品牌菌贝品质把控对行业的影响分析
  • haproxy配置详解
  • mysql查找数据库表中某几个连续的编号中中断的编号
  • RustFS for .NET 演示项目深度解析:构建 S3 兼容的分布式存储应用
  • 二次函数图像动画展示
  • 雨雪雾冰全预警:交通气象站为出行安全筑起“隐形防护网”
  • 【愚公系列】《MIoT.VC》003-构建基本仿真工作站(组件的属性、行为、视频展示)
  • Spring Boot 单元测试进阶:JUnit5 + Mock测试与切片测试实战及覆盖率报告生成
  • inversify
  • 【web大前端】001_前端开发入门:创建你的第一个网页