当前位置: 首页 > wzjs >正文

品牌网站建设必在大蝌蚪广东疫情最新消息今天又封了

品牌网站建设必在大蝌蚪,广东疫情最新消息今天又封了,手机免费自助建站系统,百度关键词排名手机应对LLM应用中的AI幻觉 如何通过Token对数概率预测LLM的可靠性 内容: 1. 相关机器学习(ML)概念回顾(精准度/召回率,LLM直觉) 2. 使用序列对数概率度量作为LLM信心 3. 通过案例研究结果过滤低质量LLM输出…

应对LLM应用中的AI幻觉

如何通过Token对数概率预测LLM的可靠性

内容:

1. 相关机器学习(ML)概念回顾(精准度/召回率,LLM直觉)

2. 使用序列对数概率度量作为LLM信心

3. 通过案例研究结果过滤低质量LLM输出

引言

使用LLM还是不使用LLM?

像ChatGPT、Claude、LLaMA这样的大型语言模型(LLMs)非常强大,但仍然是一项新兴技术,可能带来独特的风险。有时LLM似乎完全知道发生了什么,并能轻松回答复杂的问题。但在其他时候,它们输出无关的信息,甚至“幻觉”出虚假的信息(编造信息)。

ChatGPT幻觉了法律案件,随后被一家律师事务所引用。[卫报]

为什么选择LLM?

许多公司正在探索使用LLM和机器学习来改善客户体验。一种常见的应用场景是处理客户支持问题。例如,一家公司可能每天收到成千上万的支持问题,其中一些可以通过适当的内部文档进行回答(例如,“如何添加承包商?”、“如何将员工状态更改为兼职?”)。在这种情况下,基于LLM的问答服务可以帮助客户通过自然语言查询快速找到相关信息。

在这种应用中,至关重要的是要保持高度的信心,确保LLM理解请求并能准确回答。我们来看看使用LLM信心度量的一个潜在方法。

机器学习回顾

精准度-召回率曲线

在传统的机器学习(ML)建模方法中,我们通常有方法通过控制模型的信心来防止低质量输出。

通常,机器学习模型的低信心水平输出会包含更多错误。

我们的目标是平衡权衡:最大化展示给用户的“好预测”数量(高召回率),并最小化展示给用户的“坏预测”数量(高精准度)。

我们选择一个平衡我们需求的信心水平阈值。

ROC曲线和精准度-召回率曲线(PR曲线)是常用的衡量这种权衡的方法。

PR曲线示例,每个点是模型在不同信心水平阈值下的表现 [来源]

然而,LLM输出是自由格式文本,而不像传统机器学习系统中那样有明确的类别标签和信心。因此,这些技术似乎不适用于依赖LLM的机器学习系统。但在我们放弃之前(剧透:我们可以非常接近我们需要的东西),让我们回顾一下LLM实际上是如何工作的。

回顾:GPT直觉

生成预训练变换器(GPT)是LLM的常见架构。

GPT模型使用有限的词汇(tokens)——T

在生成序列的每个token位置上,GPT计算一个在词汇T上的可能性概率分布——P(T_i | context)。你可以把它想象成一个n-gram模型,其中token的概率是通过一个大型神经网络(GPT-4有1.76万亿个参数)来估算的。

GPT的“知识”实际上存储为每个token在当前上下文下的条件概率(见图1)。

图1 [来源] GPT/LLM计算最可能跟随当前上下文“the boy went to the ____”的单词的概率分布。根据它对世界的理解,LLM预测,如果没有其他信息,典型的男孩最可能去操场或学校,而不是医院。

我们能从这些t

oken对数概率中学到什么吗?

在LLM中找到信心

LLM信心得分

通过查看机器翻译文献,我们找到了检测幻觉的线索,在这些文献中常用变换器类型的机器学习模型。

“我们假设当发生幻觉时,模型的信心不高。”[1] 这一点可以通过token对数概率来捕捉。

Seq-Logprob(即“LLM信心”)——序列生成的对数概率的平均值。如果GPT生成了序列“the boy went to the playground”,并且这些top-token对数概率为([-0.25, -0.1, -0.15, -0.3, -0.2, -0.05]),我们可以计算GPT的信心为:

llm_confidence = np.mean([-0.25, -0.1, -0.15, -0.3, -0.2, -0.05]) # -0.175

对于长度为L的LLM输出,计算每个位置的top-likelihood token的平均概率P(y_k|…)

为什么这么好:

它的质量好。“Seq-Logprob是最佳启发式方法,与基于参考的COMET相当。模型的信心越低,它生成不合适翻译的可能性越大。”[1]

它是免费的。“Seq-Logprob分数是生成响应时的副产品,容易获取。”[1]

LLM设计模式

在实现LLM服务时,我们可以:

收集Seq-LogProb(信心)分数来了解期望输出信心分布。对数概率分数可以通过OpenAI API获取。[3]

监控LLM输出中信心分布底部的内容。

使用这个决策边界*你可以自动:

a) 拒绝低质量的响应

b) 对低信心响应引入专家介入验证

c) 尝试收集更多信息使LLM更有信心

*LLM信心分布对提示变化敏感。因此,要相应地调整边界。

图2:1000次生成样本中LLM信心的平均分布。一个漂亮的正态分布。

在我的测试过程中,我发现低信心的响应通常含糊不清或过于宽泛(见图3左),更可能编造东西,也更不可能遵循提示指南,例如包括来源(见图3右)或参与对话。高信心的响应通常在指令上非常精准,能够完全理解问题和解决方案。利用这些知识,可以过滤掉低信心的响应,避免它们出现在客户面前。

用户问题的示例响应(左)

信心与LLM响应是否包含来源链接(二元)。

图3:用户问题的示例响应(左)。信心与LLM响应是否包含来源链接(二元)。

示例案例研究:FAQ服务

使用LLM信心过滤LLM错误

为了实践这种方法,我进行了一项小实验。我将1000个支持问题样本通过我们的问答LLM服务,并记录LLM的信心分数。

然后,我请我们的客户支持专家将LLM生成的输出标记为“优质”或“劣质”。这给我提供了一个二元标签,可以与LLM生成输出的信心分数对齐。

这个案例研究显示,最有信心和最没有信心的LLM响应之间的相对差异为69%。(见图4)

图4:相等大小的区间及其平均准确率与LogProbs信心的关系,带有标准误差条。最高信心区间准确率为76%,最低信心区间准确率为45%

通过控制LLM系统的灵敏度,我们现在更接近传统的机器学习系统,使我们能够控制所需的成功率。

LLM精准度-召回率曲线

利用我们的二元成功标签和LLM信心作为灵敏度,我们甚至可以为我们的LLM系统可视化一个实际的PR曲线!

图5:FAQ服务案例研究的LLM精准度-召回率曲线

我们可以将其视为“幕后操作”。即使我们不总是看到它,这在LLM“推理”中大多数生成过程中都在发生。

这将使我们能够有效地限制低质量响应出现在客户面前。

结论:更可靠的LLM系统

LLM信心得分在捕捉幻觉和区分低质量与高质量LLM输出方面极其有效。

我们可以在LLM系统中以自动化的方式实现更好的用户体验模式(例如专家验证)。

http://www.dtcms.com/wzjs/128654.html

相关文章:

  • 什么网站做h5做得好网站制作教程视频
  • 竞争者网站建设情况简述网站推广的方法
  • 网站建站去哪找客户沧州网络推广外包公司
  • 信用网站一体化建设方案市场推广策略
  • 一流的龙岗网站建设自己怎么做游戏推广赚钱
  • html业务网站源码百度快速排名工具
  • 芜湖市住房建设委员会网站宁国网络推广
  • 网站的积分系统怎么做的百度点击优化
  • 建设网站出什么科目抖音搜索引擎推广
  • 培训视频网站1个百度指数代表多少搜索
  • 公司免费网站模板google搜索
  • 论坛网站开发的意义成都抖音seo
  • 免费做网站. 优帮云营销策划有限公司经营范围
  • 西安软件优化网站建设电商网址
  • 良庆网站建设2021百度最新收录方法
  • 网站建设有哪些软件有哪些内容最近刚发生的新闻
  • 河北 石家庄 网站建设朝阳seo排名优化培训
  • 新余集团网站建设网页广告
  • 广州关于进一步优化疫情防控措施济南公司网站推广优化最大的
  • 深圳做网站比较好天涯成都seo培训
  • 北京做网站推广的公司优化大师app下载
  • 贵港网站建设武汉seo关键词优化
  • 个人视频网站应该怎么做国内搜索网站排名
  • 南京企业网站做优化怎么推广游戏叫别人玩
  • 网站做外链推广的常用方法厦门网络推广
  • 做二维码电子档相册 找什么网站抖音指数
  • WordPress插件代码化seo优化排名教程百度技术
  • 管委会网站方案中国新闻网
  • google网站建设重庆白云seo整站优化
  • 公司百度网站建设网站性能优化的方法有哪些