当前位置: 首页 > news >正文

模型置信度在实际中的应用

一、LLM 中的“置信度”本质是什么?

在大语言模型中,每一步生成的 token 都有一个概率分布:

P(ti∣t1,t2,…,ti−1) P(t_i | t_1, t_2, …, t_{i-1}) P(tit1,t2,,ti1)

这个分布来自模型最后一层的 logits,经 softmax 后得到。
例如模型在生成句子:

“The cat sat on the mat.”

当生成到“mat”这个词时,模型可能认为:

候选词	概率
mat	0.81
bed	0.10
floor	0.04
sofa	0.02

这里,“mat”的概率 0.81 就是当前 token 的置信度。
如果要计算一句话的总体置信度,可以取所有 token 的平均或乘积(通常取 log 概率求和平均):

Confidence(sentence)=1N∑i=1Nlog⁡P(ti∣t<i) \text{Confidence(sentence)} = \frac{1}{N} \sum_{i=1}^{N} \log P(t_i | t_{<i}) Confidence(sentence)=N1i=1NlogP(tit<i)

二、在 Qwen / DeepSeek / vLLM 中置信度的具体来源

在这些模型框架(尤其是部署在 vLLM / OpenAI API 兼容接口上)中,置信度通常可以通过两种方式获取:

✅ 1. logprobs 字段

API 调用时加上:

{"model": "qwen3-omni-30b","prompt": "天空是什么颜色?","logprobs": 5
}

返回结果中会包含每个 token 的 logprob(对数概率):

"tokens": [{"token": "蓝", "logprob": -0.12},{"token": "色", "logprob": -0.10},{"token": "的", "logprob": -0.25}
]

置信度可通过 exp(-logprob) 得出。
例如 logprob = -0.12 → 概率 ≈ 0.89,代表模型对这个 token 的置信度。

✅ 2. 平均 logprob 作为句子置信度

如果你想评估整个生成回答的可靠性,可取所有 token 的平均值:

import math
logprobs = [-0.12, -0.10, -0.25]
confidence = math.exp(sum(logprobs) / len(logprobs))  # ≈ 0.83

这表示:模型整体上“约有 83% 的把握”认为它的输出是合理的。

三、工程上的用途

  1. 答案可靠性判定(RAG / 多Agent 系统)

在知识检索、问答系统(如你在做的 yifa_rag 或 knowledge_base_service)中:
• 模型输出的每句话都可以计算置信度;
• 如果置信度低(例如 <0.6),可以:
• 请求第二轮模型确认;
• 或触发 “检索增强”;
• 或让系统返回“可能不确定,请人工审核”。

这可以显著降低幻觉(hallucination)风险。

  1. 多模型投票(Ensemble 或 Reranker)

你常用的 bge-reranker、DeepSeek-Rerank 等模型,其实就利用了置信度概念。
比如两个模型输出相同答案:

模型	答案	置信度
Qwen	A	0.78
DeepSeek	A	0.88

则可加权平均置信度,用来做集成判定或 rerank。

  1. 拒答机制(拒绝低置信答案)

在法条问答、医学问诊、调解语音分析等任务中:
• 若生成答案的平均置信度低于设定阈值(例如 0.55);
• 系统可自动输出:
“该问题缺乏足够依据,请核实后再回答。”

这类机制是企业级系统必须具备的“自我保护层”。

  1. 提示词(Prompt)优化

在多轮提示词优化时,可以分析:
• 哪些 prompt 模式会导致低置信度输出;
• 哪些会提升模型置信度(例如结构化问题、带上下文的提问)。

通过统计,可以自动调整提示词模板,提高整体性能。

四、置信度与温度(temperature)的关系

在调用参数中:

{"temperature": 0.7
}
•	低温度(0.2–0.5) → 输出更确定,置信度更集中;
•	高温度(>0.8) → 输出更随机,置信度更分散。

换句话说:

温度控制“模型信心的分布”,而置信度反映“模型信心的值”。

工程实践中,你可以用温度 + 置信度 联合控制生成质量:
• 对于事实类任务(如法律条文问答):温度低,置信度阈值高;
• 对于创意类任务(如生成教学网页):温度高,置信度阈值可宽松。

五、实战案例(结合你的系统)

你在部署的 knowledge_base_service(法律检索问答系统)中可以这样集成置信度机制:

response = llm.generate(prompt, logprobs=True)
tokens = response['tokens']
# 计算平均置信度
avg_conf = sum(math.exp(t['logprob']) for t in tokens) / len(tokens)if avg_conf < 0.65:return "⚠️ 模型对此答案信心不足,请人工审核。"
else:return response['text']

配合前端显示一个信心条:

🟩🟩🟩🟨⬜ 置信度:0.78

六、总结对比表

请添加图片描述

http://www.dtcms.com/a/538363.html

相关文章:

  • 网站建设策划书格式及范文南昌网站建设品牌
  • 哪些网站设计好企业邮箱格式怎么注册
  • zhi做网站ps做网页设计的尺寸
  • 中国做的很好的食品网站logo设计素材图片
  • 网站设计设计目的深圳网站设计制
  • 用什么网站做一手楼好百度快照举报网站
  • 浏览器无法访问wordpress报503企业网站seo实
  • 游戏盾是如何保障游戏安全稳定的
  • 青州网站建设优化排名个人网站导航html源码
  • CSS技巧:使用 box-shadow + outline 实现多重边框与圆角阴影完美结合
  • iis6.0新发布网站访问速度慢网络推广渠道有哪些哪些
  • 上海网站建设v芯ee8888e有梦商城公司网站
  • 上线了做网站怎么查看百度上做推广怎么做
  • Freerun、SM、DC三种同步模式
  • 宁波网站建设地址在哪电子商务网站设计毕业设计论文
  • 南昌外包建站免费域名邮箱注册
  • 省级精品课程网站营销导向的企业网站优化
  • 广州住房和建设局网站最简单的做网站工具
  • 自己如何建设刷赞网站企业只有建立自己的网站
  • 服务器禁止ip访问网站网站定制建设哪里好
  • Cursor MCP Java程序员从零开始实战教程
  • 朝阳港网站建设方案浏览器的网站通知怎么做
  • 装修网站建设服务商云南旅游网站建设公司
  • 如何做购物网站的后台html模板 多列展示模板
  • 如何做网站详细步骤wordpress 开源
  • 北京市建设厅门户网站6网站域名备案代理
  • 做静态网站自己想建设一个网站
  • 国外有趣的网站黑龙江建设网一体化平台
  • 天津建设银行官网站微网站是用什么代码制作
  • 网站网页的书签怎么做好的网站推荐一个