当前位置: 首页 > news >正文

表征工程与置信度增强:表征工程是提取隐藏层状态表征,LLM的置信度增强是优化的logist数值

表征工程是提取隐藏层状态表征,LLM的置信度增强是优化的logist数值

表征工程的核心是对模型的“中间隐藏层状态”进行提取、改造或优化,目的是让表征(隐藏状态)更贴合任务需求;

而LLM的置信度增强则主要针对“输出层的logits”或由logits转化的概率分布进行调整,目的是让模型对正确输出的“置信度”更合理(比如减少犹豫、降低错误答案的虚假高置信)

一、表征工程:聚焦“隐藏层状态”的优化

表征(Representation)指模型通过多层计算后,对输入文本的“抽象特征编码”(即隐藏层状态)。表征工程的目标是让这些编码更“有用”——可能是更易区分、更贴合下游任务,或更稳定

核心逻辑:

不直接干预输出结果,而是优化“特征提取过程”。通过改造隐藏层状态,让模型学到的特征更符合任务需求(比如情感分析中,让表征更突出“褒义/贬义”相关特征,弱化无关的语法特征)。

举例1:情感分析中的表征增强(对应你的代码思路)

假设用LLM做电影评论情感分析(和你的任务一致):

  • 原始隐藏层状态:模型最后几层的隐藏状态可能混合了“情感倾向”“评论主题(如剧情/演员)”“句子结构”等多种特征,但情感相关特征的权重可能不够突出。
  • 表征工程操作:像你代码中
http://www.dtcms.com/a/294747.html

相关文章:

  • 第一章:Go语言基础入门之Hello World与Go程序结构
  • 基于vue框架的服装店管理系统tma7v(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • FastGPT + Kymo:解锁企业专属知识库与智能体开发新体验
  • M3066ANL网络变压器,常用于NEC方案机顶盒等网络设备M3066AN实现网络信号的稳定传输与电气隔离保护
  • MybatisPlus操作方法详细总结
  • ar景区导航导览开发方案:核心技术架构与功能设计
  • 阶段1--域名服务器
  • Ceph残留磁盘清理与格式化
  • lesson22:Python的魔法方法
  • irf实验
  • 常用的正则表达式
  • 陷波频率处的相位补偿:相角超前矫正原理深度拆解
  • 综合实验(2)
  • QGraphicsScene导出为PDF
  • 大模型就业方向
  • 系统思考:经济反馈的循环
  • VRRP技术(虚拟路由器冗余协议)
  • VU2 学习笔记4 计算属性、监视属性
  • 使用 QLExpress 构建灵活可扩展的业务规则引擎
  • C++ Primer(第5版)- Chapter 7. Classes -005
  • 用 Phi-3 Mini 4K Instruct 实现轻量级模型量化与加载
  • 本地一键部署 Spark-TTS,支持Mac和Windows
  • etcd安装使用
  • OceanBase 混合检索解读:向量+标量,应该优先查哪个
  • electron自动化,webview中通过a标签跳过弹框自动下载文件
  • JavaWeb_Servlet复习
  • 免费数字孪生可视化开发平台有哪些?如何快速挑选合适工具?
  • 四、cv::Mat的介绍和使用
  • 基于.Net Core开源的库存订单管理系统
  • .Net core 部署到IIS出现500.19Internal Server Error 解决方法