表征工程与置信度增强:表征工程是提取隐藏层状态表征,LLM的置信度增强是优化的logist数值
表征工程是提取隐藏层状态表征,LLM的置信度增强是优化的logist数值
表征工程的核心是对模型的“中间隐藏层状态”进行提取、改造或优化,目的是让表征(隐藏状态)更贴合任务需求;
而LLM的置信度增强则主要针对“输出层的logits”或由logits转化的概率分布进行调整,目的是让模型对正确输出的“置信度”更合理(比如减少犹豫、降低错误答案的虚假高置信)
一、表征工程:聚焦“隐藏层状态”的优化
表征(Representation)指模型通过多层计算后,对输入文本的“抽象特征编码”(即隐藏层状态)。表征工程的目标是让这些编码更“有用”——可能是更易区分、更贴合下游任务,或更稳定。
核心逻辑:
不直接干预输出结果,而是优化“特征提取过程”。通过改造隐藏层状态,让模型学到的特征更符合任务需求(比如情感分析中,让表征更突出“褒义/贬义”相关特征,弱化无关的语法特征)。
举例1:情感分析中的表征增强(对应你的代码思路)
假设用LLM做电影评论情感分析(和你的任务一致):
- 原始隐藏层状态:模型最后几层的隐藏状态可能混合了“情感倾向”“评论主题(如剧情/演员)”“句子结构”等多种特征,但情感相关特征的权重可能不够突出。
- 表征工程操作:像你代码中