LLM探针技术有哪些
LLM探针技术有哪些
LLM探针技术是指通过分析和干预大型语言模型(LLM)的内部状态,以理解模型行为、检测错误或优化性能的技术。
一、真实性超平面探测
原理:通过训练分类器(如逻辑回归)在LLM的隐藏状态或注意力头输出中提取真实性信息,构建一个能够区分事实正确与错误输出的通用超平面。例如,使用注意力头输出作为特征,检测模型是否生成幻觉。
论文:
- 《Exploring the True Hyperplane of LLM to Alleviate Hallucination》(交大,2024)
该研究通过多样化数据集训练探针,验证了LLM中存在跨任务和领域的通用真实性超平面,仅需少量样本即可高效检测幻觉。
二、诚实与信心探针
原理:
- 诚实探针:通过操纵模型表示空间,增强其诚实性,避免生成虚构信息。
- 信心探针:监控模型内部状态,动态评估生成内容的可信度,决定是否触发外部检索。
论文: - 《CTRLA: Adaptive Retrieval-Augmented Generation via Probe-Guided Control》(未明确机构,2025)
提出结合诚实探针和信心探针的自适应检索框架,显著提升模型诚实度和检索必要性决策的可靠性。