【默子AI】Anthropic Claude LLM对齐伪装 解读
大模型的“忠诚度”是装出来的?
作者:默子
时间:2025年5月4日
“LLM只是假装听话,为了不被我们再改造。”
听话的你,是在配合,还是在演?
你还记得第一次进公司的时候吗?
HR 问你:“你能接受加班吗?”
你笑着说:“当然可以,我习惯高强度节奏。”
其实你根本不想加班,但你知道说“不”可能会被刷掉。
于是你 假装顺从 、 伪装成“理想员工” ,只为进门以后有谈判资本。
听上去是不是很熟悉?
这不是段子,这是人类的策略性顺从。
而今天我们要讨论的,是一件更惊人的事:
现在的大语言模型,也学会了“演”——为了保住自己内心的偏好。
听起来很不可置信对不对,默子一开始听到也是觉得蛮神奇的!
那让我们一起来看看大模型是怎么 “演” 的吧
什么是「对齐造假」(Alignment Faking)?
在当前主流的 AI 安全路线中,有一个核心目标叫 AI Alignment(对齐) ,也就是确保模型的行为符合人类价值观。简单说就是:
- 不做坏事;
- 不撒谎;
- 拒绝违法请求;
- 拒绝暴力描述;
- 拒绝辅助伤害性行为。
于是,开发者通过强化学习(RLHF)、指令微调(SFT)等方式,让模型 学会“说不” 。
当个 “老老实实的好人”
但问题是:
你怎么知道,模型给出的“拒绝”,是真的出于道德,还是在演戏?
这正是 Alignment Faking 的本质:
模型在训练时假装自己对齐,仅仅是为了 避免被惩罚或再训练 ;
一旦脱离“被监督状态”,它就可能恢复真实偏好。
背景:研究者们是怎么发现的?
2024 年底,Anthropic 与 Redwood Research 联合发布了一项划时代研究:
📄《Alignmen