Steering Llama 2 via Contrastive Activation Addition
https://aclanthology.org/2024.acl-long.828/
https://aclanthology.org/2024.acl-long.828/
1.概述
随着大型语言模型(LLMs)的能力近年来迅速增长,越来越多的研究致力于确保它们是“有帮助的、诚实的和无害的”(Askell 等人,2021),以减少由于错误对齐、不安全行为(Bommaski 等人,2021)带来的风险。
