大语言模型:提示词决定自我反思效果: “检查回答是否错误” “验证回答是否正确”
大语言模型(LLMs)自我反思的结果很容易受提示词构造的影响
大型语言模型(LLMs)展现出令人印象深刻的零样本和少样本推理能力。有人提出,这些能力可以通过自我反思来提升,即让大型语言模型反思自己的输出,以识别和纠正初始回答中的错误。然而,尽管有一些证据表明自我反思的好处,但最近的研究结果却好坏参半。在这里,我们旨在调和这些相互矛盾的发现,首先证明自我反思的结果对提示词措辞敏感;例如,当明确提示大型语言模型寻找错误时,它们更有可能得出自己犯了错误的结论。因此,反思提示词的特殊性可能导致大型语言模型不必要地改变正确的回答。我们表明,自我反思文献中使用的大多数提示词都容易受到这种偏差的影响。然后,我们提出了不同的构建提示词的方法,这些方法在识别错误时更为保守,并表明使用此类提示词进行自我反思会导致更高的准确性。我们的发现强调了提示工程在自我反思任务中的重要性。
- 研究背景:大语言模型能通过自我反思(即自己检查答案找错误并修正)提升推理能力,但不同研究对其效果的结论不一致。作者发现,这