STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning论文笔记
前言
STaR: Self-Taught Reasoner
Bootstrapping Reasoning With Reasoning
斯坦福和google research共同的论文
link:https://arxiv.org/pdf/2203.14465
一、 方法
- 数据集包含 少量cot的数据和不包含cot的大量数据集。
1.1 通过少量cot fewshot生成
通过少量逻辑的样例,生成回答大量问题的逻辑
把少量的带有逻辑的示例,当作Prompt中的few shot引导llm生成cot范式的response
1.2 Refine
对于生成答案如果正确,则生成带有cot正确的response和原本的prompt组合成一个训练数据
对于答案错误的,则通过在输入Prompt中hint正确答案,根据正确答案来引导模型生成正确的cot逻辑
1.3 训练
最终对于可以生成正确答案的response和prompt做训练,反复迭代这个过程