后训练——Post-training技术介绍
什么是后训练?
后训练是在模型经过通用数据训练后,为提高特定领域的能力或增加行为,而进行的训练。和预训练相比,通常耗费时间和计算资源远远低于预训练,需要的特定领域的数据也远小于预训练。
后训练有哪些常见技术?
SFT: 有监督的微调。需要提供带标签的提示词和响应的数据对进行训练
DPO: 使用提示词和好的/坏的响应数据集。
Online RL:准备提示词数据集和奖励函数. 通过模型生成的响应来最大化奖励函数值.
什么时候使用后训练?
可靠改变模型行为并提升目标能力
后训练需要三个关键要素:
1 数据与算法的协同设计
2 可靠高效的算法库
3 合适的评估体系
参考资料:
https://github.com/datawhalechina/Post-training-of-LLMs/blob/main/docs/chapter1/chapter1_2/%E5%90%8E%E8%AE%AD%E7%BB%83%E6%8A%80%E6%9C%AF%E4%BB%8B%E7%BB%8DIntroduction%20to%20Post-training.md