SFT(有监督微调)、RLHF(强化学习)、RAG(检索增强⽣成)
一、SFT(Supervised Fine-Tuning)有监督微调
- 通过提供⼈⼯标注的数据,进⼀步训练预训练模型,让模型能够更加精准地处理特定领域的任务
- 除了“有监督微调”,还有“⽆监督微调”“⾃监督微调”,当⼤家提到“微调”时通常是指有监督微调
二、RLHF(Reinforcement Learning from Human Feedback)强化学习
- DPO(Direct Preference Optimization
核⼼思想:通过 ⼈类对⽐选择(例如:A 选项和 B 选项,哪个更好)直接优化⽣成模型,使其产⽣更符合⽤户需求的结果;调整幅度⼤
- PPO(Proximal Policy Optimization)
核⼼思想:通过 奖励信号(如点赞、点踩)来 渐进式调整模型的⾏为策略;调整幅度⼩
三、 RAG(Retrieval-Augmented Generation)检索增强⽣成
将外部信息检索与⽂本⽣成结合,帮助模型在⽣成答案时,实时获取外部信息和最新信息
