当前位置：首页 > news >正文

AI烘焙大赛中的算法：理解PPO、GRPO与DPO的罪简单的方式

news 2025/10/20 20:48:04

“学习不是装满一桶水，而是点燃一把火。” —— 叶芝

我的博客主页： https://lizheng.blog.csdn.net

当然啦，硬核读者老爷们也别急着走——文末附上了原论文传送门：PPO、GRPO、DPO。不过先说好，看完那些公式要是头秃了，可别来找我索赔植发费用哦～"

想象一个穿着厨师服、头顶高帽的AI选手，每天都在后厨疯狂烤制500个戚风蛋糕。它的任务就是不断尝试新配方，期待有一天能登上《厨神争霸》的舞台。

这可不是普通的菜谱！里面记载着：“面粉要过筛三次”、“蛋白打发要逆时针搅拌”、“烤箱温度要精确到±1℃”——这些细节决定了你的蛋糕是米其林三星还是黑暗料理。

请想象Gordon Ramsay戴着单边眼镜，用银质餐刀轻轻切开蛋糕：“外皮烤焦了0.3毫米！内馅甜度超标！摆盘毫无艺术感！” —— 每个毒舌点评都在逼着AI选手进步。

这位白胡子老师傅会摸着水晶球说：“依老夫看，这个选手三年后必成大器！”——他通过观察选手的学习曲线、创新能力和稳定性来预测未来潜力。

当AI选手突发奇想要在提拉米苏里加老干妈时，这个警报器就会尖叫：“住手！你想毁了意大利百年甜点的尊严吗？！”

由1000名普通食客组成的评审团，他们可能给出最真实的反馈：“草莓蛋糕比香菜蛋糕好吃100倍！”——虽然不够专业，但代表了大众口味。

三巨头对比图
图1：PPO、GRPO和DPO的修罗场（来源1、来源2）

• 主角：你的AI模型（每天烤500个戚风蛋糕的劳模）
• 教练：米其林三星主厨（参考模型）
• 考官：戴着单边眼镜的美食评论家（奖励模型）
• 预言家：会看面相的厨艺总监（价值函数）

• 成本爆炸：请米其林评委每小时要花1000美元
• 效率低下：每个蛋糕要等评委细细品味半小时
• 评委偏见：万一遇到个"就爱焦苦味"的评委…

PPO心酸史
图2：PPO与GRPO的爱恨情仇（来源）

• 分组学习：把选手分成"巧克力狂热组"、"抹茶邪教组"等
• 省钱妙招：每组只抽样评审3个代表作
• 去掉玄学：开除那个整天神神叨叨的预言家

• 组内偷师：“张师傅的蛋糕更蓬松？偷学！”
• 互相伤害：“李师傅的摆盘更好看？破坏！”
• 评委陷阱：如果评委说"越甜越好"，最后全组都得糖尿病

适合预算有限但又要比DPO稳定点的项目，就像学校里的学习小组——虽然比不上私教，但比自学强。

• 民主决策：直接让1000个吃货投票
• 极速迭代：观众说芒果好吃？明天就加三斤！
• 成本杀手：省掉了昂贵的米其林评委

DPO狂欢现场
图3：DPO的民主暴政（来源）