Datawhale:吴恩达Post-training of LLMs,学习打卡4
学习了《在线强化学习基础理论》这一节后,我对大模型对齐中的PPO和GRPO有了更清晰的理解。我之前在学习中接触过RLHF,但对具体实现细节一直不够透彻。本章从“生成-打分-更新”的流程切入,系统梳理了在线强化学习的工作机制,尤其是奖励函数的设计让我深受启发——原来在数学或代码任务中,用可验证奖励(如单元测试通过率)比依赖奖励模型更直接有效。对比PPO需要额外训练价值网络、显存开销大,而GRPO通过组内相对排序简化计算,虽粒度粗些但更适合推理任务,这种工程上的权衡思维很值得借鉴。这让我联想到自己在评测模型时关注推理效率的实践,也提醒我在后续研究中要根据任务特性选择合适算法,而不是盲目追求复杂方法。整体内容逻辑清晰,贴合实际应用场景,是一份很有价值的学习材料。
