当前位置: 首页 > news >正文

【论文笔记】RL在LLM中的落地方法

文章目录

  • 数据合成(RLAIF)
    • ReST
    • Slef-rewarding LM
    • Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
  • 泛化/自我提升
    • Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
    • Small Language Models Need Strong Verifiers to Self-Correct Reasoning
  • Time-search
    • Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
    • Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
    • Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
    • Retrieval Augmented Thought Process for Private Data Handling in Healthcare

数据合成(RLAIF)

优点:无需人工干预,机器自己给自己提供训练语料
缺点:可能过拟合
目前我比较认可的一种范式:“RLAIF”(http://arxiv.org/abs/2309.00267),即通过 LLM 给予 LLM 反馈,实现一种 self-play+RL 的效果。
就像AlphaGo和AlphaZero的关系那样,AlphaZero在训练过程中,没有用到人类的棋谱。这种范式下,机器自己给自己提供训练语料、奖励函数,人类的能力不会成为瓶颈。
在这里插入图片描述

ReST

http://arxiv.org/abs/2308.08998, ReST(2023),早期数据合成方案,Grow 阶段生成多个输出预测、并打分构建数据集,在 Improve 阶段使用高质量数据进行 finetune;通过两个阶段的不断迭代,提升模型的性能。
类似 alphaGo,G 步骤就是不断自我对弈产生新的训练集,I 步骤就是通过训练迭代优化策略。
在这里插入图片描述在这里插入图片描述
如Fig2所示,理想情况下,随着I轮数的增加,模型G步骤产生的策略,也能够获得更多Reward,提高最终数据集的数据质量,形成良性循环。
这个训练策略看起来比较简单,如果应用于数学/代码等领域,是否会有 reward hacking、overfitting 问题?后续有不少文章指出了这一点。

Slef-rewarding LM

http://arxiv.org/abs/2401.10020,2024,也很有名。给模型打分的不应该是人类,而应该是模型;这样人类的能力才不会成为瓶颈。
跟 ReST 做 SFT 不一样,这里是使用模型自己生成内容,自己打分形成偏好数据集,进行 DPO 训练生成下一代模型。

在这里插入图片描述
这张训练框架图画得很清晰了。根据 prompt 模型生成一系列回答 y,然后用模型评价并估计每个回答的奖励函数 r,如此一来,就可以生成一系列 偏好数据集,用于 DPO 训练。
语言模型评估往往倾向于更长的回答,或许是一种 reward hacking 的表现。另外也有多样性丧失的风险。

Training Large Language Models for Reasoning through Reverse Curr

相关文章:

  • STM32——SPI通信
  • 怎么使用vue3实现一个优雅的不定高虚拟列表
  • mysql知识总结 基础篇
  • Light RPC:一款轻量高效的Java RPC框架实践指南
  • vscode Colipot 编程助手
  • 【CF】Day26——Teza Round 1 (Codeforces Round 1015, Div. 1 + Div. 2) CD
  • UE5学习笔记 FPS游戏制作44 统一UI大小 sizeBox
  • 关于OEC/OEC-turbo刷机问题的一些解决方法(2)——可能是终极解决方法了
  • day24学习Pandas库
  • k8s核心资源对象一(入门到精通)
  • 3D激光轮廓仪知识整理(待补充)
  • browser-use开源程序使 AI 代理可以访问网站,自动完成特定的指定任务,告诉您的计算机该做什么,它就会完成它。
  • 大模型论文:Improving Language Understanding by Generative Pre-Training
  • windterm终端软件使用
  • React-Markdown 组件底层实现原理详解
  • 服务异常挂掉问题:java invoked oom-killer
  • 数字三角形(dfs+动态规划)通过率未达100%
  • 第三次PID状态机
  • 评价区动态加载是怎么实现的?
  • 【AI学习】初步了解Gradio
  • 甘肃省白银市一煤矿发生透水事故,3人失联
  • 周慧芳任上海交通大学医学院附属上海儿童医学中心党委书记
  • 受贿2.61亿余元,陕西省政协原主席韩勇一审被判死缓
  • “打铁”热邂逅江南水乡,长三角首个国际级铁三赛事有何不同
  • 4月份国民经济顶住压力稳定增长
  • 取得金奖西瓜品种独家使用权的上海金山,为何要到异地“试种”?