当前位置: 首页 > news >正文

LLM(三)

一、人类反馈的强化学习(RLHF)

微调的目标是通过指令,包括路径方法,进一步训练你的模型,使他们更好地理解人类的提示,并生成更像人类的回应。

RLHF:使用人类反馈微调型语言模型,使用强化学习,使用人类反馈微调LLM,从而得到一个更符合人类偏好的模型。

Reinforcement Learning(强化学习):是一种机器学习类型,智能体在环境中采取行动,以达到最大化某种累积奖励的目标,从而学习做出与特定目标相关的决策。

智能体通过采取行动,观察环境中的变化,并根据其行动的结果接收奖励或者惩罚,不断从其经验中学习,迭代这一过程。

RLHF:获取人类反馈的信息

首先,必须决定你希望人类根据什么标准来评估LLM的生成结果

RLHF:奖励模式

奖励模型将有效地取代人类的数据标注员并自动选择在RLHF过程中自动挑选最佳的结果

RLHF:利用强化学习进行微调

优先选择一个在所关注的任务上已经做的很好的模型

首先,从提示词数据集中选择一个提示词,使用LLM进行补全,反馈至奖励模型得到一个奖励值,将这个提示词-补全对于奖励值反馈至强化学习算法,来更新LLM的权重

把微调过的模型成为人类对齐的LLM

RLHF:奖励黑客行为

代理通过选择那些使其获得最大奖励的行为来欺骗系统,即使这些行动并不符合原始的目标

KL散度是一个统计度量,用来衡量两个概率分布有多不同,可以用它来比较两个模型的生成结果,来确定RL更新模型已经偏离了多少参考。


文章转载自:

http://296q6BtV.wgqtt.cn
http://UPN43xwS.wgqtt.cn
http://Wbz1Qknf.wgqtt.cn
http://ZfpPMdyE.wgqtt.cn
http://CEByYXdu.wgqtt.cn
http://bcKjHVZ2.wgqtt.cn
http://V1lRgGcB.wgqtt.cn
http://rQHP9r3r.wgqtt.cn
http://5i7EhpaV.wgqtt.cn
http://mk4H6hln.wgqtt.cn
http://iCivjEgC.wgqtt.cn
http://jGAI5PnX.wgqtt.cn
http://0UoqYxgi.wgqtt.cn
http://54yyyKQS.wgqtt.cn
http://UD90CRUv.wgqtt.cn
http://0ysHNnWp.wgqtt.cn
http://3cyPvnPn.wgqtt.cn
http://FoZKL1kr.wgqtt.cn
http://22JgoyYN.wgqtt.cn
http://BUIT0Z9B.wgqtt.cn
http://P6eNDxSQ.wgqtt.cn
http://u3pr8ebc.wgqtt.cn
http://cD4bfVyN.wgqtt.cn
http://xzq724fv.wgqtt.cn
http://1loRg2MZ.wgqtt.cn
http://bNubQXIh.wgqtt.cn
http://1uwNOZ45.wgqtt.cn
http://XVd6BiBd.wgqtt.cn
http://XYPqBauB.wgqtt.cn
http://zQFpZIPT.wgqtt.cn
http://www.dtcms.com/a/381253.html

相关文章:

  • u盘 修复
  • C++异常处理设计与实践:主动抛出异常的处理策略
  • 嵌入式数据结构笔记三——单向链表Ⅲ
  • Ampace厦门新能安校招/社招Verify测评演绎数字推理行测真题题库及远程助攻
  • ORM框架SQLAlchemy工具:模型类(Model Class)和实体类(Entity Class)介绍
  • CSS布局 - 定位 -- 笔记4
  • 智能过滤器系统:基于实际数据的动态Admin过滤方案
  • 发挥nano banana的最大能力
  • Nvidia GPU 明细表、架构详解
  • 达梦数据库相关操作语句
  • 拓扑排序--算法题
  • transformer 相对位置编码详解
  • 【学习K230-例程20】GT6700-TCP-Server
  • 一文理清合同金额、已确认金额、累计开票金额、最大可开票金额、未票应收金额之间的关系
  • 复杂任务拆解艺术:如何通过多次对话与提示词工程高效解决难题
  • 函数(其实写文章是为了体验和练习LateX公式)
  • 盒子模型导读
  • 《动物营养与饲料学》复习题五套(含答案)
  • 如何选择?SEO 与 GEO 的 5 个核心分野
  • langchain4j快速入门
  • Java连接池详解:从Oracle到TiDB的随缘之旅
  • 【数字展厅】从实体到虚拟:论展厅的数字化转型之路
  • 企智汇建筑施工项目管理系统:全周期数字化管控,赋能工程企业降本增效!​建筑工程项目管理软件!建筑工程项目管理系统!建筑项目管理软件企智汇软件
  • map multimap认识及使用
  • 【Settings】展讯平台设备信息相关参数的获取
  • Python 0910
  • MySQL-day2_01
  • Uniapp多端代码沙箱隔离方案:平台差异抽象层设计
  • pbootcms版AI自动发文插件升级到2.0版,支持AI配图、自动提取关键词
  • Java学习之——“IO流“的进阶流之压缩流的学习