当前位置: 首页 > news >正文

SFT(有监督微调)、RLHF(强化学习)、RAG(检索增强⽣成)

一、SFT(Supervised Fine-Tuning)有监督微调

  • 通过提供⼈⼯标注的数据,进⼀步训练预训练模型,让模型能够更加精准地处理特定领域的任务
  • 除了“有监督微调”,还有“⽆监督微调”“⾃监督微调”,当⼤家提到“微调”时通常是指有监督微调

二、RLHF(Reinforcement Learning from Human Feedback)强化学习

  • DPO(Direct Preference Optimization

核⼼思想:通过 ⼈类对⽐选择(例如:A 选项和 B 选项,哪个更好)直接优化⽣成模型,使其产⽣更符合⽤户需求的结果;调整幅度⼤

  • PPO(Proximal Policy Optimization)

核⼼思想:通过 奖励信号(如点赞、点踩)来 渐进式调整模型的⾏为策略;调整幅度⼩

三、 RAG(Retrieval-Augmented Generation)检索增强⽣成

将外部信息检索与⽂本⽣成结合,帮助模型在⽣成答案时,实时获取外部信息和最新信息

http://www.dtcms.com/a/528828.html

相关文章:

  • 网页设计模板图片代码seo岗位职责
  • wordpress开发网站html如何建网站
  • 深度学习核心模型详解:CNN与RNN
  • 哈尔滨整站如何做网站流量买卖
  • 智能制造知识图谱的建设路线
  • IPIDEA实现数据采集自动化:高效自动化采集方案
  • 网站开发认证考试wordpress目录 读写权限设置
  • 【51单片机】【protues仿真】基于51单片机热敏电阻数字温度计数码管系统
  • Java基础与集合小压八股
  • 网站建设做网站需要多少钱?杭州网站建设公司有哪些
  • [ Redis ] SpringBoot集成使用Redis(补充)
  • GitHub等平台形成的开源文化正在重塑伊朗人
  • 贵州省建设厅网站造价工程信息网东港建站公司
  • UE5 蓝图-17:主 mainUI 界面蓝图,构成与尺寸分析;界面菜单栏里按钮 Ul_menuButtonsUl 蓝图的构成记录,
  • 公司企业网站免费建设网站建设需要技术
  • SQL MID() 函数详解
  • SQL187 每份试卷每月作答数和截止当月的作答总数。
  • 三河建设局网站做学校网站用什么模版
  • 装修网站建设服务商wordpress 编辑图片无法显示
  • 建设网站要求有哪些营销型网站建设搭建方法
  • jQuery noConflict() 方法详解
  • JavaScript 性能优化系列(六)接口调用优化 - 6.4 错误重试策略:智能重试机制,提高请求成功率
  • 绘画基础知识学习
  • 自己的服务器做网站要备案做网站用到ps么
  • 第 4 篇:SSM 分布式落地:状态持久化与并行状态(含 Redis/MySQL 实战)
  • STM32全栈智慧鱼缸——硬件选型、接线图、软件流程图与完整源码
  • 【11408学习记录】考研数学概率论攻坚:事件的独立性与独立重复试验核心精讲
  • linux下文件操作函数
  • 电商网站建设与维护意味着什么公众号登录怎么退出
  • 专业的营销型网站培训中心wordpress 美化网站