当前位置：首页 > news >正文

SFT（有监督微调）、RLHF（强化学习）、RAG（检索增强⽣成）

news 2025/10/26 9:41:01

一、SFT（Supervised Fine-Tuning）有监督微调

通过提供⼈⼯标注的数据，进⼀步训练预训练模型，让模型能够更加精准地处理特定领域的任务
除了“有监督微调”，还有“⽆监督微调”“⾃监督微调”，当⼤家提到“微调”时通常是指有监督微调

二、RLHF（Reinforcement Learning from Human Feedback）强化学习

DPO（Direct Preference Optimization

核⼼思想：通过⼈类对⽐选择（例如：A 选项和 B 选项，哪个更好）直接优化⽣成模型，使其产⽣更符合⽤户需求的结果；调整幅度⼤

PPO（Proximal Policy Optimization）

核⼼思想：通过奖励信号（如点赞、点踩）来渐进式调整模型的⾏为策略；调整幅度⼩

三、 RAG（Retrieval-Augmented Generation）检索增强⽣成

将外部信息检索与⽂本⽣成结合，帮助模型在⽣成答案时，实时获取外部信息和最新信息

http://www.dtcms.com/a/528828.html

相关文章：

网页设计模板图片代码seo岗位职责

wordpress开发网站html如何建网站

深度学习核心模型详解：CNN与RNN

哈尔滨整站如何做网站流量买卖

智能制造知识图谱的建设路线

IPIDEA实现数据采集自动化：高效自动化采集方案

网站开发认证考试wordpress目录读写权限设置

【51单片机】【protues仿真】基于51单片机热敏电阻数字温度计数码管系统

Java基础与集合小压八股

网站建设做网站需要多少钱?杭州网站建设公司有哪些

[ Redis ] SpringBoot集成使用Redis(补充)

GitHub等平台形成的开源文化正在重塑伊朗人

贵州省建设厅网站造价工程信息网东港建站公司

UE5 蓝图-17：主 mainUI 界面蓝图，构成与尺寸分析；界面菜单栏里按钮 Ul_menuButtonsUl 蓝图的构成记录，

公司企业网站免费建设网站建设需要技术

SQL MID() 函数详解

SQL187 每份试卷每月作答数和截止当月的作答总数。

三河建设局网站做学校网站用什么模版

装修网站建设服务商wordpress 编辑图片无法显示

建设网站要求有哪些营销型网站建设搭建方法

jQuery noConflict() 方法详解

JavaScript 性能优化系列（六）接口调用优化 - 6.4 错误重试策略：智能重试机制，提高请求成功率

绘画基础知识学习

自己的服务器做网站要备案做网站用到ps么

第 4 篇：SSM 分布式落地：状态持久化与并行状态（含 Redis/MySQL 实战）

STM32全栈智慧鱼缸——硬件选型、接线图、软件流程图与完整源码

【11408学习记录】考研数学概率论攻坚：事件的独立性与独立重复试验核心精讲

linux下文件操作函数

电商网站建设与维护意味着什么公众号登录怎么退出

专业的营销型网站培训中心wordpress 美化网站