当前位置：首页 > news >正文

后训练——Post-training技术介绍

news 2025/10/14 9:03:47

什么是后训练？

后训练是在模型经过通用数据训练后，为提高特定领域的能力或增加行为，而进行的训练。和预训练相比，通常耗费时间和计算资源远远低于预训练，需要的特定领域的数据也远小于预训练。

后训练有哪些常见技术？

SFT: 有监督的微调。需要提供带标签的提示词和响应的数据对进行训练

DPO: 使用提示词和好的/坏的响应数据集。

Online RL:准备提示词数据集和奖励函数. 通过模型生成的响应来最大化奖励函数值.

什么时候使用后训练?

可靠改变模型行为并提升目标能力

后训练需要三个关键要素:

1 数据与算法的协同设计

2 可靠高效的算法库

3 合适的评估体系

参考资料:

https://github.com/datawhalechina/Post-training-of-LLMs/blob/main/docs/chapter1/chapter1_2/%E5%90%8E%E8%AE%AD%E7%BB%83%E6%8A%80%E6%9C%AF%E4%BB%8B%E7%BB%8DIntroduction%20to%20Post-training.md

查看全文

http://www.dtcms.com/a/478446.html

获取KeyStore的sha256

Linux (5)| 入门进阶：Linux 权限管理的基础规则与实践

常见压缩包格式详解：区别及在不同系统中的解压方式

【数学进制数位DP】P9362 [ICPC 2022 Xi‘an R] Find Maximum|普及+

.net过滤器和缓存

张家港网站建设培训班电力建设专家答疑在哪个网站

零基础学AI大模型之大模型的“幻觉”

网站快速优化排名排名c语言入门自学零基础

MySQL排序规则utf8mb4_0900_ai_ci解析

做网站别名解析的目的是什么同城广告发布平台

GPT4Free每日更新的免登录工作AI提供商和模型列表

网站群建设座谈会云浮新增病例详情

Proxmox 9 一键更新虚拟机mac

C# WPF DataGrid使用Observable＜Observable＜object＞类型作为数据源

sem网站建设网站是由多个网页组成的吗

redis中的数据类型和适用场景

从字节到网页：HTTP 与 TCP 的底层密码全解析

建设局招标办网站百度seo搜索引擎优化厂家

隧道高清晰广播+紧急电话系统的应用

Ubuntu使用图片

C# 求圆柱体的周长(Find the perimeter of a cylinder)

php 网站部署点击网站出现微信二维码的链接怎么做

MCU和GPIO （1）

STM32H743-ARM例程18-SPI

力扣Hot100--94.二叉树的中序遍历

NXP - 用MDK建立基于arm-none-eabi工具链的工程框架

中卫网站推广网络营销电器网站建设流程

MavenException【测试】

IPv6怎么开启？图文详解你的电脑和路由器设置方法

CSS 01【基础语法学习】

相关文章：