当前位置: 首页 > news >正文

后训练——Post-training技术介绍

什么是后训练?

后训练是在模型经过通用数据训练后,为提高特定领域的能力或增加行为,而进行的训练。和预训练相比,通常耗费时间和计算资源远远低于预训练,需要的特定领域的数据也远小于预训练。

后训练有哪些常见技术?

SFT:  有监督的微调。需要提供带标签的提示词和响应的数据对进行训练

DPO: 使用提示词和好的/坏的响应数据集。

Online RL:准备提示词数据集和奖励函数. 通过模型生成的响应来最大化奖励函数值.

什么时候使用后训练?

可靠改变模型行为并提升目标能力

后训练需要三个关键要素:

1   数据与算法的协同设计

2    可靠高效的算法库

3    合适的评估体系

参考资料:

https://github.com/datawhalechina/Post-training-of-LLMs/blob/main/docs/chapter1/chapter1_2/%E5%90%8E%E8%AE%AD%E7%BB%83%E6%8A%80%E6%9C%AF%E4%BB%8B%E7%BB%8DIntroduction%20to%20Post-training.md

http://www.dtcms.com/a/478446.html

相关文章:

  • 获取KeyStore的sha256
  • Linux (5)| 入门进阶:Linux 权限管理的基础规则与实践
  • 常见压缩包格式详解:区别及在不同系统中的解压方式
  • 【数学 进制 数位DP】P9362 [ICPC 2022 Xi‘an R] Find Maximum|普及+
  • .net过滤器和缓存
  • 张家港网站建设培训班电力建设专家答疑在哪个网站
  • 零基础学AI大模型之大模型的“幻觉”
  • 网站快速优化排名排名c语言入门自学零基础
  • MySQL排序规则utf8mb4_0900_ai_ci解析
  • 做网站别名解析的目的是什么同城广告发布平台
  • GPT4Free每日更新的免登录工作AI提供商和模型列表
  • 网站群建设座谈会云浮新增病例详情
  • Proxmox 9 一键更新虚拟机mac
  • C# WPF DataGrid使用Observable<Observable<object>类型作为数据源
  • sem网站建设网站是由多个网页组成的吗
  • redis中的数据类型和适用场景
  • 从字节到网页:HTTP 与 TCP 的底层密码全解析
  • 建设局招标办网站百度seo搜索引擎优化厂家
  • 隧道高清晰广播+紧急电话系统的应用
  • Ubuntu使用图片
  • C# 求圆柱体的周长(Find the perimeter of a cylinder)
  • php 网站部署点击网站出现微信二维码的链接怎么做
  • MCU和GPIO (1)
  • STM32H743-ARM例程18-SPI
  • 力扣Hot100--94.二叉树的中序遍历
  • NXP - 用MDK建立基于arm-none-eabi工具链的工程框架
  • 中卫网站推广网络营销电器网站建设流程
  • MavenException【测试】
  • IPv6怎么开启?图文详解你的电脑和路由器设置方法
  • CSS 01【基础语法学习】