当前位置: 首页 > news >正文

AI大模型微调教程7

1、目录

对齐主要方法:PPO、DPO

2、RLHF

SFT:增强大模型在某一方面的能力

训练分3个阶段。

数据准备:

Reward模型数据处理:

score大于就是正确的,score小于就是错误的,而且大的程度越大越好。

3、强化学习

我们希望得到:reward之和最大

强化学习 vs 监督学习

1)监督学习,<input, output>提前准备好的,强化学习没有

2)监督学些,<input, output>数据是独立的,强化学习数据间是有关联的

4、Multi-armed Bandit

5、The goal of agent

Agent的目标定义:长期的Reward最大化

对于随机变量,最常用的方法就是取期望值。

让Agent到达高价值点位。

State-Value Functions:在策略给定的情况下,评估一个状态的价值。

Action-value Functions:在某个状态下,某个动作的价值

此公式非常重要。

6、Optimal Policy

http://www.dtcms.com/a/453222.html

相关文章:

  • Docker 完整教程(5,6) | 容器编译与编排
  • 网站模板 外贸工厂济宁网站建设是什么
  • pyautocad 发送消息到消息栏 acad.doc.Utility.Prompt
  • 【传奇开心果系列】基于Flet框架实现的分析题型的掌握程度不同题型得分饼图样式示例自定义模板特色和实现原理深度解析
  • 做网站怎么防止被网警查到wordpress 设置登陆
  • 部署MySql8.4.6(Kylinv10sp3、Ubuntu2204、Rocky9.3)
  • 高并发下如何保证 Caffeine + Redis 多级缓存的一致性问题?MySQL、Redis 缓存一致性问题?
  • 吉林省建设厅网站评职称系统手机装wordpress
  • LeetCode 分类刷题:1901. 寻找峰值 II
  • ROS实战中Gazebo的基本使用
  • wordpress网站维护教程wordpress修改管理密码
  • PTA6-1 使用函数求最大公约数(C)
  • 小谈:数字化项目立项成功的方法论
  • HTTPS 真的牢不可破吗?—— 中间人攻击与安全机制解析
  • 广东省城乡建设厅网站seo短视频新地址在哪里?
  • 从 0 到 1 搭建 Python 语言 Web UI自动化测试学习系列 9--基础知识 5--常用函数 3
  • 然后在亚马逊网站上做外贸做网站需要做数据库
  • 接口测试-Postman 断言
  • 网站关键词更换了专业网站建设 公司哪家好
  • 乐观锁 与 悲观锁 笔记251007
  • Linux中select的实现
  • /UI2/CL_JSON=>DESERIALIZE :JSON反序列化
  • MySQL主主复制+Keepalived高可用集群搭建与故障切换实战
  • 幼儿网站源代码室内设计案例去什么网站
  • Spring Framework源码解析——BeanFactoryAware
  • Linux系统--进程通信初解
  • 企业网站如何建设报告jsp简述网站开发流程
  • VS2022创建项目工程笔记
  • 【学习笔记05】C++11新特性学习总结(下)
  • RNN、LSTM与GRU模型