当前位置: 首页 > news >正文

LLM相关代码笔记

10,DPO起始loss都是0.7,kto起始loss都是0.5

dpo_loss = -F.logsigmoid(self.args.dpo_beta * (pi_logratios - ref_logratios))
kto_loss = 1 - F.sigmoid(self.args.kto_beta * (chosen_logratios - KL))
  • 因为刚开始ref_model=model,所以
    • d p o _ l o s s = − log ⁡ σ ( β ∗ 0 ) = l o g 2 = 0.6931 dpo\_loss=-\log\sigma(\beta*0)=log2=0.6931 dpo_loss=logσ(β0)=log2=0.6931
    • k t o _ l o s s = 1 − σ ( b e t a ∗ 0 ) = 0.5 kto\_loss=1-\sigma(beta*0)=0.5

相关文章:

  • 【Docker基础】容器技术详解:生命周期、命令与实战案例
  • Java网络编程实战(多人聊天室-CS模式)
  • ollama加载本地自定义模型
  • 在 Linux 系统(ubuntu/kylin)上安装 Docker
  • 玻璃厂退火炉“温度智囊”:Profinet转ModbusRTU网关
  • 目标检测YOLO实战应用案例100讲- 基于卷积神经网络的小目标检测算法研究与应用
  • 灵霄破茧:仙途启幕 - 灵霄门新篇-(4)
  • linux环境定时重启服务的流程分享
  • 关于FocalLoss 损失函数
  • 【C++算法】54.链表_合并 K 个升序链表
  • Ansible:role企业级实战
  • 4-6记录(B树)
  • 使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第七讲)
  • 【React】副作用 setState执行流程 内置钩子(Effect Callback Reducer)React.memo
  • 从 STP 到 RSTP 再到 MSTP:网络生成树协议的工作机制与发展
  • Docker部署.NetCore8项目
  • 【Axure视频教程】中继器表格轮播含暂停效果
  • 蓝桥杯真题:数字串个数
  • 【今日三题】小乐乐改数字 (模拟) / 十字爆破 (预处理+模拟) / 比那名居的桃子 (滑窗 / 前缀和)
  • Spring Security6 从源码慢速开始