当前位置：首页 > news >正文

LLM相关代码笔记

news 来源：原创 2025/6/28 12:00:02

10，DPO起始loss都是0.7，kto起始loss都是0.5

dpo_loss = -F.logsigmoid(self.args.dpo_beta * (pi_logratios - ref_logratios))
kto_loss = 1 - F.sigmoid(self.args.kto_beta * (chosen_logratios - KL))

因为刚开始ref_model=model，所以
- $dpo\_loss=-\log\sigma(\beta*0)=log2=0.6931$
- $kto\_loss=1-\sigma(beta*0)=0.5$

相关文章：

【Docker基础】容器技术详解：生命周期、命令与实战案例

Java网络编程实战（多人聊天室-CS模式）

ollama加载本地自定义模型

在 Linux 系统（ubuntu/kylin）上安装 Docker

玻璃厂退火炉“温度智囊”：Profinet转ModbusRTU网关

目标检测YOLO实战应用案例100讲- 基于卷积神经网络的小目标检测算法研究与应用

灵霄破茧：仙途启幕 - 灵霄门新篇-(4)

linux环境定时重启服务的流程分享

关于FocalLoss 损失函数

【C++算法】54.链表_合并 K 个升序链表

Ansible：role企业级实战

4-6记录（B树）

使用ZYNQ芯片和LVGL框架实现用户高刷新UI设计系列教程(第七讲)

【React】副作用 setState执行流程内置钩子（Effect Callback Reducer）React.memo

从 STP 到 RSTP 再到 MSTP：网络生成树协议的工作机制与发展

Docker部署.NetCore8项目

【Axure视频教程】中继器表格轮播含暂停效果

蓝桥杯真题：数字串个数

【今日三题】小乐乐改数字 (模拟) / 十字爆破 (预处理+模拟) / 比那名居的桃子 (滑窗 / 前缀和)

Spring Security6 从源码慢速开始