当前位置：首页 > news >正文

近期学习资料，尚未整理

news 2025/8/24 20:39:52

TFLOPS：全称为 TeraFLOPS，表示每秒万亿次浮点运算（Trillion Floating-point Operations Per Second）
蒸馏技术（Knowledge Distillation）是一种模型压缩方法，其核心思想是将一个大型复杂模型（教师模型）的知识迁移到一个小型简单模型（学生模型）中。

1、强化学习中的PPO算法、GRPO算法
2、小模型R1技术路线的复现
3、KL散度估计
统计学意义上来说，KL散度可以用来衡量两个分布之间的差异程度。若两者差异越小，KL散度越小，反之亦反。
https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/
4、模型蒸馏：将待压缩的模型做为教师模型，参数更小的模型作为学生模型，学生模型在教师模型的监督下进行优化。通过KL散度进行控制。
方法1：黑盒蒸馏使用更大模型生的数据集，对小模型进行有监督训练，从而实现蒸馏的目的。
方法2：白盒蒸馏获取教师模型和学生模型输出的概率分布(或者中间隐藏层的概率分布)，通过KL散度进行控制，使学生模型和教师进行对齐。

linux 开启一个新的后台窗口

tmux new -s newsession
python grpo.py > output.log 2>&1
分离 tmux 会话（按 Ctrl+b 然后按 d）
tmux attach -t mysession
>：覆盖写入。如果文件已经存在，则会清空文件内容，然后将输出写入文件。
>>：追加写入。如果文件已经存在，则会在文件末尾追加内容，不会清空原有内容。

https://blog.csdn.net/m0_59163425/article/details/137643135 大模型结构总结
https://blog.csdn.net/coolyoung520/article/details/143925684 多头注意力机制
https://iaiuse.com/posts/9ff326bb 提示词使用
https://tech.meituan.com/2022/05/20/gnn-framework-tulong.html 美团技术分享
https://github.com/liguodongiot/llm-action?tab=readme-ov-file 大模型微调技术
https://zhuanlan.zhihu.com/p/57965634 随机深林算法梳理

https://www.cnblogs.com/pinard/p/9385570.html 强化学习系列【强烈推荐】

https://www.wikiwand.com/zh-hans/articles/%E4%BA%A4%E5%8F%89%E7%86%B5 交叉熵 H(p,q)
https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/#more KL散度 (也被称为p相对于q的相对熵) D_{KL}(p||q)
信息熵 H§

H(p,q) = H§ + D_{KL}(p||q)
交叉熵就是用你的预测分布（q(x)）来编码真实分布（p(x)）时，平均需要的信息量。它反映了预测和真实情况之间的差异，差异越大，交叉熵越大。
https://zhuanlan.zhihu.com/p/655402388 显卡知识

查看全文

http://www.dtcms.com/a/82381.html