近期学习资料,尚未整理
TFLOPS:全称为 TeraFLOPS,表示每秒万亿次浮点运算(Trillion Floating-point Operations Per Second)
蒸馏技术(Knowledge Distillation)是一种模型压缩方法,其核心思想是将一个大型复杂模型(教师模型)的知识迁移到一个小型简单模型(学生模型)中。
1、强化学习中的PPO算法、GRPO算法
2、小模型R1技术路线的复现
3、KL散度估计
统计学意义上来说,KL散度可以用来衡量两个分布之间的差异程度。 若两者差异越小,KL散度越小,反之亦反。
https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/
4、模型蒸馏:将待压缩的模型做为教师模型,参数更小的模型作为学生模型,学生模型在教师模型的监督下进行优化。通过KL散度进行控制。
方法1:黑盒蒸馏 使用更大模型生的数据集,对小模型进行有监督训练,从而实现蒸馏的目的。
方法2:白盒蒸馏 获取教师模型和学生模型输出的概率分布(或者中间隐藏层的概率分布),通过KL散度进行控制,使学生模型和教师进行对齐。
linux 开启一个新的后台窗口
tmux new -s newsession
python grpo.py > output.log 2>&1
分离 tmux 会话(按 Ctrl+b 然后按 d)
tmux attach -t mysession
>:覆盖写入。如果文件已经存在,则会清空文件内容,然后将输出写入文件。
>>:追加写入。如果文件已经存在,则会在文件末尾追加内容,不会清空原有内容。
https://blog.csdn.net/m0_59163425/article/details/137643135 大模型结构总结
https://blog.csdn.net/coolyoung520/article/details/143925684 多头注意力机制
https://iaiuse.com/posts/9ff326bb 提示词使用
https://tech.meituan.com/2022/05/20/gnn-framework-tulong.html 美团技术分享
https://github.com/liguodongiot/llm-action?tab=readme-ov-file 大模型微调技术
https://zhuanlan.zhihu.com/p/57965634 随机深林算法梳理
https://www.cnblogs.com/pinard/p/9385570.html 强化学习系列 【强烈推荐】
https://www.wikiwand.com/zh-hans/articles/%E4%BA%A4%E5%8F%89%E7%86%B5 交叉熵 H(p,q)
https://hsinjhao.github.io/2019/05/22/KL-DivergenceIntroduction/#more KL散度 (也被称为p相对于q的相对熵) D_{KL}(p||q)
信息熵 H§
H(p,q) = H§ + D_{KL}(p||q)
交叉熵就是用你的预测分布(q(x))来编码真实分布(p(x))时,平均需要的信息量。它反映了预测和真实情况之间的差异,差异越大,交叉熵越大。
https://zhuanlan.zhihu.com/p/655402388 显卡知识