15-day12LLM结构变化、位置编码和投机采样
多头机制
transformer结构
归一化层选择
归一化层位置
归一化层类型
激活函数
Llama2结构
MoE架构 混合专家模型
DeepSeek MLA
为何需要位置编码
目前的主流位置编码
正余弦位置编码
可学习位置编码
ROPE旋转位置编码
推导参考:
https://spaces.ac.cn/archives/8265
https://zhuanlan.zhihu.com/p/642884818
Alibi位置编码
总结
对于文本类任务,位置信息是重要的
可学习的位置编码缺点在于没有长度外推性
相对位置编码不需要学习,有一定的长度外推性,但是相对位置编码具有天然的远程衰减性
目前的主流是RoPE和Alibi两种相对位置编码
投机采样