【知识点】大模型面试题汇总(持续更新)
1. Scaled Dot-Product Attention中的缩放因子(√d)作用
问题:为什么计算QK内积后要除以√d?
答案:
• 核心原因:防止点积结果过大导致softmax进入饱和区(梯度消失)。
• 数学解释:假设Q、K的每个维度是独立零均值、方差为1的随机变量,点积结果的方差为d。缩放后方差恢复为1,稳定梯度。
• 替代方案:初始化时缩小参数方差(如除以√d),但动态缩放更鲁棒。
2. Q/K使用不同权重矩阵的原因
问题:为什么Q和K需要不同的投影矩阵?
答案:
- 表达能力:相同矩阵会导致QKᵀ对称,限制模型捕捉非对称关系(如因果性)。
- 对角主导:对称矩阵易使注意力过度关注自身位置(对角线值偏大)。
- 参数效率:独立投影增加可学习参数,提升模型容量。
3. FFN先升维再降维的设计,FFN的结构是怎么样的?
问题&