当前位置: 首页 > news >正文

【知识点】大模型面试题汇总(持续更新)

1. Scaled Dot-Product Attention中的缩放因子(√d)作用

问题:为什么计算QK内积后要除以√d?

答案:
• 核心原因:防止点积结果过大导致softmax进入饱和区(梯度消失)。

• 数学解释:假设Q、K的每个维度是独立零均值、方差为1的随机变量,点积结果的方差为d。缩放后方差恢复为1,稳定梯度。

• 替代方案:初始化时缩小参数方差(如除以√d),但动态缩放更鲁棒。


2. Q/K使用不同权重矩阵的原因

问题:为什么Q和K需要不同的投影矩阵?

答案:

  1. 表达能力:相同矩阵会导致QKᵀ对称,限制模型捕捉非对称关系(如因果性)。
  2. 对角主导:对称矩阵易使注意力过度关注自身位置(对角线值偏大)。
  3. 参数效率:独立投影增加可学习参数,提升模型容量。

3. FFN先升维再降维的设计,FFN的结构是怎么样的?

问题&

相关文章:

  • pciutils-3.5.5-win64工具的使用方法
  • 提升MySQL运维效率的AI利器:NineData深度评测与使用指南
  • ET MailBoxComponent类(实体) 分析
  • linux之 pcie 总线协议基础知识
  • day21:零基础学嵌入式之数据结构
  • 解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-MCP大模型上下文解析
  • SQLMesh 模型管理指南:从创建到验证的全流程解析
  • SaaS基于云计算、大数据的Java云HIS平台信息化系统源码
  • java实现根据Velocity批量生成pdf并合成zip压缩包
  • AD 多层线路及装配图PDF的输出
  • Springboot考研信息平台
  • LLM Text2SQL NL2SQL 实战总结
  • MongoDB数据库深度解析:架构、特性与应用场景
  • 呼叫中心高可用方案:全方位保障客服业务持续稳定
  • 7、MinIO服务器简介与安装
  • Python3 简易DNS服务器实现
  • Python机器学习笔记(二十三 模型评估与改进-网格搜索)
  • 20、工业协议转换与数据采集中间件 (模拟) - /数据与物联网组件/protocol-converter-middleware
  • 全球宠物经济新周期下的亚马逊跨境采购策略革新——宠物用品赛道成本优化三维路径
  • IP防护等级举例解析
  • 美国务卿鲁比奥抵达会场,将参加俄乌会谈
  • 温州通报“一母亲殴打女儿致其死亡”:嫌犯已被刑拘
  • 国税总局上海市税务局回应刘晓庆被举报涉嫌偷漏税:正依法依规办理
  • 男子恶意遗弃幼子获刑,最高法发布涉未成年人家庭保护典型案例
  • 外交部:各方应为俄乌双方恢复直接对话创造条件
  • “老中青少”四代同堂,季春艳携锡剧《玲珑女》冲击梅花奖