当前位置：首页 > news >正文

【知识点】大模型面试题汇总（持续更新）

news 来源：原创 2025/7/1 8:57:22

1. Scaled Dot-Product Attention中的缩放因子（√d）作用

问题：为什么计算QK内积后要除以√d？

答案：
• 核心原因：防止点积结果过大导致softmax进入饱和区（梯度消失）。

• 数学解释：假设Q、K的每个维度是独立零均值、方差为1的随机变量，点积结果的方差为d。缩放后方差恢复为1，稳定梯度。

• 替代方案：初始化时缩小参数方差（如除以√d），但动态缩放更鲁棒。

2. Q/K使用不同权重矩阵的原因

问题：为什么Q和K需要不同的投影矩阵？

答案：

表达能力：相同矩阵会导致QKᵀ对称，限制模型捕捉非对称关系（如因果性）。
对角主导：对称矩阵易使注意力过度关注自身位置（对角线值偏大）。
参数效率：独立投影增加可学习参数，提升模型容量。

3. FFN先升维再降维的设计，FFN的结构是怎么样的？

问题&

相关文章：

pciutils-3.5.5-win64工具的使用方法

提升MySQL运维效率的AI利器：NineData深度评测与使用指南

ET MailBoxComponent类(实体) 分析

linux之 pcie 总线协议基础知识

day21：零基础学嵌入式之数据结构

解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-MCP大模型上下文解析

SQLMesh 模型管理指南：从创建到验证的全流程解析

SaaS基于云计算、大数据的Java云HIS平台信息化系统源码

java实现根据Velocity批量生成pdf并合成zip压缩包

AD 多层线路及装配图PDF的输出

Springboot考研信息平台

LLM Text2SQL NL2SQL 实战总结

MongoDB数据库深度解析：架构、特性与应用场景

呼叫中心高可用方案：全方位保障客服业务持续稳定

7、MinIO服务器简介与安装

Python3 简易DNS服务器实现

Python机器学习笔记（二十三模型评估与改进-网格搜索）

20、工业协议转换与数据采集中间件 (模拟) - /数据与物联网组件/protocol-converter-middleware

全球宠物经济新周期下的亚马逊跨境采购策略革新——宠物用品赛道成本优化三维路径

IP防护等级举例解析