CS保研面试问题
系列文章目录
提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
文章目录
- 系列文章目录
- 计算机视觉(Computer Vision)和计算机图形学(Computer Graphics)的区别?
- **一、计算机视觉(CV)与计算机图形学(CG)的核心区别**
- **1. 核心目标**
- **2. 技术方法**
- **3. 数据流方向**
- **二、应用领域与前沿方向**
- **计算机视觉(CV)**
- **计算机图形学(CG)**
- **三、两者的交叉与融合**
- **面试快速回答模板**
- 生成式模型GAN与Diffusion的区别与优缺点
- **一、核心差异**
- **二、优缺点对比**
- **GAN的优缺点**
- **Diffusion Model的优缺点**
- **三、应用场景**
- **GAN**
- **Diffusion Model**
- **四、前沿论文推荐**
- **GAN**
- **Diffusion Model**
- **五、面试快速回答模板**
- 你认为LLM/MLLM还会有什么样的发展?(还有那些问题需要解决?)
- **一、当前最火热的五大研究方向**
- **1. 模型效率与轻量化**
- **2. 多模态统一与跨模态对齐**
- **3. 复杂推理与规划能力**
- **4. 安全性与可控性**
- **5. 具身智能与世界交互**
- **二、其他新兴方向**
- **三、面试快速回答模板**
- AIGC的3D方面?
- **一、AIGC3D的核心技术方向**
- **1. 3D几何生成**
- **2. 3D纹理生成**
- **3. 3D动画生成**
- **4. 3D场景生成**
- **二、AIGC3D的四大技术路线**
- **1. 基于2D升维的生成**
- **2. 端到端3D生成**
- **3. 3D编辑与优化**
- **4. 3D数据增强**
- **三、关键挑战与解决方案**
- **挑战**
- **解决方案**
- **四、重要论文推荐**
- **五、面试快速回答模板**
- 说说NP问题的定义?
- **一、基础定义**
- **1. P类问题(Polynomial Time)**
- **2. NP类问题(Nondeterministic Polynomial Time)**
- **3. NP难问题(NP-Hard)**
- **4. NP完全问题(NP-Complete)**
- **二、核心区别**
- **三、关键图示:复杂度类关系**
- **四、归约的意义**
- **五、经典问题分类**
- **六、面试快速回答模板**
- 使用英文讲述一下SGD与BP?
- **1. Backpropagation (BP) vs. Stochastic Gradient Descent (SGD)**
- **Backpropagation (BP)**
- **Stochastic Gradient Descent (SGD)**
- **Collaboration Between BP and SGD**
- **2. SGD vs. Adam: Key Differences**
- **Gradient Utilization**
- **Learning Rate Adaptation**
- **Update Rule**
- **Practical Performance**
- **3. Core Takeaway**
搜集一些网络上的CS保研面试可能会出现的问题…
计算机视觉(Computer Vision)和计算机图形学(Computer Graphics)的区别?
好的,我将从核心区别、应用领域、前沿论文三个角度为你梳理,并提供面试回答模板。
一、计算机视觉(CV)与计算机图形学(CG)的核心区别
1. 核心目标
- 计算机视觉(CV):让机器“理解”图像或视频中的内容,属于输入型任务(从真实世界到数据)。
- 例如:目标检测、图像分割、3D重建、动作识别。
- 计算机图形学(CG):让机器“生成”逼真的视觉内容,属于输出型任务(
从数据到视觉表达
)。- 例如:3D建模、动画渲染、物理模拟、虚拟场景生成。
2. 技术方法
- CV:依赖机器学习(尤其是深度学习)、信号处理、几何分析。
- 典型技术:卷积神经网络(CNN)、Transformer、自监督学习。
- CG:依赖数学建模(几何、光照、材质)、物理模拟、实时渲染算法。
- 典型技术:光线追踪、蒙特卡洛积分、刚体动力学、可微渲染。
3. 数据流方向
- CV:处理真实世界数据(图像/视频→结构化信息)。
- CG:生成合成数据(参数/模型→逼真图像/动画)。
二、应用领域与前沿方向
计算机视觉(CV)
-
应用领域
- 自动驾驶:目标检测(YOLO系列)、语义分割(DeepLab)。
- 医疗影像:病灶分割(U-Net)、病理分析。
- 增强现实(AR):SLAM(即时定位与地图构建)。
- 工业检测:缺陷检测、质量监控。
- 内容生成:GAN生成图像(StyleGAN)、NeRF 3D重建。
-
前沿论文
- ViT(Vision Transformer):《An Image is Worth 16x16 Words》
- 对比学习:MoCo v2
- 3D视觉:NeRF: Representing Scenes as Neural Radiance Fields
- 视频理解:TimeSformer
计算机图形学(CG)
-
应用领域
- 游戏开发:实时渲染(Unreal Engine 5的Nanite技术)。
- 电影特效:物理模拟(流体、毛发)、角色动画(Pixar的RenderMan)。
- 虚拟现实(VR):高保真场景生成、光场显示。
- 工业设计:CAD建模、数字孪生。
- 数字人:MetaHuman、表情驱动(FaceWarehouse)。
-
前沿论文
- 实时渲染:《Real-Time Path Tracing》
- 神经渲染:NeRF in the Wild
- 物理模拟:Diffusion Models(用于材质生成)
- 可微渲染:Soft Rasterizer
三、两者的交叉与融合
- 技术交叉:
- 神经渲染(如NeRF)结合CV的3D重建与CG的渲染技术。
- 生成模型(如GAN、Diffusion Models)同时用于CV(生成数据)和CG(生成材质/动画)。
- 应用场景:
- 元宇宙:CV用于环境感知,CG用于虚拟场景生成。
- 数字孪生:CV采集真实数据,CG构建虚拟模型。
面试快速回答模板
问题:计算机视觉和计算机图形学的区别是什么?
回答:
计算机视觉(CV)的目标是让机器“理解”图像或视频,例如通过目标检测、分割等技术从数据中提取信息,应用在自动驾驶、医疗影像等领域。计算机图形学(CG)则关注“生成”逼真的视觉内容,比如3D建模、动画渲染,应用于游戏、电影特效等。
技术上,CV依赖深度学习(如CNN、Transformer),而CG侧重数学建模(如光线追踪、物理模拟)。两者近年有深度融合,比如神经渲染(NeRF)结合了CV的3D重建和CG的渲染能力,推动元宇宙、数字孪生等前沿方向。
总结:CV是“输入”(理解世界),CG是“输出”(创造世界),两者技术互补,交叉领域是当前研究热点。
生成式模型GAN与Diffusion的区别与优缺点
以下是关于GAN和Diffusion模型的对比分析,包括核心差异、优缺点、应用场景及论文推荐,最后提供面试回答模板。
一、核心差异
维度 | GAN | Diffusion Model |
---|---|---|
基本原理 | 生成器(G)和判别器(D)的对抗训练 ,D区分真实/生成数据,G欺骗D。 | 前向过程逐步添加噪声,逆向过程逐步去噪恢复数据分布。 |
训练目标 | 极小极大博弈(minimax game)优化损失函数。 | 最大似然估计(MLE),通过变分推断优化噪声预测损失。 |
生成方式 | 单步生成(直接输出结果)。 | 多步迭代生成(需多次去噪步骤)。 |
理论基础 | 基于博弈论,缺乏显式数据分布建模。 | 基于热力学扩散理论,显式建模数据分布。 |
稳定性 | 训练不稳定(模式崩溃、梯度消失) 。 | 训练稳定(损失函数平滑)。 |
二、优缺点对比
GAN的优缺点
- 优点:
- 生成速度快:单次前向推理即可生成结果(适合实时应用)。
- 高分辨率生成:StyleGAN系列可实现1024×1024高清图像生成。
- 多样性:能生成高度逼真且多样化的样本(如人脸、艺术作品)。
- 缺点:
- 训练不稳定:G和D的平衡难以控制,易出现模式崩溃(生成单一结果)。
- 评估困难:缺乏显式概率模型,依赖人工评估或FID/IS指标。
- 生成可控性差:隐空间解耦性弱,难以精准控制生成属性。
Diffusion Model的优缺点
- 优点:
- 生成质量高:在图像、音频、视频生成中效果优于GAN(如Stable Diffusion)。
- 训练稳定:损失函数为简单的噪声预测,无需对抗博弈。
理论完备
:显式建模数据分布,支持概率密度估计。- 可控性强:通过条件引导(如文本、类别)精准控制生成结果。
- 缺点:
- 生成速度慢:
需数十至数百步去噪迭代(实时性差)
。 - 计算成本高:训练和推理均需大量计算资源。
- 内存占用大:多步迭代导致显存需求高。
- 生成速度慢:
三、应用场景
GAN
- 图像生成:StyleGAN生成虚拟人脸、艺术画作。
- 图像编辑:CycleGAN实现风格迁移(如照片→油画)。
- 数据增强:生成合成数据弥补训练集不足。
- 超分辨率:SRGAN提升图像分辨率。
Diffusion Model
- 高质量图像生成:DALL-E 3、Midjourney生成复杂场景。
- 文本到图像:Stable Diffusion根据文本描述生成图像。
- 跨模态生成:音频生成(如WaveGAN)、视频生成(如Imagen Video)。
- 科学计算:蛋白质结构生成、分子设计。
四、前沿论文推荐
GAN
- 原始GAN:Generative Adversarial Nets (Goodfellow et al., 2014)
- 改进稳定性:Wasserstein GAN (Arjovsky et al., 2017)
- 高分辨率生成:StyleGAN (Karras et al., 2019)
Diffusion Model
- 奠基工作:DDPM (Ho et al., 2020)
- 加速推理:DDIM (Song et al., 2021)
- 文本到图像:Stable Diffusion (Rombach et al., 2022)
- 统一框架:Score-Based Generative Modeling (Song et al., 2021)
五、面试快速回答模板
问题:GAN和Diffusion模型有什么区别?各自的优缺点是什么?
回答:
GAN通过生成器和判别器的对抗训练实现单步生成,优点是速度快、分辨率高,但训练不稳定且可控性差。Diffusion模型通过多步去噪生成数据,优点是质量高、训练稳定,但计算成本高、速度慢。
GAN适合实时应用(如游戏角色生成),而Diffusion更适合需要高保真度的场景(如影视特效)。两者未来可能结合,例如用GAN加速Diffusion的生成过程。
总结:
- GAN:轻量级实时生成的首选,但需解决稳定性问题。
- Diffusion:生成质量的标杆,依赖硬件进步降低计算成本。
- 趋势:两类模型正在融合(如Consistency Models加速Diffusion,GAN引入扩散理论)。
你认为LLM/MLLM还会有什么样的发展?(还有那些问题需要解决?)
以下是当前大语言模型(LLMs)和多模态大模型(Multimodal Models)的前沿发展方向及亟待解决问题的总结,涵盖技术、应用、伦理等多个维度,并附关键论文推荐和面试回答模板。
一、当前最火热的五大研究方向
1. 模型效率与轻量化
- 问题:模型参数量爆炸(如GPT-4约1.8T参数)导致训练/推理成本过高。
- 前沿方向:
- 稀疏化架构:Mixture of Experts(MoE)动态激活部分参数(如Mistral 8x7B)。
- 模型压缩:知识蒸馏(如DistilBERT)、量化(如LLM.int8())、低秩分解。
- 推理加速:FlashAttention优化显存占用,推测解码(Speculative Decoding)。
- 关键论文:
- Mixture of Experts: Scaling Large Language Models Efficiently
- LLM.int8(): 8-bit Matrix Multiplication for Transformers
2. 多模态统一与跨模态对齐
- 问题:不同模态(文本、图像、视频、音频)的表征与对齐困难。
- 前沿方向:
- 统一嵌入空间:如ImageBind用单一模型对齐6种模态。
- 生成式多模态:视频生成(如Sora)、3D生成(如Point-E)。
- 多模态推理:基于视觉的数学推理(如MAmmoTH)。
- 关键论文:
- Flamingo: A Visual Language Model for Few-Shot Learning
- Language Models are General-Purpose Interfaces(Unified-IO)
3. 复杂推理与规划能力
- 问题:模型在数学推理、逻辑规划、多步任务中表现不足。
- 前沿方向:
- 思维链(CoT)优化:自我纠错(如Self-Refine)、多智能体协作(如ChatDev)。
- 工具调用:模型使用API/代码解决现实问题(如GPT-4的Code Interpreter)。
- 世界模型:模拟物理规律(如VideoPoet预测视频动态)。
- 关键论文:
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- Toolformer: Language Models Can Teach Themselves to Use Tools
4. 安全性与可控性
- 问题:幻觉(生成错误内容)、偏见、对抗攻击风险。
- 前沿方向:
- 可信生成:基于证据的生成(如RA-LLM)、事实核查机制。
- 对齐技术:RLHF改进(如DPO)、宪法AI(如Constitutional AI)。
- 对抗鲁棒性:防御提示注入攻击(如ARMOR)。
- 关键论文:
- Training Language Models to Follow Instructions with Human Feedback(InstructGPT)
- Self-Discover: Large Language Models Self-Compose Reasoning Structures
5. 具身智能与世界交互
- 问题:模型缺乏对物理世界的感知和行动能力。
- 前沿方向:
- 具身多模态:机器人任务规划(如RT-2)、视觉-动作闭环(如VoxPoser)。
- 仿真环境训练:在虚拟世界(如Minecraft)中学习技能(如Voyager)。
- 关键论文:
- PaLM-E: An Embodied Multimodal Language Model
- Embodied Agents for Efficient Exploration and Smart Scene Description
二、其他新兴方向
- 自我改进与持续学习:模型通过自我迭代优化(如AlphaDev)。
- 数据效率提升:用合成数据训练(如Textbooks Are All You Need)。
- 超长上下文建模:处理百万级Token输入(如Gemini 1.5的1M Context)。
- 能源效率:绿色AI(如LMCarbon估算模型碳排放)。
三、面试快速回答模板
问题:大语言模型/多模态模型未来的发展方向有哪些?
回答:
当前最前沿的研究集中在五个方向:
- 效率提升+模型轻量化:通过稀疏架构(如MoE)和量化技术降低计算成本;
- 多模态统一:构建跨模态对齐模型(如ImageBind),实现文本、图像、视频的联合理解;
- 复杂推理:增强逻辑规划和工具调用能力(如GPT-4的代码解释器);
- 安全可控:改进对齐技术(如DPO)和防御对抗攻击;
- 具身智能:让模型在物理世界中执行任务(如PaLM-E控制机器人)。
未来趋势是模型更高效、更通用、更安全,并深度融合物理世界交互能力。
其实还有一些方向,例如大模型的持续学习这个方面的(我认为这是一个很关键并且有价值的方向),但是大模型的持续学习与一些观点是冲突的,因为可能会认为大模型的潜力在预训练阶段就已经确定了,SFT和RLHF只是挖掘其潜力而易。
总结:LLMs和多模态模型正在向“通用人工智能体”演进,需突破效率、多模态、推理、安全、具身五大瓶颈。
AIGC的3D方面?
AI-Generated 3D Content(AI生成3D内容),即利用人工智能技术自动化生成三维模型、场景或动画。以下是该领域的技术梳理、研究进展及关键论文推荐。
一、AIGC3D的核心技术方向
1. 3D几何生成
- 目标:从文本/图像/点云生成
三维网格(Mesh)
、体素(Voxel)
或隐式表示(如NeRF)
。 - 常用技术:
- 点云生成:基于GAN或扩散模型生成点云(如Point-E)。
- 网格生成:通过神经网络直接输出三角面片(如GET3D)。
- NeRF系列:从2D图像重建3D隐式场(如Instant-NGP)。
2. 3D纹理生成
- 目标:为3D模型生成贴图(Texture)或材质(Material)。
- 常用技术:
- 跨模态对齐:基于文本生成材质(如Text2Texture)。
- 扩散模型:Stable Diffusion的3D扩展(如Stable Dreamfusion)。
3. 3D动画生成
- 目标:生成角色动作、物理模拟或交互式动画。
- 常用技术:
- 运动扩散模型:基于文本生成人体动作(如MotionDiffuse)。
- 物理仿真:结合强化学习生成物理合理动画(如PhysDiff)。
4. 3D场景生成
- 目标:生成复杂3D环境(如游戏场景、虚拟城市)。
- 常用技术:
- 程序化生成:结合规则与AI生成(如Minecraft GPT)。
- 布局优化:基于文本描述生成场景布局(如SceneFormer)。
二、AIGC3D的四大技术路线
1. 基于2D升维的生成
- 原理:利用2D生成模型(如Diffusion)生成多视角图像,再通过NeRF重建3D模型。
- 代表性工作:
- DreamFusion:通过SDS损失优化NeRF,仅用文本生成3D模型。
- Zero-1-to-3:控制相机视角生成多视图图像。
2. 端到端3D生成
- 原理:直接生成3D几何与纹理,无需多视角重建。
- 代表性工作:
- Shap-E:OpenAI的扩散模型,直接输出3D隐式场。
- GET3D:NVIDIA的生成模型,输出带纹理的三角网格。
3. 3D编辑与优化
- 原理:对现有3D模型进行局部修改或风格迁移。
- 代表性工作:
- Text2Mesh:通过文本提示编辑网格颜色与几何。
- NeRF-Art:对NeRF模型进行风格化编辑。
4. 3D数据增强
- 原理:生成合成3D数据以辅助其他任务(如自动驾驶、机器人)。
- 代表性工作:
- SurfelGAN:生成逼真LiDAR点云数据。
- DiffuVolume:扩散模型生成医学3D体积数据。
三、关键挑战与解决方案
挑战
- 数据稀缺:高质量3D数据集(如ShapeNet、Objaverse)规模远小于2D数据。
- 计算成本高:3D生成涉及显存密集操作(如体素渲染)。
- 编辑困难:生成后的3D模型难以像2D图像一样灵活调整。
解决方案
- 数据增强:利用2D预训练模型(如CLIP)引导3D生成。
- 轻量化表示:采用NeRF的哈希编码(Instant-NGP)或网格简化技术。
- 交互式工具:结合AI生成与人工编辑(如Blender插件)。
四、重要论文推荐
- 奠基性工作:
- NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (ECCV 2020)
- 文本到3D生成:
- DreamFusion: Text-to-3D using 2D Diffusion (ICLR 2023)
- 高效3D生成:
- Shap-E: Generating Conditional 3D Implicit Functions (OpenAI, 2023)
- 3D编辑:
- Text2Mesh: Text-Driven Neural Stylization for Meshes (CVPR 2022)
五、面试快速回答模板
问题:AI生成3D内容(AIGC3D)常用技术有哪些?
回答:
AIGC3D的核心技术分为四类:
- 3D几何生成:如NeRF从图像重建3D模型,或扩散模型直接生成点云(如Point-E)(三种3d物体的表示方法
三维网格(Mesh)
、体素(Voxel)
或隐式表示(如NeRF INR)
)。- 端到端生成:Shap-E等模型直接输出带纹理的3D网格。
- 跨模态生成:通过文本/图像驱动3D内容(如DreamFusion)。
- 3D编辑优化:Text2Mesh通过文本修改网格细节。
当前挑战是数据与算力需求大,未来趋势是结合2D先验知识(如Stable Diffusion)降低3D生成成本。
总结:AIGC3D是生成式AI在三维领域的延伸,技术路线涵盖重建、生成、编辑,需结合几何学与深度学习,在游戏、影视、工业设计中应用广泛。
说说NP问题的定义?
以下是关于NP问题、NP难(NP-Hard)问题和NP完全(NP-Complete)问题的区别解释,结合定义、示例及理论背景进行系统梳理:
一、基础定义
1. P类问题(Polynomial Time)
- 定义:所有可以在确定性图灵机上用多项式时间解决的问题。
- 示例:排序、最短路径(Dijkstra算法)。
2. NP类问题(Nondeterministic Polynomial Time)
- 定义:所有可以在非确定性图灵机上用多项式时间解决的问题,或等价地,其解可以在多项式时间内被验证的问题。
- 示例:旅行商问题(TSP)的判定版本、布尔可满足性问题(SAT)。
3. NP难问题(NP-Hard)
- 定义:若一个问题满足所有NP问题都可以在多项式时间内归约到它,则它是NP难的。
- 关键:NP难问题不一定是NP类问题,可能属于更高复杂度类(如PSPACE、EXPTIME)。
- 示例:停机问题(不可判定,非NP)、旅行商问题的优化版本(寻找最短路径)。
4. NP完全问题(NP-Complete)
- 定义:既是NP问题,又是NP难的问题。
(即:NP-Complete = NP ∩ NP-Hard) - 关键:NP完全问题是NP类中“最难”的问题,解决任意一个NP完全问题的多项式时间算法将导致P=NP。
- 示例:SAT、3-SAT、图的哈密顿回路问题。
二、核心区别
特征 | NP问题 | NP难问题 | NP完全问题 |
---|---|---|---|
是否属于NP类 | 是 | 不一定(可能更高复杂度类) | 是 |
验证时间 | 解可在多项式时间验证 | 无要求(可能不可验证) | 解可在多项式时间验证 |
归约关系 | - | 所有NP问题可归约到它 | 所有NP问题可归约到它 |
示例 | TSP判定版、子集和问题 | 停机问题、TSP优化版 | SAT、3-SAT、背包问题判定版 |
三、关键图示:复杂度类关系
P ⊆ NP ⊆ PSPACE ⊆ EXPTIME
NP-Hard包含NP-Complete,但可能与其他类(如EXPTIME)重叠。
- NP完全问题位于NP与NP难的交集。
- NP难问题可能分布在NP类之外(如停机问题属于不可判定问题)。
四、归约的意义
- 多项式时间归约(Polynomial Reduction):若问题A可归约到问题B(记作A ≤ₚ B),则B的解法可用于解决A。
- NP完全问题的核心地位:
- 若某个NP完全问题存在多项式时间算法,则所有NP问题都可多项式时间求解(即P=NP)。
- 若某个NP完全问题被证明无多项式时间算法,则P≠NP。
五、经典问题分类
- P问题:
- 最小生成树(Prim算法)、二分图匹配。
- NP但非NP完全问题(若P≠NP):
- 图同构问题(目前未知是否属于P或NP完全)。
- NP完全问题:
- SAT、3-SAT、顶点覆盖问题、哈密顿回路问题。
- NP难但非NP问题:
- 停机问题(不可判定)、TSP优化版(寻找最短路径)。
六、面试快速回答模板
问题:解释NP问题和NP完全(NP难)问题的区别。
回答:
NP问题是指其解可以在多项式时间内验证的问题(如旅行商问题的判定版)。
NP难问题是所有NP问题都可以归约到它的问题,但其本身可能不属于NP类(如TSP优化版)。
NP完全问题则是NP问题与NP难问题的交集,即既是NP问题,又是NP难的问题(如SAT问题)。
关键区别:NP完全问题属于NP类,而NP难问题不一定;解决任一NP完全问题的多项式算法将证明P=NP。
总结:NP是“可快速验证解”的问题集合,NP难是“至少和NP问题一样难”的问题集合,而NP完全则是NP中最难的问题,是NP与NP难的共同子集。
使用英文讲述一下SGD与BP?
1. Backpropagation (BP) vs. Stochastic Gradient Descent (SGD)
Backpropagation (BP)
- English: Backpropagation is an algorithm that efficiently computes gradients by applying the chain rule to propagate errors backward through the neural network layers, starting from the output layer to the input layer.
- 中文说明:反向传播(BP)是一种通过链式法则将误差从输出层反向传播至各层,从而高效计算梯度的算法。
Stochastic Gradient Descent (SGD)
- English: SGD is an optimization algorithm that updates model parameters using gradients computed by BP, aiming to minimize the loss function through iterative adjustments.
- 中文说明:随机梯度下降(SGD)是一种优化器,利用反向传播计算的梯度更新参数,通过迭代调整使损失函数最小化。
Collaboration Between BP and SGD
- English: BP provides gradient information (∂Loss/∂W) for SGD, while SGD uses these gradients to update parameters with a fixed or adaptive learning rate.
- 中文说明:反向传播为SGD提供梯度信息,而SGD利用这些梯度,以固定或自适应学习率更新参数。
2. SGD vs. Adam: Key Differences
Gradient Utilization
- English:
- SGD: Relies solely on the current mini-batch gradient for parameter updates.
- Adam: Combines first-order momentum (exponential moving average of gradients) and second-order momentum (exponential moving average of squared gradients) to adaptively adjust learning rates.
- 中文说明:
- SGD:仅依赖当前小批量梯度更新参数。
- Adam:结合一阶动量(梯度均值)和二阶动量(梯度平方均值),自适应调整学习率。
Learning Rate Adaptation
- English:
- SGD: Uses a fixed global learning rate for all parameters, requiring manual tuning or scheduling.
- Adam: Assigns parameter-specific learning rates by scaling gradients inversely proportional to their historical variance.
- 中文说明:
- SGD:对所有参数使用固定全局学习率,需手动调整或设定衰减策略。
- Adam:根据梯度历史方差为每个参数自适应分配学习率。
Update Rule
- English:
- SGD:
W t + 1 = W t − η ⋅ g t W_{t+1} = W_t - \eta \cdot g_t Wt+1=Wt−η⋅gt - Adam:
m t = β 1 m t − 1 + ( 1 − β 1 ) g t m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t mt=β1mt−1+(1−β1)gt
v t = β 2 v t − 1 + ( 1 − β 2 ) g t 2 v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2 vt=β2vt−1+(1−β2)gt2
W t + 1 = W t − η ⋅ m t v t + ϵ W_{t+1} = W_t - \eta \cdot \frac{m_t}{\sqrt{v_t} + \epsilon} Wt+1=Wt−η⋅vt+ϵmt
- SGD:
- 中文说明:
- SGD:直接使用当前梯度乘以学习率更新参数。
- Adam:通过 一阶动量平滑梯度,二阶动量自适应调整步长,并进行偏差校正。
Practical Performance
- English:
- SGD: Often achieves better generalization in tasks like image classification due to convergence to flat minima.
- Adam: Faster convergence in complex optimization landscapes (e.g., NLP models) but may converge to sharp minima with weaker generalization.
- 中文说明:
- SGD:在图像分类等任务中泛化性更好,倾向于收敛到平坦极值点。
- Adam:在复杂优化地形(如NLP模型)中收敛更快,但可能收敛到尖锐极值点,泛化性较差。
3. Core Takeaway
- English:
- BP computes gradients; SGD/Adam are optimizers that use gradients to update parameters.
- SGD is simple but sensitive to learning rate tuning.
- Adam automates learning rate adaptation at the cost of potential generalization trade-offs.
- 中文说明:
- 反向传播计算梯度,SGD/Adam是利用梯度更新参数的优化器。
- SGD简单但依赖学习率调参,Adam通过自适应机制加速训练,但可能牺牲泛化性。