当前位置：首页 > news >正文

【NLP算法面经】字节跳动算法岗四面详细面经（★附面题总结★）

news 2025/10/29 23:13:42

【NLP算法面经】字节跳动算法岗四面详细面经（★附面题总结★）

🌟 嗨，你好，我是青松！

🌈 自小刺头深草里，而今渐觉出蓬蒿。

NLP Github 项目推荐：

【AI 藏经阁】：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
【AI 算法面经】：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
【大模型（LLMs）面试笔记】：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题，适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间，不错过金三银四涨薪窗口，迅速收获心仪的Offer 🎉🎉🎉

个人情况

上海交通大学研究生，本科毕业于中国科学技术大学，目前专业是电子与通信工程，主要研究方向是文本匹配（NLP）。面试中的自我介绍第一句 hhh:)

一面

7月8日被字节跳动HR的电话捞起来了，直接进入了秋招模式，在接下来的一个月里，基本没有投递提前批，就专注参加了字节跳动的几次面试。

前半段主要都是在讲项目，面试官追问了一些项目细节的东西，以及做项目的心路历程。
然后就问了一道算法题，就是著名的「小兔的棋盘」，我后来查了一下，是什么卡特兰数。然而面试的时候我没听说过这一道题，不过还是磕磕绊绊地用DFS解出来了，面试官说可以了，也没让我继续用DP来解。哎，算法还是有点菜的。

二面

7月16日进行了二面，二面感觉比一面严格了很多。

一开始我讲了论文的一些东西，然后面试官追问了非常多，有一些可能答得不太好，感觉对自己的项目也好，论文也好，一定要有自己深入的理解，不然容易被问住。
二面也是问了一道算法题，是寻找迷宫中的最短路径，迷宫中1表示有墙，路不通，0表示可以走。我脑子不知道怎么抽了，直接想用DFS来解，给面试官讲了一下思路。面试官提醒我，DFS和BFS你是怎么考虑用哪个的。然后我就明白了，应该用BFS，讲了一下BFS和DFS适用的场景。然后用BFS比较顺利的写出了程序。

三面

7月23日进行了三面，三面问的非常多，持续了90min。不过感觉三面面试官很善于引导，所以总体还回答的不错。

一开始就问了一道算法题，「LeetCode 76. Minimum Window Substring. Hard」。当然，O(mn)复杂度的算法非常好想，我也是第一时间讲了这个思路。面试官提醒我能不能再优化，我优化到了O(nlog(m))，就不知道怎么再优化了，面试官说可以了。最后查了一下，这道题我做过，不过做的时候也是直接用的O(mn)的算法，O(n)对我来说，还是不太好想到的。
概率题：考虑五局三胜和三局两胜的情况，哪种更公平之类的。这道题本身比较简单，直接算概率就可以。不过我扯得挺多的，自己分析了2k-1局k胜的情况，以及无数局是什么情况，结合了一下中心极限定理之类的。不过最后整个框架讲的不是太好，没有完整的圆回来。总体感觉这道题答得还可以。
结合具体场景的题目：A文件有m个专有名词，B文件有n个query，统计每个专有名词出现的次数。回答这个问题，主要其实就是考虑复杂度和分布式的知识，以及如何在query中查找专有名词（本身比较简单，考虑复杂度就不简单了）。不过我对分布式了解的不多，就只是自己手动分布式了一下。
结合实际问题问：如何判断用户查询Query的意图是否是视频，以及如何搭建整套模型。Emmmm，这里主要涉及到机器学习模型的构建，重点在于如何构造训练数据，利用点击率还是提醒了一下才想到的。对具体场景还是不太熟悉。还有考虑如何排序召回之类的事情，主要就是准确性和时效性的权衡。
CNN，RNN，Tansformer分别如何编码文本，答得中规中矩吧。
python的动态数组是如何实现的，说实话我不太清楚。就扯了一下字典是怎么实现的，然后借鉴字典的实现方式，自己臆想了一下动态数组是怎么实现的，好像还大体是对的。编程语言基础这一块比较弱了。
这一面问的挺多的，剩下有些问题我都忘了。

四面

本来三面结束后，在焦急的等待结果，没想到突然北京的HR通知四面，跟我说大家一般都是三面或者四面。

讲了项目，主要深入问了项目中如何构造例的情况，以及几种不同的构造方式构造出来的要区别对待吗？这个自己之前确实没有认真想过，不过对项目比较熟悉，基本还是顺畅的聊下去了。
讲了一下论文，也是深入问了一个细节，这里就不展开了。
实际问题：在用户搜索场景中，如何在用户搜索的时候根据用户输入的字推荐要搜索的query，以及如何把错别字也正确推荐。主要是考虑输入与候选集合的匹配，用户画像的构建，考虑用户的历史搜索信息。结合具体业务的问题感觉主要考察思维发散，回答的感觉还可以，结合了StarSpace等Embedding的方式。
算法题：一个正整数数组，寻找连续区间使得和等于target，简单的用两个指针做出来了，不过让我证明一下解法的正确性，纠结了一会儿也算是证明出来了。然后如果里面有负数怎么做，很顺利的讲出来了。

大模型（LLMs）高频面题全面整理

一、大模型进阶面

💯 DeepSeek篇

【大模型进阶面之 DeepSeek篇】你必须要会的高频面题 查看答案

一、概念篇
- Deepseek-V3的主要特点有哪些？
- DeepSeek-V3在推理速度方面表现出色的原因有哪些？
二、模型结构篇
- MLA
  - 什么是多头潜在注意力（MLA）？
  - MLA的计算流程是什么样的？
  - 训练时MLA需要配置哪些超参？
  - MLA相对于MHA有哪些改进？
- MoE
  - 什么是MoE？
  - DeepSeekMoE包含哪两种专家类型？
  - Share 专家和Router 专家的作用是什么？
  - 讲一下DeepSeekMoE的计算流程？
  - DeepSeekMoE是如何实现负载均衡的？
- MTP
  - 什么是Multi-Token Prediction（MTP）？
  - Multi-Token Prediction（MTP）有何作用？
  - 讲一下Multi-Token Prediction（MTP）的预测流程？
三、预训练篇
- Prefix-Suffix-Middle (PSM)数据格式是什么样的？
- DeepSeek预训练数据为何使用Prefix-Suffix-Middle (PSM)格式？
- 介绍一下Byte-level BPE？
- DeepSeek是如何进行长上下文扩展的？
- DeepSeek的使用YaRN进行长上下文扩展有哪两个阶段？
- DeepSeek预训练追求极致的训练效率的做法有哪些？
- 批量级负载均衡（Batch-Wise Load Balance）和顺序级负载均衡（Sequence-Wise Load Balance）有何区别？
- 使用MTP为何在提高计算效率的同时还能提升效果？
**四、有监督微调篇
- DeepSeek的SFT有哪几种数据？
- DeepSeek是如何构造Reasoning Data数据的？
- DeepSeek两种不同类型的SFT数据，区别是什么？
- DeepSeek在SFT训练时是如何加速训练过程的？
五、强化学习篇
- DeepSeek有哪两种奖励模型？
- Rule-Based RM和Model-Based RM的区别是什么？
- Rule-Based RM用在什么地方？有何作用？
- Model-Based RM用在什么地方？有何作用？
- DeepSeek是如何降低奖励欺诈风险的？
- DeepSeek为何使用Group Relative Policy Optimization（GRPO）？
- DeepSeek为何放弃Critic模型来估计状态的价值？
- DeepSeek是如何进行Self-Rewarding的？
- DeepSeek-V3从DeepSeek-R1中蒸馏知识有哪些影响？

💯 大模型编辑篇

【大模型进阶面之模型魔改篇】你必须要会的高频面题 查看答案

模型编辑（Model Editing）核心目标是什么？
对比重新预训练和微调，模型编辑的优势和适用场景是什么？
如何用模型编辑修正大语言模型中的知识错误？
如何量化评估模型编辑的五大性质？
模型编辑局部性如何避免“牵一发而动全身”的问题？
知识缓存法（如SERAC）的工作原理是什么？
附加参数法（如T-Patcher）如何在不改变原始模型架构的情况下实现编辑？
知识缓存法和附加参数法的优缺点有何优缺点？
ROME方法如何通过因果跟踪实验定位知识存储位置？
元学习法（如MEND）如何实现“学习如何编辑”？
元学习法的双层优化框架如何设计？
More …

💯 大模型压缩篇

【大模型进阶面之模型压缩篇】你必须要会的高频面题 查看答案

💯 为什么需要对大模型进行压缩和加速？
💯 什么是低秩分解？
💯 什么是奇异值分解（SVD）？
💯 权值共享为什么有效？
💯 什么是模型量化？
💯 什么是混合精度分解？
💯 什么是基于反馈的知识蒸馏？
💯 什么是基于特征的知识蒸馏？
💯 模型蒸馏的损失函数是什么？
💯 描述一下剪枝的基本步骤？
More …

💯 分布式训练篇

【大模型进阶面之分布式训练篇】你必须要会的高频面题 查看答案

PS架构和Ring-AllReduce架构有何不同？
什么是张量并行，如何使用集群计算超大矩阵？
讲一讲谷歌的GPipe算法？
讲一讲微软的PipeDream算法？
ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？
用DeepSpeed进行训练时主要配置哪些参数？
More …

二、大模型微调面

💯 有监督微调（SFT）篇

【大模型微调面之 SFT篇】你必须要会的高频面题 查看答案

💯 从零训练一个大模型有哪几个核心步骤？
💯 为什么要对LLM做有监督微调（SFT）？
💯 如何将一个基础模型训练成一个行业模型？
💯 如何准备SFT阶段的训练数据？
💯 如何自动生成指令构建SFT的训练数据？
💯 LM做有监督微调（SFT）变傻了怎么办？
💯 有监督微调（SFT）和人工偏好对齐（RLHF）有何区别？
More …

💯 高效微调篇

【大模型微调面之 PEFT篇】你必须要会的高频面题 查看答案

💯 全量微调与参数高效微调的区别是什么？
💯 什么是轻度微调？轻度微调有哪些常用方法？
💯 什么是BitFit微调？
💯 分层微调如何设置学习率？
💯 什么是适配器微调？适配器微调有哪些优势？
💯 讲一讲IA3微调？
💯 提示学习（Prompting）代表方法有哪些？
💯 指令微调（Instruct-tuning）和提示学习（Prompting）的区别是什么？
💯 详细说明LoRA的工作原理及其优势？
💯 LoRA存在低秩瓶颈问题，ReLoRA和AdaLoRA分别通过哪些方法改进？
💯 动态秩分配（如AdaLoRA）如何根据层的重要性调整秩？
More …

💯 提示学习篇

【大模型微调面之提示学习篇】你必须要会的高频面题 查看答案

💯 提示学习（Prompting）代表方法有哪些？
💯 前缀微调（Prefix-tining）的核心思想？
💯 提示微调（Prompt-tuning）的核心思想？
💯 P-tuning 的动机是什么？
💯 P-tuning v2 进行了哪些改进？
💯 提示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？
💯 提示微调（Prompt-tuning）与 fine-tuning 区别是什么？
More …

💯 人类对齐训练（RLHF）篇

【大模型微调面之 RLHF篇】你必须要会的高频面题 查看答案

💯 RLHF有哪几个核心流程？
💯 RLHF与SFT的本质区别是什么？为什么不能只用SFT？
💯 什么是人类偏好对齐中的"对齐税"(Alignment Tax)？如何缓解？
💯 在强化学习中，基于值函数的和基于策略的的优化方法有何区别？
💯 什么是近端策略优化（PPO）？
💯 RLHF中的PPO主要分哪些步骤？
💯 PPO中的重要性采样(Importance Sampling)如何修正策略差异？
💯 DPO如何通过隐式奖励建模规避强化学习阶段？
💯 DPO vs PPO：训练效率与性能上限的对比分析？
💯 RLHF训练数据的格式是什么样的？
💯 如何选择人类偏好对齐训练算法？
More …

💯 Prompt 工程篇

【大模型微调面之提示工程篇】你必须要会的高频面题 查看答案

💯 Prompt工程与传统微调的区别是什么？
💯 如何规范编写Prompt？
💯 上下文学习三种形式（零样本、单样本、少样本）的区别？
💯 如何通过预训练数据分布和模型规模优化上下文学习效果？
💯 思维链（CoT）的核心思想是什么？
💯 按部就班（如 Zero-Shot CoT、Auto-CoT）、三思后行（如 ToT、GoT）、集思广益（如 Self-Consistency）三种 CoT 模式有何异同？
More …