
准备大模型算法岗面试,尤其是像阿里淘工厂这样的一线大厂,光刷理论题可能不够。三轮面试下来,问题会从基础八股深入到项目细节和方案设计。下面这份面经汇总了真实被问到的题目,涵盖了从 Transformer 基础到项目落地的全链路问题,希望能帮你理清复习重点。
一面
- 实习介绍:简单介绍之前的实习项目和主要工作。
- 八股:
LayerNorm和BatchNorm在训练时梯度计算有何本质区别?
- 八股:推导
MoE架构的负载均衡损失函数,如何避免专家坍缩?
- 八股:多模态融合中,对比学习损失和重构损失如何加权?
- 八股:解释
KV Cache的内存瓶颈,推导多头注意力计算复杂度。
- 项目:微调
Qwen时发现验证集loss震荡的可能原因。
- 项目:多工具调用中如何用
DAG(有向无环图)实现并行调度优化?
- 项目:长文本推理的压缩方案,对比
Sliding Window和NTK。
- 项目:模型量化时遇到激活值异常溢出如何调试?
- 项目:自主构建的评估体系里,如何分离知识幻觉与推理幻觉?
- 代码题:LeetCode 39,组合总和。
二面
- 项目介绍:详细阐述自己的核心项目。
- 八股:
Attention为什么要做scaled,不做会怎么样,为什么用根号 dk?
- 八股:说一下
Decoder的因果注意力,Q、K、V分别来自哪?
- 八股:
LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数?
- 项目:
Agent调用工具不正确怎么办?采用SFT或者强化学习怎么来解决?
- 项目:微调过大模型吗?讲一讲具体过程和遇到的挑战。
- 项目:
PPO算法为什么有reward model又有critic model?
- 项目:在使用
GRPO提升大模型的Function Calling能力时,除了结果奖励(outcome reward),还可以如何设计过程奖励(process reward)?
- 场景设计:为智能客服设计一个多轮对话系统。
- 代码题:LeetCode 102,二叉树的层序遍历。
三面
项目深挖
- 这里为什么使用
GRPO而不使用DPO,说说两者区别,损失函数是什么?
- 介绍你的奖励函数是如何设计的。
- 一致性奖励函数这里的
logprobs的作用是什么?如何评估语义一致性?
- 这里的聚类方法是什么?为什么不使用
kmeans或者层次聚类?
- 说说生成熵和
KL散度。
- 这里如何使用熵调整奖励?
八股回顾
- 多头注意力机制,为什么要多头?
- 讲讲
LoRA。
LoRA初始化如何做?为何是这样做?
手撕代码
总结与思考
这份面经的问题密度和深度都很高,尤其是三面对强化学习RLHF相关知识的考察非常细致。面试官不仅要求你知道是什么,更要求你理解为什么,以及如何在项目中应用和调试。例如,关于MoE避免专家坍缩、量化调试、奖励函数设计等问题,都直接指向了工业界落地时的实际痛点。
复习时,建议对照这些问题,不仅准备好标准答案,更要结合自己项目的具体实践,思考可能的扩展问题和解决方案。扎实的Deep Learning基础和清晰的项目逻辑是通关的关键。如果你正在准备类似的面试求职,不妨到云栈社区的算法板块看看,那里有更多同行分享的经验和真题解析,或许能帮你查漏补缺。
|