云栈社区»论坛 › 回收站「 Recycle Bin 」 › 大模型算法岗阿里淘工厂三轮面试真题：涵盖Attention、MoE、RLHF ...

发回帖发新帖

3323 积分	0 好友	445 主题

发消息

大模型算法岗阿里淘工厂三轮面试真题：涵盖Attention、MoE、RLHF等核心八股与项目深挖

发表于 2026-3-22 16:54:12 | 查看: 251| 回复: 0

面试场景插画

准备大模型算法岗面试，尤其是像阿里淘工厂这样的一线大厂，光刷理论题可能不够。三轮面试下来，问题会从基础八股深入到项目细节和方案设计。下面这份面经汇总了真实被问到的题目，涵盖了从 Transformer 基础到项目落地的全链路问题，希望能帮你理清复习重点。

一面

实习介绍：简单介绍之前的实习项目和主要工作。
八股：LayerNorm和BatchNorm在训练时梯度计算有何本质区别？
八股：推导MoE架构的负载均衡损失函数，如何避免专家坍缩？
八股：多模态融合中，对比学习损失和重构损失如何加权？
八股：解释KV Cache的内存瓶颈，推导多头注意力计算复杂度。
项目：微调Qwen时发现验证集loss震荡的可能原因。
项目：多工具调用中如何用DAG（有向无环图）实现并行调度优化？
项目：长文本推理的压缩方案，对比Sliding Window和NTK。
项目：模型量化时遇到激活值异常溢出如何调试？
项目：自主构建的评估体系里，如何分离知识幻觉与推理幻觉？
代码题：LeetCode 39，组合总和。

二面

项目介绍：详细阐述自己的核心项目。
八股：Attention为什么要做scaled，不做会怎么样，为什么用根号 dk？
八股：说一下Decoder的因果注意力，Q、K、V分别来自哪？
八股：LoRA初始化怎么做的，用的秩是多少，为什么不选其他的数？
项目：Agent调用工具不正确怎么办？采用SFT或者强化学习怎么来解决？
项目：微调过大模型吗？讲一讲具体过程和遇到的挑战。
项目：PPO算法为什么有reward model又有critic model？
项目：在使用GRPO提升大模型的Function Calling能力时，除了结果奖励（outcome reward），还可以如何设计过程奖励（process reward）？
场景设计：为智能客服设计一个多轮对话系统。
代码题：LeetCode 102，二叉树的层序遍历。

三面

项目深挖

这里为什么使用GRPO而不使用DPO，说说两者区别，损失函数是什么？
介绍你的奖励函数是如何设计的。
一致性奖励函数这里的logprobs的作用是什么？如何评估语义一致性？
这里的聚类方法是什么？为什么不使用kmeans或者层次聚类？
说说生成熵和KL散度。
这里如何使用熵调整奖励？

八股回顾

多头注意力机制，为什么要多头？
讲讲LoRA。
LoRA初始化如何做？为何是这样做？

手撕代码

最小路径和（LeetCode 64）。

总结与思考

这份面经的问题密度和深度都很高，尤其是三面对强化学习RLHF相关知识的考察非常细致。面试官不仅要求你知道是什么，更要求你理解为什么，以及如何在项目中应用和调试。例如，关于MoE避免专家坍缩、量化调试、奖励函数设计等问题，都直接指向了工业界落地时的实际痛点。

复习时，建议对照这些问题，不仅准备好标准答案，更要结合自己项目的具体实践，思考可能的扩展问题和解决方案。扎实的Deep Learning基础和清晰的项目逻辑是通关的关键。如果你正在准备类似的面试求职，不妨到云栈社区的算法板块看看，那里有更多同行分享的经验和真题解析，或许能帮你查漏补缺。

上一篇：阿里云Qwen3.5-Max-Preview最新评测登顶LMArena国产模型榜首
下一篇：虚拟机设计：从0写8051虚拟机：深入解析单片机指令集与系统模拟实战

大模型, Transformer, MoE, LoRA, 面试

相关帖子

收藏0 回复显示全部楼层举报

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-7 11:47 , Processed in 0.882119 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表