找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3710

积分

1

好友

502

主题
发表于 2026-2-15 06:59:01 | 查看: 33| 回复: 0

如果你正在系统性地学习大语言模型技术,或者准备相关的面试,那么一份覆盖全面、由浅入深的问题清单将是宝贵的资源。本文将围绕大模型的十个核心模块,整理出150个关键问题,帮助你搭建完整的知识框架,从理论根基到工程实践一网打尽。

一、Transformer基础架构(25题)

  1. Transformer架构通识
    请详细介绍Transformer的整体架构(Encoder/Decoder),以及BERT(Encoder-only)、GPT(Decoder-only)、T5(Encoder-Decoder)分别使用了哪种架构及其适用场景?

  2. Self-Attention机制
    请手写Self-Attention的计算公式,解释Q、K、V矩阵的含义,以及为什么要除以√dk(缩放点积)?如果不除会有什么影响?

  3. 多头注意力(MHA)
    为什么要使用多头注意力机制?它能捕捉到什么信息?多头相比单头增加了参数量吗?

  4. 位置编码(Positional Encoding)
    Transformer为什么需要位置编码?介绍一下正余弦位置编码和可学习位置编码的区别。

  5. RoPE(旋转位置编码)
    详细解释RoPE的原理及其优势,它是如何实现相对位置信息的?什么是2D-RoPE和MRoPE(Multimodal RoPE)?

  6. ALiBi与长度外推
    了解ALiBi位置编码吗?如何解决长文本外推问题(短训长推)?

  7. LayerNorm vs BatchNorm
    为什么NLP任务通常使用LayerNorm而不是BatchNorm?它们在训练和推理时有何区别?

  8. Pre-Norm vs Post-Norm
    简述Pre-Norm和Post-Norm的区别,为什么现在的LLM大多采用Pre-Norm?

  9. RMSNorm
    介绍RMSNorm的计算公式,相比LayerNorm它做了哪些改进?为什么LLM常用RMSNorm?

  10. 激活函数
    介绍ReLU、GELU、Swish和SwiGLU的区别,为什么LLaMA选择SwiGLU?

  11. FFN(前馈神经网络)
    Transformer中FFN层的作用是什么?为什么要先升维再降维?

  12. 参数量计算
    如何计算Transformer模型的参数量?给定层数、隐藏层维度等超参,推导显存占用。

  13. 反向传播计算量
    反向传播的计算量大约是前向传播的几倍?为什么?

  14. 梯度消失/爆炸
    什么是梯度消失和梯度爆炸?Transformer是如何缓解这些问题的?

  15. Dropout
    Dropout在训练和测试阶段有什么区别?它如何防止过拟合?

  16. 损失函数
    推导交叉熵损失函数(Cross Entropy),它与KL散度有什么关系?

  17. Softmax
    解释Softmax公式,如何解决Softmax的上溢和下溢问题?

  18. BPE分词
    介绍Byte-Pair Encoding (BPE) 算法的流程,Byte-level BPE有什么优势?如何查看和可视化LLM输出Token的概率分布?

  19. Tokenizer
    常用的大模型Tokenizer有哪些?词表大小对模型有什么影响?如何合并英文词表和中文词表?

  20. Mask机制
    Transformer中的Padding Mask和Sequence Mask(Causal Mask)分别起什么作用?

  21. Context Engineering vs Prompt Engineering
    Context Engineering(上下文工程)与Prompt Engineering有什么区别?Prompt告诉模型如何思考,而Context赋予模型完成工作所需的知识和工具。

  22. 信息熵
    在大模型输出中,如何计算输出结果的信息熵?

  23. DeepSeek MLA
    解释DeepSeek V2/V3中的MLA (Multi-Head Latent Attention) 机制,为什么Q和K在计算RoPE时分别采用了潜在变量和原变量?它是如何降低KV Cache显存占用的?

  24. MQA & GQA
    MQA(Multi-Query Attention)和GQA(Grouped-Query Attention)与MHA的区别是什么?

  25. LLM的“复读机”问题
    LLM的“复读机”问题(Repetition)是如何产生的?如何通过惩罚项(Repetition Penalty)缓解?

二、预训练(10题)

  1. 预训练任务
    BERT的MLM(Masked Language Model)任务和GPT的CLM(Causal Language Model)任务有什么区别?

  2. Scaling Law(缩放定律)
    简述大模型的Scaling Laws,参数量、数据量和计算量之间的关系。模型性能随参数量、数据量计算量的增加而提升的规律。

  3. 数据处理
    大模型预训练数据清洗的完整流程是怎样的?如何进行去重(MinHash)、质量过滤、隐私处理?

  4. Decoder-only架构
    为什么现在主流的大模型(如LLaMA, Qwen)都采用Decoder-only架构,而不是Encoder-Decoder?

  5. 混合精度训练
    什么是FP16、BF16和FP32?为什么训练大模型常使用BF16?

  6. 分布式训练框架
    了解Megatron-LM和DeepSpeed吗?介绍一下DeepSpeed的ZeRO-1/2/3的区别。

  7. 并行策略
    解释数据并行(DP)、张量并行(TP)和流水线并行(PP)的原理。

  8. 显存估算
    如何根据模型参数量(如7B、72B)估算训练和推理所需的显存大小?全参数微调需要多少显存?

  9. 灾难性遗忘
    什么是灾难性遗忘?在持续预训练(Continue PreTrain)或微调中如何缓解?领域模型进行继续预训练应该如何选取数据?

  10. 训练阶段流程
    简述LLM从Pre-train到SFT再到RLHF的全流程。

三、微调与PEFT(15题)

  1. SFT流程
    大模型有监督微调(SFT)的完整流程是怎样的?SFT的数据集格式通常是怎样的(Instruction、Input、Output)?数据如何构建?

  2. SFT vs Pre-training
    SFT和Pre-training在数据分布和训练目标上有什么不同?SFT阶段主要学的是知识还是格式?为什么SFT之后感觉LLM变“傻”了(通用能力遗忘问题)?

  3. SFT Loss函数
    SFT的Loss函数是如何设计的?通常计算预测Token的交叉熵损失。SFT和Pre-train阶段使用的Loss函数是什么?如何防止过拟合?

  4. LoRA原理
    详细解释LoRA(Low-Rank Adaptation)的原理,为什么它能减少显存占用?LoRA的A矩阵和B矩阵通常如何初始化?参数r和α如何影响训练?

  5. 全参 vs LoRA
    全参数微调和LoRA微调在原理和效果上有什么区别?为什么有些论文说LoRA效果更好?在什么场景下选择全参数微调,什么场景下选择LoRA?

  6. QLoRA
    什么是QLoRA?它引入了哪些量化技术(如4-bit NormalFloat, Double Quantization)?

  7. 其他PEFT技术
    除了LoRA,还知道哪些PEFT(参数高效微调)方法?介绍Prefix Tuning、Prompt Tuning和P-Tuning的原理及区别。P-Tuning v1和v2有什么区别?

  8. 指令微调
    如何构建高质量的指令微调(Instruction Tuning)数据集?什么是Self-Instruct?如何提升Prompt的代表性和数据量?

  9. 微调数据量
    SFT微调需要多少数据量?LoRA微调7B模型通常需要多少条数据?

  10. 显存优化
    微调一个7B模型大概需要多少显存?如何估算?除了PEFT,微调过程中还有哪些节省显存的策略(如Gradient Checkpointing)?

  11. 模型合并
    训练好的LoRA adapter如何合并回Base model?涉及哪些文件?

  12. 微调Loss震荡
    微调过程中如果Loss震荡或不下降,可能的原因有哪些?为什么第二个Epoch时Loss会突然下降?学习率设置通常比预训练时大还是小?

  13. Sample Packing
    训练时如何处理长短不一的数据?什么是Sample Packing(拼接)?

  14. 多轮对话数据
    多轮对话数据在SFT时如何进行mask(只计算回答部分的loss)?

  15. 数据增强
    什么是Backtranslation(回译)?用于数据增强或提升模型语言能力的技术。

四、对齐与强化学习(15题)

  1. RLHF流程
    详细描述RLHF(Reinforcement Learning from Human Feedback)的三个阶段。SFT vs RLHF的本质区别是什么?为什么经过SFT后还需要RLHF?

  2. Reward Model
    奖励模型(Reward Model)是如何训练的?损失函数是什么(Ranking Loss)?如何防止Reward Hacking(奖励欺骗)?

  3. PPO算法
    简述PPO(Proximal Policy Optimization)算法的核心思想,它涉及哪四个模型(Actor、Critic、Reward Model、Reference Model)?PPO是On-policy还是Off-policy?

  4. DPO原理
    Direct Preference Optimization (DPO) 的原理是什么?它相比PPO/RLHF有什么优势?DPO是On-policy还是Off-policy?

  5. GRPO
    介绍DeepSeek R1使用的GRPO (Group Relative Policy Optimization) 算法,它相对于PPO有哪些改进(如去掉了Critic模型)?

  6. KL散度
    在RLHF中,为什么要加入KL散度惩罚项(KL Penalty)?

  7. Rejection Sampling
    什么是Rejection Sampling(拒绝采样)或Best-of-N?在对齐中如何使用?

  8. Online DPO
    什么是Online DPO?它与离线DPO的区别?如何利用模型自身构建偏好数据对?

  9. 偏好数据构建
    RLHF/DPO/GRPO中的偏好数据(Pairwise data, Chosen/Rejected)是如何构建的?

  10. RL训练稳定性
    RL(强化学习)为什么容易“训崩”?涉及奖励模型设计、KL散度约束等稳定性问题。

  11. 推理模型训练
    推理模型(如o1, R1)是如何通过强化学习激发推理能力的(Aha moment)?什么是Inference-time scaling(推理时扩展)?

  12. 长思维链
    OpenAI o1的“长思维链”是什么样子?Shortcut learning vs Journey learning的区别。推理链(CoT)太长会导致成本增加,有哪些压缩推理链的方法?

  13. Actor-Critic
    PPO中的Actor和Critic网络分别起什么作用?

  14. Reference Model
    RLHF中Reference Model的作用是什么?

  15. 先验知识融入
    如何把先验知识加入到深度学习的损失函数中?可以通过添加惩罚项(如平滑损失)的方式将规则融入Loss。

五、RAG检索增强生成(15题)

  1. RAG架构
    什么是RAG(Retrieval-Augmented Generation)?它解决了LLM的哪些核心弱点(幻觉、时效性、私有数据)?详细描述RAG的标准流程(Indexing, Retrieval, Generation)。

  2. RAG vs 微调
    面对垂直领域任务,如何选择RAG还是微调?两者的优缺点是什么?微调用于注入格式和特定任务风格,RAG用于注入知识和事实。

  3. 文档切分(Chunking)
    常用的文本切片策略有哪些(固定大小、滑动窗口、语义切片)?如何处理切片间的重叠(Overlap)?切分粒度对语义的影响?

  4. 复杂PDF处理
    如何优化RAG的文档解析和Chunk切分?PDF解析痛点(多栏、表格、跨页表格、双栏或乱序排版)。PDF解析工具有哪些(PyPDF2, pdfplumber, pdfminer, Camelot)?

  5. 多模态RAG
    如何处理文档中的图片(OCR转文字 vs 图片Embedding)?RAG中如何处理表格识别(PDFPlumber、TableNet等传统与深度学习方法)?

  6. 检索算法
    什么是稠密检索(Dense Retrieval)和稀疏检索(BM25)?什么是混合检索(Hybrid Search)?向量检索库有哪些(Faiss, Milvus, Annoy, ElasticSearch)?

  7. 重排序(Rerank)
    什么是Rerank(重排序)?为什么RAG需要它?Rerank模型和Embedding模型的区别是什么?粗排(向量检索)后使用Cross-encoder进行精排。

  8. GraphRAG
    什么是GraphRAG?它解决了传统RAG的什么问题(如全局理解、跨文档推理)?GraphRAG中的“社区检测(Community Detection)”是用什么算法实现的(Leiden)?

  9. 检索指标
    解释MRR(Mean Reciprocal Rank)、NDCG、Recall@K、Precision@K等检索评估指标。

  10. Query改写
    什么是Query Rewrite/Transformation?有哪些常见策略(Query2Doc、HyDE假设性文档嵌入)?

  11. 多路召回
    多路召回的结果如何融合(如RRF算法)?

  12. Embedding模型
    如何选择Embedding模型?两个不同Embedding模型的向量可以直接计算相似度吗?如何对Embedding模型进行微调以适应特定领域?

  13. Lost in the Middle
    如何解决RAG中的“Lost in the Middle”现象?模型对长上下文中段内容的关注度下降问题及优化策略。

  14. RAG评估
    如何评估RAG系统的好坏?不能只看“能跑就行”,需要构建评估体系(如Ragas指标)。

  15. 多轮RAG对话
    多轮RAG对话中如何进行指代消解?解决用户后续提问省略主语(如“它多少钱”)的问题。RAG检索结果冲突怎么办?

六、Agent智能体(10题)

  1. Agent定义
    什么是AI Agent?它与Workflow有什么区别?Agent由哪些核心组件构成(Planning规划、Memory记忆、Tools/Action工具使用)?

  2. 推理框架
    解释ReAct(Reasoning + Acting)、CoT(Chain of Thought思维链)、ToT(Tree of Thoughts)的区别。CoT是如何提升模型推理能力的?

  3. Function Calling
    什么是Function Calling?为什么需要Function Call(连接LLM与外部世界的桥梁)?模型是如何知道何时调用工具的?Function Call是如何训练的(核心思想及数据集构建)?

  4. Function Call稳定性
    如何提升Function Call的稳定性?CoT + Plan-Execute策略,以及参数检查和错误修复机制。

  5. 记忆机制
    Agent如何处理长短期记忆?Agent的记忆模块(Memory)如何实现(短时记忆vs长时记忆,滑动窗口、摘要总结、向量数据库存储)?

  6. 任务规划(Planning)
    面对复杂Query,Agent如何进行子任务拆解(如DAG图)?Agent的规划(Planning)有哪些形式(任务分解Decomposition、自我反省Self-reflection)?

  7. Multi-Agent
    什么是Multi-Agent(多智能体)?Agent之间如何协作和共享上下文?子Agent是否需要记忆?

  8. Agent框架
    熟悉哪些Agent框架(LangChain, LangGraph, AutoGen)?它们的区别是什么?LangChain的核心概念(Chain, Agent, Tool, Memory)?

  9. MCP协议
    什么是MCP(Model Context Protocol)?一种标准化的模型上下文协议,用于连接AI模型与数据源/工具。

  10. Agent数据合成
    如何合成数据来训练Agent?使用AgentFounder等范式进行数据重组和动作合成。

七、推理与优化(15题)

  1. 推理阶段
    推理过程分为哪两个阶段?Prefilling(预填充/输入理解)和Decoding(解码/递归生成)阶段。

  2. KV Cache
    详细解释KV Cache的原理,为什么Transformer需要KV Cache?为什么只缓存K和V而不缓存Q?它会增加显存占用吗?为什么KV Cache会成为推理瓶颈?

  3. Flash Attention
    Flash Attention V1/V2的核心思想是什么?它是如何利用SRAM进行加速的?

  4. PagedAttention
    介绍vLLM中的PagedAttention机制,它解决了什么问题?vLLM加速推理的核心原理是什么?

  5. 解码策略
    介绍Greedy Search、Beam Search、Top-k Sampling、Top-p (Nucleus) Sampling的区别。Beam Search有什么缺点?温度参数(Temperature)代表什么?同一个Prompt重复输入LLM,为什么输出不一样?

  6. 量化
    介绍PTQ(Post-Training Quantization)和QAT(Quantization-Aware Training)。常用的量化方法(GPTQ, AWQ)及其对模型效果的影响。常用的量化精度有哪些(INT8, INT4, FP8)?

  7. 推理显存计算
    推理时,一个7B模型在使用KV Cache和FP16精度下,大概需要多少显存?如何估算模型推理所需的RAM/显存?

  8. 推测解码
    什么是推测解码(Speculative Decoding)/投机采样?它是如何加速推理的?如何利用小模型加速大模型推理?

  9. Continuous Batching
    什么是Continuous Batching(连续批处理)?它如何提升推理吞吐量?

  10. 推理性能指标
    推理性能的评价指标有哪些?主要包括Throughput(吞吐量)和Latency(延迟,如TTFT首字延迟)。如何权衡吞吐量和延迟?

  11. 长上下文处理
    如何解决长Context导致的显存OOM和推理变慢问题(如Prefix Cache, 滑动窗口)?什么是长度外推(Length Extrapolation)?为什么模型短训长推?

  12. Left Padding
    为什么大模型推理时通常使用Left Padding而不是Right Padding?

  13. 停止条件
    大模型推理时如何判断何时停止生成(EOS token)?

  14. 推理框架
    列举几个常用的LLM推理框架(如vLLM, TensorRT-LLM, TGI)。

  15. 结构化输出
    如何强制大模型输出JSON格式(Prompt约束 vs Logit Bias/Grammar约束)?

八、多模态(10题)

  1. CLIP
    CLIP模型的作用是什么?CLIP模型是如何训练的?对比学习在其中起了什么作用?连接文本和图像的语义空间。

  2. BLIP/BLIP-2
    介绍BLIP和BLIP-2的架构,Q-Former的作用是什么?InstructBLIP的模型结构和训练过程?

  3. LLaVA
    LLaVA模型的架构是怎样的?它是如何利用CLIP和LLM进行多模态理解的?

  4. 多模态融合
    多模态融合的方式有哪些?Q-Former (BLIP2), Projection Layer, Adapter等。跨模态对齐(如图像到文本)有哪些常见的方法?

  5. ViT
    Vision Transformer是如何将图像转化为Token的(Patch Embedding)?

  6. Qwen-VL架构
    Qwen-VL的网络架构包含哪些组件(视觉编码器、Position-aware Vision-Language Adapter、LLM基座)?Qwen-VL是如何连接视觉编码器和LLM的?Qwen2-VL的Naive动态分辨率是什么?

  7. 分辨率处理
    多模态模型如何处理不同分辨率的图片(Naive vs Dynamic resolution)?

  8. 视觉定位
    VLM是如何实现Visual Grounding(输出Bounding Box)的?Qwen-VL如何处理边界框(Bounding Box)输入输出?

  9. 多模态能力保持
    多模态大模型如何避免遗忘LLM的原有能力?训练阶段的策略,如冻结LLM参数或混合数据训练。

  10. Diffusion Model
    简述Diffusion Model(扩散模型)的原理,DDPM和DDIM的区别?Stable Diffusion的原理?

九、前沿模型(10题)

  1. DeepSeek系列
    DeepSeek-R1是什么类型的模型(推理大模型,强调思维链CoT能力)?DeepSeek-R1-Zero与DeepSeek-R1的区别?DeepSeek-V3/R1的主要创新点是什么(MLA, DeepSeekMoE, GRPO)?

  2. MoE
    MOE(Mixture-of-Experts)模型的思路是什么?混合专家模型(MoE)的原理是什么?它如何实现推理时的低计算量?如何解决负载不均衡和专家坍缩问题?MOE通过稀疏激活专家模型来提升效率。

  3. Qwen系列
    Qwen模型在结构上有什么特点?为什么设计成72B参数?Qwen3的Think模式如何开闭?

  4. Llama系列
    Llama 1/2/3在架构和训练数据上做了哪些改进?

  5. Test-Time Scaling
    什么是测试时扩展(Test-Time Scaling)?它与训练时扩展有什么区别?通过增加推理时的计算量(如生成更长的CoT)来提升性能。

  6. DeepResearch
    DeepResearch是什么?基于合成数据的增量预训练和后训练的Agent架构,以及它与RAG的对比。

  7. Kimi k2
    什么是Kimi k2架构?与DeepSeek V3的架构对比。

  8. AI Infra vs ML Infra
    AI Infra与ML Infra有什么区别?在推理加速和基础设施建设中,这两者的侧重点不同。

  9. Agentic Workflow
    为什么现在流行“Agentic Workflow”(工作流)而不仅仅是Prompting?

  10. 长文本生成
    如何让大模型输出10k+字长文(LongWriter等技术方案)?如何减少大模型Token的消耗?

十、工程实践(10题)

  1. 模型部署
    如何部署Qwen2本地模型?推理框架选择(如vLLM, Ollama)。

  2. HuggingFace下载
    HuggingFace下载不了模型怎么办?国内镜像站、代理设置等解决方案。

  3. Bitsandbytes
    Bitsandbytes是什么?用于大模型量化(Int8/NF4)以节省显存的库。

  4. Unsloth微调
    如何使用Unsloth微调Qwen2-VL?解决微调时的内存占用大问题。

  5. DeepSpeed调参
    DeepSpeed如何调参?分布式训练中的参数优化。

  6. Firefly项目
    Firefly项目介绍?支持多种主流大模型微调的开源工具。

  7. 监控
    训练过程中如何使用WandB进行监控?Loss曲线不下降怎么办?

  8. Prompt工程
    什么是System Prompt?Prompt优化的常见技巧有哪些?

  9. API调用
    写一段代码调用OpenAI/DeepSeek API并处理流式输出。

  10. 降本增效
    在项目中采用了哪些手段降低API成本或部署成本?

十一、评估与安全(5题)

  1. 幻觉问题
    什么是大模型幻觉(Hallucination)?模型生成看似合理但与事实不符的内容。幻觉产生的原因有哪些(数据源问题、训练方式、解码策略等)?如何缓解LLM幻觉(RAG、自我验证SelfCheck、事实核心采样等)?

  2. 多模态幻觉
    多模态幻觉(Hallucination)有哪些类型?对象不存在、关系错误、属性错误等,以及如何评估。

  3. 幻觉度量
    如何度量幻觉?使用评估数据集或基于模型的评估方法。

  4. 自动评估
    大模型自动评估理论与实战?基准失效、数据泄露问题,以及如何构建评估集。如何评估RAG或Agent系统的效果(构建测试集、使用LLM-as-a-Judge)?

  5. Bad Case分析
    遇到模型回答不准确的Bad Case,你的排查思路是什么?在项目中,是如何检测和缓解模型幻觉的(如三元组验证、引用溯源)?

十二、NLP基础与数据工程(10题)

  1. HMM vs CRF
    HMM与CRF的区别?生成模型与判别模型的区别,序列标注的基础。

  2. TextCNN
    TextCNN进行文本分类的过程?卷积层、池化层在文本处理中的应用。

  3. 类别不平衡
    如何处理文本分类中的类别不平衡?重采样、Loss加权等Trick。

  4. FastText
    FastText的优点是什么?训练速度快,N-gram特征。

  5. ROUGE vs BLEU
    ROUGE与BLEU指标的区别?ROUGE常用于摘要评估(召回率导向),BLEU常用于翻译评估(精确率导向)。

  6. NER
    什么是命名实体识别(NER)?从文本中提取人名、地名、机构名等实体。

  7. 倒排索引
    什么是倒排索引?ElasticSearch的核心机制。

  8. 数据清洗
    如何清洗Pre-train数据?去重(MinHash)、质量过滤。在做RAG或微调时,你是如何清洗和处理数据的(尤其是PDF解析中的噪声)?

  9. NL2SQL
    在Text-to-SQL场景中,如何提升生成的SQL语句的准确率(Schema Link, 语法检查)?

  10. 知识图谱
    如何构建金融知识图谱问答系统?结合NLP和知识图谱的实战流程。知识图谱(KG)如何增强LLM的能力(除了GraphRAG)?


以上就是关于大模型技术核心的150个问题集合。无论是用于系统性的学习自查,还是作为面试准备的知识提纲,这份列表都能帮助你查漏补缺,建立起更全面的认知框架。在云栈社区技术文档板块,你还可以找到更多关于AIGC技术的深度解析和实践指南,与广大开发者一起探索前沿。




上一篇:Node.js代码优化:使用局部作用域避免全局变量冲突与模块化
下一篇:CTA策略因子挖掘遇瓶颈后的深度思考与进阶路径
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 12:57 , Processed in 0.489342 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表