云栈社区»论坛 › 技术文档「 Note & Doc 」 › 深入浅出大模型技术：从架构到实践的150个核心问题解析 ...

5671 积分	1 好友	757 主题

发消息

深入浅出大模型技术：从架构到实践的150个核心问题解析

发表于 2026-2-15 06:59:01 | 查看: 230| 回复: 0

如果你正在系统性地学习大语言模型技术，或者准备相关的面试，那么一份覆盖全面、由浅入深的问题清单将是宝贵的资源。本文将围绕大模型的十个核心模块，整理出150个关键问题，帮助你搭建完整的知识框架，从理论根基到工程实践一网打尽。

一、Transformer基础架构（25题）

Transformer架构通识
请详细介绍Transformer的整体架构（Encoder/Decoder），以及BERT（Encoder-only）、GPT（Decoder-only）、T5（Encoder-Decoder）分别使用了哪种架构及其适用场景？
Self-Attention机制
请手写Self-Attention的计算公式，解释Q、K、V矩阵的含义，以及为什么要除以√dk（缩放点积）？如果不除会有什么影响？
多头注意力（MHA）
为什么要使用多头注意力机制？它能捕捉到什么信息？多头相比单头增加了参数量吗？
位置编码（Positional Encoding）
Transformer为什么需要位置编码？介绍一下正余弦位置编码和可学习位置编码的区别。
RoPE（旋转位置编码）
详细解释RoPE的原理及其优势，它是如何实现相对位置信息的？什么是2D-RoPE和MRoPE（Multimodal RoPE）？
ALiBi与长度外推
了解ALiBi位置编码吗？如何解决长文本外推问题（短训长推）？
LayerNorm vs BatchNorm
为什么NLP任务通常使用LayerNorm而不是BatchNorm？它们在训练和推理时有何区别？
Pre-Norm vs Post-Norm
简述Pre-Norm和Post-Norm的区别，为什么现在的LLM大多采用Pre-Norm？
RMSNorm
介绍RMSNorm的计算公式，相比LayerNorm它做了哪些改进？为什么LLM常用RMSNorm？
激活函数
介绍ReLU、GELU、Swish和SwiGLU的区别，为什么LLaMA选择SwiGLU？
FFN（前馈神经网络）
Transformer中FFN层的作用是什么？为什么要先升维再降维？
参数量计算
如何计算Transformer模型的参数量？给定层数、隐藏层维度等超参，推导显存占用。
反向传播计算量
反向传播的计算量大约是前向传播的几倍？为什么？
梯度消失/爆炸
什么是梯度消失和梯度爆炸？Transformer是如何缓解这些问题的？
Dropout
Dropout在训练和测试阶段有什么区别？它如何防止过拟合？
损失函数
推导交叉熵损失函数（Cross Entropy），它与KL散度有什么关系？
Softmax
解释Softmax公式，如何解决Softmax的上溢和下溢问题？
BPE分词
介绍Byte-Pair Encoding (BPE) 算法的流程，Byte-level BPE有什么优势？如何查看和可视化LLM输出Token的概率分布？
Tokenizer
常用的大模型Tokenizer有哪些？词表大小对模型有什么影响？如何合并英文词表和中文词表？
Mask机制
Transformer中的Padding Mask和Sequence Mask（Causal Mask）分别起什么作用？
Context Engineering vs Prompt Engineering
Context Engineering（上下文工程）与Prompt Engineering有什么区别？Prompt告诉模型如何思考，而Context赋予模型完成工作所需的知识和工具。
信息熵
在大模型输出中，如何计算输出结果的信息熵？
DeepSeek MLA
解释DeepSeek V2/V3中的MLA (Multi-Head Latent Attention) 机制，为什么Q和K在计算RoPE时分别采用了潜在变量和原变量？它是如何降低KV Cache显存占用的？
MQA & GQA
MQA（Multi-Query Attention）和GQA（Grouped-Query Attention）与MHA的区别是什么？
LLM的“复读机”问题
LLM的“复读机”问题（Repetition）是如何产生的？如何通过惩罚项（Repetition Penalty）缓解？

二、预训练（10题）

预训练任务
BERT的MLM（Masked Language Model）任务和GPT的CLM（Causal Language Model）任务有什么区别？
Scaling Law（缩放定律）
简述大模型的Scaling Laws，参数量、数据量和计算量之间的关系。模型性能随参数量、数据量计算量的增加而提升的规律。
数据处理
大模型预训练数据清洗的完整流程是怎样的？如何进行去重（MinHash）、质量过滤、隐私处理？
Decoder-only架构
为什么现在主流的大模型（如LLaMA, Qwen）都采用Decoder-only架构，而不是Encoder-Decoder？
混合精度训练
什么是FP16、BF16和FP32？为什么训练大模型常使用BF16？
分布式训练框架
了解Megatron-LM和DeepSpeed吗？介绍一下DeepSpeed的ZeRO-1/2/3的区别。
并行策略
解释数据并行（DP）、张量并行（TP）和流水线并行（PP）的原理。
显存估算
如何根据模型参数量（如7B、72B）估算训练和推理所需的显存大小？全参数微调需要多少显存？
灾难性遗忘
什么是灾难性遗忘？在持续预训练（Continue PreTrain）或微调中如何缓解？领域模型进行继续预训练应该如何选取数据？
训练阶段流程
简述LLM从Pre-train到SFT再到RLHF的全流程。

三、微调与PEFT（15题）

SFT流程
大模型有监督微调（SFT）的完整流程是怎样的？SFT的数据集格式通常是怎样的（Instruction、Input、Output）？数据如何构建？
SFT vs Pre-training
SFT和Pre-training在数据分布和训练目标上有什么不同？SFT阶段主要学的是知识还是格式？为什么SFT之后感觉LLM变“傻”了（通用能力遗忘问题）？
SFT Loss函数
SFT的Loss函数是如何设计的？通常计算预测Token的交叉熵损失。SFT和Pre-train阶段使用的Loss函数是什么？如何防止过拟合？
LoRA原理
详细解释LoRA（Low-Rank Adaptation）的原理，为什么它能减少显存占用？LoRA的A矩阵和B矩阵通常如何初始化？参数r和α如何影响训练？
全参 vs LoRA
全参数微调和LoRA微调在原理和效果上有什么区别？为什么有些论文说LoRA效果更好？在什么场景下选择全参数微调，什么场景下选择LoRA？
QLoRA
什么是QLoRA？它引入了哪些量化技术（如4-bit NormalFloat, Double Quantization）？
其他PEFT技术
除了LoRA，还知道哪些PEFT（参数高效微调）方法？介绍Prefix Tuning、Prompt Tuning和P-Tuning的原理及区别。P-Tuning v1和v2有什么区别？
指令微调
如何构建高质量的指令微调（Instruction Tuning）数据集？什么是Self-Instruct？如何提升Prompt的代表性和数据量？
微调数据量
SFT微调需要多少数据量？LoRA微调7B模型通常需要多少条数据？
显存优化
微调一个7B模型大概需要多少显存？如何估算？除了PEFT，微调过程中还有哪些节省显存的策略（如Gradient Checkpointing）？
模型合并
训练好的LoRA adapter如何合并回Base model？涉及哪些文件？
微调Loss震荡
微调过程中如果Loss震荡或不下降，可能的原因有哪些？为什么第二个Epoch时Loss会突然下降？学习率设置通常比预训练时大还是小？
Sample Packing
训练时如何处理长短不一的数据？什么是Sample Packing（拼接）？
多轮对话数据
多轮对话数据在SFT时如何进行mask（只计算回答部分的loss）？
数据增强
什么是Backtranslation（回译）？用于数据增强或提升模型语言能力的技术。

四、对齐与强化学习（15题）

RLHF流程
详细描述RLHF（Reinforcement Learning from Human Feedback）的三个阶段。SFT vs RLHF的本质区别是什么？为什么经过SFT后还需要RLHF？
Reward Model
奖励模型（Reward Model）是如何训练的？损失函数是什么（Ranking Loss）？如何防止Reward Hacking（奖励欺骗）？
PPO算法
简述PPO（Proximal Policy Optimization）算法的核心思想，它涉及哪四个模型（Actor、Critic、Reward Model、Reference Model）？PPO是On-policy还是Off-policy？
DPO原理
Direct Preference Optimization (DPO) 的原理是什么？它相比PPO/RLHF有什么优势？DPO是On-policy还是Off-policy？
GRPO
介绍DeepSeek R1使用的GRPO (Group Relative Policy Optimization) 算法，它相对于PPO有哪些改进（如去掉了Critic模型）？
KL散度
在RLHF中，为什么要加入KL散度惩罚项（KL Penalty）？
Rejection Sampling
什么是Rejection Sampling（拒绝采样）或Best-of-N？在对齐中如何使用？
Online DPO
什么是Online DPO？它与离线DPO的区别？如何利用模型自身构建偏好数据对？
偏好数据构建
RLHF/DPO/GRPO中的偏好数据（Pairwise data, Chosen/Rejected）是如何构建的？
RL训练稳定性
RL（强化学习）为什么容易“训崩”？涉及奖励模型设计、KL散度约束等稳定性问题。
推理模型训练
推理模型（如o1, R1）是如何通过强化学习激发推理能力的（Aha moment）？什么是Inference-time scaling（推理时扩展）？
长思维链
OpenAI o1的“长思维链”是什么样子？Shortcut learning vs Journey learning的区别。推理链（CoT）太长会导致成本增加，有哪些压缩推理链的方法？
Actor-Critic
PPO中的Actor和Critic网络分别起什么作用？
Reference Model
RLHF中Reference Model的作用是什么？
先验知识融入
如何把先验知识加入到深度学习的损失函数中？可以通过添加惩罚项（如平滑损失）的方式将规则融入Loss。

五、RAG检索增强生成（15题）

RAG架构
什么是RAG（Retrieval-Augmented Generation）？它解决了LLM的哪些核心弱点（幻觉、时效性、私有数据）？详细描述RAG的标准流程（Indexing, Retrieval, Generation）。
RAG vs 微调
面对垂直领域任务，如何选择RAG还是微调？两者的优缺点是什么？微调用于注入格式和特定任务风格，RAG用于注入知识和事实。
文档切分（Chunking）
常用的文本切片策略有哪些（固定大小、滑动窗口、语义切片）？如何处理切片间的重叠（Overlap）？切分粒度对语义的影响？
复杂PDF处理
如何优化RAG的文档解析和Chunk切分？PDF解析痛点（多栏、表格、跨页表格、双栏或乱序排版）。PDF解析工具有哪些（PyPDF2, pdfplumber, pdfminer, Camelot）？
多模态RAG
如何处理文档中的图片（OCR转文字 vs 图片Embedding）？RAG中如何处理表格识别（PDFPlumber、TableNet等传统与深度学习方法）？
检索算法
什么是稠密检索（Dense Retrieval）和稀疏检索（BM25）？什么是混合检索（Hybrid Search）？向量检索库有哪些（Faiss, Milvus, Annoy, ElasticSearch）？
重排序（Rerank）
什么是Rerank（重排序）？为什么RAG需要它？Rerank模型和Embedding模型的区别是什么？粗排（向量检索）后使用Cross-encoder进行精排。
GraphRAG
什么是GraphRAG？它解决了传统RAG的什么问题（如全局理解、跨文档推理）？GraphRAG中的“社区检测（Community Detection）”是用什么算法实现的（Leiden）？
检索指标
解释MRR（Mean Reciprocal Rank）、NDCG、Recall@K、Precision@K等检索评估指标。
Query改写
什么是Query Rewrite/Transformation？有哪些常见策略（Query2Doc、HyDE假设性文档嵌入）？
多路召回
多路召回的结果如何融合（如RRF算法）？
Embedding模型
如何选择Embedding模型？两个不同Embedding模型的向量可以直接计算相似度吗？如何对Embedding模型进行微调以适应特定领域？
Lost in the Middle
如何解决RAG中的“Lost in the Middle”现象？模型对长上下文中段内容的关注度下降问题及优化策略。
RAG评估
如何评估RAG系统的好坏？不能只看“能跑就行”，需要构建评估体系（如Ragas指标）。
多轮RAG对话
多轮RAG对话中如何进行指代消解？解决用户后续提问省略主语（如“它多少钱”）的问题。RAG检索结果冲突怎么办？

六、Agent智能体（10题）

Agent定义
什么是AI Agent？它与Workflow有什么区别？Agent由哪些核心组件构成（Planning规划、Memory记忆、Tools/Action工具使用）？
推理框架
解释ReAct（Reasoning + Acting）、CoT（Chain of Thought思维链）、ToT（Tree of Thoughts）的区别。CoT是如何提升模型推理能力的？
Function Calling
什么是Function Calling？为什么需要Function Call（连接LLM与外部世界的桥梁）？模型是如何知道何时调用工具的？Function Call是如何训练的（核心思想及数据集构建）？
Function Call稳定性
如何提升Function Call的稳定性？CoT + Plan-Execute策略，以及参数检查和错误修复机制。
记忆机制
Agent如何处理长短期记忆？Agent的记忆模块（Memory）如何实现（短时记忆vs长时记忆，滑动窗口、摘要总结、向量数据库存储）？
任务规划（Planning）
面对复杂Query，Agent如何进行子任务拆解（如DAG图）？Agent的规划（Planning）有哪些形式（任务分解Decomposition、自我反省Self-reflection）？
Multi-Agent
什么是Multi-Agent（多智能体）？Agent之间如何协作和共享上下文？子Agent是否需要记忆？
Agent框架
熟悉哪些Agent框架（LangChain, LangGraph, AutoGen）？它们的区别是什么？LangChain的核心概念（Chain, Agent, Tool, Memory）？
MCP协议
什么是MCP（Model Context Protocol）？一种标准化的模型上下文协议，用于连接AI模型与数据源/工具。
Agent数据合成
如何合成数据来训练Agent？使用AgentFounder等范式进行数据重组和动作合成。

七、推理与优化（15题）

推理阶段
推理过程分为哪两个阶段？Prefilling（预填充/输入理解）和Decoding（解码/递归生成）阶段。
KV Cache
详细解释KV Cache的原理，为什么Transformer需要KV Cache？为什么只缓存K和V而不缓存Q？它会增加显存占用吗？为什么KV Cache会成为推理瓶颈？
Flash Attention
Flash Attention V1/V2的核心思想是什么？它是如何利用SRAM进行加速的？
PagedAttention
介绍vLLM中的PagedAttention机制，它解决了什么问题？vLLM加速推理的核心原理是什么？
解码策略
介绍Greedy Search、Beam Search、Top-k Sampling、Top-p (Nucleus) Sampling的区别。Beam Search有什么缺点？温度参数（Temperature）代表什么？同一个Prompt重复输入LLM，为什么输出不一样？
量化
介绍PTQ（Post-Training Quantization）和QAT（Quantization-Aware Training）。常用的量化方法（GPTQ, AWQ）及其对模型效果的影响。常用的量化精度有哪些（INT8, INT4, FP8）？
推理显存计算
推理时，一个7B模型在使用KV Cache和FP16精度下，大概需要多少显存？如何估算模型推理所需的RAM/显存？
推测解码
什么是推测解码（Speculative Decoding）/投机采样？它是如何加速推理的？如何利用小模型加速大模型推理？
Continuous Batching
什么是Continuous Batching（连续批处理）？它如何提升推理吞吐量？
推理性能指标
推理性能的评价指标有哪些？主要包括Throughput（吞吐量）和Latency（延迟，如TTFT首字延迟）。如何权衡吞吐量和延迟？
长上下文处理
如何解决长Context导致的显存OOM和推理变慢问题（如Prefix Cache，滑动窗口）？什么是长度外推（Length Extrapolation）？为什么模型短训长推？
Left Padding
为什么大模型推理时通常使用Left Padding而不是Right Padding？
停止条件
大模型推理时如何判断何时停止生成（EOS token）？
推理框架
列举几个常用的LLM推理框架（如vLLM， TensorRT-LLM， TGI）。
结构化输出
如何强制大模型输出JSON格式（Prompt约束 vs Logit Bias/Grammar约束）？

八、多模态（10题）

CLIP
CLIP模型的作用是什么？CLIP模型是如何训练的？对比学习在其中起了什么作用？连接文本和图像的语义空间。
BLIP/BLIP-2
介绍BLIP和BLIP-2的架构，Q-Former的作用是什么？InstructBLIP的模型结构和训练过程？
LLaVA
LLaVA模型的架构是怎样的？它是如何利用CLIP和LLM进行多模态理解的？
多模态融合
多模态融合的方式有哪些？Q-Former (BLIP2)， Projection Layer， Adapter等。跨模态对齐（如图像到文本）有哪些常见的方法？
ViT
Vision Transformer是如何将图像转化为Token的（Patch Embedding）？
Qwen-VL架构
Qwen-VL的网络架构包含哪些组件（视觉编码器、Position-aware Vision-Language Adapter、LLM基座）？Qwen-VL是如何连接视觉编码器和LLM的？Qwen2-VL的Naive动态分辨率是什么？
分辨率处理
多模态模型如何处理不同分辨率的图片（Naive vs Dynamic resolution）？
视觉定位
VLM是如何实现Visual Grounding（输出Bounding Box）的？Qwen-VL如何处理边界框（Bounding Box）输入输出？
多模态能力保持
多模态大模型如何避免遗忘LLM的原有能力？训练阶段的策略，如冻结LLM参数或混合数据训练。
Diffusion Model
简述Diffusion Model（扩散模型）的原理，DDPM和DDIM的区别？Stable Diffusion的原理？

九、前沿模型（10题）

DeepSeek系列
DeepSeek-R1是什么类型的模型（推理大模型，强调思维链CoT能力）？DeepSeek-R1-Zero与DeepSeek-R1的区别？DeepSeek-V3/R1的主要创新点是什么（MLA， DeepSeekMoE， GRPO）？
MoE
MOE（Mixture-of-Experts）模型的思路是什么？混合专家模型（MoE）的原理是什么？它如何实现推理时的低计算量？如何解决负载不均衡和专家坍缩问题？MOE通过稀疏激活专家模型来提升效率。
Qwen系列
Qwen模型在结构上有什么特点？为什么设计成72B参数？Qwen3的Think模式如何开闭？
Llama系列
Llama 1/2/3在架构和训练数据上做了哪些改进？
Test-Time Scaling
什么是测试时扩展（Test-Time Scaling）？它与训练时扩展有什么区别？通过增加推理时的计算量（如生成更长的CoT）来提升性能。
DeepResearch
DeepResearch是什么？基于合成数据的增量预训练和后训练的Agent架构，以及它与RAG的对比。
Kimi k2
什么是Kimi k2架构？与DeepSeek V3的架构对比。
AI Infra vs ML Infra
AI Infra与ML Infra有什么区别？在推理加速和基础设施建设中，这两者的侧重点不同。
Agentic Workflow
为什么现在流行“Agentic Workflow”（工作流）而不仅仅是Prompting？
长文本生成
如何让大模型输出10k+字长文（LongWriter等技术方案）？如何减少大模型Token的消耗？

十、工程实践（10题）

模型部署
如何部署Qwen2本地模型？推理框架选择（如vLLM， Ollama）。
HuggingFace下载
HuggingFace下载不了模型怎么办？国内镜像站、代理设置等解决方案。
Bitsandbytes
Bitsandbytes是什么？用于大模型量化（Int8/NF4）以节省显存的库。
Unsloth微调
如何使用Unsloth微调Qwen2-VL？解决微调时的内存占用大问题。
DeepSpeed调参
DeepSpeed如何调参？分布式训练中的参数优化。
Firefly项目
Firefly项目介绍？支持多种主流大模型微调的开源工具。
监控
训练过程中如何使用WandB进行监控？Loss曲线不下降怎么办？
Prompt工程
什么是System Prompt？Prompt优化的常见技巧有哪些？
API调用
写一段代码调用OpenAI/DeepSeek API并处理流式输出。
降本增效
在项目中采用了哪些手段降低API成本或部署成本？

十一、评估与安全（5题）

幻觉问题
什么是大模型幻觉（Hallucination）？模型生成看似合理但与事实不符的内容。幻觉产生的原因有哪些（数据源问题、训练方式、解码策略等）？如何缓解LLM幻觉（RAG、自我验证SelfCheck、事实核心采样等）？
多模态幻觉
多模态幻觉（Hallucination）有哪些类型？对象不存在、关系错误、属性错误等，以及如何评估。
幻觉度量
如何度量幻觉？使用评估数据集或基于模型的评估方法。
自动评估
大模型自动评估理论与实战？基准失效、数据泄露问题，以及如何构建评估集。如何评估RAG或Agent系统的效果（构建测试集、使用LLM-as-a-Judge）？
Bad Case分析
遇到模型回答不准确的Bad Case，你的排查思路是什么？在项目中，是如何检测和缓解模型幻觉的（如三元组验证、引用溯源）？

十二、NLP基础与数据工程（10题）

HMM vs CRF
HMM与CRF的区别？生成模型与判别模型的区别，序列标注的基础。
TextCNN
TextCNN进行文本分类的过程？卷积层、池化层在文本处理中的应用。
类别不平衡
如何处理文本分类中的类别不平衡？重采样、Loss加权等Trick。
FastText
FastText的优点是什么？训练速度快，N-gram特征。
ROUGE vs BLEU
ROUGE与BLEU指标的区别？ROUGE常用于摘要评估（召回率导向），BLEU常用于翻译评估（精确率导向）。
NER
什么是命名实体识别（NER）？从文本中提取人名、地名、机构名等实体。
倒排索引
什么是倒排索引？ElasticSearch的核心机制。
数据清洗
如何清洗Pre-train数据？去重（MinHash）、质量过滤。在做RAG或微调时，你是如何清洗和处理数据的（尤其是PDF解析中的噪声）？
NL2SQL
在Text-to-SQL场景中，如何提升生成的SQL语句的准确率（Schema Link，语法检查）？
知识图谱
如何构建金融知识图谱问答系统？结合NLP和知识图谱的实战流程。知识图谱（KG）如何增强LLM的能力（除了GraphRAG）？

以上就是关于大模型技术核心的150个问题集合。无论是用于系统性的学习自查，还是作为面试准备的知识提纲，这份列表都能帮助你查漏补缺，建立起更全面的认知框架。在云栈社区的技术文档板块，你还可以找到更多关于AIGC技术的深度解析和实践指南，与广大开发者一起探索前沿。

上一篇：Node.js代码优化：使用局部作用域避免全局变量冲突与模块化
下一篇：CTA策略因子挖掘遇瓶颈后的深度思考与进阶路径

LLM, Transformer, RAG, Agent, Fine-tuning