如果你正在系统性地学习大语言模型技术,或者准备相关的面试,那么一份覆盖全面、由浅入深的问题清单将是宝贵的资源。本文将围绕大模型的十个核心模块,整理出150个关键问题,帮助你搭建完整的知识框架,从理论根基到工程实践一网打尽。
-
Transformer架构通识
请详细介绍Transformer的整体架构(Encoder/Decoder),以及BERT(Encoder-only)、GPT(Decoder-only)、T5(Encoder-Decoder)分别使用了哪种架构及其适用场景?
-
Self-Attention机制
请手写Self-Attention的计算公式,解释Q、K、V矩阵的含义,以及为什么要除以√dk(缩放点积)?如果不除会有什么影响?
-
多头注意力(MHA)
为什么要使用多头注意力机制?它能捕捉到什么信息?多头相比单头增加了参数量吗?
-
位置编码(Positional Encoding)
Transformer为什么需要位置编码?介绍一下正余弦位置编码和可学习位置编码的区别。
-
RoPE(旋转位置编码)
详细解释RoPE的原理及其优势,它是如何实现相对位置信息的?什么是2D-RoPE和MRoPE(Multimodal RoPE)?
-
ALiBi与长度外推
了解ALiBi位置编码吗?如何解决长文本外推问题(短训长推)?
-
LayerNorm vs BatchNorm
为什么NLP任务通常使用LayerNorm而不是BatchNorm?它们在训练和推理时有何区别?
-
Pre-Norm vs Post-Norm
简述Pre-Norm和Post-Norm的区别,为什么现在的LLM大多采用Pre-Norm?
-
RMSNorm
介绍RMSNorm的计算公式,相比LayerNorm它做了哪些改进?为什么LLM常用RMSNorm?
-
激活函数
介绍ReLU、GELU、Swish和SwiGLU的区别,为什么LLaMA选择SwiGLU?
-
FFN(前馈神经网络)
Transformer中FFN层的作用是什么?为什么要先升维再降维?
-
参数量计算
如何计算Transformer模型的参数量?给定层数、隐藏层维度等超参,推导显存占用。
-
反向传播计算量
反向传播的计算量大约是前向传播的几倍?为什么?
-
梯度消失/爆炸
什么是梯度消失和梯度爆炸?Transformer是如何缓解这些问题的?
-
Dropout
Dropout在训练和测试阶段有什么区别?它如何防止过拟合?
-
损失函数
推导交叉熵损失函数(Cross Entropy),它与KL散度有什么关系?
-
Softmax
解释Softmax公式,如何解决Softmax的上溢和下溢问题?
-
BPE分词
介绍Byte-Pair Encoding (BPE) 算法的流程,Byte-level BPE有什么优势?如何查看和可视化LLM输出Token的概率分布?
-
Tokenizer
常用的大模型Tokenizer有哪些?词表大小对模型有什么影响?如何合并英文词表和中文词表?
-
Mask机制
Transformer中的Padding Mask和Sequence Mask(Causal Mask)分别起什么作用?
-
Context Engineering vs Prompt Engineering
Context Engineering(上下文工程)与Prompt Engineering有什么区别?Prompt告诉模型如何思考,而Context赋予模型完成工作所需的知识和工具。
-
信息熵
在大模型输出中,如何计算输出结果的信息熵?
-
DeepSeek MLA
解释DeepSeek V2/V3中的MLA (Multi-Head Latent Attention) 机制,为什么Q和K在计算RoPE时分别采用了潜在变量和原变量?它是如何降低KV Cache显存占用的?
-
MQA & GQA
MQA(Multi-Query Attention)和GQA(Grouped-Query Attention)与MHA的区别是什么?
-
LLM的“复读机”问题
LLM的“复读机”问题(Repetition)是如何产生的?如何通过惩罚项(Repetition Penalty)缓解?
二、预训练(10题)
-
预训练任务
BERT的MLM(Masked Language Model)任务和GPT的CLM(Causal Language Model)任务有什么区别?
-
Scaling Law(缩放定律)
简述大模型的Scaling Laws,参数量、数据量和计算量之间的关系。模型性能随参数量、数据量计算量的增加而提升的规律。
-
数据处理
大模型预训练数据清洗的完整流程是怎样的?如何进行去重(MinHash)、质量过滤、隐私处理?
-
Decoder-only架构
为什么现在主流的大模型(如LLaMA, Qwen)都采用Decoder-only架构,而不是Encoder-Decoder?
-
混合精度训练
什么是FP16、BF16和FP32?为什么训练大模型常使用BF16?
-
分布式训练框架
了解Megatron-LM和DeepSpeed吗?介绍一下DeepSpeed的ZeRO-1/2/3的区别。
-
并行策略
解释数据并行(DP)、张量并行(TP)和流水线并行(PP)的原理。
-
显存估算
如何根据模型参数量(如7B、72B)估算训练和推理所需的显存大小?全参数微调需要多少显存?
-
灾难性遗忘
什么是灾难性遗忘?在持续预训练(Continue PreTrain)或微调中如何缓解?领域模型进行继续预训练应该如何选取数据?
-
训练阶段流程
简述LLM从Pre-train到SFT再到RLHF的全流程。
三、微调与PEFT(15题)
-
SFT流程
大模型有监督微调(SFT)的完整流程是怎样的?SFT的数据集格式通常是怎样的(Instruction、Input、Output)?数据如何构建?
-
SFT vs Pre-training
SFT和Pre-training在数据分布和训练目标上有什么不同?SFT阶段主要学的是知识还是格式?为什么SFT之后感觉LLM变“傻”了(通用能力遗忘问题)?
-
SFT Loss函数
SFT的Loss函数是如何设计的?通常计算预测Token的交叉熵损失。SFT和Pre-train阶段使用的Loss函数是什么?如何防止过拟合?
-
LoRA原理
详细解释LoRA(Low-Rank Adaptation)的原理,为什么它能减少显存占用?LoRA的A矩阵和B矩阵通常如何初始化?参数r和α如何影响训练?
-
全参 vs LoRA
全参数微调和LoRA微调在原理和效果上有什么区别?为什么有些论文说LoRA效果更好?在什么场景下选择全参数微调,什么场景下选择LoRA?
-
QLoRA
什么是QLoRA?它引入了哪些量化技术(如4-bit NormalFloat, Double Quantization)?
-
其他PEFT技术
除了LoRA,还知道哪些PEFT(参数高效微调)方法?介绍Prefix Tuning、Prompt Tuning和P-Tuning的原理及区别。P-Tuning v1和v2有什么区别?
-
指令微调
如何构建高质量的指令微调(Instruction Tuning)数据集?什么是Self-Instruct?如何提升Prompt的代表性和数据量?
-
微调数据量
SFT微调需要多少数据量?LoRA微调7B模型通常需要多少条数据?
-
显存优化
微调一个7B模型大概需要多少显存?如何估算?除了PEFT,微调过程中还有哪些节省显存的策略(如Gradient Checkpointing)?
-
模型合并
训练好的LoRA adapter如何合并回Base model?涉及哪些文件?
-
微调Loss震荡
微调过程中如果Loss震荡或不下降,可能的原因有哪些?为什么第二个Epoch时Loss会突然下降?学习率设置通常比预训练时大还是小?
-
Sample Packing
训练时如何处理长短不一的数据?什么是Sample Packing(拼接)?
-
多轮对话数据
多轮对话数据在SFT时如何进行mask(只计算回答部分的loss)?
-
数据增强
什么是Backtranslation(回译)?用于数据增强或提升模型语言能力的技术。
四、对齐与强化学习(15题)
-
RLHF流程
详细描述RLHF(Reinforcement Learning from Human Feedback)的三个阶段。SFT vs RLHF的本质区别是什么?为什么经过SFT后还需要RLHF?
-
Reward Model
奖励模型(Reward Model)是如何训练的?损失函数是什么(Ranking Loss)?如何防止Reward Hacking(奖励欺骗)?
-
PPO算法
简述PPO(Proximal Policy Optimization)算法的核心思想,它涉及哪四个模型(Actor、Critic、Reward Model、Reference Model)?PPO是On-policy还是Off-policy?
-
DPO原理
Direct Preference Optimization (DPO) 的原理是什么?它相比PPO/RLHF有什么优势?DPO是On-policy还是Off-policy?
-
GRPO
介绍DeepSeek R1使用的GRPO (Group Relative Policy Optimization) 算法,它相对于PPO有哪些改进(如去掉了Critic模型)?
-
KL散度
在RLHF中,为什么要加入KL散度惩罚项(KL Penalty)?
-
Rejection Sampling
什么是Rejection Sampling(拒绝采样)或Best-of-N?在对齐中如何使用?
-
Online DPO
什么是Online DPO?它与离线DPO的区别?如何利用模型自身构建偏好数据对?
-
偏好数据构建
RLHF/DPO/GRPO中的偏好数据(Pairwise data, Chosen/Rejected)是如何构建的?
-
RL训练稳定性
RL(强化学习)为什么容易“训崩”?涉及奖励模型设计、KL散度约束等稳定性问题。
-
推理模型训练
推理模型(如o1, R1)是如何通过强化学习激发推理能力的(Aha moment)?什么是Inference-time scaling(推理时扩展)?
-
长思维链
OpenAI o1的“长思维链”是什么样子?Shortcut learning vs Journey learning的区别。推理链(CoT)太长会导致成本增加,有哪些压缩推理链的方法?
-
Actor-Critic
PPO中的Actor和Critic网络分别起什么作用?
-
Reference Model
RLHF中Reference Model的作用是什么?
-
先验知识融入
如何把先验知识加入到深度学习的损失函数中?可以通过添加惩罚项(如平滑损失)的方式将规则融入Loss。
五、RAG检索增强生成(15题)
-
RAG架构
什么是RAG(Retrieval-Augmented Generation)?它解决了LLM的哪些核心弱点(幻觉、时效性、私有数据)?详细描述RAG的标准流程(Indexing, Retrieval, Generation)。
-
RAG vs 微调
面对垂直领域任务,如何选择RAG还是微调?两者的优缺点是什么?微调用于注入格式和特定任务风格,RAG用于注入知识和事实。
-
文档切分(Chunking)
常用的文本切片策略有哪些(固定大小、滑动窗口、语义切片)?如何处理切片间的重叠(Overlap)?切分粒度对语义的影响?
-
复杂PDF处理
如何优化RAG的文档解析和Chunk切分?PDF解析痛点(多栏、表格、跨页表格、双栏或乱序排版)。PDF解析工具有哪些(PyPDF2, pdfplumber, pdfminer, Camelot)?
-
多模态RAG
如何处理文档中的图片(OCR转文字 vs 图片Embedding)?RAG中如何处理表格识别(PDFPlumber、TableNet等传统与深度学习方法)?
-
检索算法
什么是稠密检索(Dense Retrieval)和稀疏检索(BM25)?什么是混合检索(Hybrid Search)?向量检索库有哪些(Faiss, Milvus, Annoy, ElasticSearch)?
-
重排序(Rerank)
什么是Rerank(重排序)?为什么RAG需要它?Rerank模型和Embedding模型的区别是什么?粗排(向量检索)后使用Cross-encoder进行精排。
-
GraphRAG
什么是GraphRAG?它解决了传统RAG的什么问题(如全局理解、跨文档推理)?GraphRAG中的“社区检测(Community Detection)”是用什么算法实现的(Leiden)?
-
检索指标
解释MRR(Mean Reciprocal Rank)、NDCG、Recall@K、Precision@K等检索评估指标。
-
Query改写
什么是Query Rewrite/Transformation?有哪些常见策略(Query2Doc、HyDE假设性文档嵌入)?
-
多路召回
多路召回的结果如何融合(如RRF算法)?
-
Embedding模型
如何选择Embedding模型?两个不同Embedding模型的向量可以直接计算相似度吗?如何对Embedding模型进行微调以适应特定领域?
-
Lost in the Middle
如何解决RAG中的“Lost in the Middle”现象?模型对长上下文中段内容的关注度下降问题及优化策略。
-
RAG评估
如何评估RAG系统的好坏?不能只看“能跑就行”,需要构建评估体系(如Ragas指标)。
-
多轮RAG对话
多轮RAG对话中如何进行指代消解?解决用户后续提问省略主语(如“它多少钱”)的问题。RAG检索结果冲突怎么办?
六、Agent智能体(10题)
-
Agent定义
什么是AI Agent?它与Workflow有什么区别?Agent由哪些核心组件构成(Planning规划、Memory记忆、Tools/Action工具使用)?
-
推理框架
解释ReAct(Reasoning + Acting)、CoT(Chain of Thought思维链)、ToT(Tree of Thoughts)的区别。CoT是如何提升模型推理能力的?
-
Function Calling
什么是Function Calling?为什么需要Function Call(连接LLM与外部世界的桥梁)?模型是如何知道何时调用工具的?Function Call是如何训练的(核心思想及数据集构建)?
-
Function Call稳定性
如何提升Function Call的稳定性?CoT + Plan-Execute策略,以及参数检查和错误修复机制。
-
记忆机制
Agent如何处理长短期记忆?Agent的记忆模块(Memory)如何实现(短时记忆vs长时记忆,滑动窗口、摘要总结、向量数据库存储)?
-
任务规划(Planning)
面对复杂Query,Agent如何进行子任务拆解(如DAG图)?Agent的规划(Planning)有哪些形式(任务分解Decomposition、自我反省Self-reflection)?
-
Multi-Agent
什么是Multi-Agent(多智能体)?Agent之间如何协作和共享上下文?子Agent是否需要记忆?
-
Agent框架
熟悉哪些Agent框架(LangChain, LangGraph, AutoGen)?它们的区别是什么?LangChain的核心概念(Chain, Agent, Tool, Memory)?
-
MCP协议
什么是MCP(Model Context Protocol)?一种标准化的模型上下文协议,用于连接AI模型与数据源/工具。
-
Agent数据合成
如何合成数据来训练Agent?使用AgentFounder等范式进行数据重组和动作合成。
七、推理与优化(15题)
-
推理阶段
推理过程分为哪两个阶段?Prefilling(预填充/输入理解)和Decoding(解码/递归生成)阶段。
-
KV Cache
详细解释KV Cache的原理,为什么Transformer需要KV Cache?为什么只缓存K和V而不缓存Q?它会增加显存占用吗?为什么KV Cache会成为推理瓶颈?
-
Flash Attention
Flash Attention V1/V2的核心思想是什么?它是如何利用SRAM进行加速的?
-
PagedAttention
介绍vLLM中的PagedAttention机制,它解决了什么问题?vLLM加速推理的核心原理是什么?
-
解码策略
介绍Greedy Search、Beam Search、Top-k Sampling、Top-p (Nucleus) Sampling的区别。Beam Search有什么缺点?温度参数(Temperature)代表什么?同一个Prompt重复输入LLM,为什么输出不一样?
-
量化
介绍PTQ(Post-Training Quantization)和QAT(Quantization-Aware Training)。常用的量化方法(GPTQ, AWQ)及其对模型效果的影响。常用的量化精度有哪些(INT8, INT4, FP8)?
-
推理显存计算
推理时,一个7B模型在使用KV Cache和FP16精度下,大概需要多少显存?如何估算模型推理所需的RAM/显存?
-
推测解码
什么是推测解码(Speculative Decoding)/投机采样?它是如何加速推理的?如何利用小模型加速大模型推理?
-
Continuous Batching
什么是Continuous Batching(连续批处理)?它如何提升推理吞吐量?
-
推理性能指标
推理性能的评价指标有哪些?主要包括Throughput(吞吐量)和Latency(延迟,如TTFT首字延迟)。如何权衡吞吐量和延迟?
-
长上下文处理
如何解决长Context导致的显存OOM和推理变慢问题(如Prefix Cache, 滑动窗口)?什么是长度外推(Length Extrapolation)?为什么模型短训长推?
-
Left Padding
为什么大模型推理时通常使用Left Padding而不是Right Padding?
-
停止条件
大模型推理时如何判断何时停止生成(EOS token)?
-
推理框架
列举几个常用的LLM推理框架(如vLLM, TensorRT-LLM, TGI)。
-
结构化输出
如何强制大模型输出JSON格式(Prompt约束 vs Logit Bias/Grammar约束)?
八、多模态(10题)
-
CLIP
CLIP模型的作用是什么?CLIP模型是如何训练的?对比学习在其中起了什么作用?连接文本和图像的语义空间。
-
BLIP/BLIP-2
介绍BLIP和BLIP-2的架构,Q-Former的作用是什么?InstructBLIP的模型结构和训练过程?
-
LLaVA
LLaVA模型的架构是怎样的?它是如何利用CLIP和LLM进行多模态理解的?
-
多模态融合
多模态融合的方式有哪些?Q-Former (BLIP2), Projection Layer, Adapter等。跨模态对齐(如图像到文本)有哪些常见的方法?
-
ViT
Vision Transformer是如何将图像转化为Token的(Patch Embedding)?
-
Qwen-VL架构
Qwen-VL的网络架构包含哪些组件(视觉编码器、Position-aware Vision-Language Adapter、LLM基座)?Qwen-VL是如何连接视觉编码器和LLM的?Qwen2-VL的Naive动态分辨率是什么?
-
分辨率处理
多模态模型如何处理不同分辨率的图片(Naive vs Dynamic resolution)?
-
视觉定位
VLM是如何实现Visual Grounding(输出Bounding Box)的?Qwen-VL如何处理边界框(Bounding Box)输入输出?
-
多模态能力保持
多模态大模型如何避免遗忘LLM的原有能力?训练阶段的策略,如冻结LLM参数或混合数据训练。
-
Diffusion Model
简述Diffusion Model(扩散模型)的原理,DDPM和DDIM的区别?Stable Diffusion的原理?
九、前沿模型(10题)
-
DeepSeek系列
DeepSeek-R1是什么类型的模型(推理大模型,强调思维链CoT能力)?DeepSeek-R1-Zero与DeepSeek-R1的区别?DeepSeek-V3/R1的主要创新点是什么(MLA, DeepSeekMoE, GRPO)?
-
MoE
MOE(Mixture-of-Experts)模型的思路是什么?混合专家模型(MoE)的原理是什么?它如何实现推理时的低计算量?如何解决负载不均衡和专家坍缩问题?MOE通过稀疏激活专家模型来提升效率。
-
Qwen系列
Qwen模型在结构上有什么特点?为什么设计成72B参数?Qwen3的Think模式如何开闭?
-
Llama系列
Llama 1/2/3在架构和训练数据上做了哪些改进?
-
Test-Time Scaling
什么是测试时扩展(Test-Time Scaling)?它与训练时扩展有什么区别?通过增加推理时的计算量(如生成更长的CoT)来提升性能。
-
DeepResearch
DeepResearch是什么?基于合成数据的增量预训练和后训练的Agent架构,以及它与RAG的对比。
-
Kimi k2
什么是Kimi k2架构?与DeepSeek V3的架构对比。
-
AI Infra vs ML Infra
AI Infra与ML Infra有什么区别?在推理加速和基础设施建设中,这两者的侧重点不同。
-
Agentic Workflow
为什么现在流行“Agentic Workflow”(工作流)而不仅仅是Prompting?
-
长文本生成
如何让大模型输出10k+字长文(LongWriter等技术方案)?如何减少大模型Token的消耗?
十、工程实践(10题)
-
模型部署
如何部署Qwen2本地模型?推理框架选择(如vLLM, Ollama)。
-
HuggingFace下载
HuggingFace下载不了模型怎么办?国内镜像站、代理设置等解决方案。
-
Bitsandbytes
Bitsandbytes是什么?用于大模型量化(Int8/NF4)以节省显存的库。
-
Unsloth微调
如何使用Unsloth微调Qwen2-VL?解决微调时的内存占用大问题。
-
DeepSpeed调参
DeepSpeed如何调参?分布式训练中的参数优化。
-
Firefly项目
Firefly项目介绍?支持多种主流大模型微调的开源工具。
-
监控
训练过程中如何使用WandB进行监控?Loss曲线不下降怎么办?
-
Prompt工程
什么是System Prompt?Prompt优化的常见技巧有哪些?
-
API调用
写一段代码调用OpenAI/DeepSeek API并处理流式输出。
-
降本增效
在项目中采用了哪些手段降低API成本或部署成本?
十一、评估与安全(5题)
-
幻觉问题
什么是大模型幻觉(Hallucination)?模型生成看似合理但与事实不符的内容。幻觉产生的原因有哪些(数据源问题、训练方式、解码策略等)?如何缓解LLM幻觉(RAG、自我验证SelfCheck、事实核心采样等)?
-
多模态幻觉
多模态幻觉(Hallucination)有哪些类型?对象不存在、关系错误、属性错误等,以及如何评估。
-
幻觉度量
如何度量幻觉?使用评估数据集或基于模型的评估方法。
-
自动评估
大模型自动评估理论与实战?基准失效、数据泄露问题,以及如何构建评估集。如何评估RAG或Agent系统的效果(构建测试集、使用LLM-as-a-Judge)?
-
Bad Case分析
遇到模型回答不准确的Bad Case,你的排查思路是什么?在项目中,是如何检测和缓解模型幻觉的(如三元组验证、引用溯源)?
十二、NLP基础与数据工程(10题)
-
HMM vs CRF
HMM与CRF的区别?生成模型与判别模型的区别,序列标注的基础。
-
TextCNN
TextCNN进行文本分类的过程?卷积层、池化层在文本处理中的应用。
-
类别不平衡
如何处理文本分类中的类别不平衡?重采样、Loss加权等Trick。
-
FastText
FastText的优点是什么?训练速度快,N-gram特征。
-
ROUGE vs BLEU
ROUGE与BLEU指标的区别?ROUGE常用于摘要评估(召回率导向),BLEU常用于翻译评估(精确率导向)。
-
NER
什么是命名实体识别(NER)?从文本中提取人名、地名、机构名等实体。
-
倒排索引
什么是倒排索引?ElasticSearch的核心机制。
-
数据清洗
如何清洗Pre-train数据?去重(MinHash)、质量过滤。在做RAG或微调时,你是如何清洗和处理数据的(尤其是PDF解析中的噪声)?
-
NL2SQL
在Text-to-SQL场景中,如何提升生成的SQL语句的准确率(Schema Link, 语法检查)?
-
知识图谱
如何构建金融知识图谱问答系统?结合NLP和知识图谱的实战流程。知识图谱(KG)如何增强LLM的能力(除了GraphRAG)?
以上就是关于大模型技术核心的150个问题集合。无论是用于系统性的学习自查,还是作为面试准备的知识提纲,这份列表都能帮助你查漏补缺,建立起更全面的认知框架。在云栈社区的技术文档板块,你还可以找到更多关于AIGC技术的深度解析和实践指南,与广大开发者一起探索前沿。
|