本文整理了10道关于大语言模型(LLM)的基础概念类高频面试题,涵盖从定义、架构到训练方法的各个核心知识点,适合准备相关岗位面试或希望系统入门的同学参考。
最近,大语言模型相关岗位热度持续攀升,无论是算法工程师、NLP工程师还是AI应用开发者,都需要扎实掌握其基础知识。下面这10个问题,几乎在每次技术面试中都会被触及。
01|什么是大语言模型(LLM)?它的核心特点是什么?
大语言模型(Large Language Model, LLM) 是一种基于深度学习的自然语言处理模型。它通过在海量文本数据上进行预训练,学习语言的统计规律和语义表示,从而具备理解和生成人类语言的能力。
核心特点
- 参数量巨大:通常包含数十亿到数千亿个参数,例如GPT-3有1750亿参数,这是模型“智能”的基础。
- 大规模预训练:在数TB级别的文本数据上学习语言的通用知识、语法和语义,无需针对特定任务训练即能展现能力。
- 涌现能力(Emergent Abilities):当模型规模超过某个临界点后,会展现出小模型不具备的能力,如思维链推理、代码生成等,这些能力在训练时并未被明确设计。
- 上下文理解能力强:能够理解长文本的上下文关系,支持数千到数万token的上下文长度,并基于此生成连贯文本。
- 通用性强:一个模型可通过不同的提示(Prompt)处理多种任务,无需为每个任务单独训练模型。
- 自回归生成:以逐token的方式生成文本,每个新token的生成都依赖于之前已生成的所有上下文。
应用场景
包括文本生成(文章、代码、对话)、问答系统、文本摘要、翻译、代码生成及知识问答等。
02|大模型与小模型的主要区别是什么?
理解模型规模的差异,有助于在实际项目中做出合适的技术选型。
| 维度 |
大模型 |
小模型 |
| 参数量 |
数十亿到数千亿(如 GPT-3: 175B) |
数百万到数亿(如 BERT-base: 110M) |
| 训练数据 |
数TB级别 |
通常GB级别 |
| 计算资源 |
需要大量GPU(数百到数千张) |
单卡或少量GPU即可 |
| 训练时间 |
数周到数月 |
数小时到数天 |
| 推理成本 |
高(需要高性能GPU) |
低(可在CPU上运行) |
| 能力范围 |
通用能力强,可处理多种任务 |
通常针对特定任务优化 |
| 涌现能力 |
有(思维链、代码生成等) |
通常没有 |
| 上下文长度 |
长(数千到数万token) |
短(通常512-2048 token) |
| 部署难度 |
高(需要大量资源) |
低(易于部署) |
| 微调方式 |
通常使用PEFT(如LoRA) |
可以全量微调 |
关键区别与选择建议
- 规模与能力:大模型参数量通常是小型模型的数百倍,训练数据量也存在数量级差异,这带来了小模型所不具备的涌现能力和更强的通用性。
- 资源需求:大模型的训练和推理需要巨额的计算资源,成本高昂;而小模型资源需求低,更适合边缘设备和实时应用。
- 如何选择:若资源充足且需要通用AI能力,选择大模型;若资源受限或专注于特定领域任务,小模型是更经济高效的选择;二者也可结合使用,例如用大模型生成内容,再部署优化后的小模型提供服务。
03|大模型的发展历程是怎样的?经历了哪些重要阶段?
了解技术演进路径,能帮助我们把握未来趋势。
- Transformer 的提出(2017):Google发表《Attention is All You Need》论文,提出Transformer架构,彻底摆脱了RNN/CNN的限制,成为所有后续大模型的基石。
- 预训练语言模型的兴起(2018-2019):
- BERT(2018):Google发布,采用双向编码器架构,在11个NLP任务上取得突破。
- GPT-1/2(2018-2019):OpenAI发布,采用单向解码器架构,GPT-2(1.5B参数)初步展现了模型“变大”带来的优势。
- 大模型规模爆发(2020-2021):
- GPT-3(2020):参数量达175B,展示了强大的少样本学习能力,验证了“缩放定律”(Scaling Law)。
- PaLM(2021):Google发布,参数量达540B,在多个任务上取得新突破。
- 开源大模型时代(2022-2023):
- LLaMA(2023):Meta发布开源模型(7B, 13B, 65B等),证明了较小规模的模型通过高质量数据训练也能具备强大能力。
- ChatGPT & GPT-4:基于GPT-3.5的ChatGPT通过RLHF优化引爆AI热潮;GPT-4作为多模态模型,能力接近人类水平。
- 多模态和专业化(2023至今):模型向支持图像、音频等多模态输入发展(如GPT-4V, Claude 3),并出现专注于代码、科学等垂直领域的专业化模型。
重要趋势:模型规模持续增大、涌现能力出现、从闭源走向开源、注重训练推理效率优化、从纯文本迈向多模态融合。
Transformer是一种完全基于注意力机制的神经网络架构,它摒弃了循环和卷积结构,直接通过注意力来建模序列数据间的依赖关系。
核心特点
- 完全基于注意力机制:无需RNN或CNN,直接建立序列关联。
- 并行计算友好:所有序列位置可同时计算,极大提升了训练速度,能充分利用GPU并行能力。
- 长距离依赖建模:注意力机制可以直接捕捉序列中任意距离元素间的关系,理论上不受长度限制。
为何成为大模型基石?
- 可扩展性强:易于扩展到数十亿、数百亿参数,支持堆叠上百层网络,适配大规模并行训练。
- 训练效率高:并行计算特性使其训练速度远超RNN,能有效处理超长序列。
- 通用性强:单一的Transformer架构通过预训练即可学习通用知识,再通过微调适配各种下游任务。
- 涌现能力强:当其规模足够大时,能够展现出少样本学习、复杂推理等类似人类的“智能”行为。
- 已被广泛验证:GPT、BERT、T5等一系列成功模型均基于Transformer,其在多项任务上的突破性表现证明了该架构的有效性。
局限性与发展:其注意力计算复杂度为O(n²),序列长度受限。为此,业界发展出了Flash Attention(优化显存)、Sparse Attention(降低复杂度)及Longformer等支持更长序列的改进方案。
深入理解这些组件是掌握Transformer工作原理的关键。
- 自注意力机制(Self-Attention):让序列中的每个位置都能关注到所有其他位置的信息。通过计算Query、Key、Value矩阵,并依据注意力分数加权汇总Value,从而直接建模任意距离的依赖关系。公式为:
Attention(Q, K, V) = softmax(QK^T / √d_k) V。
- 多头注意力(Multi-Head Attention):并行执行多个独立的注意力机制(头),每个头从不同子空间学习信息,最后拼接输出。这有助于模型同时捕获语法、语义、长距离等多种类型的依赖关系。
- 位置编码(Position Encoding):由于Transformer本身不包含循环或卷积结构,无法感知序列顺序,因此需要额外注入位置信息。常用方法有固定的正弦编码或可学习的位置嵌入向量,将其与词嵌入相加后输入模型。
- 前馈网络(Feed-Forward Network, FFN):对每个位置的表示进行非线性变换,通常由两层全连接层和激活函数(如GELU)构成,公式为:
FFN(x) = GELU(xW1 + b1)W2 + b2,用于增强模型的表达能力。
- 层归一化(Layer Normalization):对每一层的输入进行归一化,以稳定训练过程、加速收敛。它不依赖于batch size,特别适合处理变长序列。
- 残差连接(Residual Connection):将子层(如注意力层或FFN层)的输入与输出相加,公式为
output = LayerNorm(x + Sublayer(x))。这能有效缓解深层网络中的梯度消失问题,使得训练上百层的网络成为可能。
- 编码器-解码器架构(Encoder-Decoder):
- 编码器:使用双向自注意力,旨在全面理解输入序列的完整信息(如BERT)。
- 解码器:使用因果自注意力(只能看到当前及之前的token),并可能通过交叉注意力关注编码器的输出,用于自回归生成(如GPT)。
完整流程:
输入 → 词嵌入 + 位置编码 → N个编码器/解码器层 → 输出
每个层包含:自注意力(+残差+层归一化)→ 前馈网络(+残差+层归一化)
06|什么是自回归模型?什么是自编码模型?它们的区别是什么?
这是理解不同模型架构设计哲学的核心问题。
自回归模型(Autoregressive Model)
- 定义:根据之前已生成的token来预测下一个token,生成过程是严格从左到右、顺序进行的。
- 特点:生成时只能看到前面的token(因果掩码),天然适合文本生成任务。
- 代表模型:GPT系列、LLaMA、PaLM、Claude。
- 工作原理:
P(xt+1 | x1, x2, ..., xt),生成序列:x1 → x2 → x3 → ... → xn。
- 优点:生成文本流畅连贯;缺点:只能单向理解上下文,生成速度慢(无法并行)。
自编码模型(Autoencoder Model)
- 定义:通过重构被部分破坏的输入来学习表示,训练时可以同时看到整个序列的所有token。
- 特点:采用双向注意力,能同时利用前后文信息,语义理解能力通常更强,适合文本理解类任务。
- 代表模型:BERT、RoBERTa、ALBERT。
- 工作原理:例如,输入“我[MASK]学习”,模型根据双向上下文预测被掩码的token为“在”。
- 优点:双向理解,语义建模能力强;缺点:不适合直接进行开放式的文本生成。
主要区别对比
| 维度 |
自回归模型 |
自编码模型 |
| 理解方向 |
单向(从左到右) |
双向(前后都能看) |
| 预训练任务 |
语言建模(LM) |
掩码语言建模(MLM) |
| 生成能力 |
强(天然支持) |
弱(需要额外设计) |
| 理解能力 |
中等 |
强(双向) |
| 代表模型 |
GPT、LLaMA |
BERT、RoBERTa |
| 适用任务 |
生成任务 |
理解任务 |
混合模型:如T5、BART采用编码器-解码器架构,编码器双向理解输入,解码器自回归生成输出,结合了二者优势。
07|GPT 系列模型和 BERT 系列模型的主要区别是什么?
这是面试中的经典问题,需要清晰阐述两者的架构、预训练目标和适用场景。
GPT 系列(Generative Pre-trained Transformer)
- 架构:Decoder-only(仅解码器)。
- 预训练任务:标准语言建模(Language Modeling),预测下一个token。
- 理解方式:单向(自左向右),使用因果掩码。
- 核心能力:文本生成能力极强,是生成式AI的基石。
- 代表:GPT-1/2/3/4、ChatGPT。
BERT 系列(Bidirectional Encoder Representations from Transformers)
- 架构:Encoder-only(仅编码器)。
- 预训练任务:掩码语言建模(Masked Language Modeling),预测句子中被随机遮蔽的token。
- 理解方式:双向,能同时利用单词的左右上下文。
- 核心能力:文本理解能力突出,擅长分类、抽取等任务。
- 代表:BERT、RoBERTa、ALBERT。
主要区别对比
| 维度 |
GPT 系列 |
BERT 系列 |
| 架构 |
Decoder-only |
Encoder-only |
| 注意力机制 |
因果掩码(Causal Mask) |
双向注意力 |
| 预训练任务 |
语言建模(LM) |
掩码语言建模(MLM) |
| 理解方向 |
单向(从左到右) |
双向(前后都能看) |
| 生成能力 |
✅ 强(天然支持) |
❌ 弱(需要额外设计) |
| 理解能力 |
中等 |
✅ 强(双向理解) |
| 典型应用 |
文本生成、对话、代码生成 |
文本分类、NER、问答、情感分析 |
选择建议
- 需要强大的生成能力(如创作、对话、代码补全):选择GPT系列。
- 需要深入的理解能力(如分类、情感分析、实体识别):选择BERT系列。
- 追求通用性和少样本学习能力:GPT系列通过提示工程能胜任更广泛的任务。
- 资源受限,追求高效部署:通常BERT系列模型更小、推理更快。
08|什么是预训练(Pre-training)?什么是微调(Fine-tuning)?
这是大模型“预训练-微调”范式的核心,也是实际工程应用的关键步骤。
预训练(Pre-training)
- 定义:在超大规模无标注文本数据上,通过自监督学习任务(如语言建模或掩码语言建模)训练模型,使其学习语言的通用知识、语法、语义和常识。
- 特点:
- 数据:TB级别,来源广泛(如网页、书籍、代码)。
- 目标:获得通用的语言表示和能力。
- 成本:极高,通常需要数百张GPU训练数周甚至数月,一般由大型机构完成。
- 作用:为模型打下坚实的语言基础,使其具备初步的理解和生成能力,并为下游任务提供优质的参数初始化。
微调(Fine-tuning)
- 定义:在预训练模型的基础上,使用特定任务的、规模较小的标注数据继续进行训练,使模型适应并优化在该任务上的表现。
- 特点:
- 数据:任务相关的标注数据,通常GB级别或更少。
- 目标:使模型适应特定任务或领域。
- 成本:相对较低,可在单卡或少量GPU上完成,耗时数小时到数天。
- 微调方式:
- 全量微调:更新模型所有参数,效果通常最好,但显存和计算需求高。
- 参数高效微调(PEFT):如LoRA、Adapter等,只训练少量新增参数,能以较低成本达到接近全量微调的效果,已成为主流。
- 作用:实现任务适配、性能提升以及与人类偏好或特定格式的行为对齐。
两者关系与流程
预训练(获得通用能力) → 微调(适应具体任务) → 部署应用
类比:预训练好比人类通过大量阅读学习通用语言和知识;微调则类似于在此基础上学习某项专业技能(如法律、医疗)。
09|大模型的参数量通常是多少?参数量对模型性能有什么影响?
理解模型规模是技术选型和资源评估的基础。
参数量级划分
- 小型模型(< 1B):如BERT-base (110M),资源需求低,易于部署。
- 中型模型(1B - 10B):如LLaMA-7B、ChatGLM-6B,在性能与资源间取得平衡。
- 大型模型(10B - 100B):如LLaMA-65B,性能强大,需要大量计算资源。
- 超大型模型(> 100B):如GPT-3 (175B)、GPT-4(估计>1T),具备顶尖性能,需要极大规模集群。
参数量对性能的影响
- 缩放定律(Scaling Law):模型性能随着参数量、数据量和计算量的增加而平滑提升。参数量增加10倍,性能可能提升2-3倍,但收益会逐渐递减。
- 能力跃迁:参数量达到一定规模后,模型会表现出涌现能力,如思维链推理、代码生成、强大的少样本学习能力,这些在小模型中难以出现。
- 任务需求差异:简单分类任务可能只需百万级参数;复杂推理或通用AI任务则需要百亿甚至千亿级参数来存储和关联海量知识。
- 资源成本飙升:参数量直接决定了训练和推理所需的GPU数量、显存大小及耗时。一个175B参数的模型训练可能需要数百张A100,推理也需多张高性能显卡。
选择的权衡
- 选大模型:当需要最强性能、通用能力或涌现能力,且计算和资金预算充足时。
- 选小模型:当资源受限、专注于特定优化任务、要求快速推理或需要在边缘设备部署时。
优化方法:为了缓解大模型的高成本问题,业界常采用模型量化(INT8/INT4)、剪枝、知识蒸馏等压缩技术,以及LoRA等参数高效微调方法。
10|什么是上下文长度(Context Length)?它对模型有什么影响?
上下文长度决定了模型一次性能处理多少信息,是评估其应用边界的关键指标。
定义:上下文长度指模型单次处理所能接受的最大token数量。Token是模型处理文本的基本单位,例如,1000个token大约相当于750个英文单词或500-1000个中文字符。
| 不同模型的上下文长度示例 |
模型 |
上下文长度 |
说明 |
| BERT |
512 tokens |
经典编码器模型的固定长度 |
| GPT-4 |
8K / 32K tokens |
提供标准和扩展版本 |
| Claude 3 |
100K tokens |
支持超长上下文处理 |
| LLaMA-2 |
4K tokens |
主流开源模型的典型长度 |
上下文长度的影响
- 信息理解完整性:
- 长上下文优势:能完整理解长文档、维持多轮对话的历史记忆、处理需要跨远距离引用信息的复杂任务。
- 短上下文限制:信息会被截断,导致理解不完整,在多轮对话中容易“遗忘”。
- 决定应用场景:
- 需长上下文:长文档问答、代码库分析、法律/医疗文本处理、长对话聊天机器人。
- 短上下文足够:句子分类、短文本情感分析、简单单轮问答。
- 极大影响计算资源:
- 注意力计算复杂度为O(n²),序列长度(n)增加会平方级增加显存占用和计算量。
- 处理32K token的请求远比处理4K token消耗资源,直接影响推理速度和成本。
- 推动技术优化:为了支持更长上下文,发展了如Flash Attention(优化显存)、RoPE/ALiBi(改进位置编码外推能力)等关键技术。对于超长文档,也常采用检索增强生成(RAG)技术,将长文本存储在外部知识库中,按需检索,而非完全依赖模型自身的上下文窗口。
如何选择:应根据实际任务需求(文档长度、对话轮次)、可用资源(GPU显存)以及成本预算(API按Token计费)来综合决定。对于超长文本,RAG通常是比单纯追求超长上下文窗口更实用的解决方案。
总结与学习建议
本文梳理的10个问题涵盖了大语言模型的核心基础概念,包括:LLM定义与特点、规模区分、发展历程、Transformer架构、自回归与自编码区别、GPT与BERT对比、预训练与微调、参数量影响以及上下文长度。
为了更有效地掌握这些知识并将其应用于面试求职或项目实践,建议:
- 理解而非背诵:深入理解每个概念背后的设计原理和权衡,而非机械记忆定义。
- 联系实际场景:思考每个技术点(如模型架构、微调方法)在真实项目中的应用方式和选型理由。
- 保持技术敏感:大模型领域迭代迅速,需持续关注最新的开源模型、训练方法和优化技术。
- 积极动手实践:理论结合实践至关重要。可以在云栈社区等平台寻找教程和资源,尝试使用开源模型进行推理、微调等实验,以加深理解。