云栈社区»论坛 › 面试求职「 Job 」 › 大模型面试题10道：LLM基础概念与Transformer架构，GPT与BERT对 ...

发回帖发新帖

2809 积分	0 好友	363 主题

发消息

[面试题] 大模型面试题10道：LLM基础概念与Transformer架构，GPT与BERT对比

发表于 2025-12-31 06:40:34 | 查看: 93| 回复: 0

本文整理了10道关于大语言模型（LLM）的基础概念类高频面试题，涵盖从定义、架构到训练方法的各个核心知识点，适合准备相关岗位面试或希望系统入门的同学参考。

最近，大语言模型相关岗位热度持续攀升，无论是算法工程师、NLP工程师还是AI应用开发者，都需要扎实掌握其基础知识。下面这10个问题，几乎在每次技术面试中都会被触及。

01｜什么是大语言模型（LLM）？它的核心特点是什么？

大语言模型（Large Language Model, LLM） 是一种基于深度学习的自然语言处理模型。它通过在海量文本数据上进行预训练，学习语言的统计规律和语义表示，从而具备理解和生成人类语言的能力。

核心特点

参数量巨大：通常包含数十亿到数千亿个参数，例如GPT-3有1750亿参数，这是模型“智能”的基础。
大规模预训练：在数TB级别的文本数据上学习语言的通用知识、语法和语义，无需针对特定任务训练即能展现能力。
涌现能力（Emergent Abilities）：当模型规模超过某个临界点后，会展现出小模型不具备的能力，如思维链推理、代码生成等，这些能力在训练时并未被明确设计。
上下文理解能力强：能够理解长文本的上下文关系，支持数千到数万token的上下文长度，并基于此生成连贯文本。
通用性强：一个模型可通过不同的提示（Prompt）处理多种任务，无需为每个任务单独训练模型。
自回归生成：以逐token的方式生成文本，每个新token的生成都依赖于之前已生成的所有上下文。

应用场景
包括文本生成（文章、代码、对话）、问答系统、文本摘要、翻译、代码生成及知识问答等。

02｜大模型与小模型的主要区别是什么？

理解模型规模的差异，有助于在实际项目中做出合适的技术选型。

维度	大模型	小模型
参数量	数十亿到数千亿（如 GPT-3: 175B）	数百万到数亿（如 BERT-base: 110M）
训练数据	数TB级别	通常GB级别
计算资源	需要大量GPU（数百到数千张）	单卡或少量GPU即可
训练时间	数周到数月	数小时到数天
推理成本	高（需要高性能GPU）	低（可在CPU上运行）
能力范围	通用能力强，可处理多种任务	通常针对特定任务优化
涌现能力	有（思维链、代码生成等）	通常没有
上下文长度	长（数千到数万token）	短（通常512-2048 token）
部署难度	高（需要大量资源）	低（易于部署）
微调方式	通常使用PEFT（如LoRA）	可以全量微调

关键区别与选择建议

规模与能力：大模型参数量通常是小型模型的数百倍，训练数据量也存在数量级差异，这带来了小模型所不具备的涌现能力和更强的通用性。
资源需求：大模型的训练和推理需要巨额的计算资源，成本高昂；而小模型资源需求低，更适合边缘设备和实时应用。
如何选择：若资源充足且需要通用AI能力，选择大模型；若资源受限或专注于特定领域任务，小模型是更经济高效的选择；二者也可结合使用，例如用大模型生成内容，再部署优化后的小模型提供服务。

03｜大模型的发展历程是怎样的？经历了哪些重要阶段？

了解技术演进路径，能帮助我们把握未来趋势。

Transformer 的提出（2017）：Google发表《Attention is All You Need》论文，提出Transformer架构，彻底摆脱了RNN/CNN的限制，成为所有后续大模型的基石。
预训练语言模型的兴起（2018-2019）：
- BERT（2018）：Google发布，采用双向编码器架构，在11个NLP任务上取得突破。
- GPT-1/2（2018-2019）：OpenAI发布，采用单向解码器架构，GPT-2（1.5B参数）初步展现了模型“变大”带来的优势。
大模型规模爆发（2020-2021）：
- GPT-3（2020）：参数量达175B，展示了强大的少样本学习能力，验证了“缩放定律”（Scaling Law）。
- PaLM（2021）：Google发布，参数量达540B，在多个任务上取得新突破。
开源大模型时代（2022-2023）：
- LLaMA（2023）：Meta发布开源模型（7B, 13B, 65B等），证明了较小规模的模型通过高质量数据训练也能具备强大能力。
- ChatGPT & GPT-4：基于GPT-3.5的ChatGPT通过RLHF优化引爆AI热潮；GPT-4作为多模态模型，能力接近人类水平。
多模态和专业化（2023至今）：模型向支持图像、音频等多模态输入发展（如GPT-4V, Claude 3），并出现专注于代码、科学等垂直领域的专业化模型。

重要趋势：模型规模持续增大、涌现能力出现、从闭源走向开源、注重训练推理效率优化、从纯文本迈向多模态融合。

04｜什么是 Transformer？它为什么成为大模型的基础架构？

Transformer是一种完全基于注意力机制的神经网络架构，它摒弃了循环和卷积结构，直接通过注意力来建模序列数据间的依赖关系。

核心特点

完全基于注意力机制：无需RNN或CNN，直接建立序列关联。
并行计算友好：所有序列位置可同时计算，极大提升了训练速度，能充分利用GPU并行能力。
长距离依赖建模：注意力机制可以直接捕捉序列中任意距离元素间的关系，理论上不受长度限制。

为何成为大模型基石？

可扩展性强：易于扩展到数十亿、数百亿参数，支持堆叠上百层网络，适配大规模并行训练。
训练效率高：并行计算特性使其训练速度远超RNN，能有效处理超长序列。
通用性强：单一的Transformer架构通过预训练即可学习通用知识，再通过微调适配各种下游任务。
涌现能力强：当其规模足够大时，能够展现出少样本学习、复杂推理等类似人类的“智能”行为。
已被广泛验证：GPT、BERT、T5等一系列成功模型均基于Transformer，其在多项任务上的突破性表现证明了该架构的有效性。

局限性与发展：其注意力计算复杂度为O(n²)，序列长度受限。为此，业界发展出了Flash Attention（优化显存）、Sparse Attention（降低复杂度）及Longformer等支持更长序列的改进方案。

05｜Transformer 的核心组件有哪些？各自的作用是什么？

深入理解这些组件是掌握Transformer工作原理的关键。

自注意力机制（Self-Attention）：让序列中的每个位置都能关注到所有其他位置的信息。通过计算Query、Key、Value矩阵，并依据注意力分数加权汇总Value，从而直接建模任意距离的依赖关系。公式为：Attention(Q, K, V) = softmax(QK^T / √d_k) V。
多头注意力（Multi-Head Attention）：并行执行多个独立的注意力机制（头），每个头从不同子空间学习信息，最后拼接输出。这有助于模型同时捕获语法、语义、长距离等多种类型的依赖关系。
位置编码（Position Encoding）：由于Transformer本身不包含循环或卷积结构，无法感知序列顺序，因此需要额外注入位置信息。常用方法有固定的正弦编码或可学习的位置嵌入向量，将其与词嵌入相加后输入模型。
前馈网络（Feed-Forward Network, FFN）：对每个位置的表示进行非线性变换，通常由两层全连接层和激活函数（如GELU）构成，公式为：FFN(x) = GELU(xW1 + b1)W2 + b2，用于增强模型的表达能力。
层归一化（Layer Normalization）：对每一层的输入进行归一化，以稳定训练过程、加速收敛。它不依赖于batch size，特别适合处理变长序列。
残差连接（Residual Connection）：将子层（如注意力层或FFN层）的输入与输出相加，公式为 output = LayerNorm(x + Sublayer(x))。这能有效缓解深层网络中的梯度消失问题，使得训练上百层的网络成为可能。
编码器-解码器架构（Encoder-Decoder）：
- 编码器：使用双向自注意力，旨在全面理解输入序列的完整信息（如BERT）。
- 解码器：使用因果自注意力（只能看到当前及之前的token），并可能通过交叉注意力关注编码器的输出，用于自回归生成（如GPT）。

完整流程：

输入 → 词嵌入 + 位置编码 → N个编码器/解码器层 → 输出
每个层包含：自注意力（+残差+层归一化）→ 前馈网络（+残差+层归一化）

06｜什么是自回归模型？什么是自编码模型？它们的区别是什么？

这是理解不同模型架构设计哲学的核心问题。

自回归模型（Autoregressive Model）

定义：根据之前已生成的token来预测下一个token，生成过程是严格从左到右、顺序进行的。
特点：生成时只能看到前面的token（因果掩码），天然适合文本生成任务。
代表模型：GPT系列、LLaMA、PaLM、Claude。
工作原理：P(xt+1 | x1, x2, ..., xt)，生成序列：x1 → x2 → x3 → ... → xn。
优点：生成文本流畅连贯；缺点：只能单向理解上下文，生成速度慢（无法并行）。

自编码模型（Autoencoder Model）

定义：通过重构被部分破坏的输入来学习表示，训练时可以同时看到整个序列的所有token。
特点：采用双向注意力，能同时利用前后文信息，语义理解能力通常更强，适合文本理解类任务。
代表模型：BERT、RoBERTa、ALBERT。
工作原理：例如，输入“我[MASK]学习”，模型根据双向上下文预测被掩码的token为“在”。
优点：双向理解，语义建模能力强；缺点：不适合直接进行开放式的文本生成。

主要区别对比

维度	自回归模型	自编码模型
理解方向	单向（从左到右）	双向（前后都能看）
预训练任务	语言建模（LM）	掩码语言建模（MLM）
生成能力	强（天然支持）	弱（需要额外设计）
理解能力	中等	强（双向）
代表模型	GPT、LLaMA	BERT、RoBERTa
适用任务	生成任务	理解任务

混合模型：如T5、BART采用编码器-解码器架构，编码器双向理解输入，解码器自回归生成输出，结合了二者优势。

07｜GPT 系列模型和 BERT 系列模型的主要区别是什么？

这是面试中的经典问题，需要清晰阐述两者的架构、预训练目标和适用场景。

GPT 系列（Generative Pre-trained Transformer）

架构：Decoder-only（仅解码器）。
预训练任务：标准语言建模（Language Modeling），预测下一个token。
理解方式：单向（自左向右），使用因果掩码。
核心能力：文本生成能力极强，是生成式AI的基石。
代表：GPT-1/2/3/4、ChatGPT。

BERT 系列（Bidirectional Encoder Representations from Transformers）

架构：Encoder-only（仅编码器）。
预训练任务：掩码语言建模（Masked Language Modeling），预测句子中被随机遮蔽的token。
理解方式：双向，能同时利用单词的左右上下文。
核心能力：文本理解能力突出，擅长分类、抽取等任务。
代表：BERT、RoBERTa、ALBERT。

主要区别对比

维度	GPT 系列	BERT 系列
架构	Decoder-only	Encoder-only
注意力机制	因果掩码（Causal Mask）	双向注意力
预训练任务	语言建模（LM）	掩码语言建模（MLM）
理解方向	单向（从左到右）	双向（前后都能看）
生成能力	✅ 强（天然支持）	❌ 弱（需要额外设计）
理解能力	中等	✅ 强（双向理解）
典型应用	文本生成、对话、代码生成	文本分类、NER、问答、情感分析

选择建议

需要强大的生成能力（如创作、对话、代码补全）：选择GPT系列。
需要深入的理解能力（如分类、情感分析、实体识别）：选择BERT系列。
追求通用性和少样本学习能力：GPT系列通过提示工程能胜任更广泛的任务。
资源受限，追求高效部署：通常BERT系列模型更小、推理更快。

08｜什么是预训练（Pre-training）？什么是微调（Fine-tuning）？

这是大模型“预训练-微调”范式的核心，也是实际工程应用的关键步骤。

预训练（Pre-training）

定义：在超大规模无标注文本数据上，通过自监督学习任务（如语言建模或掩码语言建模）训练模型，使其学习语言的通用知识、语法、语义和常识。
特点：
- 数据：TB级别，来源广泛（如网页、书籍、代码）。
- 目标：获得通用的语言表示和能力。
- 成本：极高，通常需要数百张GPU训练数周甚至数月，一般由大型机构完成。
作用：为模型打下坚实的语言基础，使其具备初步的理解和生成能力，并为下游任务提供优质的参数初始化。

微调（Fine-tuning）

定义：在预训练模型的基础上，使用特定任务的、规模较小的标注数据继续进行训练，使模型适应并优化在该任务上的表现。
特点：
- 数据：任务相关的标注数据，通常GB级别或更少。
- 目标：使模型适应特定任务或领域。
- 成本：相对较低，可在单卡或少量GPU上完成，耗时数小时到数天。
微调方式：
1. 全量微调：更新模型所有参数，效果通常最好，但显存和计算需求高。
2. 参数高效微调（PEFT）：如LoRA、Adapter等，只训练少量新增参数，能以较低成本达到接近全量微调的效果，已成为主流。
作用：实现任务适配、性能提升以及与人类偏好或特定格式的行为对齐。

两者关系与流程

预训练（获得通用能力） → 微调（适应具体任务） → 部署应用

类比：预训练好比人类通过大量阅读学习通用语言和知识；微调则类似于在此基础上学习某项专业技能（如法律、医疗）。

09｜大模型的参数量通常是多少？参数量对模型性能有什么影响？

理解模型规模是技术选型和资源评估的基础。

参数量级划分

小型模型（< 1B）：如BERT-base (110M)，资源需求低，易于部署。
中型模型（1B - 10B）：如LLaMA-7B、ChatGLM-6B，在性能与资源间取得平衡。
大型模型（10B - 100B）：如LLaMA-65B，性能强大，需要大量计算资源。
超大型模型（> 100B）：如GPT-3 (175B)、GPT-4（估计>1T），具备顶尖性能，需要极大规模集群。

参数量对性能的影响

缩放定律（Scaling Law）：模型性能随着参数量、数据量和计算量的增加而平滑提升。参数量增加10倍，性能可能提升2-3倍，但收益会逐渐递减。
能力跃迁：参数量达到一定规模后，模型会表现出涌现能力，如思维链推理、代码生成、强大的少样本学习能力，这些在小模型中难以出现。
任务需求差异：简单分类任务可能只需百万级参数；复杂推理或通用AI任务则需要百亿甚至千亿级参数来存储和关联海量知识。
资源成本飙升：参数量直接决定了训练和推理所需的GPU数量、显存大小及耗时。一个175B参数的模型训练可能需要数百张A100，推理也需多张高性能显卡。

选择的权衡

选大模型：当需要最强性能、通用能力或涌现能力，且计算和资金预算充足时。
选小模型：当资源受限、专注于特定优化任务、要求快速推理或需要在边缘设备部署时。

优化方法：为了缓解大模型的高成本问题，业界常采用模型量化（INT8/INT4）、剪枝、知识蒸馏等压缩技术，以及LoRA等参数高效微调方法。

10｜什么是上下文长度（Context Length）？它对模型有什么影响？

上下文长度决定了模型一次性能处理多少信息，是评估其应用边界的关键指标。

定义：上下文长度指模型单次处理所能接受的最大token数量。Token是模型处理文本的基本单位，例如，1000个token大约相当于750个英文单词或500-1000个中文字符。

不同模型的上下文长度示例	模型	上下文长度
BERT	512 tokens	经典编码器模型的固定长度
GPT-4	8K / 32K tokens	提供标准和扩展版本
Claude 3	100K tokens	支持超长上下文处理
LLaMA-2	4K tokens	主流开源模型的典型长度

上下文长度的影响

信息理解完整性：
- 长上下文优势：能完整理解长文档、维持多轮对话的历史记忆、处理需要跨远距离引用信息的复杂任务。
- 短上下文限制：信息会被截断，导致理解不完整，在多轮对话中容易“遗忘”。
决定应用场景：
- 需长上下文：长文档问答、代码库分析、法律/医疗文本处理、长对话聊天机器人。
- 短上下文足够：句子分类、短文本情感分析、简单单轮问答。
极大影响计算资源：
- 注意力计算复杂度为O(n²)，序列长度（n）增加会平方级增加显存占用和计算量。
- 处理32K token的请求远比处理4K token消耗资源，直接影响推理速度和成本。
推动技术优化：为了支持更长上下文，发展了如Flash Attention（优化显存）、RoPE/ALiBi（改进位置编码外推能力）等关键技术。对于超长文档，也常采用检索增强生成（RAG）技术，将长文本存储在外部知识库中，按需检索，而非完全依赖模型自身的上下文窗口。

如何选择：应根据实际任务需求（文档长度、对话轮次）、可用资源（GPU显存）以及成本预算（API按Token计费）来综合决定。对于超长文本，RAG通常是比单纯追求超长上下文窗口更实用的解决方案。

总结与学习建议

本文梳理的10个问题涵盖了大语言模型的核心基础概念，包括：LLM定义与特点、规模区分、发展历程、Transformer架构、自回归与自编码区别、GPT与BERT对比、预训练与微调、参数量影响以及上下文长度。

为了更有效地掌握这些知识并将其应用于面试求职或项目实践，建议：

理解而非背诵：深入理解每个概念背后的设计原理和权衡，而非机械记忆定义。
联系实际场景：思考每个技术点（如模型架构、微调方法）在真实项目中的应用方式和选型理由。
保持技术敏感：大模型领域迭代迅速，需持续关注最新的开源模型、训练方法和优化技术。
积极动手实践：理论结合实践至关重要。可以在云栈社区等平台寻找教程和资源，尝试使用开源模型进行推理、微调等实验，以加深理解。

上一篇：从NNLM到注意力机制：详解语言模型基础(第5讲)
下一篇：国产算力盈利路径：从昇腾910B到政务金融的炼金术

大模型, Transformer, GPT, BERT, LLaMA