找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1048

积分

0

好友

134

主题
发表于 2025-12-31 06:40:34 | 查看: 20| 回复: 0

本文整理了10道关于大语言模型(LLM)的基础概念类高频面试题,涵盖从定义、架构到训练方法的各个核心知识点,适合准备相关岗位面试或希望系统入门的同学参考。

最近,大语言模型相关岗位热度持续攀升,无论是算法工程师、NLP工程师还是AI应用开发者,都需要扎实掌握其基础知识。下面这10个问题,几乎在每次技术面试中都会被触及。

01|什么是大语言模型(LLM)?它的核心特点是什么?

大语言模型(Large Language Model, LLM) 是一种基于深度学习的自然语言处理模型。它通过在海量文本数据上进行预训练,学习语言的统计规律和语义表示,从而具备理解和生成人类语言的能力。

核心特点

  1. 参数量巨大:通常包含数十亿到数千亿个参数,例如GPT-3有1750亿参数,这是模型“智能”的基础。
  2. 大规模预训练:在数TB级别的文本数据上学习语言的通用知识、语法和语义,无需针对特定任务训练即能展现能力。
  3. 涌现能力(Emergent Abilities):当模型规模超过某个临界点后,会展现出小模型不具备的能力,如思维链推理、代码生成等,这些能力在训练时并未被明确设计。
  4. 上下文理解能力强:能够理解长文本的上下文关系,支持数千到数万token的上下文长度,并基于此生成连贯文本。
  5. 通用性强:一个模型可通过不同的提示(Prompt)处理多种任务,无需为每个任务单独训练模型。
  6. 自回归生成:以逐token的方式生成文本,每个新token的生成都依赖于之前已生成的所有上下文。

应用场景
包括文本生成(文章、代码、对话)、问答系统、文本摘要、翻译、代码生成及知识问答等。

02|大模型与小模型的主要区别是什么?

理解模型规模的差异,有助于在实际项目中做出合适的技术选型。

维度 大模型 小模型
参数量 数十亿到数千亿(如 GPT-3: 175B) 数百万到数亿(如 BERT-base: 110M)
训练数据 数TB级别 通常GB级别
计算资源 需要大量GPU(数百到数千张) 单卡或少量GPU即可
训练时间 数周到数月 数小时到数天
推理成本 高(需要高性能GPU) 低(可在CPU上运行)
能力范围 通用能力强,可处理多种任务 通常针对特定任务优化
涌现能力 有(思维链、代码生成等) 通常没有
上下文长度 长(数千到数万token) 短(通常512-2048 token)
部署难度 高(需要大量资源) 低(易于部署)
微调方式 通常使用PEFT(如LoRA) 可以全量微调

关键区别与选择建议

  • 规模与能力:大模型参数量通常是小型模型的数百倍,训练数据量也存在数量级差异,这带来了小模型所不具备的涌现能力和更强的通用性。
  • 资源需求:大模型的训练和推理需要巨额的计算资源,成本高昂;而小模型资源需求低,更适合边缘设备和实时应用。
  • 如何选择:若资源充足且需要通用AI能力,选择大模型;若资源受限或专注于特定领域任务,小模型是更经济高效的选择;二者也可结合使用,例如用大模型生成内容,再部署优化后的小模型提供服务。

03|大模型的发展历程是怎样的?经历了哪些重要阶段?

了解技术演进路径,能帮助我们把握未来趋势。

  1. Transformer 的提出(2017):Google发表《Attention is All You Need》论文,提出Transformer架构,彻底摆脱了RNN/CNN的限制,成为所有后续大模型的基石。
  2. 预训练语言模型的兴起(2018-2019)
    • BERT(2018):Google发布,采用双向编码器架构,在11个NLP任务上取得突破。
    • GPT-1/2(2018-2019):OpenAI发布,采用单向解码器架构,GPT-2(1.5B参数)初步展现了模型“变大”带来的优势。
  3. 大模型规模爆发(2020-2021)
    • GPT-3(2020):参数量达175B,展示了强大的少样本学习能力,验证了“缩放定律”(Scaling Law)。
    • PaLM(2021):Google发布,参数量达540B,在多个任务上取得新突破。
  4. 开源大模型时代(2022-2023)
    • LLaMA(2023):Meta发布开源模型(7B, 13B, 65B等),证明了较小规模的模型通过高质量数据训练也能具备强大能力。
    • ChatGPT & GPT-4:基于GPT-3.5的ChatGPT通过RLHF优化引爆AI热潮;GPT-4作为多模态模型,能力接近人类水平。
  5. 多模态和专业化(2023至今):模型向支持图像、音频等多模态输入发展(如GPT-4V, Claude 3),并出现专注于代码、科学等垂直领域的专业化模型。

重要趋势:模型规模持续增大、涌现能力出现、从闭源走向开源、注重训练推理效率优化、从纯文本迈向多模态融合。

04|什么是 Transformer?它为什么成为大模型的基础架构?

Transformer是一种完全基于注意力机制的神经网络架构,它摒弃了循环和卷积结构,直接通过注意力来建模序列数据间的依赖关系。

核心特点

  • 完全基于注意力机制:无需RNN或CNN,直接建立序列关联。
  • 并行计算友好:所有序列位置可同时计算,极大提升了训练速度,能充分利用GPU并行能力。
  • 长距离依赖建模:注意力机制可以直接捕捉序列中任意距离元素间的关系,理论上不受长度限制。

为何成为大模型基石?

  1. 可扩展性强:易于扩展到数十亿、数百亿参数,支持堆叠上百层网络,适配大规模并行训练。
  2. 训练效率高:并行计算特性使其训练速度远超RNN,能有效处理超长序列。
  3. 通用性强:单一的Transformer架构通过预训练即可学习通用知识,再通过微调适配各种下游任务。
  4. 涌现能力强:当其规模足够大时,能够展现出少样本学习、复杂推理等类似人类的“智能”行为。
  5. 已被广泛验证:GPT、BERT、T5等一系列成功模型均基于Transformer,其在多项任务上的突破性表现证明了该架构的有效性。

局限性与发展:其注意力计算复杂度为O(n²),序列长度受限。为此,业界发展出了Flash Attention(优化显存)、Sparse Attention(降低复杂度)及Longformer等支持更长序列的改进方案。

05|Transformer 的核心组件有哪些?各自的作用是什么?

深入理解这些组件是掌握Transformer工作原理的关键。

  1. 自注意力机制(Self-Attention):让序列中的每个位置都能关注到所有其他位置的信息。通过计算Query、Key、Value矩阵,并依据注意力分数加权汇总Value,从而直接建模任意距离的依赖关系。公式为:Attention(Q, K, V) = softmax(QK^T / √d_k) V
  2. 多头注意力(Multi-Head Attention):并行执行多个独立的注意力机制(头),每个头从不同子空间学习信息,最后拼接输出。这有助于模型同时捕获语法、语义、长距离等多种类型的依赖关系。
  3. 位置编码(Position Encoding):由于Transformer本身不包含循环或卷积结构,无法感知序列顺序,因此需要额外注入位置信息。常用方法有固定的正弦编码或可学习的位置嵌入向量,将其与词嵌入相加后输入模型。
  4. 前馈网络(Feed-Forward Network, FFN):对每个位置的表示进行非线性变换,通常由两层全连接层和激活函数(如GELU)构成,公式为:FFN(x) = GELU(xW1 + b1)W2 + b2,用于增强模型的表达能力。
  5. 层归一化(Layer Normalization):对每一层的输入进行归一化,以稳定训练过程、加速收敛。它不依赖于batch size,特别适合处理变长序列。
  6. 残差连接(Residual Connection):将子层(如注意力层或FFN层)的输入与输出相加,公式为 output = LayerNorm(x + Sublayer(x))。这能有效缓解深层网络中的梯度消失问题,使得训练上百层的网络成为可能。
  7. 编码器-解码器架构(Encoder-Decoder)
    • 编码器:使用双向自注意力,旨在全面理解输入序列的完整信息(如BERT)。
    • 解码器:使用因果自注意力(只能看到当前及之前的token),并可能通过交叉注意力关注编码器的输出,用于自回归生成(如GPT)。

完整流程

输入 → 词嵌入 + 位置编码 → N个编码器/解码器层 → 输出
每个层包含:自注意力(+残差+层归一化)→ 前馈网络(+残差+层归一化)

06|什么是自回归模型?什么是自编码模型?它们的区别是什么?

这是理解不同模型架构设计哲学的核心问题。

自回归模型(Autoregressive Model)

  • 定义:根据之前已生成的token来预测下一个token,生成过程是严格从左到右、顺序进行的。
  • 特点:生成时只能看到前面的token(因果掩码),天然适合文本生成任务。
  • 代表模型:GPT系列、LLaMA、PaLM、Claude。
  • 工作原理P(xt+1 | x1, x2, ..., xt),生成序列:x1 → x2 → x3 → ... → xn
  • 优点:生成文本流畅连贯;缺点:只能单向理解上下文,生成速度慢(无法并行)。

自编码模型(Autoencoder Model)

  • 定义:通过重构被部分破坏的输入来学习表示,训练时可以同时看到整个序列的所有token。
  • 特点:采用双向注意力,能同时利用前后文信息,语义理解能力通常更强,适合文本理解类任务。
  • 代表模型:BERT、RoBERTa、ALBERT。
  • 工作原理:例如,输入“我[MASK]学习”,模型根据双向上下文预测被掩码的token为“在”。
  • 优点:双向理解,语义建模能力强;缺点:不适合直接进行开放式的文本生成。

主要区别对比

维度 自回归模型 自编码模型
理解方向 单向(从左到右) 双向(前后都能看)
预训练任务 语言建模(LM) 掩码语言建模(MLM)
生成能力 (天然支持) (需要额外设计)
理解能力 中等 (双向)
代表模型 GPT、LLaMA BERT、RoBERTa
适用任务 生成任务 理解任务

混合模型:如T5、BART采用编码器-解码器架构,编码器双向理解输入,解码器自回归生成输出,结合了二者优势。

07|GPT 系列模型和 BERT 系列模型的主要区别是什么?

这是面试中的经典问题,需要清晰阐述两者的架构、预训练目标和适用场景。

GPT 系列(Generative Pre-trained Transformer)

  • 架构:Decoder-only(仅解码器)。
  • 预训练任务:标准语言建模(Language Modeling),预测下一个token。
  • 理解方式:单向(自左向右),使用因果掩码。
  • 核心能力文本生成能力极强,是生成式AI的基石。
  • 代表:GPT-1/2/3/4、ChatGPT。

BERT 系列(Bidirectional Encoder Representations from Transformers)

  • 架构:Encoder-only(仅编码器)。
  • 预训练任务:掩码语言建模(Masked Language Modeling),预测句子中被随机遮蔽的token。
  • 理解方式:双向,能同时利用单词的左右上下文。
  • 核心能力文本理解能力突出,擅长分类、抽取等任务。
  • 代表:BERT、RoBERTa、ALBERT。

主要区别对比

维度 GPT 系列 BERT 系列
架构 Decoder-only Encoder-only
注意力机制 因果掩码(Causal Mask) 双向注意力
预训练任务 语言建模(LM) 掩码语言建模(MLM)
理解方向 单向(从左到右) 双向(前后都能看)
生成能力 (天然支持) ❌ 弱(需要额外设计)
理解能力 中等 (双向理解)
典型应用 文本生成、对话、代码生成 文本分类、NER、问答、情感分析

选择建议

  • 需要强大的生成能力(如创作、对话、代码补全):选择GPT系列。
  • 需要深入的理解能力(如分类、情感分析、实体识别):选择BERT系列。
  • 追求通用性和少样本学习能力:GPT系列通过提示工程能胜任更广泛的任务。
  • 资源受限,追求高效部署:通常BERT系列模型更小、推理更快。

08|什么是预训练(Pre-training)?什么是微调(Fine-tuning)?

这是大模型“预训练-微调”范式的核心,也是实际工程应用的关键步骤。

预训练(Pre-training)

  • 定义:在超大规模无标注文本数据上,通过自监督学习任务(如语言建模或掩码语言建模)训练模型,使其学习语言的通用知识、语法、语义和常识。
  • 特点
    • 数据:TB级别,来源广泛(如网页、书籍、代码)。
    • 目标:获得通用的语言表示和能力。
    • 成本:极高,通常需要数百张GPU训练数周甚至数月,一般由大型机构完成。
  • 作用:为模型打下坚实的语言基础,使其具备初步的理解和生成能力,并为下游任务提供优质的参数初始化。

微调(Fine-tuning)

  • 定义:在预训练模型的基础上,使用特定任务的、规模较小的标注数据继续进行训练,使模型适应并优化在该任务上的表现。
  • 特点
    • 数据:任务相关的标注数据,通常GB级别或更少。
    • 目标:使模型适应特定任务或领域。
    • 成本:相对较低,可在单卡或少量GPU上完成,耗时数小时到数天。
  • 微调方式
    1. 全量微调:更新模型所有参数,效果通常最好,但显存和计算需求高。
    2. 参数高效微调(PEFT):如LoRA、Adapter等,只训练少量新增参数,能以较低成本达到接近全量微调的效果,已成为主流。
  • 作用:实现任务适配、性能提升以及与人类偏好或特定格式的行为对齐。

两者关系与流程

预训练(获得通用能力) → 微调(适应具体任务) → 部署应用

类比:预训练好比人类通过大量阅读学习通用语言和知识;微调则类似于在此基础上学习某项专业技能(如法律、医疗)。

09|大模型的参数量通常是多少?参数量对模型性能有什么影响?

理解模型规模是技术选型和资源评估的基础。

参数量级划分

  • 小型模型(< 1B):如BERT-base (110M),资源需求低,易于部署。
  • 中型模型(1B - 10B):如LLaMA-7B、ChatGLM-6B,在性能与资源间取得平衡。
  • 大型模型(10B - 100B):如LLaMA-65B,性能强大,需要大量计算资源。
  • 超大型模型(> 100B):如GPT-3 (175B)、GPT-4(估计>1T),具备顶尖性能,需要极大规模集群。

参数量对性能的影响

  1. 缩放定律(Scaling Law):模型性能随着参数量、数据量和计算量的增加而平滑提升。参数量增加10倍,性能可能提升2-3倍,但收益会逐渐递减。
  2. 能力跃迁:参数量达到一定规模后,模型会表现出涌现能力,如思维链推理、代码生成、强大的少样本学习能力,这些在小模型中难以出现。
  3. 任务需求差异:简单分类任务可能只需百万级参数;复杂推理或通用AI任务则需要百亿甚至千亿级参数来存储和关联海量知识。
  4. 资源成本飙升:参数量直接决定了训练和推理所需的GPU数量、显存大小及耗时。一个175B参数的模型训练可能需要数百张A100,推理也需多张高性能显卡。

选择的权衡

  • 选大模型:当需要最强性能、通用能力或涌现能力,且计算和资金预算充足时。
  • 选小模型:当资源受限、专注于特定优化任务、要求快速推理或需要在边缘设备部署时。

优化方法:为了缓解大模型的高成本问题,业界常采用模型量化(INT8/INT4)、剪枝、知识蒸馏等压缩技术,以及LoRA等参数高效微调方法。

10|什么是上下文长度(Context Length)?它对模型有什么影响?

上下文长度决定了模型一次性能处理多少信息,是评估其应用边界的关键指标。

定义:上下文长度指模型单次处理所能接受的最大token数量。Token是模型处理文本的基本单位,例如,1000个token大约相当于750个英文单词或500-1000个中文字符。

不同模型的上下文长度示例 模型 上下文长度 说明
BERT 512 tokens 经典编码器模型的固定长度
GPT-4 8K / 32K tokens 提供标准和扩展版本
Claude 3 100K tokens 支持超长上下文处理
LLaMA-2 4K tokens 主流开源模型的典型长度

上下文长度的影响

  1. 信息理解完整性
    • 长上下文优势:能完整理解长文档、维持多轮对话的历史记忆、处理需要跨远距离引用信息的复杂任务。
    • 短上下文限制:信息会被截断,导致理解不完整,在多轮对话中容易“遗忘”。
  2. 决定应用场景
    • 需长上下文:长文档问答、代码库分析、法律/医疗文本处理、长对话聊天机器人。
    • 短上下文足够:句子分类、短文本情感分析、简单单轮问答。
  3. 极大影响计算资源
    • 注意力计算复杂度为O(n²),序列长度(n)增加会平方级增加显存占用和计算量。
    • 处理32K token的请求远比处理4K token消耗资源,直接影响推理速度和成本。
  4. 推动技术优化:为了支持更长上下文,发展了如Flash Attention(优化显存)、RoPE/ALiBi(改进位置编码外推能力)等关键技术。对于超长文档,也常采用检索增强生成(RAG)技术,将长文本存储在外部知识库中,按需检索,而非完全依赖模型自身的上下文窗口。

如何选择:应根据实际任务需求(文档长度、对话轮次)、可用资源(GPU显存)以及成本预算(API按Token计费)来综合决定。对于超长文本,RAG通常是比单纯追求超长上下文窗口更实用的解决方案。

总结与学习建议

本文梳理的10个问题涵盖了大语言模型的核心基础概念,包括:LLM定义与特点、规模区分、发展历程、Transformer架构、自回归与自编码区别、GPT与BERT对比、预训练与微调、参数量影响以及上下文长度。

为了更有效地掌握这些知识并将其应用于面试求职或项目实践,建议:

  1. 理解而非背诵:深入理解每个概念背后的设计原理和权衡,而非机械记忆定义。
  2. 联系实际场景:思考每个技术点(如模型架构、微调方法)在真实项目中的应用方式和选型理由。
  3. 保持技术敏感:大模型领域迭代迅速,需持续关注最新的开源模型、训练方法和优化技术。
  4. 积极动手实践:理论结合实践至关重要。可以在云栈社区等平台寻找教程和资源,尝试使用开源模型进行推理、微调等实验,以加深理解。



上一篇:从NNLM到注意力机制:详解语言模型基础(第5讲)
下一篇:国产算力盈利路径:从昇腾910B到政务金融的炼金术
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-9 17:45 , Processed in 0.204580 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表