云栈社区»论坛 › 技术文档「 Note & Doc 」 › Transformer架构深入解析：从注意力机制到LLM工作原理 ...

发回帖发新帖

4140 积分	0 好友	547 主题

发消息

Transformer架构深入解析：从注意力机制到LLM工作原理

发表于 2025-12-7 21:44:24 | 查看: 76| 回复: 0

本系列文章由浅入深介绍大语言模型（LLM）的基础知识，从使用到原理解析，再到系统实战。本文将着重解析LLM的主流架构Transformer的核心原理，结合相关书籍与文献进行深度总结与拓展，旨在帮助读者理解大模型的工作原理。

最近AI发展迅速，各类AI创意应用层出不穷，这不禁让人思考：LLM为何如此强大？其核心架构Transformer的原理是什么？它又是如何实现如此强大的效果的？本文将尝试从原理与架构两方面，对Transformer进行深入浅出的介绍。

为了便于理解，我们将结合一个具体案例：“看看Transformer如何把‘Transformer is powerful.’翻译成‘Transformer很强大。’”。机器在这个过程中会面临哪些挑战？

机器只理解数字，如何理解文字？（参见“分词”章节）
文字顺序至关重要，机器如何理解语序？（参见“位置编码”章节）
词与词之间存在关联，机器如何理解这种关系？（参见“注意力机制”章节）

一、前文回顾与核心问题

在了解如何构建LLM之后，一个根本性问题随之产生：最初被预训练的原始“模型”从何而来？为什么给数据并经过训练，就能得到一个能够进行自然语言处理的“函数”？

类比人类大脑的发育，LLM在“出生时”拥有一个初始架构，随后通过训练学习知识、掌握技能，最终实现“智能的涌现”。当前主流LLM普遍采用Transformer架构。本文将围绕此架构，深入解析其原理、改进、混合架构形式，并简要探讨LLM架构的前沿探索。

二、LLM 架构解析

2017年的论文《Attention Is All You Need》提出的Transformer架构，已成为现代深度学习与大模型的基石。其核心思想是注意力机制。尽管后续出现了多种针对长文本、关键信息检索等问题的改进方案（如DIFF Transformer、Energy-Based Transformer），但Transformer及其变体（如混合专家模型MoE）的灵活搭配仍是主流。

Transformer架构的核心本是Encoder-Decoder结构。然而，当前主流LLM多采用仅有解码器的模型（Decoder-only Transformer）。它由包含自注意力（Self-Attention）和多头注意力（Multi-Head Attention）的注意力层、前馈神经网络（FFN）等模块组成一层，多层堆叠后构成完整模型。层数通常根据任务复杂度进行经验性选择，需要在模型效果与计算成本之间取得平衡。

在确定了LLM架构后，构建模型主要涉及数据、模型、训练三大环节。其中，数据的处理（特别是文本的预处理与嵌入）对于理解Transformer至关重要。

2.1 Token数据流示例

以将“Transformer is powerful.”翻译到“Transformer很强”这一步为例。当解码器已生成“Transformer很”时，数据在每一层的流转过程如下：

生成Q向量：已生成的部分序列经过解码器的掩码自注意力层处理，生成代表当前状态的查询向量Q_decoder。
提供K、V向量：编码器已为英文句子生成了完整的输出矩阵，其中包含了每个单词的键（K）和值（V）向量。
计算注意力权重：计算Q_decoder与所有英文词K向量的点积，得到注意力分数，经Softmax归一化为权重。理想情况下，对应“powerful”的权重会很高。
加权求和：用此权重对所有英文词的V向量加权求和，得到一个主要包含“powerful”信息的上下文向量，并传递给解码器下一层，用于预测下一个中文词“强”。

至此，Transformer处理单个词的主流程已清晰。接下来，我们将深入剖析其各个核心“零件”。

2.2 分词

分词（Tokenization）是将文本切分成模型可处理的基本单元（Token）的过程。例如，“Transformer is powerful.” 可能被分词为 ["Transformer", " is", " powerful", "."]。

一种直观的理解是，分词相当于为模型建立了一本“字典”的索引。模型在预测下一个词时，会根据当前输入和已有输出，去“字典”中寻找最匹配的词元。当然，模型并非随机查找，而是通过嵌入、位置编码、注意力机制以及训练调整神经网络权重等手段，使预测变得有规律可循。

分词后，需要构建词汇表（Vocabulary），建立从词元到唯一整数ID的映射。

2.3 嵌入

大语言模型等深度神经网络无法直接处理离散的文本数据。嵌入（Embedding）就是将词元（Token）转换为连续的向量表示，映射到高维数学空间中，从而使模型能够进行数值计算。

可以这样类比：分词得到了字典的“目录”（词元），而嵌入则为每个词元提供了详细的“释义”（高维向量）。通过计算两个词向量的距离（如点积），可以衡量它们的语义相关性。嵌入的维度越高，通常能捕捉更细微的语义关系，但计算代价也越大。例如，GPT-3的嵌入维度高达12288。

嵌入不仅适用于文本，图像、音频等多模态数据也可以通过特定神经网络转换为向量表示，这个过程统称为嵌入，其本质是将离散实体映射到连续向量空间中的点。

2.4 位置编码

Transformer采用并行计算，本身不具备感知序列顺序的能力。位置编码（Positional Encoding）就是为了解决这个问题而引入的机制。它是一组与词嵌入维度相同的向量，被加到每个词的嵌入向量上，为模型提供词序信息，从而区分如“狗咬人”和“人咬狗”的不同含义。

位置编码需要能够为每个位置生成唯一编码，并能处理可变长度序列。主要分为绝对位置编码和相对位置编码两大类。经过位置编码增强的输入嵌入，在归一化后传递给注意力层。

2.5 注意力机制

编码器（Encoder）负责将输入序列转换为富含上下文信息的特征表示。其核心组件之一是注意力机制，它解决了模型在预测时需要理解上下文关联的问题。

自注意力机制（Self-Attention） 自注意力允许序列中的每个元素关注序列中的所有其他元素，评估它们之间的依赖关系。其核心计算涉及为每个词元生成查询（Q）、键（K）、值（V）向量。通过计算Q与所有K的点积得到注意力分数（经过缩放以避免梯度问题），再经Softmax归一化为权重，最后用权重对V向量加权求和，得到该词元的上下文向量。

以案例中的“powerful”为例，其Q向量会与“Transformer”、“is”、“.”的K向量计算点积。由于“powerful”修饰“Transformer”，预计Q_powerful·K_Transformer的分数会较高，从而使“powerful”的最终表示包含更多来自“Transformer”的信息。

为什么是Q、K、V？ 这个概念借鉴自信息检索。Query（查询）代表当前关注项，Key（键）用于与查询匹配，Value（值）是实际的内容表示。在自回归生成中，KV缓存技术可以避免对已生成序列的重复计算，提升效率。

因果注意力（Causal Attention） 也称为掩码注意力（Masked Attention），是用于语言建模等任务的自注意力变体。它通过掩码阻止模型访问当前词元之后的未来信息，确保预测仅依赖于已生成的序列。

多头注意力机制（Multi-Head Attention） 单一注意力头的表示能力有限。多头注意力并行运行多个独立的注意力头，使模型能够同时关注来自不同表示子空间的信息。例如，在理解“Transformer is powerful.”时，一个头可能专注于语法结构（主系表），另一个头则关注语义修饰关系（powerful修饰Transformer）。最终，所有头的输出被拼接并线性变换，形成更强表征能力的上下文向量。

2.6 FFN/MLP（前馈神经网络/多层感知机）

在Transformer层中，注意力层的输出会传递给一个前馈神经网络（FFN），通常是一个简单的两层MLP，并包含一个非线性激活函数（如GELU）。FFN独立地处理每个位置的向量，对其进行变换和投影，旨在引入非线性并进一步整合特征。该子层同样伴有残差连接和层归一化。

2.7 堆叠Transformer层

一个标准的Transformer层包含多头注意力子层和FFN子层，周围有残差连接和层归一化。多个这样的层堆叠起来，构成深度模型。通常，较低层学习语法、局部依赖等低级特征，较高层则捕捉更复杂的语义关系和全局信息。

经过多层处理后，模型输出一个表示下一个词概率分布的向量。通过采样（如温度采样）或直接选取最高概率词元，将其追加到输入序列，作为下一步生成的上下文。如此循环，直至生成完整序列。

2.8 案例讲解：逐步生成翻译

现在，我们完整模拟解码器自回归生成“Transformer很强大。”的过程：

输入：<START>。输出：“Transformer”。模型识别出需直接复制专有名词。
输入：<START> Transformer。输出：“很”。模型将系动词“is”译为程度副词“很”。
输入：<START> Transformer 很。输出：“强”。注意力聚焦于“powerful”，开始翻译。
输入：<START> Transformer 很强。输出：“大”。完成“强大”这个形容词的翻译。
输入：<START> Transformer 很强大。输出：“。”。生成结束标点。

通过注意力权重可视化可以发现，“Transformer”与“Transformer”、“is”与“很”、“powerful”与“强/大”之间均形成了高权重的对齐连接，直观展示了模型的工作原理。

三、当前开源旗舰LLM架构概览

3.1 蓬勃发展的LLM生态

2025年，开源大模型迭代迅速，在特定领域达到SOTA水平的创新模型不断涌现，推动了AI技术的平权化发展。

3.2 LLM架构的演进

当前头部LLM架构多在Decoder-only Transformer基础上进行优化改良。一些值得关注的趋势和创新包括：

DeepSeek V3/R1：采用混合专家（MoE）架构与多头潜在注意力（MLA），在保持推理效率的同时提升模型能力，并通过DSA稀疏注意力等技术创新进一步优化。
OLMo 2：以其训练数据和代码的透明性著称，在归一化层（如QK-norm）上进行了特色设计以稳定训练。
Gemma 3：采用了滑动窗口注意力以减少内存需求，并融合了Pre-Norm和Post-Norm的优点。
MoE的广泛应用：Llama 4、Qwen3等模型也采用了MoE架构，通过激活少量专家来平衡模型容量与推理成本。

此外，融合Transformer与其他架构（如Mamba）的混合架构探索也在进行中，旨在针对不同子任务灵活选用最佳计算模块。

四、总结

理解Transformer原理，对于我们构建LLM应用时做出技术决策至关重要。从提示词工程到RAG服务，再到智能体（Agent）应用，当前纷繁复杂的应用形态，本质上大多是为了弥补模型自身能力的不足。模型能力是根本，应用形态是上层建筑。 随着模型能力的持续进化，许多应用模式也可能随之演变甚至简化。

在学习Transformer的过程中，我们不可避免地会接触到梯度下降、反向传播等机器学习基础概念，这些在PyTorch等深度学习框架中均有实现。同时，为了构建更强大的LLM应用，也需要了解CUDA、向量数据库等AI基础设施。认知的边界在拓展，未知的领域也随之扩大，而这正是技术探索的魅力所在。

五、参考资料

《Attention Is All You Need》
《从零构建大模型》
《图解大模型：生成式AI原理与实战》
Sebastian Raschka. “The Big LLM Architecture Comparison From DeepSeek-V3 to Kimi K2”.
LLM Visualization 项目
蚂蚁集团《大模型开源开发生态全景》报告

上一篇：SpringBoot多数据源并存实战：配置详解、事务管理与动态数据源区别
下一篇：Claude Code生成高质量UI实战：五步工作流从设计到Next.js应用落地

Transformer, LLM, 注意力机制, 神经网络, 深度学习