当前位置: 首页 > news >正文

[人工智能-大模型-33]:模型层技术 - 大模型的神经网络架构

大模型的神经网络架构详解:从Transformer到现代变体

大型语言模型(Large Language Models, LLMs)的核心是其神经网络架构。自2017年《Attention Is All You Need》论文提出 Transformer 架构以来,它已成为几乎所有大模型(如GPT、Llama、Qwen、Claude等)的基础骨架

本文将深入剖析大模型所采用的神经网络架构,涵盖其核心组件、工作原理、关键变体以及现代优化技术


一、基石:Transformer 架构

Transformer 是大模型的“基因”。它彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全依赖**自注意力机制(Self-Attention)**来处理序列数据。

1.1 整体结构

Transformer 由**编码器(Encoder)解码器(Decoder)**两部分组成:

┌─────────────────────────────┐    ┌─────────────────────────────┐
│         Encoder             │    │         Decoder             │
│                             │    │                             │
│  ┌───┐   ┌──────────────┐   │    │  ┌───┐   ┌──────────────┐   │
│  │ E │ → │ Transformer  │   │    │  │ D │ → │ Transformer  │   │
│  │ m │   │     Block    │   │    │  │ e │   │     Block    │ ←─┤ Masked Self-Attn
│  │ b │   └──────────────┘   │    │  │ c │   └──────────────┘   │
│  │   │          ↓           │    │  │ o │          ↓           │
│  │   │   ┌──────────────┐   │    │  │ d │   ┌──────────────┐   │
│  │   │ → │ Transformer  │   │    │  │   │ → │ Transformer  │   │
│  │   │   │     Block    │   │    │  │   │   │     Block    │   │
│  │   │   └──────────────┘   │    │  │   │   └──────────────┘   │
│  └───┘          ↓           │    │  └───┘          ↓           │
│               ...           │    │               ...           │
│  ┌───┐   ┌──────────────┐   │    │  ┌───┐   ┌──────────────┐   │
│  │   │ → │ Transformer  │   │    │  │   │ → │ Transformer  │   │
│  │   │   │     Block    │   │    │  │   │   │     Block    │   │
│  └───┘   └──────────────┘   │    │  └───┘   └──────────────┘   │
└─────────────────────────────┘    └─────────────────────────────┘↑                                     ↑Input Embedding                    Output Embedding + LM Head
  • Encoder用于理解输入(如BERT)。
  • Decoder用于生成输出(如GPT系列)。
  • 大语言模型(LLM)通常只使用 Decoder 部分,称为 Decoder-only 架构。

二、核心组件:Transformer 块(Block)

每个 Transformer 块是模型的基本计算单元,通常包含两个核心子模块:

2.1 自注意力机制(Self-Attention Mechanism)

这是 Transformer 的“灵魂”,让模型能够动态关注序列中的相关部分。

(1) 计算流程

给定输入向量序列 X∈Rn×dX∈Rn×d,其中 nn 是序列长度,dd 是隐藏维度。

  1. 线性变换生成 Q, K, V

    • Q=XWQ,K=XWK,V=XWVQ=XWQ​,K=XWK​,V=XWV​
    • WQ,WK,WVWQ​,WK​,WV​ 是可学习的权重矩阵。
  2. 计算注意力分数

    • Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dk​​QKT​)V
    • dkdk​​ 是缩放因子,防止梯度消失。
  3. 多头注意力(Multi-Head Attention, MHA)

    • 将 Q, K, V 拆分为 hh 个“头”(如 h=32),并行计算注意力。
    • 每个头学习不同的语义关系(如语法、指代、情感)。
    • 最后将所有头的输出拼接并线性变换。

优势:并行计算,支持长距离依赖,捕捉全局上下文。

(2) 掩码自注意力(Masked Self-Attention)

解码器中,为了防止模型在生成第 tt 个Token时“偷看”未来的Token,引入因果掩码(Causal Mask)

python

# 举例:3个Token的掩码矩阵
mask = [[1, 0, 0],[1, 1, 0],[1, 1, 1]]
  • 只允许每个Token关注它自身及之前的Token。
  • 这是自回归生成的基础。

2.2 前馈神经网络(Feed-Forward Network, FFN)

在自注意力之后,对每个位置的表示进行非线性变换。

  • 结构
    • 两层全连接网络 + 激活函数。
    • FFN(x)=W2⋅GELU(W1⋅x+b1)+b2FFN(x)=W2​⋅GELU(W1​⋅x+b1​)+b2​
  • 特点
    • 参数独立于位置,对每个Token单独处理。
    • 扩展维度(如4倍隐藏层大小),增强表达能力。

2.3 残差连接与层归一化(Residual Connection & LayerNorm)

每个子模块(自注意力、FFN)前后都有:

  • 残差连接(Residual Connection)
    • Output=Sublayer(LayerNorm(x))+xOutput=Sublayer(LayerNorm(x))+x
    • 防止梯度消失,支持深层网络。
  • 层归一化(Layer Normalization)
    • 对每个样本的特征进行归一化,稳定训练过程。

三、现代大模型架构的演进与变体

虽然基础是 Transformer,但现代大模型在架构上进行了大量优化和创新。

3.1 Decoder-Only 架构(GPT 系列)

  • 代表:GPT-3、GPT-4、Llama 3、Qwen、Mistral
  • 特点
    • 仅使用解码器堆栈。
    • 采用掩码自注意力,适合自回归生成。
    • 结构简单,易于扩展。
  • 优势:天然适合文本生成任务,是当前主流。

3.2 编-解码架构(Encoder-Decoder)

  • 代表:T5、BART
  • 特点
    • 同时使用编码器和解码器。
    • 解码器中还包含交叉注意力(Cross-Attention),让解码器关注编码器的输出。
  • 适用任务机器翻译、文本摘要等需要“理解-生成”的任务。

3.3 混合专家模型(MoE, Mixture of Experts)

  • 代表:Google GLaM、Mistral Mixtral 8x7B、DeepSeek-MoE
  • 核心思想
    • 在FFN层引入多个“专家”(Expert)网络。
    • 使用一个“门控网络”(Router)决定每个Token由哪个(或哪几个)专家处理。
  • 公式
    • MoE(x)=∑i=1Ngi(x)⋅Ei(x)MoE(x)=∑i=1N​gi​(x)⋅Ei​(x)
    • 其中 gi(x)gi​(x) 是第 ii 个专家的门控权重,Ei(x)Ei​(x) 是专家网络。
  • 优势
    • 激活参数少:每次只激活部分专家,推理成本低。
    • 总参数多:整体模型容量大,性能强。
  • 示例:Mixtral 8x7B 有8个专家,每次激活2个,等效于一个12B模型,但推理速度接近7B。

3.4 旋转位置编码(RoPE, Rotary Position Embedding)

  • 问题:传统绝对位置编码难以外推到更长序列。
  • 解决方案:RoPE
    • 将位置信息通过旋转矩阵融入Q、K向量。
    • 公式:Qm=WQxmeimθ,Kn=WKxneinθQm​=WQ​xm​eimθ,Kn​=WK​xn​einθ
  • 优势
    • 天然支持长序列外推(如从8K扩展到32K)。
    • 提升长距离依赖建模能力。
  • 应用:Llama 3、Qwen、ChatGLM 等广泛采用。

3.5 分组查询注意力(GQA, Grouped Query Attention)

  • 背景:KV Cache 占用大量显存,限制长上下文。
  • GQA 原理
    • 传统MHA:每个头有自己的K、V。
    • GQA:多个Query头共享一组K、V。
    • 介于MHA和MQA(Multi-Query Attention)之间。
  • 优势
    • 显著减少KV Cache内存占用。
    • 保持较好的生成质量。
  • 应用:Llama 3-70B、PaLM 2 采用GQA以支持长上下文。

四、典型大模型架构对比

模型架构类型关键技术上下文长度备注
GPT-3/4Decoder-onlyMHA, RoPE (推测)32K / 128K+闭源,性能顶尖
Llama 3Decoder-onlyGQA, RoPE, SwiGLU8K开源标杆
QwenDecoder-onlyRoPE, ALiBi (早期)32K / 128K支持超长上下文
Mixtral 8x7BMoE (Decoder-only)Sparse MoE, RoPE32K激活参数≈12B
ChatGLM3Encoder-Decoder?GLM 架构, RoPE32K清华智谱

🔍 注:部分细节(如GPT-4)为社区推测,官方未完全公开。


五、总结:大模型神经网络架构的演进趋势

  1. 基础不变Transformer 解码器仍是绝对主流。
  2. 效率优先MoE、GQA、量化等技术大幅降低推理成本。
  3. 长上下文RoPE、滑动窗口、KV Cache 优化支持128K+ tokens。
  4. 开源驱动:Llama、Qwen 等开源模型推动架构创新快速传播。

结语

大模型的神经网络架构,本质上是一个基于 Transformer 的、不断进化的复杂系统。从最初的纯 MHA + FFN,到如今的 MoE、GQA、RoPE 等高级组件,每一次架构创新都在追求 更高性能、更低成本、更强能力

理解这些架构细节,不仅能帮助我们更好地使用大模型,也为模型微调、推理优化、Agent 设计提供了坚实的底层支撑。

http://www.dtcms.com/a/511590.html

相关文章:

  • MySQL 从库延迟 10 小时——磁盘静默错误引发的惨案
  • 【go语言】gopls工具与LSP协议全面解析
  • 网站页面设计怎么做东莞软件开发培训机构
  • 《算法每日一题(1)--- 第31场蓝桥算法挑战赛》
  • 低代码开发平台有哪些:数字化深水区的核心基建与品牌全景
  • 二元 LDPC码的Tanner图表示方法
  • 基于大数据的股票推荐系统 协同过滤推荐算法 数据分析可视化 Django框架 金融数据分析(源码+文档)✅
  • diffusion model(0.4.2) 为什么$\nabla_x \log p(x)$指向概率密度更高的区域?
  • Linux小课堂: 文件归档与压缩技术之从 tar 到 gzip、bzip2 与 zip/rar 详解
  • IT科技资讯新闻类织梦网站模板定制化网站开发
  • 编程 网站建设一站式快速网站排名多少钱
  • 工厂防护鞋穿戴检测预防足部伤害 防护鞋穿戴检测 未佩戴防护鞋实时报警 基于YOLOv8的防护鞋识别算法
  • 「日拱一码」126 机器学习路线
  • react学习笔记【一】
  • Drawnix - 开源白板工具
  • 网站制作是怎么学的WordPress博客右边设置
  • go build -tags的其他用法
  • 【Unity开发】try-finally 与 try-catch 的区别详解
  • PHP数据库操作全攻略
  • 标准解读——GB/T 46353—2025《信息技术 大数据 数据资产价值评估》国家标准
  • Herm详解
  • 重庆网站建设哪家公司那家好winserver2008上用iis发布网站
  • HTML-CSS项目练习
  • 如何编写自动化测试用例?
  • 【Vibe Coding】001-前端界面常用布局
  • webview 中 cursor:pointer无效是由于-webkit-app-region导致的
  • 【C++】哈希表的实现【开放定址法vs链地址法】
  • 【业务逻辑漏洞】认证漏洞
  • 做网站在哪深圳做网站 汉狮网络
  • 修改k8s的镜像源为国内镜像源