大型语言模型(LLM)分类与特性全解析
大型语言模型(LLM)分类与特性全解析
一、技术架构分类
1.1 Transformer核心架构变体
基于Transformer的注意力机制设计,LLM主要分为三大主流架构:
架构类型 | 核心模块 | 注意力机制 | 典型模型 | 核心优势 | 适用场景 |
---|---|---|---|---|---|
Encoder-Only | 仅使用编码器 | 双向注意力 | BERT、RoBERTa、ALBERT、DeBERTa | 上下文语义理解能力强,适合文本分类、命名实体识别 | 情感分析、问答系统、文本检索 |
Decoder-Only | 仅使用解码器 | 单向自回归注意力 | GPT系列、LLaMA系列、Qwen、Mistral | 长文本生成能力突出,零样本学习能力强 | 内容创作、对话系统、代码生成 |
Encoder-Decoder | 编码器+解码器 | 双向编码+单向生成 | T5、BART、Pegasus | 兼顾理解与生成,适合序列转换任务 | 机器翻译、文本摘要、生成式问答 |
1.2 创新架构突破(2023-2025)
1.2.1 混合专家模型(MoE)
- 技术原理:通过稀疏激活机制,将模型参数分散到多个"专家"子网络,仅激活与输入相关的专家(通常5-10%)
- 代表模型:
- DeepSeek-R1(6710亿总参数,每次推理激活370亿参数)
- Qwen3-Next(800亿总参数,激活3.7%即30亿参数)
- Mixtral 8x7B(8个专家层,每token激活2个专家)
- 优势:参数量扩展至万亿级同时保持推理效率,训练成本降低70%
1.2.2 多头潜在注意力(MLA)
- 技术原理:对KV缓存进行低维压缩存储,推理时动态解压,内存占用降低70%
- 代