快速了解BERT
自用
🧠 一、BERT 是什么
BERT(Bidirectional Encoder Representations from Transformers)
是 Google 于 2018 年提出的一种 基于 Transformer 编码器(Encoder)结构的预训练语言模型。
它的核心目标是:
让模型通过大规模无监督文本,学会理解语言的双向上下文表示。
🧩 二、模型结构
1️⃣ 基础:Transformer Encoder 堆叠
BERT 完全由 Transformer Encoder 组成(没有 Decoder)。
结构上可以理解为多层堆叠:
输入文本 → Embedding → N层 Encoder → 输出上下文表示
每个 Encoder 包含:
-
Self-Attention 层(多头注意力)
-
Feed Forward 层(MLP)
-
LayerNorm + 残差连接
常见配置:
模型 | 层数 (L) | 隐藏维度 (H) | 注意力头数 | 参数量 |
---|---|---|---|---|
BERT-Base | 12 | 768 | 12 | 110M |
BERT-Large |