encoder-only / decoder-only / encoder-decoder架构分析
以下是针对encoder-only、decoder-only和encoder-decoder三种架构的全面分析,结合当前(截至2025年8月)代表性模型、实现方案、训练方法、应用场景及优化方向:
一、Encoder-Only架构
核心特点:双向注意力机制,全面捕捉上下文语义,输出上下文相关的表征向量。
代表模型:
- DeBERTa-v3(微软,2021+):引入Disentangled Attention(解耦注意力)和增强掩码机制,在GLUE/SuperGLUE基准领先。
- BERT/RoBERTa优化版:仍广泛用于工业级分类任务。
实现方案与训练:
- 训练目标:
- 掩码语言建模(MLM):随机遮盖15%词汇并预测。
- 下一句预测(NSP):部分模型保留该任务增强句间关系理解。
- 结构优化:
- 层归一化位置调整(Pre-LN vs Post-LN)提升稳定性。
- 动态词嵌入解决多义词问题(如ELECTRA的生成器-判别器框架)。
应用场景:
- 理解型任务:文本分类(垃圾邮件检测)、实体识别(医疗NER)、语义相似度计算。
- 轻量化部署:参数效率高(DeBERTa-base仅1.1亿参数),适合资源受限场景。
优劣势:
优势 |
---|