当前位置：首页 > news >正文

GPT-1 与 BERT 架构

news 2025/10/8 17:41:39

GPT-1

架构特点

仅解码器架构：摈弃了传统transformer中的编码器层，而是直接用解码器和自注意力，同时抛弃掉了交叉多头注意力层，自注意力通过mask来完成计算。
注意力块添加到12个，Attention的输出维数为762维，FeedForward的升维维数增加到2048维。总参数量达1.5亿(0.15B)。
可学习的位置编码：位置编码不再使用固定的公式计算，而是作为神经网络参数的一部分进行学习。

训练过程

无监督预训练

给定一个句子，无监督预训练做的就是根据之前的token预测下一个token，每个batch里面包含的是该句子的前若干个token组成的输入，(但是实际实现中不会真的去这样做切分，而是用注意力掩码来控制注意力的计算)。输出是对应的下一个token。

每一个token的注意力嵌入最后通过前馈网络都能生成下一个token的预测，最终根据每一个token预测计算交叉熵平均损失，从而得到这个输入的训练损失。

有监督微调

与预训练的方法类似，但是存在以下两个区别：

训练数据的内容是人为标注的，符合人们对模型的工具定位，要求模型必须按用户的需求回答
在计算损失部分，不会把prompt部分的自损失计算上，而只会计算人为标注的输出部分的每个token预测的损失平均值。

GPT-1的缺陷

GPT-1使用的Transformer Decoder是单向语言模型，提取信息的能力不如Bert,但生成文本的能力很强
GPT-1针对每一个下游任务都需要训练一个模型，工作量大

BERT

架构特点

BERT是仅编码器架构，所以BERT丧失了输出文本的能力
BERT在对输入进行嵌入时，除了常规的嵌入和位置编码，BERT还会对句子的序列头和序列为进行编码。

在此处，我们可以看到两个特殊的标识符[CLS]和[SEP],它们没有自身的语义，[CLS]表示序列的开头，[SEP]表示句子的结尾。BERT的输入只会有1 - 2 个序列。

如果输入是两个序列则第二个序列的段落编码为1，否则段落编码为0.

序列编码示例：

<CLS> my dog is cute <SEP> --> 0 0 0 0 0 0
<CLS> my dog is cute <SEP> he likes play ##ing <SEP> ---> 0 0 0 0 0 0 1 1 1 1 1

训练过程

BERT的预训练过程包括两个任务：

掩码语言模型（MLM）

以 15% 的概率随机将句子中的某个token替换为 [MASK] , 随后让模型预测原位置对应的token是什么，这样可以让模型更好的捕捉语义。

存在的问题：模型过于关注[MASK]这个token，但是下游任务中并不会出现[MASK],所以可能出现过拟合的现象。
解决方案：选择完token之后，有三种选择：
- 替换为[MASK] token
- 替换为其他随机token
- 不替换

由于模型不知道句子中对应的token是否是真的原token，所以模型会尝试根据句子的语义来找到原token。

邻接序列预测（NSP）

输入两个序列，由模型判断两个序列是否在语义上是相关联的，或者说后面的序列是否在语料中与前面的序列临近。

通过CLS中的向量信息来进行二分类，因为CLS本身没有语义信息，内部的信息只能是句子整体的信息。

举例：

Input1=[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]Label1=IsNextInput2=[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]Label2=NotNext

应用场景

句子分类
句子情感预测
语句问答
单句标注：标注句子中出现的每一个token的标签

缺陷

BERT失去了文本生成的能力，换来了更强的信息提取能力

查看全文

http://www.dtcms.com/a/256105.html

Duende Identity Server学习之一：认证服务器及一个Oidc/OAuth认证、用于Machine 2 Machine的客户端

前端开发面试题总结-vue3框架篇（二）

LangServer 与 Langgraph 融合架构：构建智能语言服务系统

一种新的参数高效微调方法-LoRI

Armbian 开机启动点灯脚本

Unix ODBC和Mysql ODBC

【论文笔记】【强化微调】TinyLLaVA-Video-R1：小参数模型也能视频推理

`customRef` 在实战中的使用：防抖、计算属性缓存和异步数据获取

广州华锐互动：以技术创新引领虚拟现实体验新高度

基于机器学习的侧信道分析（MLSCA）Python实现（带测试）

【Linux】Ubuntu 24.04 远程桌面控制

RA4M2开发涂鸦模块CBU(2)----配置按键开启LED

神经中枢革命：对象模型耦合CMMM，AI进化引擎重塑PLM-实现智能工厂从卓越级到领航级的自驱跃迁，打造制造业数字进化操作系统

【批量文件查找】根据文件名清单一次性查找多个文件复制到指定位置，批量查找文件的使用步骤和注意事项

WevServer实现:异步日志写与HTTP连接

[muduo] ThreadPool | TcpClient | 异步任务 | 通信测试

基于Python、tkinter、sqlite3 和matplotlib的校园书店管理系统

SimpleITK——创建nrrd体素模型

电子电气架构 --- 实时系统评价的概述

实战-通过Hutool实现双ID链法

（二）yolov5——模型检测

华为云 Flexus+DeepSeek 实战：华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】

Mac电脑-触摸板增强工具-BetterTouchTool

ZZNU大一下英语选填期末复习

深入解析ID3算法：信息熵驱动的决策树构建基石

Python元组及字符串

微处理器原理与应用篇---计算机系统的结构、组织与实现

七、Redis的持久化策略

前端实现截图的几种方法

aardio 并行任务处理

GPT-1

架构特点

训练过程

无监督预训练

有监督微调

GPT-1的缺陷

BERT

架构特点

训练过程

掩码语言模型（MLM）

邻接序列预测（NSP）

应用场景

缺陷

相关文章：