当前位置：首页 > news >正文

GPT-2 大模型

news 2025/10/15 15:08:04

GPT-2 大模型

模型架构
训练核心思想

GPT-2 :

OpenAI 在 2019 年 2 月推出 GPT-2，并发表 Language Models are Unsupervised Multitask Learners
核心思想 : 多任务学习，仅用无监督预训练得到泛化能力更强的语言模型
参数 : 最大模型共计 48 层，参数量达 15 亿

模型特点 :

训练数据规模更大 , 800w 文档 40G
训练参数， batch_size 从 64 增加到 512，上文窗口大小从 512 增加到 1024
优点 : 文本生成效果好，仅 zero-shot 学习 ; 无需额外训练
缺点 : 监督学习能力有待提升 , 有些任务表现不佳

数据集 :

数据量 : 足够大且覆盖面广，共 800 万篇文章，约 40G
来源 : Reddit 高赞的文章

模型架构

GPT-2 改动 :

Self-Attention 层和 Feed Forward 层前 , 放 LN (Layer Normalization，层归一化) 层
最后一层放 LN 层
输入序列的最大长度扩充到 1024

训练核心思想

GPT-2 :

目的 : 用无监督的预训练模型 , 做有监督的任务
观念 : zero-shot (零样本学习) , 无需标注数据 , 模型训练

http://www.dtcms.com/a/23962.html

相关文章：

本地部署DeepSeek

提升接口性能之缓存

分治-归并排序

反射和特性

Annie导航2.0 新增加5个模版开源免授权

当机器人遇见艺术：春晚机器人舞蹈，一场科技与艺术的完美邂逅

Redis实现登录优化

阿里云前端自动化部署流程指南

LayUi点击查看图片组件layer.photos()用法（图片放大预览后滚动鼠标缩放、底部显示自定义标题）

观察者模式

uniapp中@input输入事件在修改值只有第一次有效的问题解决

RocketMQ面试题：原理部分

组学数据分析实操系列 |（四）富集气泡图的绘制

书籍翻页动画

系统学习算法：专题十一 floodfill算法

51c自动驾驶~合集51

ubuntu22.04离线安装K8S

关于deep seek的本地化部署

PHP 网络编程介绍

【信息系统项目管理师】第23章：组织通用管理详解

字符串操作总结（C# and Lua）

Langchain是什么，怎么使用

ls命令的全面参数解析与详尽使用指南

计算机毕业设计Python考研院校推荐系统考研分数线预测考研推荐系统考研可视化(代码+LW文档+PPT+讲解视频)

反射内存网络（Reflective Memory Network）

【学习】软件测试中的分类树法介绍

XXL-JOB使用及常见的问题

基于开源Odoo模块、SKF Phoenix API与IMAX-8数采网关的资产密集型企业设备智慧运维实施方案

WDM_OTN_基础知识_波分站点与组网类型

前端基础——axios、fetch和xhr来封装请求