当前位置: 首页 > news >正文

GPT-2 大模型

GPT-2 大模型

  • 模型架构
  • 训练核心思想

GPT-2 :

  • OpenAI 在 2019 年 2 月推出 GPT-2,并发表 Language Models are Unsupervised Multitask Learners
  • 核心思想 : 多任务学习,仅用无监督预训练得到泛化能力更强的语言模型
  • 参数 : 最大模型共计 48 层,参数量达 15 亿

模型特点 :

  • 训练数据规模更大 , 800w 文档 40G
  • 训练参数, batch_size 从 64 增加到 512, 上文窗口大小从 512 增加到 1024
  • 优点 : 文本生成效果好,仅 zero-shot 学习 ; 无需额外训练
  • 缺点 : 监督学习能力有待提升 , 有些任务表现不佳

数据集 :

  • 数据量 : 足够大且覆盖面广,共 800 万篇文章,约 40G
  • 来源 : Reddit 高赞的文章

模型架构

GPT-2 改动 :

  • Self-Attention 层 和 Feed Forward 层前 , 放 LN (Layer Normalization,层归一化) 层
  • 最后一层放 LN 层
  • 输入序列的最大长度扩充到 1024

训练核心思想

GPT-2 :

  • 目的 : 用无监督的预训练模型 , 做有监督的任务
  • 观念 : zero-shot (零样本学习) , 无需标注数据 , 模型训练

相关文章:

  • 本地部署DeepSeek
  • 提升接口性能之缓存
  • 分治-归并排序
  • 反射和特性
  • Annie导航2.0 新增加5个模版 开源免授权
  • 当机器人遇见艺术:春晚机器人舞蹈,一场科技与艺术的完美邂逅
  • Redis实现登录优化
  • 阿里云前端自动化部署流程指南
  • LayUi点击查看图片组件layer.photos()用法(图片放大预览后滚动鼠标缩放、底部显示自定义标题)
  • 观察者模式
  • uniapp中@input输入事件在修改值只有第一次有效的问题解决
  • RocketMQ面试题:原理部分
  • 组学数据分析实操系列 |(四) 富集气泡图的绘制
  • 书籍翻页动画
  • 系统学习算法:专题十一 floodfill算法
  • 51c自动驾驶~合集51
  • ubuntu22.04离线安装K8S
  • 关于deep seek的本地化部署
  • PHP 网络编程介绍
  • 【信息系统项目管理师】第23章:组织通用管理 详解
  • 日本航空自卫队一架练习机在爱知县坠毁
  • 费高云不再担任安徽省人民政府副省长
  • “一码难求”的Manus开放注册但价格不菲,智能体距离“实用”还有多远
  • AI观察|从万元到百万元,DeepSeek一体机江湖混战
  • 上海国际电影节特设“今日亚洲”单元
  • 泽连斯基:乌克兰已做好与俄罗斯举行会谈的准备