当前位置: 首页 > news >正文

GPT 1-3(速通版)

概述

发布时间线:

  • Transformer 2017 年 6 月

  • GPT1:2018 年 6 月

  • Bert: 2018 年 10 月

  • GPT2:2019 年 2 月

  • GPT3:2020 年 5 月

bert 适合较小数据集、GPT 必须要超大规模数据集才能有效。

GPT-4 未有论文。

GPT-1(2018 年 6 月)

  • GPT1 参数量:大概 1 亿参数

    • 12 层 decoder(维度 768,12 个注意力头)

  • 训练集:7000 本书籍(8 亿个单词)

GPT-2(2019 年 2 月)

  • 名称:《Language Models are Unsupervised Multitask Learners》【语言模型是无监督的多任务学习者】

  • 时间:2019 年 2 月

  • 作者:OpenAI 6 人(负责人是 ilya)

  • 代码:https://github.com/openai/gpt-2(没有提供训练代码,也没有最大号预训练模型)

  • 一段话总结 GPT-2:用的 transformer 解码器结构(48 层 decoder),15 亿参数,模型输入是文本,输出也是文本。训练数据源自 reddit 上被点赞的 4500 万个网站链接,各种筛选后获得 800 万文本,大概 40GB 文本数据量。预训练模型能够实现 zero-shot,即无需微调直接能在各种领域使用。在众多 zero-shot 领域达到 SOTA,并且这种架构的精度天花板还远未触及,只要继续去提高参数量和数据量。

GPT-3(2020 年 5 月)

模型结构跟 GPT-2 几乎完全一致,调整的部分是:采用稀疏注意力(只有临近 token 进行注意力计算)。

GPT-3 最大特点

  1. 显著提高了在零样本学习和少样本学习上的表现,它能够通过简单的提示(prompts)来执行各种任务,无需额外的训练。

GPT-3 在几十种类型任务中的平均表现(其中很多领域,few shot 能力超过其他 SOTA 模型的微调)

相关文章:

  • MySQL数据库备份工具:binlog详细操作与实战指南
  • 以太坊节点间通信机制 DEVp2p 协议
  • 大文件上传实现
  • Centos 7 升级 GCC
  • HTML 属性
  • Linux内核传输层UDP源码分析
  • AI日报 - 2025年3月17日
  • Html label标签中的for属性(关联表单控件:将标签与特定的表单元素(如输入框、复选框等)关联起来;提高可用性;无障碍性)
  • Spring单例Bean的线程安全
  • 考研系列-408真题计算机网络篇(18-23)
  • 基于SSM + JSP 的图书商城系统
  • 谷歌云服务器:服务器怎么安装???
  • 【图论】并查集的学习和使用
  • 栈(LIFO)算法题
  • Matlab 汽车振动多自由度非线性悬挂系统和参数研究
  • FakeApp 技术浅析(四):卷积神经网络
  • Spring框架:一些基本概念与核心优势解析
  • Java 中 String、StringBuffer 、StringBuffer正确使用方式
  • 开发还是运维?
  • 人工智能的数学基础之概率论与统计学(含示例)
  • 郑州排名前十的科技公司/深圳整站seo
  • 网站中的游戏是怎么做的/流量查询网站
  • 中山网站建设包括哪些/下载百度网盘
  • wordpress网站实例/百度 竞价排名
  • 关于企业网站建设的必要性/优化大师在哪里
  • 深圳网站建设公司fantodo/专门看广告的网站