当前位置: 首页 > news >正文

GTP3 大模型

GTP3 大模型

  • 模型架构
  • 训练核心思想

GTP3 :

  • OpenAI 在 2020 年 5 月发布 GPT-3,发表 Language Models are Few-Shot Learner
  • 理念:Few-Shot 思想 , 用少量样本微调,让模型更准确

参数 :

  • 最大模型 : 1750 亿参数
  • 多头 Transformer : 96 层
  • Head size : 96
  • 词向量维度 : 12288
  • 文本长度大小 : 2048

特点 :

  • 优点 : few-shot 友谊 ; 去除了 fine-tuning 任务
  • 缺点 : 可能有敏感内容 ; 对部分任务效果不佳 ; 当生成文本较长 , 可能前后矛盾 ; 成本太大

模型架构

GPT 模型结构 :

  • 引入 Sparse Transformer 中的 sparse attention 模块 : 每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)

sparse attention 好处:

  • 减少注意力层的计算复杂度 , 节约显存和耗时 , 能处理更长输入序列
  • 根据 局部紧密相关和远程稀疏相关 特性 , 对距离较近上下文关注多 , 对距离较远上下文关注少

训练核心思想

GPT-3 评估和预测下游任务的三种方法 :

  • Zero-shot : 对任务描述,提供测试数据 , 直接让模型进行翻译 ; 效果最佳
  • On-shot : 对任务描述,并提供一个例子 , 告诉模型如何翻译 ; 效果次之
  • Few-shot : 对任务描述,并提供 N 个例子 , 告诉模型如何翻译 ; 效果最差

情境学习 (提示学习) (in-context learning) :

  • 方法 : Few-shot、One-shot
  • 核心思想 : 通过少量数据寻找合适初始化范围,让模型快速拟合,获得不错效果

in-context learning/fine-tuning 的区别:

  • fine-tuning : 基于标注数据更新模型参数
  • in-context learning : 用标注数据时不进行梯度回传,模型参数不更新
  • in-context learning 依赖数据量 (10~100) < fine-tuning 一般的数据量

相关文章:

  • vue3项目axios最简单封装 - ajax请求封装
  • 深入解析 MySQL 数据删除操作:DELETE、TRUNCATE 与 DROP 的原理与选择
  • MySQL 之存储引擎(MySQL Storage Engine)
  • 软件内有离线模型,效果也很实用......
  • DeepSeek AI 视频创作完整指南:从注册到制作
  • 第一章——1.2 Java“白皮书”的关键术语
  • 3月营销日历:开启春日盛宴,绽放生活魅力
  • 前x-ai首席科学家karpathy的从零构建ChatGPT视频学习笔记--8000字长图文笔记预警(手打纯干货,通俗易懂)
  • iOS App的启动与优化
  • Telnet IBM AIX服务器相关监控指标的阐述
  • 【Python】模块
  • Spring Boot项目的基本设计步骤和相关要点介绍
  • 【Grasshopper】【Python】点集排序:带索引的Z字形排序算法
  • MySQL配置文件读取顺序
  • 【故障处理】- 11g数据泵到19c导致的job不自动执行
  • Golang学习笔记_34——组合模式
  • 什么是语料清洗、预训练、指令微调、强化学习、内容安全; 什么是megatron,deepspeed,vllm推理加速框架
  • 【Scrapy】Scrapy教程6——提取数据
  • 30 款 Windows 和 Mac 下的复制粘贴软件对比
  • MySQL数据库基础
  • 印度一战机在巴基斯坦旁遮普省被击落,飞行员被俘
  • 国际足联女子世界杯再次扩军,2031年起增至48支球队
  • 古埃及展进入百天倒计时,闭幕前168小时不闭馆
  • 公示!17个新职业、42个新工种亮相
  • 谜语的强制力:弗洛伊德与俄狄浦斯
  • 高进华“控股”后首份年报出炉,史丹利账上可动资金大幅缩水