当前位置：首页 > news >正文

GTP3 大模型

news 2025/7/4 1:25:53

GTP3 大模型

模型架构
训练核心思想

GTP3 :

OpenAI 在 2020 年 5 月发布 GPT-3，发表 Language Models are Few-Shot Learner
理念：Few-Shot 思想 , 用少量样本微调，让模型更准确

参数 :

最大模型 : 1750 亿参数
多头 Transformer : 96 层
Head size : 96
词向量维度 : 12288
文本长度大小 : 2048

特点 :

优点 : few-shot 友谊 ; 去除了 fine-tuning 任务
缺点 : 可能有敏感内容 ; 对部分任务效果不佳 ; 当生成文本较长 , 可能前后矛盾 ; 成本太大

模型架构

GPT 模型结构 :

引入 Sparse Transformer 中的 sparse attention 模块 : 每个 token 只与其他 token 的一个子集计算 attention，复杂度 O(n*logn)

sparse attention 好处：

减少注意力层的计算复杂度 , 节约显存和耗时 , 能处理更长输入序列
根据局部紧密相关和远程稀疏相关特性 , 对距离较近上下文关注多 , 对距离较远上下文关注少

训练核心思想

GPT-3 评估和预测下游任务的三种方法 :

Zero-shot : 对任务描述，提供测试数据 , 直接让模型进行翻译 ; 效果最佳
On-shot : 对任务描述，并提供一个例子 , 告诉模型如何翻译 ; 效果次之
Few-shot : 对任务描述，并提供 N 个例子 , 告诉模型如何翻译 ; 效果最差

情境学习 (提示学习) (in-context learning) :

方法 : Few-shot、One-shot
核心思想 : 通过少量数据寻找合适初始化范围，让模型快速拟合，获得不错效果

in-context learning/fine-tuning 的区别：

fine-tuning : 基于标注数据更新模型参数
in-context learning : 用标注数据时不进行梯度回传，模型参数不更新
in-context learning 依赖数据量 (10～100) < fine-tuning 一般的数据量

查看全文

http://www.dtcms.com/a/25127.html

vue3项目axios最简单封装 - ajax请求封装

深入解析 MySQL 数据删除操作：DELETE、TRUNCATE 与 DROP 的原理与选择

MySQL 之存储引擎（MySQL Storage Engine）

软件内有离线模型，效果也很实用......

DeepSeek AI 视频创作完整指南：从注册到制作

第一章——1.2 Java“白皮书”的关键术语

3月营销日历：开启春日盛宴，绽放生活魅力

前x-ai首席科学家karpathy的从零构建ChatGPT视频学习笔记--8000字长图文笔记预警（手打纯干货，通俗易懂）

iOS App的启动与优化

Telnet IBM AIX服务器相关监控指标的阐述

【Python】模块

Spring Boot项目的基本设计步骤和相关要点介绍

【Grasshopper】【Python】点集排序：带索引的Z字形排序算法

MySQL配置文件读取顺序

【故障处理】- 11g数据泵到19c导致的job不自动执行

Golang学习笔记_34——组合模式

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架

【Scrapy】Scrapy教程6——提取数据

30 款 Windows 和 Mac 下的复制粘贴软件对比

MySQL数据库基础

分享8款AI生成PPT的工具！含测评

如何最优雅地部署 AWS Lambda？Lambda Version 与 Alias 的最佳实践

玩转文档处理，Docling 让一切变得简单

Java常用设计模式及其应用场景

PyCharm无法识别conda环境

Python 日志记录全解析：从入门到进阶的实用指南

【深度学习】基于MXNet的多层感知机的实现

【深度学习】如何一步步实现SGD随机梯度下降算法

本地DeepSeek模型GGUF文件转换为PyTorch格式

ubuntu24 springboot jar设置宕机重启

GTP3 大模型

模型架构

训练核心思想

相关文章：