当前位置: 首页 > news >正文

002大模型基础知识

在这里插入图片描述

自回归模型

Autoregressive model ,AR

Decoder only

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

1.什么是自回归模型?
从左到右侧学习的模型,只能利用上下文的信息。

2.GPT模型的核心架构?
Transformer 的Decoder 模块(去除中间的第二个子层)

3.GPT的预训练任务?
无监督的预训练 和 有监督任务的微调

序列到序列模型

sequence to sequence Model

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大模型微调的工作量大部分在: 数据处理。

code is cheap show me your talk
提示词

怎么和大模型对话很重要,得到这些效果和代码

Prompt 提示词工程

RAG向量数据库: milvus

应用开发 RAG 知识库 微调
基础设置 推理优化 国产模型适配 ,国产GPU适配

1.大模型 基座模型开发
2.infra 基础设施,推理框架 国产GPU适配
3.应用开发 RAG知识库 智能体Agent

应用最多!!!


为什么现在的大模型都是 Decoder-only?
在这里插入图片描述
双向注意力 和 交叉注意力 的区别? 是Encoder - decoder 连接的时候是交叉注意力

LLM的主要架构类别?
Encoder-Only,Decoder-Only, Encoder–Decoder

Transformer
Encoder-only:
Bert为代表,chatgpt火起来之后,大多数NLP的工作都是围绕Bert展开的
双向注意力机制, 存在低秩问题。
应用场景:完形填空,阅读理解等

Decoder Only:
GPT预测下一个词、生成任务

Encoder-Decoder:需要两套,训练起来比较麻烦
T5, 全能选手, Test-to-text 范式

目前大模型都是Decoder-Only:
工程简洁,训练稳定
涌现,scaling law 足够大的Decoder-only自己能训练出深刻的理解能力

自编码模型的基本原理:
在输入中随机MASK掉一部分单词,根据上下文预测这个词

自回归模型的基本原理:
从左往右学习的模型,只能利用上下文或者下文的信息

序列到序列模型的基本原理:
同时使用编码器和 解码器,它将每个task视为序列到序列的转换/生成
在这里插入图片描述


GPT-2

在这里插入图片描述
在这里插入图片描述
上下文:号称100万,但是也就几十万
主流的闭源模型 10 万 以内 没问题

在这里插入图片描述
在这里插入图片描述
GPT-2的核心思想是:
当模型的容量非常大且数据量足够丰富时,仅仅靠语言模型的学习便可以完成其他有监督学习的任务,不需要再下游任务微调。

在这里插入图片描述
在这里插入图片描述
GPT-2模型的特点:
在这里插入图片描述
在这里插入图片描述
GPT-2
zero-shot新范式
pre-train+fine tuning
模型架构调整 LN层前置,所有Decoder输出后再加一层LN

GPT-3模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
GPT-3
few shot,one-shot, 举一个,几个例子,配合Prompt提示词 in context learning
sparse attention

http://www.dtcms.com/a/277638.html

相关文章:

  • 多项式运算→复数域FFT→有限域NTT
  • 在上海开发小程序,怎么做出“高级感”?
  • RTDETR融合[CVPR2024]SHViT中的SHSA模块
  • 业务访问控制-ACL与包过滤
  • openeuler使用桥接模式(包括新建虚拟机和已有虚拟机)
  • C语言集成ip2region快速指南
  • java: DDD using oracle 21c
  • 【实证分析】上市公司绿色战略数据集(2000-2023年)
  • 【PTA数据结构 | C语言版】字符串删除操作
  • Mybatis自动创建数据库表,并根据创建的表自动生成Mvc框架基础代码
  • WPS新版Latex公式改为显示样式,防止内嵌缩小
  • 清华北大西工大!具身导航最新综述
  • Git的常用操作
  • MYSQL笔记2
  • NW756NW815美光固态闪存NW821NW828
  • Switch表达式
  • 算法第三十二天--动态规划part01(第九章)
  • 苍穹外卖@RequestBody导错包导致接收不到传入参数
  • Linux锁的概念及线程同步
  • 互斥锁详解(操作系统os)
  • VUE3(二)、路由
  • 时序预测 | Pytorch实现CNN-KAN电力负荷时间序列预测模型
  • day16~17-系统负载高故障与磁盘管理
  • 【开源项目】拆解机器学习全流程:一份GitHub手册的工程实践指南
  • Dubbo-Admin 安装与使用指南:可视化管理 Dubbo 服务
  • 基于 SpringBoot 的 REST API 与 RPC 调用的统一封装
  • Linux操作系统之信号概念启程
  • Scrapy Spider深度解析:从基础到高级应用实战
  • 基于MATLAB的Lasso回归的数据回归预测方法应用
  • 【论文阅读】AdaptThink: Reasoning Models Can Learn When to Think