当前位置: 首页 > news >正文

大模型day1 - 什么是GPT

什么是GPT

全称 Generative Pre-trained Transformer 是一种基于 Transformer 架构的大规模 预训练 语言模型,由OpenAI研发,但GPT仅仅只是借鉴了Transformer 中 Decoder 的部分,并且做了升级

Transformer 架构

Transformer架构 是一种用于处理序列数据(比如文本、语音)的深度学习模型,它的核心思想是“自我关注”(Self-Attention),可以理解为“聪明地抓重点”
Transformer的核心

  • 并行处理所有词:同时看到整个句子,而不是逐个词处理。
  • 自注意力机制:让模型自动判断句子中哪些词更重要,并动态调整它们之间的关系

Encoder-Decoder

  • 只有Encoder的模型(如BERT):适合理解任务(文本分类、实体识别),但不能生成文本。
  • 只有Decoder的模型(如GPT):擅长生成文本(写文章、聊天),但对输入的理解可能不如Encoder深入。
  • Encoder-Decoder结合(如Transformer、T5):两者优势兼顾,适合需要“先理解再生成”的任务。

预训练

简单来说就是提前进行训练,从大量无标注的数据中学习通用能力
预训练的特点

  • 自监督学习:无需人工标注,模型通过“填空”“预测下一词”等任务从海量文本中自学。
  • 大数据训练:用TB级文本(如书籍、网页)训练,覆盖多领域知识。
  • 迁移学习:先学通用语言规律,再微调适配具体任务(如翻译、问答)。
  • 超大模型:参数规模达百亿甚至万亿级(如GPT-3有1750亿参数),能力更强。
  • 多任务通用:同一模型通过微调或提示(Prompt)完成不同任务(写文章、写代码、翻译等)。
  • Few-shot学习:仅需少量示例即可适应新任务,无需大量标注数据。
  • 高计算成本:训练耗资巨大(如GPT-3训练花费1200万美元),依赖高端GPU。

微调

让预训练模型(比如GPT、BERT)在少量特定任务数据上“再学习”,使它从“通才”变成“专才”。

  • 微调只要少量的数据就可以获取不错的效果
  • 微调成本较低,可以在单卡上运行

相关文章:

  • freecad内部python来源 + pip install 装包
  • 应用安全系列之四十五:日志伪造(Log_Forging)之三
  • DeepSeek实战:如何用AI工具提升销售转化率?
  • newspaper公共库获取每个 URL 对应的新闻内容,并将提取的新闻正文保存到一个文件中
  • 数字集成电路中时延不可综合与时间单位介绍
  • 用实体识别模型提取每一条事实性句子的关键词(实体),并保存到 JSON 文件中
  • JVM不同环境不同参数配置文件覆盖
  • C++中作用域(public,private,protected
  • CSS 过渡与变形:让交互更丝滑
  • STM32中Hz和时间的转换
  • context上下文(一)
  • C#里使用MaterialDesign来构造自定义窗口
  • 希哈表的学习
  • 9-函数的定义及用法
  • ASP.NET Core 性能优化:服务器端响应缓存
  • Lab Cloud FPGA 硬件在线实验云平台介绍
  • aviator 自定义表达式
  • 猫咪如厕检测与分类识别系统系列【二】多图上传及猫咪分类特征提取更新
  • 设计模式:工厂方法模式 - 高扩展性与低耦合的设计之道
  • 【AI】免费GPU算力平台部署wan2.1
  • 国内网站 专做国外视频/网络营销的基本流程
  • 中国美食网页设计模板/seo超级外链
  • 焦作建设厅网站/西安关键词排名提升
  • wordpress建立店铺/seo百度百科
  • 购物网站建设 成都/深圳外包网络推广
  • 政府网站信息内容建设评价制度/网站免费seo