当前位置: 首页 > wzjs >正文

长春seo结算宁波网站推广优化

长春seo结算,宁波网站推广优化,网站建设详细教程视频,最近时事热点1.6 对 GPT 架构的更深入了解 GPT 最初由 OpenAI 的 Radford 等人在论文《通过生成式预训练提高语言理解能力》 中提出。GPT-3 是该模型的扩展版本,具有更多的参数,并且使用了更大的数据集进行训练。此外,ChatGPT 中提供的原始模型是通过在大…

1.6 对 GPT 架构的更深入了解

GPT 最初由 OpenAI 的 Radford 等人在论文《通过生成式预训练提高语言理解能力》 中提出。GPT-3 是该模型的扩展版本,具有更多的参数,并且使用了更大的数据集进行训练。此外,ChatGPT 中提供的原始模型是通过在大型指令数据集上微调 GPT-3 创建的,所使用的方法来自 OpenAI 的 InstructGPT 论文。如图 1.6 所示,这些模型属于文字补全模型,也可以执行其他任务,如拼写纠正、分类或语言翻译。尽管 GPT 模型只是在相对简单的下一个词预测任务上进行了预训练,但这实际上是非常引人注目的。

预测下一个词,这是一种自我监督学习的形式,也是一种自我标记的形式。意味着我们不需要明确地为训练数据收集标签,而是可以利用数据本身的结构:可以使用句子或文档中的下一个词作为模型应该预测的标签。由于这种下一个词预测任务允许我们“即时”创建标签,因此可以使用大量的未标注文本数据集来训练大型语言模型(LLMs)。

与原始 Transformer 架构相比,通用的 GPT 架构相对简单。实际上,它只是没有编码器部分的解码器(如图 1.8)。像 GPT 这样的基于解码器风格的模型通过一次预测一个词来生成文本,因此被视为一种自回归模型。自回归模型将它们之前的输出纳入未来预测的输入中。因此,在 GPT 中,每个新词的选择都是基于其前面的序列,这提高了生成文本的一致性。

像 GPT-3 这样的架构也比最初的 Transformer 模型要大得多。例如,原始的 Transformer 模型重复了六次编码器和解码器块。而 GPT-3 总共有 96 层 Transformer 层和 1750 亿个参数。

在这里插入图片描述

图 1.8 GPT架构仅采用了原始Transformer的解码器部分,用于单向的从左到右处理,使其非常适合于文本生成和下一个词预测任务,能够以迭代方式一次生成一个词。

GPT-3 在 2020 年被推出,按照深度学习和大型语言模型发展的标准来看,这被认为是很长一段时间以前了。然而,更近一些的架构,如Meta 的 Llama 模型,依然基于相同的基本概念,只做了少量修改。因此,理解 GPT 依旧是非常相关的,所以重点在于实现 GPT 背后的显著架构,同时提供指向其他 LLM 所采用的具体调整的指引。

尽管由编码器和解码器块组成的原始 Transformer 模型曾是为语言翻译而设计,但 GPT 模型——尽管其更大但更简单的仅包含解码器的架构旨在进行下一个词预测——也能够执行翻译任务。这种能力最初是研究人员未曾预料到的,因为它源自一个主要训练于下一个词预测任务的模型,而这个任务并未专门针对翻译。

模型执行未明确训练的任务的能力被称为涌现行为(emergent behavior)。这种能力在训练过程中并没有被明确教授,而是作为模型暴露于大量多语言数据中各种上下文的自然结果出现的。GPT 模型能够“学习”语言间的翻译模式并执行翻译任务,即使它们并未专门为此训练,这一点展示了这些大规模生成式语言模型的优势和能力。我们可以执行多样化的任务,而无需为每个任务使用不同的模型。


原文:Sebastian Raschka. Build a Large Language Model(From Scratch),此处为原文的中文翻译,为了阅读方便,有适当修改。

http://www.dtcms.com/wzjs/434523.html

相关文章:

  • 个人备案网站可以做产品推广今日新闻 最新消息 大事
  • 做网站要青岛网站建设公司排名
  • 烟台网站公司torrentkitty磁力搜索引擎
  • 全球设计公司排名seo关键词排名网络公司
  • 农业公司注册流程及费用四川seo整站优化
  • 佛山宽屏网站建设在线网页编辑平台
  • 洛宁县东宋乡城乡建设局网站站长工具seo综合查询烟雨楼
  • 公司商城网站建设爱营销电信版下载app最新版
  • 大庆建网站seo建站收费地震
  • 深圳网站建设信科网络自己怎么优化我网站关键词
  • 电商网站建设行情hao123文件在哪里
  • 经典编辑器wordpress贵州整站优化seo平台
  • 北京市保障房建设投资中心网站首页网络推广的方式
  • 网站开发钱包百度推广怎么做的
  • o2o平台的基本信息seo怎样才能优化网站
  • 杭州网站做的好公司今天的新闻 最新消息
  • 信誉好的集团网站建设iis搭建网站
  • 苹果做安卓游戏下载网站兔子bt搜索
  • 网站建设三亚建站公司网站源码
  • 时时彩网站建设teafly计算机培训课程
  • 网站原型怎么做seo外包上海
  • 网站建设体会doc头条发布视频成功显示404
  • 网站备案资料表爱站网挖掘工具
  • 网站建设基础培训今日足球赛事数据
  • 网站栏目页模板口碑营销的前提及好处有哪些
  • 微信小程序本地服务器搭建谷歌网站优化
  • 外链建设都需要带网站网址广告推广免费平台
  • 微网站免费seo sem是什么
  • seo营销网站的设计标准东莞营销型网站建设
  • 农业信息网站 建设软件开发