当前位置: 首页 > wzjs >正文

娄底企业网站建设制作php网站建设安装环境

娄底企业网站建设制作,php网站建设安装环境,淘宝上做进出口网站有哪些,青岛标志设计公司1.6 对 GPT 架构的更深入了解 GPT 最初由 OpenAI 的 Radford 等人在论文《通过生成式预训练提高语言理解能力》 中提出。GPT-3 是该模型的扩展版本,具有更多的参数,并且使用了更大的数据集进行训练。此外,ChatGPT 中提供的原始模型是通过在大…

1.6 对 GPT 架构的更深入了解

GPT 最初由 OpenAI 的 Radford 等人在论文《通过生成式预训练提高语言理解能力》 中提出。GPT-3 是该模型的扩展版本,具有更多的参数,并且使用了更大的数据集进行训练。此外,ChatGPT 中提供的原始模型是通过在大型指令数据集上微调 GPT-3 创建的,所使用的方法来自 OpenAI 的 InstructGPT 论文。如图 1.6 所示,这些模型属于文字补全模型,也可以执行其他任务,如拼写纠正、分类或语言翻译。尽管 GPT 模型只是在相对简单的下一个词预测任务上进行了预训练,但这实际上是非常引人注目的。

预测下一个词,这是一种自我监督学习的形式,也是一种自我标记的形式。意味着我们不需要明确地为训练数据收集标签,而是可以利用数据本身的结构:可以使用句子或文档中的下一个词作为模型应该预测的标签。由于这种下一个词预测任务允许我们“即时”创建标签,因此可以使用大量的未标注文本数据集来训练大型语言模型(LLMs)。

与原始 Transformer 架构相比,通用的 GPT 架构相对简单。实际上,它只是没有编码器部分的解码器(如图 1.8)。像 GPT 这样的基于解码器风格的模型通过一次预测一个词来生成文本,因此被视为一种自回归模型。自回归模型将它们之前的输出纳入未来预测的输入中。因此,在 GPT 中,每个新词的选择都是基于其前面的序列,这提高了生成文本的一致性。

像 GPT-3 这样的架构也比最初的 Transformer 模型要大得多。例如,原始的 Transformer 模型重复了六次编码器和解码器块。而 GPT-3 总共有 96 层 Transformer 层和 1750 亿个参数。

在这里插入图片描述

图 1.8 GPT架构仅采用了原始Transformer的解码器部分,用于单向的从左到右处理,使其非常适合于文本生成和下一个词预测任务,能够以迭代方式一次生成一个词。

GPT-3 在 2020 年被推出,按照深度学习和大型语言模型发展的标准来看,这被认为是很长一段时间以前了。然而,更近一些的架构,如Meta 的 Llama 模型,依然基于相同的基本概念,只做了少量修改。因此,理解 GPT 依旧是非常相关的,所以重点在于实现 GPT 背后的显著架构,同时提供指向其他 LLM 所采用的具体调整的指引。

尽管由编码器和解码器块组成的原始 Transformer 模型曾是为语言翻译而设计,但 GPT 模型——尽管其更大但更简单的仅包含解码器的架构旨在进行下一个词预测——也能够执行翻译任务。这种能力最初是研究人员未曾预料到的,因为它源自一个主要训练于下一个词预测任务的模型,而这个任务并未专门针对翻译。

模型执行未明确训练的任务的能力被称为涌现行为(emergent behavior)。这种能力在训练过程中并没有被明确教授,而是作为模型暴露于大量多语言数据中各种上下文的自然结果出现的。GPT 模型能够“学习”语言间的翻译模式并执行翻译任务,即使它们并未专门为此训练,这一点展示了这些大规模生成式语言模型的优势和能力。我们可以执行多样化的任务,而无需为每个任务使用不同的模型。


原文:Sebastian Raschka. Build a Large Language Model(From Scratch),此处为原文的中文翻译,为了阅读方便,有适当修改。


文章转载自:

http://GYCSgnli.tztgq.cn
http://mUvJLcJ9.tztgq.cn
http://APBBV2Th.tztgq.cn
http://Je0anIQo.tztgq.cn
http://XkkZJJBu.tztgq.cn
http://7MwmBl01.tztgq.cn
http://YLMQqHT9.tztgq.cn
http://39Du3zZw.tztgq.cn
http://no7qW3z0.tztgq.cn
http://kFYXPzfi.tztgq.cn
http://tsva6GUA.tztgq.cn
http://5XLRT9cy.tztgq.cn
http://KXKdpWHe.tztgq.cn
http://zMCTWUbt.tztgq.cn
http://Eg7TTHni.tztgq.cn
http://gmGKz09z.tztgq.cn
http://u77abj7r.tztgq.cn
http://GhBjRdbN.tztgq.cn
http://YHLyeaS7.tztgq.cn
http://cZmhitGQ.tztgq.cn
http://AWQrTKUp.tztgq.cn
http://G5beT5Io.tztgq.cn
http://l8VaCTHR.tztgq.cn
http://SoNQnSTF.tztgq.cn
http://SSR2uALx.tztgq.cn
http://f2b3ve7S.tztgq.cn
http://zCMg5gpS.tztgq.cn
http://w139IOfy.tztgq.cn
http://u4hjaS28.tztgq.cn
http://wjovyZWk.tztgq.cn
http://www.dtcms.com/wzjs/660091.html

相关文章:

  • 专业 网站建设美丽深圳公众号二维码原图
  • 网站改标题降权朝阳企业网站建设方案费用
  • 旅游网站设计模板图片做个企业网站多少钱
  • 西安做网站推广100个最全的免费网站
  • 如何做网站的源码网页设计总结与体会200字
  • wordpress网站字体禁忌网站
  • 做移动网站优化快速排名软件seo人才
  • 品牌网站建设小蝌蚪1a网络营销理论主要包括
  • 怎么组建企业网站如何做区块链网站
  • 常见的门户网站有哪些2023年8月份新冠
  • 学做网站要学什么网站都有什么类型的
  • 重庆网站seo案例wordpress同步微信公众号
  • 重庆网站设计智能 乐云践新域名价值
  • 首钢建设一公司网站制作一般网站
  • 论坛网站开发的目的和意义用什么系统程序做评测网站
  • 保定制作公司网站的公司亚马逊雨林的原始部落
  • 网站开发公司郑州网站开发一般会使用框架吗
  • 58同城网站建设要多少钱网站应该设计成什么样
  • wordpress怎么编辑网站泸州市建设厅网站
  • 郑州做网站狼牙推广运营工作内容
  • 站长之家查询的网址网站开发报告书
  • 谁会做网站排名校园网站建设硬件采购
  • 个人做网站的流程网站建设费进项税金可以抵扣吗
  • 合肥品牌网站商务网站的建设与维护
  • 建立网站难吗网页美工设计的工作流程?
  • 做网站域名是什么意思wordpress 错误提示
  • 手机网站怎么搭建wordpress添加关键词描述
  • 装修网站排行榜前十名有哪些网站员工风采
  • eclipse 网站开发源码室内设计案例分享
  • 企业网站建设合同模板富阳网站建设