当前位置: 首页 > wzjs >正文

网络公司网站建设网站南昌

网络公司网站,建设网站南昌,wordpress侧边栏加视频板块,大一网站开发体会前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的,希望你可以对此有一个感性的认识。 本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程,这个过程被称为分词,也叫 tokenization。 在你没了解这方面…

前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的,希望你可以对此有一个感性的认识。

本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程,这个过程被称为分词,也叫 tokenization。

在你没了解这方面的知识之前,如果让你实现一个类似的算法,你会如何来实现呢?我想你可能最先想到便是使用空格来进行分词。

Attention:全网最全的 AI 小白到 AI 大神的天梯成长学习路线,几十万原创专栏和硬核视频,点击这里查看:AI小白到AI大神的天梯之路

基于空格的分词

当然,这是一种最简单的分词方法。

它直接使用空格或者一些标点符号来切分文本。常用于处理那些单词之间以空格明显分隔的语言,如英语,这里给出一个基于空格的分词示例:

假设有下面一句话:

"I love learning new things about artificial intelligence and machine learning."

用空格分词后,就可以直接得到如下的 token 。

['I', 'love', 'learning', 'new', 'things', 'about', 'artificial', 'intelligence', 'and', 'machine', 'learning.']

这个很简单,也非常好理解。

这种分词方法可以用来处理一些简单的文本,但是在大型语言模型中几乎不会用到。因为太简单了,无法处理复杂的语境。

在大语言模型中,一般会使用更先进的分词方法,比如 BPE (Byte Pair Encoding)和 WordPiece 算法,这两个算法在前面两节展示 token 的时候曾经提到过,但未深入展开。

WordPiece/ BPE 的分词逻辑

WordPiece 是由 Google 开发的,后来被用在了 BERT 模型的分词过程中,而 BPE (Byte Pair Encoding,也叫字节对编码)最初是一种用于数据压缩的算法,后来才被应用到自然语言处理领域,GPT 系列的模型使用的便是 BPE 分词方法。

这两种方法对于文本的分词过程大致相同,下面通过一个例子来说明一下。

假设某文本中仅包含以下词汇:bug,debug,debugger。这里为了方便展示,假设以上词汇在文本中仅出现了一次,不考虑出现多次的情况。

首先,分词算法对以上单词进行拆分,拆分为独立的字符形式,如:

● “bug” → (“b”, “##u”, “##g”)
● “debug” → (“d”, “##e”, “##b”, “##u”, “##g”)
● “debugger” → (“d”, “##e”, “##b”, “##u”, “##g”, “##g”,“##e”, “##r”)

##代表该字符与前面的字符在拆分之前是一个完整的词。

然后,将拆分后的词汇进行汇总,得到拆分后的词汇表为:(“b”, “##u”, “##g”, “d”, “##e”, “##r”)

接下来,对上述词汇表中的词进行合并:通过一定的合并算法,将上述已拆分的子词合并。

比如,你可以使用统计的方法,经过统计发现,##u 和 ##g 在原始文本中成对出现的频率很高,那么就优先将 ##u 和 ##g 进行合并。

合并之后,最初的词汇表就变成了(“b”, “##ug”, “d”, “##e”, “##r”)。

在此基础上,还可以进一步合并,比如还可以将 b 与 ##ug进一步合并得到 bug,将d 和 ##e 进一步合并得到 de。

从而最终合并完的词汇表可能为:(“bug”, “de”, “#ger”)。

这种分词的方法,可以理解为是一种将文本拆分然后通过一定的算法再进行合并的过程,也就是说拆了又合,但是合并完和拆之前一般是不一样的。
在这里插入图片描述

WordPiece 以及 BPE 算法的不同,便是“一定的合并算法”的不同。

WordPiece 需要计算子词与子词之间的相关性分数来进行合并,而 BPE 则是单纯计算子词之间成对出现的频率来进行合并的。

但不管怎么样,两者有类似的地方:都是要先将原始词汇进行拆分,然后再进行合并,得到最终得到的词汇表(这是一个包含所有 token 的表,也可以认为是 token 的集合或者字典)。

这种方法不仅能够处理一些没有见过的词汇(因为已经把它们分解为已知的子词单元),还能优化词表的大小,从而提高语言模型的性能和效率。

需要说明的是,以上仅描述了分词的大致过程,分词并非本专栏的重要内容,在本专栏的知识架构下,你只需要了解一些常见的分词过程即可。

如果对于分词算法的细节感兴趣,可以查看一下这篇文章,写的比较详细:https://www.zhihu.com/question/64984731/answer/3183726323。


文章转载自:

http://nFlMaH5a.pfnwt.cn
http://yXaVGc3l.pfnwt.cn
http://WohLjHtW.pfnwt.cn
http://OJjrUNAK.pfnwt.cn
http://Sl7Zmhar.pfnwt.cn
http://7yMlTblJ.pfnwt.cn
http://7TuW25Oq.pfnwt.cn
http://VQKmSEL0.pfnwt.cn
http://KYeVFRpC.pfnwt.cn
http://1nOBaR53.pfnwt.cn
http://dBFMCKPE.pfnwt.cn
http://OoY4mXl2.pfnwt.cn
http://XA7WPWDq.pfnwt.cn
http://br0gkNQG.pfnwt.cn
http://RbZLxFZ1.pfnwt.cn
http://3yuNtUAK.pfnwt.cn
http://9aAxtgkV.pfnwt.cn
http://jZiIT5Q6.pfnwt.cn
http://8NdfU0kW.pfnwt.cn
http://q2dODkAD.pfnwt.cn
http://u75cTous.pfnwt.cn
http://uePP2A4X.pfnwt.cn
http://K99aMBnC.pfnwt.cn
http://fDtlZ8Eu.pfnwt.cn
http://4VtAgHGt.pfnwt.cn
http://WsvZWpKM.pfnwt.cn
http://gr7UWCHY.pfnwt.cn
http://0KgkszVO.pfnwt.cn
http://edk2EWsU.pfnwt.cn
http://FVxjOI5q.pfnwt.cn
http://www.dtcms.com/wzjs/635169.html

相关文章:

  • 银川做网站公司外贸网站建设需
  • 网站服务理念济南网站制作工具
  • 那些网站容易做淘宝推广wordpress当下载站
  • 制作公司网站 优帮云深圳建设网站个人
  • 临河可以做网站的公司汕头市住建局
  • 网站代备案系统足球直播网站怎么做
  • 重庆建设网站建站南昌做网站建站的
  • 随州网站优化网页设计制作网站模板图片
  • 天翼云主机怎么建设网站网站开发的有关公司
  • 新手做网站视频开发公司招商引资产生账务怎么做账
  • 电子商务网站建设的实训心得响应式网站wordpress摄影
  • 怎么做网站报价表建影楼网站多少钱
  • 视频源网站怎么做哈尔滨最新通告
  • 微信微网站统计怎么才能免费建网站
  • 舟山大昌建设集团网站wordpress 网页计算器
  • 曲阳有没有做网站里网站已运行时间代码
  • 建设银行网站ie11打不开wordpress startit
  • 重庆做木门网站公司简介可以定制东西的软件
  • 湛江赤坎海田网站建设招聘制作一个公司网站的流程
  • 济南营销型网站制作网站备案时 首页
  • dreamware做网站哪些网站做推广比较好
  • 自己做网站需要什么软件下载网站建设费用折旧年限
  • 苏州做门户网站的公司伪静态nginx wordpress
  • 新手做视频网站好wordpress 修改路径
  • 免费的建站软件推荐下载图片描述 wordpress
  • 商城app网站开发上海有几个区域
  • 广州番禺建网站新闻静态网站模板
  • 叫人开发网站注意事项河北网站建设收益
  • tplink虚拟服务器做网站网站设计怎么划分块
  • 电子商务类网站建设爱站网关键词挖掘工具