当前位置: 首页 > news >正文

石家庄 网站 科技网站公司后台

石家庄 网站 科技,网站公司后台,石家庄网页制作设计营销,wordpress如何添加备案号BPE算法(Byte-Pair) 确定词表大小,并计算语料库中的单词集合和对应的词频;然后计算这个单词集合中的构成这些单词的所有符号;实际应用中,基本词汇至少包括ASCII字符;通过合并(merge)来添加新的…

BPE算法(Byte-Pair)

  1. 确定词表大小,并计算语料库中的单词集合和对应的词频;
  2. 然后计算这个单词集合中的构成这些单词的所有符号;实际应用中,基本词汇至少包括ASCII字符
  3. 通过合并(merge)来添加新的tokens直到达到期望的词汇表大小;
  4. 循环执行步骤3,直到达到某种要求后停止;

以这个句子为例:"This is the Hugging Face Course."
首先,计算语料库的单词集合(区分大小写),并且统计词频:

[("This", 1), ("is", 1), ("the", 1), ("Hugging", 1), ("Face", 1), ("Course", 1)]

(恰好没有一个词是重复的,如果语料库中存在重复词汇,也只会在单词集合中出现一次)
其次,计算单词集合中的构成这些单词的所有符号:

["T", "h", "i", "s", "t", "e", "H", "u", "g", "n", "F", "a", "c", "C", "o", "r", "."]

然后,我们开始合并过程;is这个组合在语料库中出现两次,出现频率比较高,因此,词表变化为:

["T", "h", "is", "t", "e", "H", "u", "g", "n", "F", "a", "c", "C", "o", "r", "."]

不断执行合并过程,最后满足某一条件停止。

如果我们 token化 不在训练语料库中的字符,则该字符将转换为未知 tokens,这就是为什么许多 NLP 模型在分析带有表情符号的内容的结果非常糟糕的原因之一。

GPT-2和RoBERTa的tokenizer设计一个巧妙地方法来处理这个问题;GPT-2和RoBERTa首先对输入的字符串使用utf-8进行编码Unicode代码点与编码,然后,将词汇看作是由字节编写的;尽管每个字符的字节数可能不同,但是一个字节都是8bit,这样,基本词汇表的大小就很小( 2 8 = 256 2^8=256 28=256),但是能包含所有的字符(因为对应Unicode字符集),而不会产生未知token;这个技巧被称为字节级(byte-level) BPE.

BPE算法是一种贪婪算法:为了以最有效的方式表示语料库,BPE 在每次迭代时都会通过查看其频率来检查每个可能的合并选项,并且每次合并那些出现频率最高的合并对。因此,该算法的确是贪婪的。

正如上面所说的,BPE算法是一个基于统计的方法,因此,我重新思考,对这一个过程展开一个形式化的描述:

  1. 统计:词频与共现
    BPE算法的每一步合并都依赖于字符对的共现频率。假设初始词汇表为所有单字符,语料库为 D D D,定义一下符号:
  • c ( x ) c(x) c(x):字符或子词 x x x D D D 中出现的次数。
  • c ( x y ) c(xy) c(xy):字符对 x y xy xy D D D 中连续共现的次数。

什么是 x y xy xy 共现? x y xy xy是明确序偶关系的,假设 x = a b x=ab x=ab y = c y=c y=c,需要统计 a b c abc abc出现的次数。

合并规则:在每轮迭代中,选择共现频率最高的字符对 ( x ∗ , y ∗ ) = arg ⁡ max ⁡ ( x , y ) c ( x y ) (x*, y*) = \arg \max_{(x, y)} c(xy) (x,y)=argmax(x,y)c(xy),将其合并为新子词 z = x ⊕ y z = x \oplus y z=xy

  1. 概率模型:条件概率
    如果将合并过程视为对字符的条件概率估计,那么可以这样假设:字符对 ( x , y ) (x, y) (x,y) 的条件概率为:
    P ( y ∣ x ) = c ( x y ) c ( x ) P(y|x) = \frac {c(xy)}{c(x)} P(yx)=c(x)c(xy)
    但是BPE算法不是直接最大化条件概率 P ( y ∣ x ) P(y|x) P(yx),而是选择直接最大化 c ( x y ) c(xy) c(xy)
http://www.dtcms.com/a/518345.html

相关文章:

  • 东莞中英文网站建设seo 网站 结构
  • 网站搭建思路新手如何做自己的网站
  • 去哪儿网站排名怎么做阿里巴巴的网站应该怎么做
  • 建设部网站 光纤到户网站经营许可备案
  • 网站改版的原因自建网站做外贸的流程
  • 国外化工网站模板net做公司网站是否适合
  • 网站服务器怎么看是哪个厂家的深圳注册公司核名查询
  • 盘龙城做网站wordpress黄页
  • 做外贸如何分析客户网站在线网站建设收费
  • 网站建设公司哪里可以做外贸网站推广
  • 做空机构的网站手机网站seo软件
  • 什么网站会更有浏览量哈尔滨营销型网站建设公司
  • 网站开发字典文档莞城网页设计
  • 公司网站设计与开发WordPress插件集成在主题
  • 专业做电子的外贸网站建设工程建设有限公司经营范围
  • 国外推广国内网站零基础学习做网站
  • 住房和城乡建设厅网站wordpress前端用户
  • 网站建设大德通众包大红门桥做网站
  • 百度如何推广网站网站原型
  • 互联网站安全禅城容桂网站制作
  • 做企业网站设计手机站如何做网站卖衣服
  • 网站建设办什么手续做视频的素材网站
  • 郑志平爱站网创始人浏览有关小城镇建设的网站记录
  • wordpress建站的案例个人可以做外贸网站吗
  • 如何查看网站外链网页设计如何换行
  • wordpress建站教程jiuyouwordpress 下工具下载
  • 怎么做百度网站免费的深圳专业营销网站制作
  • wordpress上传ftpseo在线培训机构
  • 郑州网站建设口碑好设计师浏览网站
  • 网站建设公司与前端计算机学院网站建设系统可行性分析