当前位置: 首页 > news >正文

聊城网站建设工作室开户推广竞价开户

聊城网站建设工作室,开户推广竞价开户,建设网站有什么好处,建设外贸网站费用参考文章:子词分词器BPE和WordPiece理解_wordpeice-CSDN博客 子词分词器BPE和WordPiece理解_wordpeice-CSDN博客 WordPiece 和 BPE 的区别-CSDN博客 点互信息(PMI)和正点互信息(PPMI)-CSDN博客 https://zhuanlan.z…

参考文章:子词分词器BPE和WordPiece理解_wordpeice-CSDN博客

子词分词器BPE和WordPiece理解_wordpeice-CSDN博客

WordPiece 和 BPE 的区别-CSDN博客

点互信息(PMI)和正点互信息(PPMI)-CSDN博客

https://zhuanlan.zhihu.com/p/649030161

BPE和WordPiece都是常用的子词分词器,子词分词器可以控制词表的大小的同时学习到有意义的上下文表示,所以现在的深度学习模型一般会使用子词分词器。

相同点:

都要指定一个词典的大小

都包含更细粒度的子词,所以可以控制词典的大小的同时,缓解OOV问题

不同点:

将词加入基础词典的选择策略不一样,BPE是选择频率最高的字符对,WordPiece是选择使训练数据的似然概率最大的字符对。

BPE和WordPiece的区别在于如何选择两个子词进行合并。

BPE的词表创建过程:

1. 首先初始化词表,词表中包含了训练数据中出现的所有字符。
2. 然后两两拼接字符,统计字符对在训练数据中出现的频率。
3. 选择出现频率最高的一组字符对加入词表中。
4. 反复2和3,直到词表大小达到指定大小。

WordPiece是贪心的最长匹配搜索算法。基本流程:
1. 首先初始化词表,词表包含了训练数据中出现的所有字符。
2. 然后两两拼接字符,统计字符对加入词表后对语言模型的似然值的提升程度。
3. 选择提升语言模型似然值最大的一组字符对加入词表中。
4. 反复2和3,直到词表大小达到指定大小。

BBPE和BPE的关系:

BBPE算法在基于字节(Byte)进行合并过程和BPE一致、也是选取出现频数最高的字符对进行合并。BPE基于char粒度去执行合并的过程生成词表。

BBPE 的兼容性—通用模型(多种语言)

BBPE解决一个问题是能比较好支持语料是多种语言的分词,一方面正如上面所说,如果只考虑英文、法语、西班牙语等拉丁美系的语言,BEP足以支持能够以较小词表大小(Vocabulary Size)解决OOV的问题。但中文、日本如果使用BEP对字符(characters)进行构造词表的话,其具有的生僻词会占据浪费比较大词表空间。结合最近有关GPT5加强其翻译的能力的报道,通用人工智能AGI的角度上来看,使用对支持多种语言的友好的Tokenizer可以极大降低成本,同时突出翻译的能力。在LLM时代,如何设计一个兼顾通用且高效推理的Tokenizer是非常重要的事情。


 

http://www.dtcms.com/a/492999.html

相关文章:

  • 公司网站 seo专门做调查的网站
  • 网站服务器 英文wordpress 拖动
  • 十大免费数据网站网站用户体验解决方案
  • 找人搭建网站多少钱工具用具使用费是指企业施工生产
  • 云南做网站多少钱贵州省住房和城乡建设厅官网站
  • 诸暨公司网站建设天猫店
  • 网站策划工具如果做网站运营
  • 网站开发 建设叫什么怎么查自己名下有没有注册公司
  • 网站建设需要注意的关键细节东莞轻推网络公司
  • 网站建设方案如何写wordpress 消息队列
  • 网站架构搭建展示型网站案例
  • Linux操作系统学习之---进程信号的捕捉(version1)
  • wordpress文章中写代码怎么让客户做网站优化
  • 尚云网站建设如何建设一个国外网站
  • 挖矿网站怎么免费建设福州搜索排名提升
  • 百度站长网站验证一站式网站建设顾问
  • 网站建设管理费一能多少钱购物网站的设计思路
  • 云主机放多个网站百度提问登陆入口
  • C++ 用哈希表封装unordered_set/map
  • 生物科技公司网站模板如何做攻击类型网站
  • 注册一个免费的网站办公室装修费用
  • 免费网站推广方式asp做网站步骤
  • 网站开发当前城市定位功能公装设计网站
  • 贵安建设厅网站网站漂浮代码
  • 本地服务型网站开发微信小程序开发者
  • 怎么样学做网站手机h5页面制作
  • 郑州网站设计与制作有创意的广告图片及赏析
  • C语言 文件读写 ftell 函数 - C语言零基础入门教程
  • 校园网站设计开题报告汕头seo网站排名
  • 鸿蒙应用开发-状态管理(二)