当前位置: 首页 > wzjs >正文

秀山网站建设免费收录平台

秀山网站建设,免费收录平台,公司做网站那个网站好,可以做动感影集的网站一、Tokenizer的作用 将文本序列转化为数字序列(token编号),作为transformer的输入是训练、微调、推理的LLM的一部分 简单的输入文本:“Some, words are input?” 分割结果:["Some", "," &quo…

一、Tokenizer的作用

  1. 将文本序列转化为数字序列(token编号),作为transformer的输入
  2. 是训练、微调、推理的LLM的一部分
简单的输入文本:“Some, words are input?”
分割结果:["Some", ","  "words ", "are ", "input", "?"]
转成token_id:[121, 694, ..., ...]

具体的详细实践可以看我前面的两篇博客:分词算法BBPE详解和Qwen的应用_bbpe 训练-CSDN博客

分词算法BPE详解和CLIP的应用-CSDN博客

二、word-based Tokenizers

简单描述:将文本划分为一个一个的词(包括标点)

优点:

  1. 符合人的自然语言和直觉,词粒度能保留更多的语义信息
  2. 序列划分后词元数量更短,处理起来更高效;;

缺点:

  1. 按词为粒度进行划分,会导致词典庞大

  2. 词汇是不断扩张的,对于新产生的不在词典里的词,会带来OOV问题(未知的词用特殊的token表示,丢失了关键信息,直接对模型性能造成影响)

  3. 稀疏词、低频词无法在训练时有充分的语料进行训练;

  4. 难以学习到同一个词的不同形态,比如英文中的look和looks,按词划分的话需要对这两个分别进行训练,但显然没这个必要;

三、Character-based Tokenizers

简单描述:将文本划分为一个一个的字符

优点:

  1. 可以表示任意(英文)文本,不会出现word-based中的unknow情况
  2. 词表很小,比如英文只需要不到256个字符

缺点:

  1. 相对word-based来说信息量非常低,导致模型性能很差
  2. 相对于word-based来说,会产生很长的token_id序列
  3. 中文也需要一个很大的词表

四、Subword-based Tokenizer

具体见我上面两篇博客:BPE和BBPE算法,还包括WordPiece Tokenization和Unigram Tokenization(本文就不详细介绍分词算法细节)

简单描述:

  1. 常用词不应该切分成更小的token或者subword
  2. 不常用词或者词群应该用字词来表示

优点:

  1. 使用subword划分英文词群,既能够保留充分的语义,也能够做到相对的高效和词表小
  2. 也能够尽量避免OOV问题(BPE依旧存在,BBPE解决了OOV问题)

怎么训练的?

  1. 初始化:将语料库中的单词分解为字符序列,末尾加上特殊符号表示词的计数
  2. 统计相邻符号的频率
  3. 合并频率最高的符号对
  4. 重复1-3步骤,直至满足达到预设的词汇表的大小

五、结论

基本上现在的GPT、LLama、Qwen、InternVL应该都采用了sub-word的算法(从开源的paper或者代码中找到,但是闭源的就不太清楚了),还有一些基于sentence的库的sub-word算法实现,此处就不详细介绍了

http://www.dtcms.com/wzjs/504454.html

相关文章:

  • 自己模板做网站广州关于进一步优化疫情防控措施
  • 加强农业网站建设上海百度关键词推广
  • 网站建设与规划试卷站点
  • 一起做网站女装夏季电脑培训机构
  • 通付盾 网站建设公司百度知道网页入口
  • 防城港做网站山东移动网站建设
  • 青海环保网站建设公司网站推广业务
  • bc网站开发长沙seo排名收费
  • 免费的网页域名台州网站seo
  • 建网360 网站建设seo公司怎么推广宣传
  • 益阳市网站建设科技搜索引擎优化搜索优化
  • 网站建设安全标准博客可以做seo吗
  • 草桥做网站公司网推项目接单平台
  • 广告流量投放seo免费优化软件
  • 电商网站规划品牌传播策划方案
  • 2017织梦网站怎么做seo外贸如何做网站推广
  • 哪些网站的做的好看快速排名推荐
  • 网站定制公司排行榜东莞全网营销推广
  • 简历模板免费下载网站优化网站seo方案
  • 邢台做网站哪家好网站在线优化检测
  • 电子商务网站设计的原则成都疫情最新消息
  • 免费建设互动的网站深圳防疫措施优化
  • 健康类网站模板太原网站快速排名提升
  • 货代找客户的网站网络推广的方法有
  • 做文献ppt模板下载网站有哪些企业网址怎么注册
  • 做网站的公司需要哪些资质百度平台客服电话
  • seo优化工具使用教程谷歌seo搜索优化
  • wordpress cos关键词优化的软件
  • 上海品质网站建设常德网站建设制作
  • 上海做网站建设的公司排名百度seo排名规则