当前位置: 首页 > wzjs >正文

建设品牌网站免费合作加工厂

建设品牌网站,免费合作加工厂,东莞常平隐贤山庄门票多少,wordpress怎么精简语言的“颗粒度”:我们到底在切什么? 我们都知道模型要处理文本,第一步是把一段段字符变成“token”。但这些 token 究竟应该是句子、单词,还是更小的片段,比如“un break able”? 这背后涉及的是一个非…

语言的“颗粒度”:我们到底在切什么?

我们都知道模型要处理文本,第一步是把一段段字符变成“token”。但这些 token 究竟应该是句子、单词,还是更小的片段,比如“un + break + able”?

这背后涉及的是一个非常核心的问题:我们到底用什么单位来让模型“看懂”语言?这个单位,就叫做 token,而设计这个单位的方式,就是 tokenizer。

Tokenizer 就像语言世界的切割刀,它决定了模型从多大、从哪里开始理解文本。粗了,信息不够细;细了,理解变得困难。


Tokenizer 的作用:不仅是切词,更是理解的“格式”

我们不妨打个比方:如果把语言模型比作人脑,那 tokenizer 就是它的“眼睛”。一双合适的眼睛,能帮助我们快速捕捉信息;而模糊不清的视野,只会增加理解的负担。

当你读到“unbelievable”,你可以立刻意识到它是“un + believe + able”构成的,这种构词结构能让你快速理解它的意思。如果 tokenizer 能切出这样的结构,模型自然也能更快学到“构词法”。

而如果 tokenizer 把它切成了“u + n + b + …”,模型可能就要花更多精力才能拼凑出“哦,这是一个否定+动词+形容词构成的词”。


多种颗粒度下的 Tokenizer

颗粒度示例优点缺点常见应用模型
句子级“今天天气真不错。”结构清晰,语言自然单位无法细致建模,严重OOV问题早期RNN、规则模型
单词级“unbelievable”易懂,训练快新词无能为力Word2Vec、GloVe
子词级“un + believe + able”词表小,无OOV,语义较好切分复杂,训练有偏BERT, GPT, T5 等
字符级“u + n + b + …”跨语言能力强,无需词表序列太长,学习难CANINE、ByT5
字节级“\x75 \x6e \x62 …”统一所有输入类型,无任何限制表达太原始,需要大模型配合GPT-2、tiktoken
区域级(图像)图像划分的 Patch(如ViT)可以对图像输入统一处理不一定与语言token天然对齐CLIP, BLIP, Flamingo 等

我们可以看到,从语义结构最强的“句子”到最原始的“字节”,Tokenizer 划分的单位越小,信息越精细,但模型所承担的“组合理解”任务也越大。


Tokenizer 是怎么“切”的?

除了“切多大”,另一个问题是“怎么切”。有两种主要方式:

自下而上(从细到粗)

这是像 BPE、WordPiece 采用的方式。它们会从字符出发,看哪些字符经常一起出现,就把它们合并成一个 token。

比如:

  • “t” + “h” = “th”
  • “th” + “e” = “the”

这就像小朋友拼积木:经常拼在一起的,就变成一个新块。

自上而下(从粗到细)

UnigramLM 则反其道而行之:先给出一个大词表,然后剪掉那些“不太重要的”子词。

这种方式的好处是:

  • 可以保留多种切分方式
  • 允许在训练中做“随机切分”,增强模型泛化能力

它特别适合像中文、日文这种没有空格的语言。

自动学习(可学习的Tokenizer)

最近的趋势是:让模型自己学!

例如:MxDNA 会让模型自己决定“这个DNA序列该怎么切”,而不是你提前设定好。LaVIT 等多模态模型甚至可以自动学习图像要分几个 token。

这说明:Tokenizer 已经不只是静态规则,而是可以作为模型的一部分,由数据驱动学习得来。


小结:Tokenizer 是理解的设计哲学

一句话总结:Tokenizer 决定了模型“看到什么”。

它不是辅助工具,而是模型理解世界的基础。就像你戴什么样的眼镜,会直接影响你对世界的观察方式。

后续我们会聊:

  • NLP 的 Tokenizer 是如何一步步演化出来的?
  • 多模态中,图像、音频也能被“切”吗?
  • 在蛋白质、基因这类序列中,我们如何找到合适的“token”?

Tokenizer,从此不只是“切词”的代名词。


文章转载自:

http://39fclybf.sgmgz.cn
http://eLN5NMw1.sgmgz.cn
http://VtHPABZp.sgmgz.cn
http://dz2vs5hr.sgmgz.cn
http://As2bGqfd.sgmgz.cn
http://ms7tTx8Z.sgmgz.cn
http://kh6tbtAw.sgmgz.cn
http://NSMQDNgN.sgmgz.cn
http://1lFQ3q82.sgmgz.cn
http://hqJ9YalW.sgmgz.cn
http://NySEvmcg.sgmgz.cn
http://s3I79Lwa.sgmgz.cn
http://BNr9epj4.sgmgz.cn
http://TCRkLLMB.sgmgz.cn
http://5J0k4abC.sgmgz.cn
http://J01osxM0.sgmgz.cn
http://xWJt28d3.sgmgz.cn
http://Uv3gaKlH.sgmgz.cn
http://qyiJiyZK.sgmgz.cn
http://InR0nAfn.sgmgz.cn
http://xbRnRXvg.sgmgz.cn
http://mXHyhkLq.sgmgz.cn
http://hRpG6u3v.sgmgz.cn
http://cBQCGmON.sgmgz.cn
http://7A4ycdw1.sgmgz.cn
http://YxEARrB5.sgmgz.cn
http://Sp70JrJ8.sgmgz.cn
http://wH7LLchP.sgmgz.cn
http://jTcaS8Eq.sgmgz.cn
http://UzjRjlbz.sgmgz.cn
http://www.dtcms.com/wzjs/627971.html

相关文章:

  • 线上学编程哪个机构比较好四川seo推广公司
  • 电商网站建设资讯子夜免费观看
  • 海淀区网站建设公司广州网站建设定制费用
  • php程序员湛江seo网站管理
  • 国内公司网站需要备案吗烟台seo网站推广费用
  • 怎么自己创建网站免费wordpress系统配置
  • 深圳市建设注册执业资格中心网站网站代理做反向
  • 做网站的好公司有哪些网站建设 天猫 保证金
  • 基本型电子商务网站2019河北省建设厅检测员报名网站
  • 哪个网站可以免费学编程做网站策划书
  • ui外包网站网站域名空间购买
  • 手机建站平台哪个便宜查公司注册信息怎么查
  • 网站建设哪家学校好apache 静态网站
  • 网站怎么做动态图片私密浏览器免费看片在线看
  • 广饶网站设计做门户网站的框架
  • 求个没封的w站2021你懂郑州艾特网站建设
  • 胶州建设工程信息网站做企业网站赚钱吗
  • 广州网站建设公司电话黄骅贴吧足疗
  • 建设厅网站上人员怎么导出做网站有关机械的图片
  • 中天建设有限公司官方网站网站推广优化价格
  • 东阳市网站建设小程序开发公司网站源码下载
  • 软件开放和网站开发成都工程建设项目网站
  • php网站开发实企业网络组网设计
  • 企业怎么做自己的网站做ppt到哪个网站找图片
  • 建设网站什么软件比较好wordpress建站模版
  • 做淘客网站要备案网站鼠标的各种效果怎么做的
  • 阿里云如何建设网站wordpress使用的数据库编码
  • 杭州临平网站建设wordpress切换语言包
  • 网站建设维护服务协议中国室内装饰设计网
  • 网站设计是平面设计吗网站 侧边栏