当前位置: 首页 > news >正文

【大模型】分词粒度

如何理解分词粒度?
分词粒度是一种要从哪种角度进行分词的;可以包括字符级(character level)、单词级(word level)、子词级(sub-word level)、(字节级(byte level));(很难说字节级应该被认为是一种技巧还是一种分词粒度)
例如对于一句话:This is the Hugging Face Course.,
字符级分词会按照单个字符进行分词,对于上面这段文本,可以分割为:

['T', 'h', 'i', 's', 't', 'e', 'H', 'u', 'g', 'n', 'F', 'a', 'c', 'C', 'o', 'u', 'r', '.']

如果不区分大小写的话(bert-base-uncased是一个不区分大小写的分词器):会先将原文本全部变为小写:This is the Hugging Face Course.->this is the hugging face course.

['t', 'h', 'i', 's', 'e', 'u', 'g', 'n', 'f', 'a', 'c', 'o', 'u', 'r', '.']

对于中文而言,以你好,这是一篇关于分词粒度的博客!为例,则会被分割为:

['你', '好', '这', '是', '一', '篇', '关', '于', '分', '词', '粒', '度', '的', '博', '客']

单词级分词则会按照词进行分词,这种方法对于英文而言十分方便简单:

['This', 'is', 'Hugging', 'Face', 'Course', '.']

如果按照句子中的空格进行分词,['This', 'is', 'Hugging', 'Face', 'Course.']

中文使用词汇级的分词器似乎并不是很多,似乎也不是很合适。
子词级分词按照词的子词进行分词,类似于利用词根词缀来进行分词。

['This', 'is', 'the', 'Hu', '##gging', 'Face', 'Course', '.']

中文也有对应的子词级的分词,仍然是上述的文本:

['你好', ',', '这', '是一', '篇', '关于', '分', '词', '粒', '度', '的', '博客', '!']

(中文分词来自于Qwen2.5

拿房子举个例子叭,尽管不一定贴切;有一个房子,我们可以将房子拆分为厨房、卧室、客厅、卫生间…,这是一种粒度;可以继续拆分为砖、水泥,玻璃…,这又是一种更细的粒度;砖、水泥、玻璃都可以被继续分解为沙子、泥等;这还是一种粒度,因此,房子到底是由什么组成的,取决于从哪种粒度上进行分析。

什么是字符? 字符可以理解文本数据中最小的组成部分。
字符可以是:
字母:AB
数字:01
标点符号:!?
特殊符号:@#
空格、换行等控制字符;
汉字:
等等

相关文章:

  • 大模型训练过程中KVCache与MLA
  • k近邻算法K-Nearest Neighbors(KNN)
  • 多个git账户团队写作
  • DATA 动态给值处理
  • linux和windows是采用何种机制保存密码的?
  • 构建高可用性西门子Camstar服务守护者:异常监控与自愈实践
  • 计算机二级WPS Office第四套电子表格
  • playwright基础样例demo大全
  • 大模型LLMs框架Langchain之工具Tools
  • 详解Http:在QT中使用Http协议
  • VMware Windows Tools 存在认证绕过漏洞(CVE-2025-22230)
  • B/S阅片项目算法梳理
  • 系统与网络安全------网络应用基础(6)
  • 无人机助力道路智能养护,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建无人机航拍道路交通场景下水泥路面缺陷智能检测识别系统
  • 如何在WordPress中限制用户登录到一台设备
  • Python小练习系列 Vol.2:斐波那契数列的三种实现方式(从低效到高效)
  • Git项目要改变仓库地址
  • Windows .gitignore文件不生效的情况排查
  • 实现类今日头条主界面:ViewPager与TabLayout深度整合
  • es6的箭头函数与普通函数的区别,箭头函数的this通常指向哪里,箭头函数可以用作构造函数吗?
  • 怎样找人做网站/子域名大全查询
  • 手机网站制作公司 广州/哪里可以买链接网站
  • 清远企业网站建设公司/网络营销推广实战宝典
  • 工业做网站/专业地推团队电话
  • 做微商推广有哪些好的分类信息网站/沈阳seo推广
  • 网站中的游戏是怎么做的/流量查询网站