当前位置: 首页 > news >正文

常见的分词算法

常见的分词方法分类如下:

类型名称说明优缺点
1️⃣ 基于空格/标点Word-level以空格或标点划分,如 "Hello, world!" → ["Hello", ",", "world", "!"]✅简单,❌无法处理新词,词表太大
2️⃣ 基于字符Character-level一个字符一个 token,如 "你好" → ["你", "好"]✅通用性好,❌序列太长
3️⃣ 子词级Subword-level
(🔥主流)
通过数据学习出词根、词缀、组合形式,如 "playing" → ["play", "ing"]✅处理 OOV、新词能力强,模型更稳定
4️⃣ 拼音/词干提取特殊任务中使用适合中文/特定语言,或搜索系统✅提升特定语言效果
5️⃣ SentencePiece通用子词分词器(T5、XLNet)不依赖空格,用字符构建词表✅适用于多语言、无空格语言(如中文)


🔥 主流 NLP 模型用的分词方法

模型分词方法工具
BERTWordPiecetransformers 内置
GPT/GPT-2Byte-Pair Encoding (BPE)tokenizers
RoBERTaBPEtokenizers
T5SentencePiecesentencepiece
通义 QwenBPE + 中文词粒度优化阿里自研 tokenizer
Baidu ERNIEWordPiece + 中文增强百度 PaddleNLP
OpenAI GPT-4tiktoken支持 byte-level 分词


🧠 重点解释:三大子词分词方法(subword)

方法原理应用模型
✅ WordPiece从大词拆小(优先匹配最长前缀)BERT、ERNIE
✅ BPE(Byte Pair Encoding)高频字符组合为子词GPT-2、RoBERTa、Qwen
✅ SentencePiece无需空格,支持任意语言,直接从字符训练T5、ALBERT、XLNet

🔍 示例:将 unhappiness 分词

  • WordPiece: ["un", "##happiness"]

  • BPE: ["un", "happi", "ness"]

  • SentencePiece: ["▁un", "happiness"]


🧪 中文分词特别注意:

中文没有空格,不像英文那样天然有“词界限”。

  • 🔸 原始中文可以用 jieba(规则+词典)

  • 🔸 大模型(如 BERT 中文版)用的是字符级 + WordPiece

  • 🔸 最新模型(如通义、百川)会特别训练 tokenizer,更好处理“你是谁” vs “你是 谁”


📦 工具推荐(直接用):

工具库特点
🤗 transformers预训练模型自带 tokenizer
tokenizers更底层,可自定义训练 tokenizer
sentencepiece训练 T5 / BERT tokenizer
jieba中文规则分词,适合快速试验


✨ 总结口诀:

英文分词有空格,中文分词靠模型;WordPiece 拆词根,BPE 合字符;SentencePiece 全自动,不挑语种最灵活。

相关文章:

  • SAP BASIS常用事务代码ST06 操作系统监控
  • @ModelAttribute、@RequestBody、@RequestParam、@PathVariable 注解对比
  • VUE3+ts 实践记录
  • 【AI面试秘籍】| 第24期:Transformers / LLM的词表应该选多大?
  • 从本地到云端:Code App+SSH协议在iPad开发中的性能优化实战
  • pyinstaller 使用 控制台闪退解决办法
  • 文本预处理
  • ubuntu24.04与ubuntu22.04比,有什么新特性?
  • PS linux 基础篇1-AXI_DMA
  • 大数据学习(125)-hive数据分析
  • STM32CUBE打印浮点数据-cmake配置
  • NodeJS 基于 Koa, 开发一个读取文件,并返回给客户端文件下载,以及读取文件形成列表和文件删除的代码演示
  • 通配符(Wildcard)与正则表达式(Regular Expression)的关系及区别
  • MySQL高可用方案:Keepalived+双主库架构深度解析与实战指南
  • scrollTop 设为 0 不生效的可能原因
  • 23、Swift框架微调实战(3)-Qwen2.5-VL-7B LORA微调OCR数据集
  • 01.认识Kubernetes
  • 【Linux】揭秘Linux进程优先级与调度机制
  • 探秘文件系统:定义、功能与各类型全方位对比
  • zynq ad7616 调试笔记
  • 网站开发及推广是怎么回事/百度引流免费推广怎么做
  • 网站开发知识/网上打广告有哪些软件
  • 建设美妆企业网站/营销软文范例大全
  • 邯郸做网站就找安联网络/建站快车
  • 南通公司网站建设/惠州seo排名公司
  • 专门做二手手机的网站吗/南昌seo快速排名