当前位置: 首页 > news >正文

玩转tokenizer

🌟 案例 1:加载现成的 BERT 分词器

from tokenizers import Tokenizer# 加载一个预训练的 BERT tokenizer(文件需要提前下载,比如bert-base-uncased)
tokenizer = Tokenizer.from_file("bert-base-uncased-tokenizer.json")# 对文本进行编码
output = tokenizer.encode("Hello, I love studying AI with BERT!")print("Tokens:", output.tokens)   # 分出来的 token
print("IDs:", output.ids)         # 对应的 token id

🌟 案例 2:自己训练一个小分词器

from tokenizers import Tokenizer, models, trainers, pre_tokenizers# 使用 WordPiece 作为分词模型(BERT 用的就是这个)
tokenizer = Tokenizer(models.WordPiece())# 设置预分词器(按空格和标点分)
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()# 训练器
trainer = trainers.WordPieceTrainer(vocab_size=1000, special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])# 用一些文本来训练(这里随便写几个)
texts = ["I love natural language processing.","BERT is a transformer model.","Deep learning is fun!"
]tokenizer.train_from_iterator(texts, trainer)# 保存分词器
tokenizer.save("my-tokenizer.json")# 使用训练好的分词器
output = tokenizer.encode("I love BERT!")print("Tokens:", output.tokens)
print("IDs:", output.ids)

🌟 案例 3:解码(从 ID 还原文本)

from tokenizers import Tokenizertokenizer = Tokenizer.from_file("my-tokenizer.json")output = tokenizer.encode("BERT makes NLP easier.")
print("IDs:", output.ids)# 解码回文本
decoded = tokenizer.decode(output.ids)
print("Decoded:", decoded)

🌟 案例 4:批量处理

from tokenizers import Tokenizertokenizer = Tokenizer.from_file("my-tokenizer.json")batch = tokenizer.encode_batch(["I like AI.","Transformers are powerful models."
])for out in batch:print(out.tokens, out.ids)

http://www.dtcms.com/a/333949.html

相关文章:

  • huggingface TRL中的对齐算法: KTO
  • PMP-项目管理-十大知识领域:成本管理-估算预算、控制成本、避免超支
  • 免费下载 Landsat 系列遥感影像——地理空间数据云
  • 《吃透 C++ 类和对象(中):const 成员函数与取地址运算符重载解析》
  • ALBEF/BLIP/BLIP2/Instruct BLIP/X Instruct BLIP
  • 从废弃到珍宝——旧物二手回收小程序系统的价值发现之旅
  • 曲面/线 拟合gnuplot
  • 新手向:Python列表、元组、集合和字典的用法对比
  • 谷歌手机刷机和面具ROOT保姆级别教程
  • 基于 LoRA的广义知识蒸馏(GKD)训练
  • 软考 系统架构设计师系列知识点之杂项集萃(125)
  • 给纯小白的 Python 操作 Excel 笔记
  • STM32 延时函数详解
  • HackMyVM-Uvalde
  • 第七十五章:AI的“思维操控师”:Prompt变动对潜在空间(Latent Space)的影响可视化——看懂AI的“微言大义”!
  • 整体设计 符号学与诠释学融合的整体设计框架(本篇暂时命名)--PromptPilot (助手)答问之1
  • 第四章:大模型(LLM)】06.langchain原理-(5)LangChain Prompt 用法
  • PowerPoint和WPS演示放映PPT时如何禁止鼠标翻页
  • [1Prompt1Story] 注意力机制增强 IPCA | 去噪神经网络 UNet | U型架构分步去噪
  • 国产之光时空克隆:功能对标谷歌地球,旅游规划还能加载倾斜摄影模型,三维视频融合 免费使用
  • GaussDB 数据库架构师修炼(十三)安全管理(3)-行级访问控制
  • 【C++】C++11
  • implement copy file content to clipboard on Windows
  • spring-ai-alibaba 学习(二十六)——graph总结
  • 超越“调参”:从系统架构师视角,重构 AI 智能体的设计范式
  • 玩转云原生,使用k9s管理k8s集群和k3s集群
  • 基本电子元件:金属氧化膜电阻器
  • PostgreSQL 时间函数及格式类型
  • 【机器学习深度学习】OpenCompass:支持的开源评估数据集及使用差异
  • [CSP-J2020] 方格取数