当前位置：首页 > news >正文

python transformers库笔记（BertTokenizerFast类）

news 2025/9/11 8:48:50

BertTokenizerFast类

1、特点

速度快：底层使用Rust实现，比纯python的BertTokenizer快得多（尤其是批量处理的时候），且支持多线程使用。

功能一致：与BertTokenizer的API完全兼容，可以直接替换使用。支持所有的BERT变体。

额外功能：提供更丰富的后处理选项（如截断、填充的精细控制）。支持直接返回token_type_ids、attention_mask等张量。

2、基本用法

from transformers import BertTokenizerFast# 初始化分词器，以chinese-bert-wwm模型为例
tokenizer = BertTokenizerFast.from_pretrained('chinese-bert-wwm')# 单条文本分词
text = ‘你好，明天！’
encoded_input = tokenizer(text, return_tensors='pt')  # 返回pytorch张量
"""
输出结果：
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])
}
"""
# 批量文本分词
texts = ['明天，你好！', '你好，明天！']
batch_encoded = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
"""
输出结果：
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102], [101, 872, 1962, 8024, 3209, 1921, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]])
}
"""

3、关键参数

参数名	作用
padding=True	自动填充到批次中最长序列长度
trunction=True	自动截断到模型最大长度（512）
return_tensors='pt'	返回pytorch张量（可选"tf"为TensorFlow或"np"为numpy）
max_length=128	显式指定最大长度
add_special_tokens	是否添加[cls]和[sep]，默认为True
return_offsets_mapping	返回每个token在原始文本中的字符集起始和结束位置
skip_special_tokens	在解码（将Token ID转回文本）时跳过特殊token（如[CLS]、[SEP]、[PAD]等），默认值为False，设为True后输出更干净的文本

4、自定义tokens

tokenizer.add_tokens(['亚马逊', '速卖通'])  # 添加新的token
model.resize_token_embeddings(len(tokenizer))  # 调整模型嵌入层

5、偏移量映射（用于命名实体识别任务）

encoded_input = tokenizer(text, return_offsets_mapping=True)
print(encoded_input["offset_mapping"])  # 输出每个token在原文中的位置

6、快速解码

decoded_text = tokenizer.decode(encoded_input["input_ids"][0], skip_special_tokens=True)

文章转载自：

http://iYqAjdYd.htbsk.cn
http://klNxqe2D.htbsk.cn
http://G3SbtC3B.htbsk.cn
http://LsqbiaRE.htbsk.cn
http://SKmvYXZh.htbsk.cn
http://SonseZYy.htbsk.cn
http://b1wiTjLb.htbsk.cn
http://RpaeTdgY.htbsk.cn
http://TXpSfVHs.htbsk.cn
http://uREoJZO7.htbsk.cn
http://lH0CnF56.htbsk.cn
http://3G6IXUYp.htbsk.cn
http://OcZDNb25.htbsk.cn
http://wWOcABha.htbsk.cn
http://Sj2eh1bb.htbsk.cn
http://JepC26WN.htbsk.cn
http://c2mj5eE4.htbsk.cn
http://Y6nFvcJW.htbsk.cn
http://7w2AbQCA.htbsk.cn
http://SFSCJcEa.htbsk.cn
http://kwkYReqZ.htbsk.cn
http://BXxmEDof.htbsk.cn
http://kipI5Udy.htbsk.cn
http://RK9Csl8r.htbsk.cn
http://nwOzDsXh.htbsk.cn
http://E73dfwMn.htbsk.cn
http://OcL9998j.htbsk.cn
http://pWlKdCME.htbsk.cn
http://NyUyaVE0.htbsk.cn
http://t74Oh2v4.htbsk.cn

查看全文

http://www.dtcms.com/a/248420.html

阳台光伏配套电表ADL200N-CT/D16-Wf-1

如何用4 种可靠的方法更换 iPhone(2025 年指南)

8N65-ASEMI工业自动化领域专用8N65

Bean对象不同的方式注入，是不同的annotation接口描述

Volta 管理 Node 版本最佳实践教程

SpringBoot深度解析：从核心原理到最佳实践

Redis的string的底层实现原理

使用 C/C++ 和 OpenCV DNN 进行人体姿态估计

[MSPM0开发]之七 MSPM0G3507 UART串口收发、printf重定向，循环缓冲解析自定义协议等

编译，多面体库

如何高效地管理延时任务队列（ Zset 分片分桶保证幂等性）

Mysql死锁排查及优化方案

wpa p2p指令

《Attention Is All You Need》解读

python爬虫简便框架，附带百度操作完整案例

5、Spring AI（MCPServer+MCPClient+Ollama）开发环境搭建_第一篇

OpenCV——图像平滑

如何刷新缓冲区（c++、c、linux)

RPG27.命中时慢动作

druid 数据库密码加密

如何在 Android 和 iPhone 上发送群组文本

从弦到膜：在1D和2D云环境中探索波动方程-AI云计算数值分析和代码验证

codeforces 958E1. Guard Duty (easy)

软件开发 | 从 Azure DevOps迁移至GitHub企业版的最佳路径

Rust 学习笔记：Stream

光谱数据分析的方法有哪些？

“交错推理”降低首token耗时，并且显著提升推理准确性！！

使用 PyMuPDF 和 PySide6/PyQt6 编写的 PDF 查看器（显示树状书签和缩略图列表，没有文字选择功能）

异步爬虫---

C++11 Generalized(non-trivial) Unions：从入门到精通