当前位置：首页 > news >正文

BertTokenizer.from_pretrained的讲解和使用

news 2025/7/6 18:13:31

1、功能

2.参数解析

3.使用示例

1.加载基础BERT分词器

2.编码文本（添加特殊标记）

3.处理本地模型文件

注意事项

Hugging Face的BertTokenizer.from_pretrained方法是加载预训练BERT分词器的核心接口，支持多种配置和灵活使用。

1、功能

作用：从预训练模型或本地加载BERT分词器，支持自动下载、缓存以及配置

分词器类型：基于WordPiece算法，处理子词拆分（如将“huggingface”拆为[“hugging”，“face”]）

2.参数解析

参数名	类型	默认值	说明
`pretrained_model_name_or_path`	`str` 或 `os.PathLike`	必填	预训练模型名称（如`bert-base-uncased`）或本地路径
`cache_dir`	`str`	`None`	指定缓存目录（避免使用默认`~/.cache/huggingface`）
`force_download`	`bool`	`False`	强制重新下载模型，即使已缓存
`local_files_only`	`bool`	`False`	仅使用本地文件，避免网络请求

3.使用示例

1.加载基础BERT分词器

from transformers import BertTokenizer

# 加载不区分大小写的BERT分词器
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 分词示例
text = "Hello, how are you?"
tokens = tokenizer.tokenize(text)  # ["hello", ",", "how", "are", "you", "?"]

2.编码文本（添加特殊标记）

# 转换为ID列表（自动添加[CLS]和[SEP]）
encoded_input = tokenizer.encode(text)  # 例如 [101, 7592, 2986, ..., 102]

# 获取详细输出（attention_mask, token_type_ids）
encoded_dict = tokenizer.encode_plus(
    text,
    max_length=512,        # 控制最大长度
    truncation=True,       # 自动截断超长文本
    padding="max_length",  # 填充至max_length
    return_tensors="pt"    # 返回PyTorch张量
)

3.处理本地模型文件

# 保存分词器到本地
tokenizer.save_pretrained("./my_tokenizer/")

# 从本地加载
local_tokenizer = BertTokenizer.from_pretrained("./my_tokenizer/")

注意事项

大小写敏感模型：如bert-base-cased会保留文本大小写，而uncased会统一转为小写。
超长文本处理：BERT最大支持512个token，需通过max_length和truncation参数控制。
特殊Token：自动添加[CLS]、[SEP]等标记，可通过add_special_tokens=False关闭。

查看全文

http://www.dtcms.com/a/89320.html

golang编写UT：applyFunc和applyMethod区别

Oracle数据库服务器地址变更与监听配置修改完整指南

websocket结合promise的通信协议

短期趋势动量策略思路

Thales靶机攻略

鸿蒙移动应用开发--UI组件布局

批量优化与压缩 PPT，减少 PPT 文件的大小

【CSS3】01-初始CSS + 引入 + 选择器 + div盒子 + 字体修饰

Sar: 1靶场渗透

MoManipVLA：将视觉-语言-动作模型迁移到通用移动操作

自然语言处理（13:RNN的实现)

接口测试是什么

Mininet-topo.py源码解析

Linux--环境变量

Ubuntu 更换阿里云镜像源图文详细教程

Android面试总结之Android RecyclerView：从基础机制到缓存优化

浅尝AI编程工具Trae

javascript实现一个函数，将数组中的元素随机打乱顺序

如何用C#继承提升游戏开发效率？Enemy与Boss案例解析

什么是ecovadis认证？ecovadis认证的好处？ecovadis认证的重要意义

案例4：鸢尾花分类（pytorch）

【Docker系列八】使用 Docker run 命令部署 Nginx

初识哈希表

详解接口的常见请求方式

机器学习(八)

1342 摆放小球

uniapp中props的用法

3.24学习总结 Java多态+包和final关键字

大文件切片上传和断点续传

Typora1.10破解教程

1、功能

2.参数解析

3.使用示例

1.加载基础BERT分词器

2.编码文本（添加特殊标记）

3.处理本地模型文件

注意事项

相关文章：