当前位置: 首页 > news >正文

BertTokenizer.from_pretrained的讲解和使用

目录

1、功能

2.参数解析

 3.使用示例

1.加载基础BERT分词器

2.编码文本(添加特殊标记)

3.处理本地模型文件 

注意事项


Hugging Face的BertTokenizer.from_pretrained方法是加载预训练BERT分词器的核心接口,支持多种配置和灵活使用。

1、功能

作用:从预训练模型或本地加载BERT分词器,支持自动下载、缓存以及配置

分词器类型:基于WordPiece算法,处理子词拆分(如将“huggingface”拆为[“hugging”,“face”])

2.参数解析

参数名类型默认值说明
pretrained_model_name_or_pathstr 或 os.PathLike必填预训练模型名称(如bert-base-uncased)或本地路径
cache_dirstrNone指定缓存目录(避免使用默认~/.cache/huggingface
force_downloadboolFalse强制重新下载模型,即使已缓存
local_files_onlyboolFalse仅使用本地文件,避免网络请求

 3.使用示例

1.加载基础BERT分词器

from transformers import BertTokenizer

# 加载不区分大小写的BERT分词器
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 分词示例
text = "Hello, how are you?"
tokens = tokenizer.tokenize(text)  # ["hello", ",", "how", "are", "you", "?"]

2.编码文本(添加特殊标记)

# 转换为ID列表(自动添加[CLS]和[SEP])
encoded_input = tokenizer.encode(text)  # 例如 [101, 7592, 2986, ..., 102]

# 获取详细输出(attention_mask, token_type_ids)
encoded_dict = tokenizer.encode_plus(
    text,
    max_length=512,        # 控制最大长度
    truncation=True,       # 自动截断超长文本
    padding="max_length",  # 填充至max_length
    return_tensors="pt"    # 返回PyTorch张量
)

3.处理本地模型文件 

# 保存分词器到本地
tokenizer.save_pretrained("./my_tokenizer/")

# 从本地加载
local_tokenizer = BertTokenizer.from_pretrained("./my_tokenizer/")

注意事项

  • 大小写敏感模型:如bert-base-cased会保留文本大小写,而uncased会统一转为小写。
  • 超长文本处理:BERT最大支持512个token,需通过max_lengthtruncation参数控制。
  • 特殊Token:自动添加[CLS]、[SEP]等标记,可通过add_special_tokens=False关闭。

 

相关文章:

  • golang编写UT:applyFunc和applyMethod区别
  • Oracle数据库服务器地址变更与监听配置修改完整指南
  • websocket结合promise的通信协议
  • 短期趋势动量策略思路
  • Thales靶机攻略
  • 鸿蒙移动应用开发--UI组件布局
  • 批量优化与压缩 PPT,减少 PPT 文件的大小
  • 【CSS3】01-初始CSS + 引入 + 选择器 + div盒子 + 字体修饰
  • Sar: 1靶场渗透
  • MoManipVLA:将视觉-语言-动作模型迁移到通用移动操作
  • 自然语言处理(13:RNN的实现)
  • 接口测试是什么
  • Mininet-topo.py源码解析
  • Linux--环境变量
  • Ubuntu 更换阿里云镜像源图文详细教程
  • Android面试总结之Android RecyclerView:从基础机制到缓存优化
  • 浅尝AI编程工具Trae
  • javascript实现一个函数,将数组中的元素随机打乱顺序
  • 如何用C#继承提升游戏开发效率?Enemy与Boss案例解析
  • 什么是ecovadis认证?ecovadis认证的好处?ecovadis认证的重要意义
  • 下辖各区密集“联手”,南京在下一盘什么样的棋?
  • 国际金价下跌,中概股多数上涨,穆迪下调美国主权信用评级
  • 技术派|威胁F-35、击落“死神”,胡塞武装防空战力如何?
  • 南宁一学校发生伤害案件,警方通报:嫌疑人死亡,2人受伤
  • A股三大股指低收:汽车股领涨,大金融走弱,两市成交近1.1万亿元
  • 商务部回应美方加严限制中国芯片:敦促美方立即纠正错误做法