当前位置: 首页 > wzjs >正文

项目网站分析seo综合查询系统

项目网站分析,seo综合查询系统,如何做网站站内搜索代码,苏州优秀网站设计公司目录 1、功能 2.参数解析 3.使用示例 1.加载基础BERT分词器 2.编码文本(添加特殊标记) 3.处理本地模型文件 注意事项 Hugging Face的BertTokenizer.from_pretrained方法是加载预训练BERT分词器的核心接口,支持多种配置和灵活使用。 1…

目录

1、功能

2.参数解析

 3.使用示例

1.加载基础BERT分词器

2.编码文本(添加特殊标记)

3.处理本地模型文件 

注意事项


Hugging Face的BertTokenizer.from_pretrained方法是加载预训练BERT分词器的核心接口,支持多种配置和灵活使用。

1、功能

作用:从预训练模型或本地加载BERT分词器,支持自动下载、缓存以及配置

分词器类型:基于WordPiece算法,处理子词拆分(如将“huggingface”拆为[“hugging”,“face”])

2.参数解析

参数名类型默认值说明
pretrained_model_name_or_pathstr 或 os.PathLike必填预训练模型名称(如bert-base-uncased)或本地路径
cache_dirstrNone指定缓存目录(避免使用默认~/.cache/huggingface
force_downloadboolFalse强制重新下载模型,即使已缓存
local_files_onlyboolFalse仅使用本地文件,避免网络请求

 3.使用示例

1.加载基础BERT分词器

from transformers import BertTokenizer# 加载不区分大小写的BERT分词器
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")# 分词示例
text = "Hello, how are you?"
tokens = tokenizer.tokenize(text)  # ["hello", ",", "how", "are", "you", "?"]

2.编码文本(添加特殊标记)

# 转换为ID列表(自动添加[CLS]和[SEP])
encoded_input = tokenizer.encode(text)  # 例如 [101, 7592, 2986, ..., 102]# 获取详细输出(attention_mask, token_type_ids)
encoded_dict = tokenizer.encode_plus(text,max_length=512,        # 控制最大长度truncation=True,       # 自动截断超长文本padding="max_length",  # 填充至max_lengthreturn_tensors="pt"    # 返回PyTorch张量
)

3.处理本地模型文件 

# 保存分词器到本地
tokenizer.save_pretrained("./my_tokenizer/")# 从本地加载
local_tokenizer = BertTokenizer.from_pretrained("./my_tokenizer/")

注意事项

  • 大小写敏感模型:如bert-base-cased会保留文本大小写,而uncased会统一转为小写。
  • 超长文本处理:BERT最大支持512个token,需通过max_lengthtruncation参数控制。
  • 特殊Token:自动添加[CLS]、[SEP]等标记,可通过add_special_tokens=False关闭。

 

http://www.dtcms.com/wzjs/322555.html

相关文章:

  • 成都私人做公司网站的seo整站优化报价
  • 微信对接网站可以做301跳转吗重庆seo职位
  • 教研网站建设方案东莞seo网站优化排名
  • 淄博网站建设团队广告公司业务推广
  • 汉口做网站的公司自己建网站
  • wordpress 客户端网络seo排名
  • 阿里巴巴武汉网站建设目前搜索引擎排名
  • wordpress 3.9 性能长沙网站seo优化
  • 韩城市住房和城乡建设局网站杭州seo
  • 邵东网站周口搜索引擎优化
  • 凡科建站源码seo网站监测
  • 分享网站友情链接谷歌seo教程
  • 完整免费的简历模板无锡seo培训
  • 莱芜网络推广公司seozou是什么意思
  • 网站建设与管理实践报告总结专业网站推广优化
  • 深圳网站建设方维网络湖南竞价优化哪家好
  • 深圳北网站建设百度智能小程序怎么优化排名
  • 个人网站设计 优帮云百度搜索量排名
  • 青岛网站公司电商平台哪个最好最可靠
  • 绵阳市做公司网站网页设计与制作用什么软件
  • dw网站制作的源代码知乎营销推广
  • 广州市恒嘉建设有限公司网站跨界营销案例
  • 洛阳软件开发公司有哪些手机端seo
  • 空间制作网站怎么快速刷排名
  • 屯济宁做网站公司谷歌chrome浏览器
  • 沈阳网站开发工程师招聘网广州seo学徒
  • 子网站建设百度商业平台
  • 旅游加盟网站建设网站优化名词解释
  • 汕尾旅游攻略app跳转网站河南百度seo
  • wordpress分库seo案例分享