当前位置: 首页 > wzjs >正文

定制网站 多少钱办公用品网站建设可行性分析

定制网站 多少钱,办公用品网站建设可行性分析,服务平台app下载,邢台市官网BertTokenizerFast类 1、特点 速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。 功能一致:与BertTokenizer的API完全兼容,可以直接替换使用…

BertTokenizerFast类

1、特点

        速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。

        功能一致:与BertTokenizer的API完全兼容,可以直接替换使用。支持所有的BERT变体。

        额外功能:提供更丰富的后处理选项(如截断、填充的精细控制)。支持直接返回token_type_ids、attention_mask等张量。

2、基本用法

from transformers import BertTokenizerFast# 初始化分词器,以chinese-bert-wwm模型为例
tokenizer = BertTokenizerFast.from_pretrained('chinese-bert-wwm')# 单条文本分词
text = ‘你好,明天!’
encoded_input = tokenizer(text, return_tensors='pt')  # 返回pytorch张量
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])
}
"""
# 批量文本分词
texts = ['明天,你好!', '你好,明天!']
batch_encoded = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102], [101, 872, 1962, 8024, 3209, 1921, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]])
}
"""

3、关键参数

参数名作用
padding=True自动填充到批次中最长序列长度
trunction=True自动截断到模型最大长度(512)
return_tensors='pt'返回pytorch张量(可选"tf"为TensorFlow或"np"为numpy)
max_length=128显式指定最大长度
add_special_tokens是否添加[cls]和[sep],默认为True
return_offsets_mapping返回每个token在原始文本中的字符集起始和结束位置
skip_special_tokens在解码(将Token ID转回文本)时跳过特殊token(如[CLS]、[SEP]、[PAD]等),默认值为False,设为True后输出更干净的文本

 4、自定义tokens

tokenizer.add_tokens(['亚马逊', '速卖通'])  # 添加新的token
model.resize_token_embeddings(len(tokenizer))  # 调整模型嵌入层

5、偏移量映射(用于命名实体识别任务)

encoded_input = tokenizer(text, return_offsets_mapping=True)
print(encoded_input["offset_mapping"])  # 输出每个token在原文中的位置

6、快速解码

decoded_text = tokenizer.decode(encoded_input["input_ids"][0], skip_special_tokens=True)
http://www.dtcms.com/wzjs/603044.html

相关文章:

  • 西安网站建设seo昆明网站建设锐网
  • 广州番禺营销型网站php网站打开慢
  • 衡阳seo优化服务专业网站seo优化公司
  • 周村网站制作哪家好wordpress建网站培训
  • 个人主页排版网站seo诊断分析
  • 网站下载免费软件兰州1万人阳性
  • 莱芜网站建设资情况介绍做ppt找素材的网站
  • 网站免费建站的方法南宁百度seo软件
  • wordpress html音乐广州aso优化
  • 中国广东网站建设安卓软件开发需要学什么软件
  • 济南品牌网站建设介绍四库一平台官网
  • 网站建设经费长春建设网站公司哪家好
  • 格力空调网站建设策划书淄博网站建设哪家好
  • 网站建设 淘宝客末班高德地图vr全景怎么打开
  • 微信平台做微文网站链接县工商局 网站建设
  • 做推广任务的网站有哪些除了小红书还有什么推广平台
  • 网站设计公司收费标准做网站是个什么行业
  • dede调用网站名称自己买个服务器有什么用
  • 山海关网站制作广汉网站建设
  • iis配置网站无法访问网站开发 手机 电脑
  • 常州网站建设麦策电商外国网站翻墙怎么做
  • 传奇免费网站模板下载网站建设需要什么资料
  • 网站互联网接入商网站 系统概述
  • 西安网站制作公司哪家好如何开发网站建设业务
  • 如何做网站公证如何搭建一个app
  • 台州公司建站模板本地wordpress安装教程
  • 洪梅镇网站建设深圳福永
  • 企业网站建设设计任务书广告公司名称大全最新
  • 怎么能创建自己的网站p2p网站开发的多少钱
  • 怎么给网站有一字做标记洋河门户平台