当前位置: 首页 > news >正文

深度学习 bert流程

Token IDs

在自然语言处理任务中,特别是使用预训练模型如BERT时,文本首先通过一个分词器(例如 BertTokenizer)转换为一系列的token IDs。这些ID是每个词或子词单元在词汇表(包含汉字、英文单词、标点符号)中的索引位置。例如,假设有一个简化的词汇表如下:

{
 0: '[PAD]',
 1: 'hello',
 2: 'world',
 3: '[UNK]',
 ...
}

如果输入句子是 "hello world",经过分词器处理后,得到的token IDs可能是 [1, 2],这里 12 分别对应词汇表中的 'hello''world'

BERT中的应用

在BERT模型中,输入首先是被转换成token IDs的形式,然后通过嵌入层(Embedding Layer)将这些token IDs映射到一个高维(768维)的向量空间中。这个过程允许模型基于上下文学习更丰富的表示形式,而不是简单地依赖于稀疏的独热编码表示。因此,在您的代码中:

input_text = self.bert_tokenizer(data, return_tensors="pt", truncation=True, padding="max_length", max_length=512)
input_ids = input_text["input_ids"].to(self.device)

这里的 input_ids 就是包含了一系列token IDs的张量,而不是独热编码的表示形式。BERT模型随后会使用这些token IDs来查找对应的词嵌入(word embeddings),作为其输入的一部分进行进一步的处理。这种方法不仅节省了内存和计算资源,还使得模型能够学习更加紧凑和有效的特征表示。

http://www.dtcms.com/a/67156.html

相关文章:

  • Spring Boot3.3.X整合Mybatis-Plus
  • 【Azure 架构师学习笔记】- Azure Databricks (18) --Delta Live Table 架构
  • Discuz建站教程之论坛头部logo跳转链接怎么修改?
  • Python多版本环境管理UV
  • Maven的继承和聚合
  • 55.HarmonyOS NEXT 登录模块开发教程(九):部署与发布
  • Qt信号与槽
  • 使用AI一步一步实现若依前端(13)
  • DeepSeek R1 与 ktransformers:结合苹果 M4 Mac 的 LLM 推理深度分析
  • 在 Windows 上使用 choco 安装 mkcert 并配置 Vue 运行HTTPS
  • HCIA-11.以太网链路聚合与交换机堆叠、集群
  • 通俗易懂动态表单自定义字段解决方案
  • mapbox高阶,结合threejs(threebox)添加extrusion挤出几何体,并添加侧面窗户贴图和楼顶贴图
  • 【3DGS】SuperSplat本地运行+修改监听端口+导入ply模型+修剪模型+在线渲染3DGS网站推荐
  • Python----数据可视化(Pyecharts一:介绍安装,全局配置,系列配置)
  • 设置IDEA的内存
  • 代码随想录刷题day44|(二叉树篇)404.左叶子之和
  • LInux基础--apache部署网站
  • Adobe Photoshop下载安装和使用教程
  • 【GPT入门】第18课 langchain介绍与API初步体验
  • 初阶数据结构(C语言实现)——5.3 堆的应用(1)——堆排序
  • Java Web大文件下载:从卡顿到丝滑的优化之旅
  • Babylon.js的Shader入门一(从只有一个颜色的Shader说起)
  • 关于Go中使用goroutine协程实现的算法
  • 前端面试:axios 请求的底层依赖是什么?
  • 服务器上的nginx因漏洞扫描需要升级
  • 数据结构(排序)
  • 【MySQL基础-3.2】MySQL DDL 语句详解:数据表操作篇
  • 扩展学习 | DeepSeek R1本地部署指南
  • Flutter桌面开发(三、widget布局与表单)