当前位置: 首页 > news >正文

LLM词编码机制:词映射

LLM词编码机制:词映射

基于 BERT 架构的分词器对“中国首都”进行编码
在这里插入图片描述

各部分含义

1. input_ids

input_ids 是将输入文本分词后,每个词元(token)对应在词表中的索引。在 BERT 及其相关模型里,通常会有一些特殊的 token 索引,常见的有:

  • 101:表示分类标记 [CLS],一般位于序列的起始位置,用于分类任务。
  • 102:表示分隔标记 [SEP],用于分隔不同的句子。
  • 100:表示未知词元 [UNK],当遇到词表中不存在的词时会用它来替代。

对于 array([[ 101, 1746, 1799, 100, 1961, 1994, 102]]),整体是一个二维数组,这

相关文章:

  • CTF-DAY9
  • Linux零基础快速入门课程笔记详解
  • Oracle 数据布局探秘:段与区块的内部机制
  • MCP 规范新版本特性全景解析与落地实践
  • 二叉查找树,平衡二叉树(AVL),b树,b+树,红黑树
  • 41.防静电的系列措施
  • CTK的插件框架和QTUI集成方法
  • C++回顾 Day5
  • upload-labs靶场通关详解:第二关
  • 代码随想录算法训练营第60期第二十九天打卡
  • 超越 DeepSeek-R1,英伟达新模型登顶
  • 在cursor中使用MCP插件生成旅行规划到桌面的执行步骤分析
  • 统计匹配的二元组个数 - 华为OD机试真题(A卷、JavaScript题解)
  • 破解逆向专辑(一)
  • Qt界面设计时窗口中各控件布局及自适应方法
  • 如何用FastMCP快速开发自己的MCP Server?
  • 云硬盘的原理
  • 分布式-Redis分布式锁
  • 从零开始学习three.js(15):一文详解three.js中的纹理映射UV
  • SimpleMindMap:一个支持AI的思维导图软件
  • 经济日报金观平:促进信贷资金畅达小微企业
  • 广西隆林突发山洪,致3人遇难1人失联
  • 见微知沪|科学既要勇攀高峰,又要放低身段
  • 王伟妻子人民日报撰文:81192,一架永不停航的战机
  • 马上评|清理“滥竽充数者”,为医者正名
  • 阿里上季度营收增7%:淘天营收创新高,AI产品营收连续七个季度三位数增长