LLM词编码机制:词映射
LLM词编码机制:词映射
基于 BERT 架构的分词器对“中国首都”进行编码

各部分含义
1. input_ids
input_ids 是将输入文本分词后,每个词元(token)对应在词表中的索引。在 BERT 及其相关模型里,通常会有一些特殊的 token 索引,常见的有:
101:表示分类标记[CLS],一般位于序列的起始位置,用于分类任务。102:表示分隔标记[SEP],用于分隔不同的句子。100:表示未知词元[UNK],当遇到词表中不存在的词时会用它来替代。
对于 array([[ 101, 1746, 1799, 100, 1961, 1994, 102]]),整体是一个二维数组,这
