当前位置: 首页 > news >正文

NLP高频面试题(五十)——大模型(LLMs)分词(Tokenizer)详解

在自然语言处理(NLP)任务中,将文本转换为模型可处理的数字序列是必不可少的一步。这一步通常称为分词(tokenization),即把原始文本拆分成一个个词元(token)。对于**大型语言模型(LLM,Large Language Model,大型语言模型)**而言,选择合适的分词方案至关重要:分词的质量直接影响模型的词汇表大小、表示能力以及对未知词汇的处理能力。

早期的做法是以“单词”为基本单位进行分词,即通过空格或规则将文本切分成独立的单词。但是纯单词级分词存在明显缺陷:**词汇表(vocabulary)可能非常庞大(尤其对多语言或大量专业术语的场景),这会导致模型参数量增加(每个词元对应的嵌入向量)且无法覆盖所有可能出现的单词。当模型遇到未登录词(OOV,Out-Of-Vocabulary)**时(即不在词汇表中的新词),传统处理方式只能将其标记为一个特殊的“未知”符号,完全丢失该词的信息。

另一种极端是字符级分词,即将每个字符作为基本词元。字符级方法将词汇表缩小到字母表大小(例如英语26个字母再加标点、空格等),从而彻底避免了

相关文章:

  • 【C++】Json-Rpc框架项目介绍(1)
  • Agent框架LangGraph:实现一个简单的Plan-and-Execute Agent
  • 电子电器架构 --- 面向下一代车辆的演进式(发展演变的)汽车网关
  • 仅追加KV数据库
  • 实验一 进程控制实验
  • 2023蓝帽杯初赛内存取证-4
  • NVIDIA 自动驾驶技术见解
  • 从零到多智能体:Google Agent开发套件(ADK)入门指南
  • C语言教程(十三):C 语言中 enum(枚举)的详细介绍
  • 武装Burp Suite工具:RouteVulScan插件_被动扫描发现漏洞.
  • shared_ptr八股收集 C++
  • SwiftInfer —— 大模型无限流式输入推理打破多轮对话长度限制
  • 【题解-Acwing】847. 图中点的层次
  • 双指针之有序数组的平方
  • 航电系统之自动控制系统篇
  • MulanPSL-1.0开源协议
  • 衡石ChatBI:依托开放架构构建技术驱动的差异化数据服务
  • 该虚拟机似乎正在使用中。如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则,请按“取消(C)”按钮以防损坏解决方法
  • VSCode中安装GitGraph
  • 3.6/Q1,Charls数据库经典文章解读
  • 黎巴嫩9年来首次举行地方选举
  • 国防部新闻发言人就日本民用飞机侵闯中国钓鱼岛领空答记者问
  • 人民日报头版:让青春之花绽放在祖国和人民最需要的地方
  • 五一假期旅游大市党政领导靠前调度,重视解决游客反映的问题
  • 跳水世界杯女子单人10米台决赛,陈芋汐、全红婵包揽金银牌
  • 国家能源局:鼓励各地探索深远海、沙戈荒等可再生能源制氢场景