当前位置: 首页 > news >正文

AI中Token的理解与使用总结

AI中Token的理解与使用总结

什么是Token

在AI领域,特别是自然语言处理(NLP)中,Token是指将文本分割成的最小处理单元。Tokenization(分词)是将原始文本分解为Token的过程。

Token的几种形式

  1. 单词级Token:以单词为基本单位

    • 示例:“Hello world” → [“Hello”, “world”]
  2. 子词级Token:平衡词汇表大小和表示效率

    • 示例:“unhappiness” → [“un”, “happiness”]
  3. 字符级Token:以单个字符为基本单位

    • 示例:“AI” → [“A”, “I”]

主流模型的Token使用

1. GPT系列 (OpenAI)

  • 使用**BPE(Byte Pair Encoding)**算法
  • 特点:
    • 英语文本通常1个token≈4个字符
    • 中文通常1个汉字≈1-2个token
    • 常见词汇通常为1个token
  • 典型模型的上下文窗口:
    • GPT-3.5: 4096 tokens
    • GPT-4: 32k tokens (部分版本)

</

相关文章:

  • 小集合 VS 大集合:MySQL 去重计数性能优化
  • 4月27日日记
  • fastapi【0基础学习之路(未学py版)】
  • 「Mac畅玩AIGC与多模态01」架构篇01 - 展示层到硬件层的架构总览
  • 函数式编程之 Optional
  • 秒杀压测计划 + Kafka 分区设计参考
  • 关于OCP认证:有Oracle和MySQL两种
  • Dart中的库 自定义库 系统库 第三方库
  • TV launcher官方下载-tv launcher汉化版-tv桌面启动器极简下载
  • 【二分查找】搜索插⼊位置(easy)
  • 设计模式全解析:23种经典设计模式及其应用
  • Redis的阻塞
  • MySQL 表的约束(一)
  • DeepSeek 多头潜在注意力(Multi-Head Latent Attention, MLA)技术
  • Linux——线程(2)线程互斥(锁)
  • Qt网络数据解析方法总结
  • HNUST湖南科技大学-嵌入式考试选择题题库(109道纠正详解版)
  • 【进程控制】
  • PAT第七题素数对猜想
  • (超级详细)发明专利撰写
  • 丰田汽车:美国关税或导致4、5月损失1800亿日元,新财年净利润下滑三成
  • 著名国际关系理论家、“软实力”概念提出者约瑟夫•奈逝世
  • 金融监管总局:做好2025年小微企业金融服务工作
  • 央行宣布优化两项支持资本市场的货币政策工具
  • 老人刷老年卡乘车被要求站着?公交公司致歉:涉事司机停职
  • 南方地区强降雨或致部分河流发生超警洪水,水利部部署防范