当前位置: 首页 > news >正文

AI大模型:(二)2.2 分词器Tokenizer

       

目录

1.分词技术的发展

2.分词器原理

2.1.基于词分词

2.2.基于字符分词

2.3.基于子词分词

3.手搓Byte-Pair Encoding (BPE)分词及训练

3.1.Byte-Pair Encoding (BPE)分词原理

3.2.手搓Byte-Pair Encoding (BPE)分词器

4.如何选择已有的分词器

1. 常见子词分词器及特点

2. 选择关键因素

(1) 语言特性

(2) 数据规模

(3) 任务需求

(4) 技术限制

5.如何训练已有的分词器

场景1:中文NLP

场景2:多语言模型

场景3:低资源语言


       我们上一章简单介绍了分词器,它是大语言模型的基础组件,是大模型必不可少的。本篇我们详细介绍下分词器原理、如何选择分词器、以及如何训练分词器。       

1.分词技术的发展

        2013年Word2Vec出来之前是统计学习加特征工程的时代,搜索引擎、淘宝等等互联网软件为了分析和方便搜索就使用了统计学习加特征工程,使用决策书、SVM向量机等机器学习算法,导致词表非常的大,而且无法理解上下文语义,情感分析只靠关键词评判,很容易误判。直到2013年Google团队推出了Word2Vec,Word2Vec开启了NLP预训练时代。Word2Vec将分词进行了向量化,就是以一种数学的可计算方式表达了出来。Word2Vec是以一种神经网络算法使用大规模文本以窗口滑动的形式,每次拿出五个词,给出前两个和后两个预测中间的字或者给出中间的字预测前边、后边的两个词。后来又出了循环神经网络,它可以记住上下文了,但是它又不知道哪些词重要不重要。随之而来又有了LS

相关文章:

  • comfyui点击执行没反应一例
  • 哪些人适合考城市客运安全员证?
  • React 获得dom节点和组件通信
  • 辅助记忆数字和唱名的小工具【仅PC端】
  • 基于 Redis 实现一套动态配置中心 DCC 服务与反射基础知识讲解
  • 【SpringBoot Druid Mysql多数据源整合】
  • mindsdb AI 开源的查询引擎 - 用于构建 AI 的平台,该平台可以学习和回答大规模联合数据的问题。
  • 海洋大地测量基准与水下导航系列之八我国海洋水下定位装备发展现状
  • Doris数据库建表语法以及分区分桶简介
  • DeepSeek vs Grok vs ChatGPT:三大AI工具优缺点深度解析
  • 【数学建模】(智能优化算法)萤火虫算法(Firefly Algorithm)详解与实现
  • 【leetcode hot 100 32】最长有效括号
  • ArrayBlockingQueue的使用
  • 英语学习4.9
  • 基于php的成绩分析和预警与预测网站(源码+lw+部署文档+讲解),源码可白嫖!
  • 十四种逻辑器件综合对比——《器件手册--逻辑器件》
  • 记录centos8安装宝塔过程(两个脚本)
  • 【微知】Mellanox网卡网线插入后驱动的几个日志?(Cable plugged;IPv6 ... link becomes ready)
  • Oracle 23ai Vector Search 系列之5 向量索引(Vector Indexes)
  • 【VitePress】新增md文件后自动更新侧边栏导航
  • 属于垂直型b2b网站的有/seo优化软件
  • 南京本地网站/成人培训机构
  • 在网站上如何做天气预报栏/足球联赛排名
  • 网页设计制作网站首页/网络公关
  • 外贸网站屏蔽国内ip/今日特大新闻新事
  • 企业手机网站建设市场分析/竞价推广账户竞价托管收费