当前位置: 首页 > news >正文

【AI Guide】AI面试攻略只用看这一篇就够了!力争做全网最全的AI面试攻略——大模型(二十六)词表与词表扩充

【AI Guide】AI面试攻略只用看这一篇就够了!力争做全网最全的AI面试攻略——大模型(二十六)词表与词表扩充

  • 词表与词表扩充
    • 子词编码(Subword Encoding)技术
      • BPE(Byte Pair Encoding)
      • SentencePiece
      • WordPiece
    • 词汇表的动态扩展
      • 在线学习(Online Learning)
      • 自适应词汇表(Adaptive Vocabulary)
    • 基于领域的词汇扩充
      • 领域特定语料库训练
      • 细粒度领域词汇扩展
    • 多语言支持与跨语言词汇扩充
      • 共享子词单元
      • 语言模型的迁移学习
    • 词汇表扩充的挑战

词表与词表扩充

词表的设计至关重要,因为它直接影响到模型的输入输出处理。一般来说,语言模型使用子词级别的编码方式(如 BPE、WordPiece 或 SentencePiece),将常见的词汇和子词单元映射到一个较小的词表中,这样模型就能够处理未知词汇(通过拼接子词单元)而无需为每个词汇单独分配一个固定的编号。

词表扩充是大规模语言模型(如 ChatGLM-3)优化其理解和生成能力的关键步骤。

子词编码(Subword Encoding)技术

子词编码方法通过将词汇表的单位从“单词”细分为更小的“子词”单元,以解决未知词汇和稀有词汇问题。以下是几种主流的子词编码方法:

BPE(Byte Pair Encoding)

BPE 是最常见的子词编码方法之一,它通过以下步骤进行词表扩充:初始时,词表包含所有单个字符;计算文本中最频繁的字节对(字符对),并将这些字节对合并为一个新的子词;重复此过程,直到达到预定的词表大小。

优点:BPE 不依赖于语言的特定结构&#

相关文章:

  • Mysql学习笔记(六)Django连接MySQL
  • 机器学习算法——回归任务
  • LabVIEW虚拟频谱分析仪
  • 统计Excel列中某值出现的次数
  • 计算机网络数据传输探秘:包裹如何在数字世界旅行?
  • 勿以危小而为之勿以避率而不为
  • MySQL——DQL、多表设计
  • 备赛蓝桥杯之第十五届职业院校组省赛第五题:悠然画境
  • Versal - XRT(CPP) 2024.1
  • 力扣-动态规划-53 最大子数组和
  • 0005__PyTorch 教程
  • 小白入坑向:Java 全栈系统性学习推荐路线之一
  • Easy Trans Spring Boot Starter ---Spring系列的字段翻译库
  • 环境变量 ─── linux第14课
  • Debezium日常分享系列之:Debezium 3.0.8.Final发布
  • 面向对象三大特性:多态
  • QT-自定义参数设计框架软件
  • SQL(1)
  • 04 高效HarmonyOS NEXT编程:ArkTS数据结构优化与属性访问最佳实践
  • Three.js 入门(基础材质、贴图、纹理、环境、遮蔽光、透明度、高光贴图)
  • 建设厅网站查询三类人员/友情链接怎么互换
  • 天津网站建设哪家有/泰州seo外包公司
  • 骏域网站/百度推广销售员的工作内容
  • 网站建设diy/百度竞价在哪里开户
  • 宝山网站建设公司/百度竞价被点击软件盯上
  • 自做购物网站多少钱/蜜雪冰城推广软文