当前位置: 首页 > wzjs >正文

网页设计模板网站免费下载wordpress 迅雷下载

网页设计模板网站免费下载,wordpress 迅雷下载,新加坡网站域名,广州海珠区邮编在自然语言处理里,tokenizer.json 文件一般是由 Hugging Face 的 Tokenizers 库生成的,它是分词器配置的核心文件。这里面的 vocab 和 merges 是子词分词算法(像 BPE 这种)的重要构成要素。下面为你详细解释它们的作用和工作原理&…

在自然语言处理里,tokenizer.json 文件一般是由 Hugging Face 的 Tokenizers 库生成的,它是分词器配置的核心文件。这里面的 vocabmerges 是子词分词算法(像 BPE 这种)的重要构成要素。下面为你详细解释它们的作用和工作原理:

1. vocab(词汇表)

  • 功能vocab 是一个从 token(子词)到 ID 的映射表,其作用是把文本转换为模型能够处理的数字表示。
  • 内容形式
    • 基础字符:涵盖了单个字符,例如 ["a", "b", "c", ...]
    • 常见子词:包含常见的前缀、后缀或者词片段,例如 ["Ġthe", "Ġquick", "Ġbrown", ...]这里的 Ġ 代表空格)。
    • 特殊 token:有用于填充的 [PAD]、句子开始的 [CLS]、分隔的 [SEP]、未知词的 [UNK] 等。
  • 示例
{"vocab": {"Ġ": 0,"a": 1,"b": 2,"c": 3,"Ġthe": 4,"Ġquick": 5,"[PAD]": 100,"[CLS]": 101,"[SEP]": 102,"[UNK]": 103}
}
  • 运作机制
    在分词时,文本会先被分解成基础字符,接着依据 merges 规则合并成子词,最后通过 vocab 将这些子词转换为对应的 ID。

2. merges(合并规则)

  • 功能merges 是一系列的合并规则,其目的是把基础字符组合成子词。这体现了 BPE(字节对编码)算法的核心思想。
  • 内容形式
    • 它是一个按照合并优先级排序的二元组列表,格式为 ["ab", "Ġt", "he", ...]
    • 排序越靠前的规则,应用的优先级越高。
  • 示例
{"merges": ["a b",    // 先将 "a" 和 "b" 合并为 "ab""Ġ t",    // 再将 "Ġ" 和 "t" 合并为 "Ġt""Ġt h",   // 接着将 "Ġt" 和 "h" 合并为 "Ġth""Ġth e"   // 最后将 "Ġth" 和 "e" 合并为 "Ġthe"]
}
  • 运作机制

    1. 初始状态:文本被拆分成单个字符,比如 "The dog" 会变成 ["Ġ", "T", "h", "e", "Ġ", "d", "o", "g"]
    2. 应用合并规则:按照 merges 中的顺序依次进行合并。
      • 首先合并 "Ġ""T",得到 ["ĠT", "h", "e", "Ġ", "d", "o", "g"]
      • 然后合并 "h""e",得到 ["ĠT", "he", "Ġ", "d", "o", "g"]
      • 继续合并 "d""o",得到 ["ĠT", "he", "Ġ", "do", "g"]
      • 最后合并 "do""g",得到 ["ĠT", "he", "Ġ", "dog"]
    3. 映射到 ID:利用 vocab 将这些子词转换为 ID,例如 [103, 4, 0, 500](假设 "ĠT" 是未知词,对应 [UNK] 的 ID 为 103)。

    这些id就是token id,可参考文章:大模型推理过程中的tokenazier,tokenid,词向量之间的关系

3. 二者的协同工作方式

  • 训练流程
    1. 从所有出现的字符构成初始词汇表。
    2. 统计训练数据中字符对的出现频率。
    3. 不断合并最常出现的字符对,每合并一次就更新一次词汇表。
    4. 重复上述合并过程,直到达到预设的词汇表大小或者合并次数。
  • 分词流程
    1. 把输入文本拆分成字符序列。
    2. 按照 merges 规则进行合并,直到无法再合并或者达到最大子词长度。
    3. 查找 vocab,将子词转换为 ID。

4. 实际应用案例

假设 vocabmerges 已经训练好,对句子 "Hello world!" 进行分词:

  1. 初始字符["Ġ", "H", "e", "l", "l", "o", "Ġ", "w", "o", "r", "l", "d", "!"]
  2. 应用合并规则
    • 合并 "H""e",得到 ["Ġ", "He", "l", "l", "o", "Ġ", "w", "o", "r", "l", "d", "!"]
    • 合并 "l""l",得到 ["Ġ", "He", "ll", "o", "Ġ", "w", "o", "r", "l", "d", "!"]
    • 合并 "He""ll",得到 ["Ġ", "Hell", "o", "Ġ", "w", "o", "r", "l", "d", "!"]
    • 合并 "Hell""o",得到 ["Ġ", "Hello", "Ġ", "w", "o", "r", "l", "d", "!"]
    • 合并 "Ġ""Hello",得到 ["ĠHello", "Ġ", "w", "o", "r", "l", "d", "!"]
    • 合并 "w""o",得到 ["ĠHello", "Ġ", "wo", "r", "l", "d", "!"]
    • 合并 "wo""r",得到 ["ĠHello", "Ġ", "wor", "l", "d", "!"]
    • 合并 "wor""l",得到 ["ĠHello", "Ġ", "worl", "d", "!"]
    • 合并 "worl""d",得到 ["ĠHello", "Ġ", "world", "!"]
    • 合并 "Ġ""world",得到 ["ĠHello", "Ġworld", "!"]
  3. 转换为 ID:假设 vocab 中有对应的项,那么结果就是 [1000, 1001, 1002]

总结

  • vocab:是子词到 ID 的映射表,它能将文本转换为模型可以处理的数字形式。
  • merges:是子词合并规则,它决定了如何从基础字符构建出子词。
  • 相互关系merges 规则生成子词,而 vocab 负责存储这些子词并为它们分配 ID。

通过这种方式,子词分词器能够在处理常见词时保持完整性,同时将罕见词拆分成有意义的片段,有效平衡了词汇表的大小和表达能力。


文章转载自:

http://W9myhWl0.jxrpn.cn
http://nojJdK1V.jxrpn.cn
http://2k4PxcnU.jxrpn.cn
http://fSaJVyIF.jxrpn.cn
http://0Ovxa57I.jxrpn.cn
http://b5YMRIDS.jxrpn.cn
http://0sl2oZTb.jxrpn.cn
http://dpsRyDqH.jxrpn.cn
http://J4hVltsR.jxrpn.cn
http://kmqHYGpX.jxrpn.cn
http://zIheap1I.jxrpn.cn
http://nByHCxPi.jxrpn.cn
http://2KGNF6ut.jxrpn.cn
http://NrA9jeyg.jxrpn.cn
http://e9cm0qaX.jxrpn.cn
http://QactJuYP.jxrpn.cn
http://XStxNyCy.jxrpn.cn
http://WDT3NVHh.jxrpn.cn
http://xw3aRUp3.jxrpn.cn
http://3YknXJhf.jxrpn.cn
http://q5SJ5x6B.jxrpn.cn
http://mZYBcG4o.jxrpn.cn
http://u8FpotGF.jxrpn.cn
http://HoLnGP5j.jxrpn.cn
http://kWbBPRS2.jxrpn.cn
http://2nFFqN5e.jxrpn.cn
http://RtWZ3d80.jxrpn.cn
http://uBpToMzW.jxrpn.cn
http://I0lHkdAZ.jxrpn.cn
http://xlQx30EE.jxrpn.cn
http://www.dtcms.com/wzjs/681531.html

相关文章:

  • 设计网站物理结构怎么做天津 网站优化
  • 杭州最好的网站设计公司linux怎么做网站
  • 做校园网站软件安卓下载
  • 做网站除了有服务器还需要什么问题惠州网站小程序建设
  • 网站建设工程师的职位要求朗朗上口的公司名称
  • 网站主机建设方案wordpress-5.6.20
  • 国外网站网站网站建设工具开源
  • html5 单页 响应式 网站模板百度免费推广怎么做
  • 网站更换域名 seo芜湖企业网站建设
  • 网站开发 发送邮件功能做图素材网站哪个好
  • 自有服务器 做网站怎么自己做彩票网站吗
  • 网站策划常用软件河南郑州做网站h汉狮
  • 做简历的网站都有哪些网站简繁转换
  • 学校为什么要建设网站转发文章 WordPress
  • 个人网站首页内容科技类公司网站怎么设计
  • 视频制作素材网站电子书网站搭建教程
  • 网站设计主要包含3个方面织梦新手网站建设
  • 网站建设工作半年通报如何做产品展示网站
  • 网站类网站开发源代码推广软件app赚钱联盟
  • 网站开发需求分析报告怎么做自己的公司网站放在百度
  • 厦门专业的网站建设如何创建自己的公司
  • 建设网站哪家公司好网站开发实验报告模版
  • 建站优化办事效率高dw网页制作论文
  • 毕业设计做网站 服务器怎么弄wordpress安装504
  • 如何运用企业官方网站做宣传网站构建器
  • 百度站长平台链接提交wordpress设置系统邮箱
  • 做自媒体网站深圳公司名称
  • 免费网站商城模板达州网站建设qinsanw
  • 做电商网站需要多少时间我的世界服务器网站怎么做
  • 淮南企业网站建设网站建设费用主要包括哪些内容