当前位置: 首页 > news >正文

【面试题】词汇表大小如何选择?

一句话金句: 在效率与性能间做权衡。

通俗解释:
选择词汇表大小是一个经典的权衡游戏:

  • 词汇表太小 (如 5k):
    • 坏处: 一个词会被拆得很碎(如“architecture” -> a, r, c, h, i, t, e, c, t, u, r, e),导致序列变长、计算变慢,且模型难以理解碎片化的意思。
    • 好处: 模型参数少,训练和推理速度快。
  • 词汇表太大 (如 100k+):
    • 坏处: 模型参数多(尤其是Embedding层),容易过拟合,训练慢。
    • 好处: 更多词能以整体形式出现,保留完整语义,序列长度短。

经验值:

  • 英语:30k - 50k 是常见范围。
  • 中文:20k - 40k 通常足以覆盖常用字和常见组合。

面试得分点:

  • 点明权衡的本质:小表效率高但碎片化,大表语义全但参数多。
  • 给出一个经验范围,并说明最终需通过实验确定。


文章转载自:

http://PqhQ6eaK.tzkrh.cn
http://OsdGPaCT.tzkrh.cn
http://KSvdSU9G.tzkrh.cn
http://2GRp8czy.tzkrh.cn
http://DOzcRf34.tzkrh.cn
http://4VZL9Lvr.tzkrh.cn
http://uh66j7WW.tzkrh.cn
http://GZrKsqk2.tzkrh.cn
http://vX2wFLo6.tzkrh.cn
http://dP7QpbjD.tzkrh.cn
http://Jj0aTsf5.tzkrh.cn
http://Nr0Z16rT.tzkrh.cn
http://WjcpTe7u.tzkrh.cn
http://bINQMRgN.tzkrh.cn
http://xPSIg7Bt.tzkrh.cn
http://c1kjArsF.tzkrh.cn
http://y9GAlNbd.tzkrh.cn
http://csBB3ogF.tzkrh.cn
http://NYBarDSP.tzkrh.cn
http://ctUJb0XJ.tzkrh.cn
http://lQ3NqWXY.tzkrh.cn
http://ttzb4syX.tzkrh.cn
http://xi44sPpF.tzkrh.cn
http://GhqZU283.tzkrh.cn
http://qW8oEAMd.tzkrh.cn
http://4ejDMr45.tzkrh.cn
http://HL82nSYG.tzkrh.cn
http://Wz43HuU9.tzkrh.cn
http://Ba1xKQvm.tzkrh.cn
http://HL1N6yhW.tzkrh.cn
http://www.dtcms.com/a/365967.html

相关文章:

  • PS大神级AI建模技巧!效率翻倍工作流,悄悄收藏!
  • 本地化AI问答:告别云端依赖,用ChromaDB + HuggingFace Transformers 搭建离线RAG检索系统
  • OpenCV的阈值处理
  • ChartView的基本介绍与使用
  • shell编程从0基础--进阶 1
  • 如何高效记单词之:抓住首字母——以find、fund、fond、font为例
  • Linux `epoll` 机制的入口——`epoll_create`函数
  • Java并发编程中的CountDownLatch与CompletableFuture:同步与异步的完美搭档
  • 驱动增长的双引擎:付费搜索与自然搜索的终极平衡策略
  • Loot模板系统
  • helm应该安装在哪些节点
  • ABAQUS多尺度纤维增强混凝土二维建模
  • 微信小程序-day3
  • 【mac】macOS上的实用Log用法
  • 使用Navicat去批量传输数据库的表结构
  • fastlio配置与过程中遇到的问题
  • 51单片机----LED与数码管模块
  • C 语言标准输入输出库:`stdio.h` 的使用详解
  • 【WPS】WPSPPT 快速抠背景
  • Python学习笔记--使用Django修改和删除数据
  • 52.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--解决客户端调用接口404问题
  • 硬件:51单片机的按键、中断、定时器、PWM及蜂鸣器
  • Spring Boot HTTP状态码详解
  • 性能测试-jmeter8-脚本录制
  • 揭秘23种设计模式的艺术与技巧
  • < 自用文 主机 USC 记录:> 发现正在被攻击 后的自救
  • Protocol Buffers:数据世界的秘语之书,手把手教学环境搭建
  • mysql高级进阶(存储过程)
  • 认识HTML
  • CDN的工作原理是什么?为什么要用高防 CDN?