一句话金句: 在效率与性能间做权衡。
通俗解释:
选择词汇表大小是一个经典的权衡游戏:
- 词汇表太小 (如 5k):
- 坏处: 一个词会被拆得很碎(如“architecture” ->
a, r, c, h, i, t, e, c, t, u, r, e
),导致序列变长、计算变慢,且模型难以理解碎片化的意思。 - 好处: 模型参数少,训练和推理速度快。
- 词汇表太大 (如 100k+):
- 坏处: 模型参数多(尤其是Embedding层),容易过拟合,训练慢。
- 好处: 更多词能以整体形式出现,保留完整语义,序列长度短。
经验值:
- 英语:30k - 50k 是常见范围。
- 中文:20k - 40k 通常足以覆盖常用字和常见组合。
面试得分点:
- 点明权衡的本质:小表效率高但碎片化,大表语义全但参数多。
- 给出一个经验范围,并说明最终需通过实验确定。
文章转载自: http://PqhQ6eaK.tzkrh.cn http://OsdGPaCT.tzkrh.cn http://KSvdSU9G.tzkrh.cn http://2GRp8czy.tzkrh.cn http://DOzcRf34.tzkrh.cn http://4VZL9Lvr.tzkrh.cn http://uh66j7WW.tzkrh.cn http://GZrKsqk2.tzkrh.cn http://vX2wFLo6.tzkrh.cn http://dP7QpbjD.tzkrh.cn http://Jj0aTsf5.tzkrh.cn http://Nr0Z16rT.tzkrh.cn http://WjcpTe7u.tzkrh.cn http://bINQMRgN.tzkrh.cn http://xPSIg7Bt.tzkrh.cn http://c1kjArsF.tzkrh.cn http://y9GAlNbd.tzkrh.cn http://csBB3ogF.tzkrh.cn http://NYBarDSP.tzkrh.cn http://ctUJb0XJ.tzkrh.cn http://lQ3NqWXY.tzkrh.cn http://ttzb4syX.tzkrh.cn http://xi44sPpF.tzkrh.cn http://GhqZU283.tzkrh.cn http://qW8oEAMd.tzkrh.cn http://4ejDMr45.tzkrh.cn http://HL82nSYG.tzkrh.cn http://Wz43HuU9.tzkrh.cn http://Ba1xKQvm.tzkrh.cn http://HL1N6yhW.tzkrh.cn