当前位置: 首页 > wzjs >正文

微网站模板 餐饮沈阳网约车公司

微网站模板 餐饮,沈阳网约车公司,和县网站定制,wordpress get tags基础解码方式 1. 朴素贪心 Greedy Decode 最简单直接的策略,每一步都选择当前概率最高的词。 贪心解码是所有解码策略中最基础的一种。它遵循一个简单的原则:在生成序列的每一步,都毫不犹豫地选择模型预测出的概率最大的那个词&#xff08…

基础解码方式

1. 朴素贪心 Greedy Decode

最简单直接的策略,每一步都选择当前概率最高的词。

贪心解码是所有解码策略中最基础的一种。它遵循一个简单的原则:在生成序列的每一步,都毫不犹豫地选择模型预测出的概率最大的那个词(Token)。

优点:

  • 速度快:计算开销最小,生成速度最快。
  • 确定性:对于相同的输入,输出永远是相同的,便于复现和调试。

缺点:

  • 缺乏远见(局部最优):每一步的最优选择不等于全局最优。可能会因为眼前的一个高概率词,而错过后面更优的整个句子组合。
  • 内容重复:很容易陷入“高频词陷阱”,导致生成重复、单调的文本。
  • 缺乏创造性:输出死板,毫无新意。

适用场景:

  • 需要快速、确定性结果的场景。
  • 事实性问答或代码生成等任务,当答案路径相对单一时。

2. 更加远视的贪心 Beam Search

一种更有“远见”的策略,通过同时保留多个候选序列(束),来寻找全局最优解。

束搜索是贪心解码的升级版。它不再只考虑一个路径,而是像下棋一样,同时思考几种可能性,以期找到最优的完整序列。

工作原理
num_beams 是其核心参数,代表“束”的数量(即同时保留的候选序列数)。

  • 第一步:模型生成 num_beams 个最可能的起始词,形成 num_beams 个初始候选序列(“束”)。
  • 后续步骤:
    • 对于每一个“束”,模型都会预测其所有可能的下一个词。 计算所有新生成的、长度增加1的候选序列的累积概率(或对数概率)。
    • 从所有这些新序列中,只保留总分最高的 num_beams 个,作为新的“束”。
  • 结束:重复此过程,直到所有“束”都生成了结束符或达到最大长度。最终返回总分最高的那一条完整序列。

优点:

  • 质量更高:生成的文本通常更连贯、流畅、语法正确。
  • 全局性:有效避免了贪心解码的短视问题。

缺点:

  • 计算昂贵:计算和内存开销是贪心解码的 num_beams 倍,速度较慢。
  • 牺牲多样性:和贪心解码一样,它也是确定性的,最终只返回一个“最优解”。
  • 可能产生平庸的回答:有时最优解是一个非常“安全”但无趣的句子。

适用场景:

  • 对文本质量要求极高的任务,如机器翻译、文本摘要和报告生成。

3. 多样化解码 Temperature, Top_p and Top_k

引入随机性,让模型更有创造力,通过 Temperature, Top-k, Top-p 等参数来控制随机的程度。

与贪心解码的“独裁”不同,采样方法更“民主”,它根据概率分布进行随机抽样,让低概率的词也有机会被选中。

(1) Temperature (温度)

核心思想: 控制概率分布的“尖锐”程度,从而影响随机性。

工作原理: 通过一个 temperature 值来调整原始的 Softmax 概率分布。

  1. T < 1.0:概率分布变得更尖锐,高概率词的优势被放大,输出更接近贪心解码,但仍有随机性。
  2. T =1.0:使用模型原始的概率,是“中性”的随机。
  3. T > 1.0:概率分布变得更平滑,不同词之间的概率差异减小,模型输出更随机、更多样,但也更容易犯错。

类比: 一个“创意旋钮”。低温(~0.2)生成事实,高温(>1.0)激发灵感。

实现原理:

p r o b ′ = s o f t m a x ( p r o b t e m p e r a t u r e ) prob^{'} = softmax(\frac{prob}{temperature}) prob=softmax(temperatureprob)

  • 如果 T > 1 T>1 T>1,那么prob的分布会被磨平,高概率的词概率会变低,低概率的词概率会变高
  • 如果 T < 1 T<1 T<1,那么prob的分布会被锐化,概率高的词概率变得更高。

(2) Top-k 采样

核心思想: 限制选择范围,只在概率最高的 k 个词中进行采样。

工作原理:

  • 找出模型预测的概率最高的 k 个词。
  • 将这 k 个词的概率进行重新归一化(使它们的总和为1)。
  • 在这个缩小的词汇表中,根据新的概率进行采样。

缺点:

  • k 值是固定的,不够智能。有时概率高度集中,可能 k=5 都太多;有时概率分散,k=5 又太少。

(3) Top-p (Nucleus Sampling / 核心采样)

核心思想: 一种更智能的限制方式,选择一个累积概率超过 p 的最小词汇集进行采样。

工作原理:

  • 将所有词按概率从高到低排序。
  • 依次将它们的概率相加,直到累积总和刚好超过设定的阈值 p(例如 0.9)。
  • 这个由少数高概率词组成的“核心”(Nucleus)集合就是新的候选词汇表。
  • 在这个动态大小的集合中进行采样。

优点:

  • 比 Top-k 更灵活。当模型非常确定时,核心集可能很小;当模型不确定时,核心集会变大,容纳更多可能性。p 值设为 0.9 或 0.95 是非常常见的做法。
  • 所以建议使用Top_p而不设置top_k

更多 Test Time Scaling 技巧

1. 对比搜索 (Contrastive Search)

核心思想: 这是一种试图结合“高质量”(像 Beam Search)和“多样性”(像 Sampling)两者优点的策略。它在生成下一个词时,不仅会考虑模型的预测概率(model’s confidence),还会引入一个“退化惩罚”(degeneration penalty),主动抑制那些与前文过于相似、可能导致重复和无趣的词。

效果: 生成的文本通常比 Beam Search 更多样、更生动,同时又比传统的随机采样更连贯、更不容易“跑偏”。它在很多开放式生成任务中表现出色。

2. 投机采样/推测采样 (Speculative Decoding)

是一种推理解码时加速的方法。

核心思想: 这主要是为了加速推理,但也是一个重要的测试时技巧。它使用一个“小模型”(草稿模型)快速生成一段文本草稿,然后让“大模型”(您正在使用的模型)一次性地验证和修正整个草稿。

效果: 如果小模型猜得比较准,大模型就可以一次性接受多个词元(tokens),从而大幅减少推理步骤,实现数倍的速度提升,且最终结果与大模型自己逐词生成完全一致。

http://www.dtcms.com/wzjs/582571.html

相关文章:

  • 推广网站案例一个人怎么开贸易公司
  • 电子商务做网站设计梧州市建设局网站
  • 行业网站建设的书公司网站建设宣传话语
  • 申请完域名如何建网站Wordpress建立空白页面
  • 网站建站上海旅游商城网站订单处理
  • 嘉兴网站建设有前途吗常平网页设计
  • 网站建设与网页设计大作业网站的优化公司
  • 版纳网站建设滴滴出行网站建设
  • 漳州网站建设哪家好南京网站制作报价
  • 沈阳方正建设监理网站做网站合同范本
  • 做seo网站 公司网站做贷款许可证
  • 做网站 能挣钱吗网站后台程序开发教程
  • 网站推广公司渠道wordpress免邮箱 注册
  • 阿里云网站建设部署与发布网站建设的编程技术
  • soho建设外贸网站管理系统入口admin
  • 嘉兴网站建设有前途吗东营
  • 网站开发广告语大全各类服装网站建设
  • 杭州网站建设培训学校网页游戏代理加盟
  • 上海网站优化上寻花问柳专注做一家男人最爱的网站
  • 微信公众号的h5网站开发6黑龙江省建设厅官网
  • 有经验的常州手机网站discuz 网站搬家
  • 大连建设教育网站wordpress上一篇下一篇插件
  • 咋么做进网站跳转加群中国免费素材网站
  • 沈阳网站建设开发维护十大影视传媒公司
  • 常州网站关键字优化大兴区营销网络推广行业
  • 同学聚会怎么样做网站企业无线局域网组建方案
  • 购物网站php源代码织梦网如何把做网站的删掉
  • 装修公司营销型网站建设北京新网数码信息技术有限公司
  • 南京做网站的公司排名wordpress自动缩略图
  • 论文旅游网站建设计算机毕设网站开发中期报告