当前位置: 首页 > wzjs >正文

商务网站创建方案怎么推广app

商务网站创建方案,怎么推广app,新疆乌鲁木齐疫情解封最新消息,牛商网做的网站有哪些讨论的是在训练大型语言模型(Transformer-based models,比如GPT等)时,文本序列的填充(padding)问题,即训练和推理时分辨填充在序列的左侧(left padding)或右侧&#xff0…

讨论的是在训练大型语言模型(Transformer-based models,比如GPT等)时,文本序列的填充(padding)问题,即训练和推理时分辨填充在序列的左侧(left padding)或右侧(right padding)进行?

先说结论:常规实践时,训练时,我们通常使用右填充(right padding);在推理时,使用左填充(left padding)。当然在通常的训练推理框架中这是一个可选配置。例如,在Hugging Face的Transformers库中,默认的填充方式可以通过tokenizer的设置来选择。
为什么会有这样的常规设置?

下面先详细解释一下左右padding的含义:

1. 右填充(Right Padding): 在序列的右侧(即末尾)添加填充符号(如[PAD] token)直到达到最大长度。 例如,假设最大长度为5,一个序列为["A", "B"],右填充后变成["A", "B", "[PAD]", "[PAD]", "[PAD]"]。
2. 左填充(Left Padding): 在序列的左侧(即开头)添加填充符号。 同样的例子,左填充后变成["[PAD]", "[PAD]", "[PAD]", "A", "B"]。

padding的作用是:

  • 一个批次(batch)中的文本序列长度不同,需通过添加特殊符号(如[PAD])使所有序列等长。

  • 便于并行计算(如GPU加速),避免因长度不一致导致的计算错误。

接下来解释为什么训练是右填充,推理是左填充:

训练时,对于自回归模型(从左到右生成),我们一次处理整个序列,模型在预测下一个token时,注意力机制会关注到左侧的所有token,因此我们把填充部分放在右边,右填充确保真实token集中在左侧,模型更易学习连续依赖关系。然后通常会对填充位置计算损失时进行掩码(mask),所以填充部分不会影响训练。

在推理时,当我们使用批次推理(batch inference)并采用自回归生成时,左填充可以使得每个序列的真实内容都位于右侧,这样在生成过程中,模型每次只需要关注最新的token(即最右侧的token),而左侧的填充不会干扰生成。同时,由于模型在生成时是从左到右,左填充确保了真实内容在生成过程中始终位于模型的右侧上下文,生成文本时(如逐token生成),左填充将真实token推向右侧,使模型每次只需关注最新生成的token(右侧)。若用右填充,生成过程中真实token在左侧,而模型会根据右侧Padding token来生成新内容,效果差。

http://www.dtcms.com/wzjs/127869.html

相关文章:

  • 网站交给别人做安全吗培训体系搭建
  • 汽车租赁网站建设天津seo顾问
  • 外贸网站 php郑州做网站的大公司
  • 在门户网站中企业推广宣传文案
  • 智能客服的发展前景站长工具seo综合查询降级
  • 网站后台登录域名360推广登录入口官网
  • wordpress 学校模板湛江seo
  • 服务器租用国外浙江搜索引擎优化
  • the7 wordpress themeseo的优化步骤
  • 广东建设执业网站网站推广途径和推广要点
  • 芗城网站建设公司seo推广公司招商
  • 丹阳网站建设咨询济南百度
  • 九江 网站建设百度论坛首页官网
  • 农业技术网站建设原则商品标题seo是什么意思
  • 做网站模板的网页名称是m开头站长友情链接
  • 哪些软件可以做网站杭州百度推广公司有几家
  • nba网站设计seo外包上海
  • wordpress媒体库限制百度seo入驻
  • 哪些网站可以做易拉宝电商seo搜索引擎优化
  • 绿色食品网站建设可行性站内推广的方法和工具
  • 网站评估 源码免费发布信息网网站
  • 最新新闻摘抄2022年网站怎么优化seo
  • 贵阳奇点未来网站建设新手怎么做网页
  • 做网站的策划书网站建设全包
  • 广州市医院网站建设哪家好网络营销创意案例
  • 如何创作网站网址查询域名解析
  • 建筑工程公司名字大全seo全网优化指南
  • 珠海专业网站建设费用seo工具有哪些
  • 深圳做网站的爱情独白外包推广公司
  • 网站建设宣传册被代运营骗了去哪投诉