当前位置: 首页 > wzjs >正文

购物网站创业时是如何做宣传的百度入口网页版

购物网站创业时是如何做宣传的,百度入口网页版,下载网站系统,我的世界怎么做购买点卷网站SwiftInfer —— 大模型无限流式输入推理飙升46%,打破多轮对话长度限制 StreamingLLM 篇 一、为什么需要 StreamingLLM?二、StreamingLLM 思路是什么?三、StreamingLLM 优点是什么? SwiftInfer 篇:基于TensorRT的Str…
  • SwiftInfer —— 大模型无限流式输入推理飙升46%,打破多轮对话长度限制
    • StreamingLLM 篇
      • 一、为什么需要 StreamingLLM?
      • 二、StreamingLLM 思路是什么?
      • 三、StreamingLLM 优点是什么?

    • SwiftInfer 篇:基于TensorRT的StreamingLLM实现
      • 一、为什么需要 SwiftInfer?
      • 二、SwiftInfer 思路是什么?
      • 三、SwiftInfer 优点是什么?

StreamingLLM 篇

EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS

:https://arxiv.org/pdf/2309.17453.pdf

一、为什么需要 StreamingLLM?

  1. 大语言模型能够记住的上下文长度问题,对ChatGPT等大模型应用与用户互动的质量的影响;
  2. LLM在预训练期间只能在有限的注意力窗口的限制下进行训练;
  3. 常见的KV Cache机制能够节约模型计算的时间,但是在多轮对话的情景下,key和value的缓存会消耗大量的内存,无法在有限的显存下无限扩展上下文

二次微调后的模型无法很好地泛化到比训练序列长度更长的文本,导致生成效果糟糕;

二、StreamingLLM 思路是什么?

通过观察注意力模块中Softmax的输出,发现了attention sink的现象。

注意力机制会为每一个token分配一个注意力值,而文本最初的几个token总是会分配到很多无用的 注意力。

当我们使用基于滑动窗口的注意力机制时,一旦这几个token被踢出了窗口,模型的生成效果就会 迅速崩溃。但只要一直把这几个token保留在窗口内,模型就能稳定地生成出高质量的文本。

比起密集注意力(Dense Attention)、窗口注意力(Window Attention)以及带重计算的滑动窗口注意力(Sliding Window w/ Re-computing),StreamingLLM基于attention sink的注意力机制无论是在计算复杂度还是生成效果上都表现优异。

在不需要重新训练模型的前提下,StreamingLLM能够直接兼容目前的主流大语言模型并改善推理 性能。

三、StreamingLLM 优点是什么?

StreamingLLM 能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共400万个token的流式输入,22.2倍的推理速度提升。

SwiftInfer 篇:基于TensorRT的StreamingLLM实现

一、为什么需要 SwiftInfer?

StreamingLLM使用原生PyTorch实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐 等需求仍有优化空间。

二、SwiftInfer 思路是什么?

  1. 将StreamingLLM方法与TensorRT推理优化结合,使 SwiftInfer 不仅拥有 原始StreamingLLM的所有优点,而且还具有更高的运行效率;
  2. 重新实现了KV Cache机制以及带有位置偏移的注意力模块;

如下图所示,假设窗口大小为10个token,随着生成的token增加(由黄色方块表示),我们在KV 缓存中将中间的token踢出,与此同时,始终保持着文本开始的几个token(由蓝色方块表示)。由 于黄色方块的位置会发生变化,在计算注意力时,我们也需要重新注入位置信息。

需要注意的是,StreamingLLM不会直接提高模型能访问的上下文窗口,而是能够在支持流式超多 轮对话的同时保证模型的生成效果。

三、SwiftInfer 优点是什么?

原版本的StreamingLLM可以可靠地实现超过400万个token的流式输入,实现了比带重计算的滑动 窗口注意力机制高出22.2倍的速度提升。

Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能,最多带来额外的最多46%的推理吞吐 速度提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。TensorRT-LLM团队 也在同期对StreamingLLM进行了类似支持。

http://www.dtcms.com/wzjs/286629.html

相关文章:

  • 义乌做网站哪家好营销型企业网站推广的方法有哪些
  • 大丰区城乡和住房建设局网站线上推广哪个平台最好
  • 嘉兴网站排名优化公司新闻发布会稿件
  • 注册网站安全吗飓风seo刷排名软件
  • wordpress 主题 样式表关键词优化排名软件s
  • 唯品会网站建设特色自媒体平台收益排行榜
  • 做网站一定要公司备案吗产品网络营销
  • 网站建设公司行情国际局势最新消息今天
  • 绵阳最有实力的公司网站建设百度搜索电话
  • 外国最火的直播app百度 seo优化作用
  • wordpress添加qq聊天高端网站优化公司
  • 常德网站建设培训机构百度推广助手官方下载
  • 真人菠菜网站开发制作百度百度
  • h5网站建设 北京seo推广 课程
  • 东铁匠营网站建设百度网站首页
  • 娄底做网站的公司哪些广告平台留号码
  • 深圳市工商注册信息查询网站充电宝关键词优化
  • 南山的网站建设百度联盟项目看广告挣钱
  • 网站制作多少钱400推广策略及推广方式
  • 政府网站做减法公务员考题微信软文案例
  • 益阳网站建设公司电话建网站教程
  • 电子商务网站建设实训个人总结内部优化
  • 什么是网站平台开发工具站长之家备案查询
  • 东莞免费做网站公司百度手机助手网页版
  • wordpress支持什么格式视频百度手机seo软件
  • 招商网站怎么做神童预言新冠2023结束
  • 网站怎么做劫持关键词在线挖掘网站
  • 傻瓜式在线做网站百度快照怎么看
  • 游戏网站的监管由谁来做给公司做网站的公司
  • 丰台网站建设公司免费发布信息网平台