当前位置: 首页 > wzjs >正文

iis 网站访问权限深度优化

iis 网站访问权限,深度优化,房产机构网站建设,东莞网站推广模板一、概览 1.1 背景介绍 大模型通常指的是参数规模庞大、计算复杂度高的深度学习模型,这些模型在推理阶段需要巨大的计算资源。而在2023年年尾,随着大模型的迅速发展,大模型的应用层出不穷,如何提高大模型的推理效率,…

一、概览

1.1 背景介绍

大模型通常指的是参数规模庞大、计算复杂度高的深度学习模型,这些模型在推理阶段需要巨大的计算资源。而在2023年年尾,随着大模型的迅速发展,大模型的应用层出不穷,如何提高大模型的推理效率,使用高效的分布式推理变得至关重要。

大型语言模型(LLMs)主要采用Transformers架构,该架构在训练阶段具有高度的并行性。然而,在实际应用中,高效地部署这些模型面临一些挑战。这是因为生成推理是逐个token进行的,而每个token的计算都依赖于先前生成的标记。因此,支持大规模训练的模型需要仔细考虑并行布局和内存优化,以实现所需的可扩展性和高效的低延迟推理。从而更好地支持大规模训练的模型在实际应用中实现高效的低延迟推理,从而满足对于实时性和可扩展性的需求。

然而,在实际的工程化环境中,模型性能优化从未是一个简单的最优化问题。在大型语言模型(LLMs)的生成推理中,我们面临着诸多挑战,包括庞大的内存占用、严格的延迟目标以及长序列长度,不同指标的优化方法还存在一定的冲突。

一次端到端的推理延迟包括两个主要部分:数据处理(prefill,大部分在CPU上进行处理)和逐词生成(decode,大部分在GPU上进行)

内存成本在prefill和decoder两个阶段都会存在,主要体现在将数据从HBM(high-bandwidth memory)传输到计算核心的成本上。主要的占用是模型本身的占用+kv cache+额外的一些参数的占用。

tips:分布式训练技术的介绍:https://zhuanlan.zhihu.com/p/598714869

1.2 分布式推理简要介绍

模型推理中的分布式并行技术,是指将一个大模型的推理过程拆解到多个设备或计算节点上运行,以达到 提升吞吐、加速响应、突破单卡显存限制 等目的。

1.2.1 模型并行

当有超大模型的模型,比如千亿模型,单卡放不下的时候,这个时候就可以进行模型并行。将模型参数按层或按张量拆分在多个推理设备上进行推理。输入数据,每个设备按照模型的层结构的顺序依次推理,每个设备的推理数据逐层的传递。所有的设备构成了整个完整的推理流程。比如设备1放置0-3层,设备2放置4-7层,设备3放置8-11层。

1.2.2 流水线并行

当模型并行按照层数进行拆分,也就是将模型纵向拆分,每个GPU只包含模型的一部分层,数据在一个GPU完成运算后,传给下一个GPU继续计算。这样可以在多个GPU上同时进行不同阶段的计算,提高资源利用率,类似于流水线机制一样,每个设备专注于每个阶段的计算,这种方式就是流水线并行。也可以说流水线并行是模型并行的一种特例。优点就是整体的吞吐量大,但是首次延时较长。

1.2.3 张量并行

当模型并行按照张量进行拆分,也就是将模型横向的拆分,比如一个大的矩阵拆分到多个推理设备上进行推理计算的时候,这种方式就是张量并行,典型的将 QKV 权重矩阵按列切到多个卡进行分布式计算,这种方式多用于Attention和FNN的线性层的大矩阵计算。从这个角度说数据并行是模型并行的一种特例。

1.2.4 数据并行

当有多用户的批量请求的时候,每个设备处理不同 batch,可以在多个推理设备上使用相同模型副本,然后针对每个设备输入不同的batch数据,这样子也可以提升整体的吞吐量,也就是空间换时间的做法。适用于推理场景中批量请求,提升吞吐。

1.2.5 混合并行

顾名思义就是多种并行方式进行结合的一种并行策略。

1.2.6 常见并行说法的解释

比如说我们常常讲到的MOE并行(专家并行),即将大模型FNN结构拆分成多个小模型(专家,expert), 推理自动的决定激活一部分专家用于计算,达到了节省计算资源的效果; 并引入可训练并确保稀疏性的门( gate )机制,以保证计算能力的优化。

使用 MoE 结构,可以在计算成本次线性增加的同时实现超大规模模型推理和训练,为恒定的计算资源预算带来巨大增益。而 MOE 并行,本质上也是一种模型并行方法。

 

 

Kv cache分布式存储,当在多卡/多节点环境下部署大模型推理时Key/Value 缓存(KV Cache)并不会集中在单个设备上,而是被拆分存储和管理在多个设备上。这样做的目的是: 降低显存压力,支持大模型在分布式架构上运行,加速推理。当模型本身已经被分布式切分运行,KV Cache 自然也要跟着一起“分布”到多个设备。原因是:

  • 模型本身已经被张量并行(TP)或模型并行(MP,那么每个 GPU 只负责部分计算。

  • 如果 KV Cache 不分布,就会出现跨设备依赖/通信瓶颈

  • 所以 KV Cache 必须“在哪算的就存在那”。

  • Infinite-llm: Efficient llm service for long context with distattention and distributed kvcache

分离式架构:这个思想其实比较简单,就是prefill 和 generate 分别放在不同的gpu上,

  1. Inference without Interference:Disaggregate LLM Inference for Mixed Downstream Workloads,

  2. Splitwise: Efficient Generative LLM Inference Using Phase Splitting,

  3. DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving,

这几篇论文都是分离式架构的论文,下面会详细的说明。

 

 

http://www.dtcms.com/wzjs/371712.html

相关文章:

  • 网站输入卡密提取怎么做sem优化公司
  • 网站开发与移动互联百度云网页版入口
  • 网站建设如何插入文字编辑器长沙网站优化价格
  • 湖南网站建设的公司投诉百度最有效的电话
  • 用户权限网站自动的网站设计制作
  • 查看网站用什么语言做的各国足球世界排名
  • 国内红酒网站建设安全优化大师下载
  • 时尚网站欣赏网站关键词收录查询
  • 跨境网站入口市场推广计划书
  • 南京政府网站建设一台电脑赚钱的门路
  • 西安网站建设制作价格低百度搜索官方网站
  • 重庆网站建设哪家做的好亚洲足球最新排名
  • 网页设计与网站开发经济可行性最新新闻今天最新新闻
  • 农业信息网站 建设站长统计是什么意思
  • 建站的步骤有哪些做外贸用什么软件找客户
  • 建设淘宝客网站源码怎么弄个人发布信息免费推广平台
  • 软件下载网站整站源码营销网店推广的软文
  • 做百度网站需不需要备案营销推广策略
  • 网站建设到维护成都搜索优化整站优化
  • 公司网站建设的费用会计处理关于营销的最新的新闻
  • 男女做暖暖网站seo短期培训班
  • 外贸网站建设视频seo入门教程
  • 宁波网站优化平台今日热点新闻事件及评论
  • 公司网站用什么开发微信指数怎么看
  • 小学网站源码php沈阳优化推广哪家好
  • 做采购 通常在什么网站看百度客服投诉中心
  • 怎么做网站安全检测营销型网站有哪些功能
  • 邯郸建设网站的公司大数据培训
  • 国家认可提升学历正规机构seo公司广州
  • 家具行业网站建设美国婚恋网站排名