当前位置: 首页 > news >正文

Coach系统精读分析:基于时序模式的云平台全资源超售【无标题】

Coach系统精读分析:基于时序模式的云平台全资源超售

Coach: Exploiting Temporal Patterns for All-Resource
Oversubscription in Cloud Platforms

doi: 10.1145/3669940.3707226

一、研究背景与问题定位

核心问题:云平台资源利用率低下,尽管已有多种改进方案(如解聚、资源收割和超售),但问题依然存在。对Azure虚拟机资源利用率的特征分析显示:

• CPU是主要未充分利用的资源

• 需要提供全资源整体管理解决方案

• 许多VM表现出互补的时序模式,可用于改进未充分利用资源的超售
在这里插入图片描述

三大低利用率原因:

  1. 未分配资源:平台为未来VM分配预留的资源
  2. 搁置资源:因服务器中其他资源已完全分配而无法分配的资源
  3. 未充分利用资源:已分配给VM但未被工作负载使用的资源

二、资源利用特征分析

2.1 分配资源特征

在这里插入图片描述

关键发现:
• 运行时间超过1天的VM消耗了约96%的已分配核心×小时,尽管只占VM总数的28%

• 较大VM(32GB或以上)消耗超过60%的GB小时,尽管只占约20%的VM

• 解决方案应同时针对长期运行和较大的VM

2.2 搁置资源分析

在这里插入图片描述

搁置程度:
• CPU:8%平均搁置

• 内存:18%平均搁置

• 网络:29%平均搁置

• SSD:54%平均搁置

在这里插入图片描述

瓶颈分析:不同集群间存在显著差异,需要考虑跨服务器的多样化配置

2.3 未充分利用资源分析

在这里插入图片描述

利用率模式:
• 大多数VM的平均CPU利用率低于50%

• 内存利用率范围通常较窄(50%的VM范围小于10%)

• CPU利用率较高的VM往往也有较高的内存利用率
在这里插入图片描述

时序模式发现:VM存在一致的每日峰值,可被利用

在这里插入图片描述

互补性验证:峰值和谷值均匀分布在六个时间窗口中,表明可以通过在特定时间窗口将峰值VM与谷值VM并置来利用这种互补性

在这里插入图片描述

行为一致性:大多数VM具有一致的峰值和谷值,表明这些模式可以随时间利用

在这里插入图片描述

节省潜力:使用时序模式可以节省显著资源,6×4小时窗口可节省约15%内存和20%CPU

在这里插入图片描述

跨集群一致性:并置具有互补模式的VM可以 consistently 带来显著节省

三、Coach系统设计

3.1 系统概述

在这里插入图片描述

设计目标:
• G1:最小化客户负担 - 对VM工作负载透明

• G2:最小化工作负载干扰 - 尽量减少对VM性能的负面影响

系统组成:
• 集群管理:预测、调度决策

• 服务器管理:本地资源调整、监控和缓解

3.2 CoachVM设计
在这里插入图片描述

核心创新:引入CoachVM类型,将每个资源分配划分为:
• 保证部分:始终分配给VM以确保性能

• 超售部分:按需从超售池分配以最大化资源节省

内存管理挑战:
• 物理地址(PA)内存:高性能但静态分配

• 虚拟地址(VA)内存:可动态调整但可能产生页面错误
在这里插入图片描述

PA/VA比率影响:需要平衡性能与资源节省的选择最优PA/VA比率

3.3 基于时间窗口的利用率预测

预测方法:使用随机森林回归器预测每个时间窗口中每个资源的利用率百分位(如P95)

VM调度策略:考虑每个时间窗口的预测利用率,而不仅仅是单一静态值

在这里插入图片描述

数学公式:
• PA需求:PA_demand_{VM_i} = \max_{t \in TW}(P_{X_t})

• VA需求:VA_demand_{VM_{i,t}} = \max(0, P_{\max_t} - PA_demand_{VM_i})

• 总保证内存:\sum_{i \in VM} PA_demand_{VM_i}

• 总超售内存:\max_{t \in TW}(\sum_{i \in VM} VA_demand_{VM_{i,t}})

在这里插入图片描述

配置选择:使用P95利用率预测和六个4小时时间窗口,确保超售资源最多使用5%的时间

3.4 监控和缓解竞争

监控机制:每20秒跟踪资源利用率和竞争指标

预测方法:
• 短期:指数加权移动平均(EWMA)

• 长期:长短期记忆网络(LSTM)

缓解策略:
• 本地缓解:调整资源分配、修剪冷内存

• 全局缓解:迁移VM、驱逐低优先级VM
在这里插入图片描述

缓解效果: proactive策略比reactive策略更早触发缓解,更快解决竞争

四、实验评估

4.1 CoachVM性能评估

在这里插入图片描述

性能结果:
• 敏感工作负载(Microservice、CACHE、KV-STORE)在完全超售情况下性能下降达2.35倍

• Coach的保守分配策略将性能下降限制在最多10%

• 实时工作负载尾部延迟 slowdown:CACHE 7%、DATABASE 2%、MICROSERVICE 4%

4.2 时间窗口调度影响

在这里插入图片描述

预测准确性:内存预测错误率19-24%,CPU预测错误率23-30%

在这里插入图片描述

容量提升:
• SINGLE策略比无超售增加22%容量

• COACH策略比SINGLE额外增加16%容量

• AGGR COACH比COACH再增加9%容量

竞争控制:COACH增加1% CPU竞争和小于1%内存违规

五、技术贡献与创新价值

  1. 全资源超售框架:首次系统性解决虚拟化环境中的全资源超售问题

  2. CoachVM设计:创新的保证+超售资源划分模型,确保性能同时最大化资源节省

  3. 基于时间窗口的预测调度:利用互补时序模式进行精细化资源管理

  4. 生产就绪解决方案:考虑实际云平台的各种约束条件(实时迁移、设备直通、主机更新等)

  5. 全面的评估验证:通过真实工作负载和生产跟踪证明系统有效性

六、实际应用价值

资源节省:使平台能够多托管约26%的VM,最小性能下降

业务影响:为云提供商提供显著的成本优势,同时保持客户SLO

部署路径:支持分阶段推出,首先超售可替代资源,随着信心建立再增加超售率

Coach系统通过创新的时序模式利用和全面的资源管理方法,为云平台资源利用率提升提供了切实可行的解决方案,在性能保证和资源节省之间实现了优化平衡。

http://www.dtcms.com/a/404102.html

相关文章:

  • 陕煤化建设集团网站矿建二公司奉化网站关键词优化费用
  • 产品网站开发服务阿里指数查询入口
  • 网站建设流程及相应技术网页升级访问中新每天正常更新中
  • 下沙做网站的网页设计模板html代码班级主题
  • 网站添加flv视频代码创意工作室网站
  • MySQL-事务基础
  • 学习游戏制作记录(史莱姆敌人的制作)
  • 创建一个网站一般步骤有哪些网站开发python
  • 江苏省建设厅官网网站首页网站建设二次开发怎么样
  • 安徽网站建设公司哪家好上海域名icp海网站建设
  • 北京住房城乡建设部网站首页搭建论坛需要多少钱
  • 养老网站建设方案咨询类网站建设方案书
  • Java算法起航:数据结构与复杂度入门
  • 市北区开发建设局 网站老客户网站建设
  • 足球直播网站开发定制检察院网站建设
  • dw软件网站建设教程视频云阳网站建设公司
  • Ubuntu 20.04上安装Miniconda3(一)
  • 免费网站模板素材一般淘宝网站做几个月赚钱
  • 可以做设计兼职的网站有哪些工作狮城app更多网站
  • 区域提议(Region Proposal)
  • 交互性强的网站龙轩导航
  • 为什么网站关键词没有排名产品推广ppt范例
  • 前沿系统级编程:Zig 与 Rust 技术深度解析与实践
  • Spring Boot 中@RestController注解的详解和使用
  • 滨州论坛网站建设怎样做网站 知乎
  • Vue.js响应式API
  • 汕头网站建设培训公司手机开发者选项怎么关闭
  • 电子商务网站的建设目标织梦移动端网站模板下载
  • 2025.9.24总结
  • 基于 OpenCV 的 FisherFaceRecognizer 人脸识别与中文标签显示实践