Coach系统精读分析:基于时序模式的云平台全资源超售【无标题】
Coach系统精读分析:基于时序模式的云平台全资源超售
Coach: Exploiting Temporal Patterns for All-Resource
Oversubscription in Cloud Platforms
doi: 10.1145/3669940.3707226
一、研究背景与问题定位
核心问题:云平台资源利用率低下,尽管已有多种改进方案(如解聚、资源收割和超售),但问题依然存在。对Azure虚拟机资源利用率的特征分析显示:
• CPU是主要未充分利用的资源
• 需要提供全资源整体管理解决方案
• 许多VM表现出互补的时序模式,可用于改进未充分利用资源的超售
三大低利用率原因:
- 未分配资源:平台为未来VM分配预留的资源
- 搁置资源:因服务器中其他资源已完全分配而无法分配的资源
- 未充分利用资源:已分配给VM但未被工作负载使用的资源
二、资源利用特征分析
2.1 分配资源特征
关键发现:
• 运行时间超过1天的VM消耗了约96%的已分配核心×小时,尽管只占VM总数的28%
• 较大VM(32GB或以上)消耗超过60%的GB小时,尽管只占约20%的VM
• 解决方案应同时针对长期运行和较大的VM
2.2 搁置资源分析
搁置程度:
• CPU:8%平均搁置
• 内存:18%平均搁置
• 网络:29%平均搁置
• SSD:54%平均搁置
瓶颈分析:不同集群间存在显著差异,需要考虑跨服务器的多样化配置
2.3 未充分利用资源分析
利用率模式:
• 大多数VM的平均CPU利用率低于50%
• 内存利用率范围通常较窄(50%的VM范围小于10%)
• CPU利用率较高的VM往往也有较高的内存利用率
时序模式发现:VM存在一致的每日峰值,可被利用
互补性验证:峰值和谷值均匀分布在六个时间窗口中,表明可以通过在特定时间窗口将峰值VM与谷值VM并置来利用这种互补性
行为一致性:大多数VM具有一致的峰值和谷值,表明这些模式可以随时间利用
节省潜力:使用时序模式可以节省显著资源,6×4小时窗口可节省约15%内存和20%CPU
跨集群一致性:并置具有互补模式的VM可以 consistently 带来显著节省
三、Coach系统设计
3.1 系统概述
设计目标:
• G1:最小化客户负担 - 对VM工作负载透明
• G2:最小化工作负载干扰 - 尽量减少对VM性能的负面影响
系统组成:
• 集群管理:预测、调度决策
• 服务器管理:本地资源调整、监控和缓解
3.2 CoachVM设计
核心创新:引入CoachVM类型,将每个资源分配划分为:
• 保证部分:始终分配给VM以确保性能
• 超售部分:按需从超售池分配以最大化资源节省
内存管理挑战:
• 物理地址(PA)内存:高性能但静态分配
• 虚拟地址(VA)内存:可动态调整但可能产生页面错误
PA/VA比率影响:需要平衡性能与资源节省的选择最优PA/VA比率
3.3 基于时间窗口的利用率预测
预测方法:使用随机森林回归器预测每个时间窗口中每个资源的利用率百分位(如P95)
VM调度策略:考虑每个时间窗口的预测利用率,而不仅仅是单一静态值
数学公式:
• PA需求:PA_demand_{VM_i} = \max_{t \in TW}(P_{X_t})
• VA需求:VA_demand_{VM_{i,t}} = \max(0, P_{\max_t} - PA_demand_{VM_i})
• 总保证内存:\sum_{i \in VM} PA_demand_{VM_i}
• 总超售内存:\max_{t \in TW}(\sum_{i \in VM} VA_demand_{VM_{i,t}})
配置选择:使用P95利用率预测和六个4小时时间窗口,确保超售资源最多使用5%的时间
3.4 监控和缓解竞争
监控机制:每20秒跟踪资源利用率和竞争指标
预测方法:
• 短期:指数加权移动平均(EWMA)
• 长期:长短期记忆网络(LSTM)
缓解策略:
• 本地缓解:调整资源分配、修剪冷内存
• 全局缓解:迁移VM、驱逐低优先级VM
缓解效果: proactive策略比reactive策略更早触发缓解,更快解决竞争
四、实验评估
4.1 CoachVM性能评估
性能结果:
• 敏感工作负载(Microservice、CACHE、KV-STORE)在完全超售情况下性能下降达2.35倍
• Coach的保守分配策略将性能下降限制在最多10%
• 实时工作负载尾部延迟 slowdown:CACHE 7%、DATABASE 2%、MICROSERVICE 4%
4.2 时间窗口调度影响
预测准确性:内存预测错误率19-24%,CPU预测错误率23-30%
容量提升:
• SINGLE策略比无超售增加22%容量
• COACH策略比SINGLE额外增加16%容量
• AGGR COACH比COACH再增加9%容量
竞争控制:COACH增加1% CPU竞争和小于1%内存违规
五、技术贡献与创新价值
-
全资源超售框架:首次系统性解决虚拟化环境中的全资源超售问题
-
CoachVM设计:创新的保证+超售资源划分模型,确保性能同时最大化资源节省
-
基于时间窗口的预测调度:利用互补时序模式进行精细化资源管理
-
生产就绪解决方案:考虑实际云平台的各种约束条件(实时迁移、设备直通、主机更新等)
-
全面的评估验证:通过真实工作负载和生产跟踪证明系统有效性
六、实际应用价值
资源节省:使平台能够多托管约26%的VM,最小性能下降
业务影响:为云提供商提供显著的成本优势,同时保持客户SLO
部署路径:支持分阶段推出,首先超售可替代资源,随着信心建立再增加超售率
Coach系统通过创新的时序模式利用和全面的资源管理方法,为云平台资源利用率提升提供了切实可行的解决方案,在性能保证和资源节省之间实现了优化平衡。