业务视角下的主机维护模式:三重自动化,提升运维效率与业务连续性
作者:SmartX 金融团队 师宏志
目前,不少企业都在推进 VMware 虚拟化的替代,这就要求基于 KVM 技术的国产虚拟化能够提供与之对标的产品能力。其中,SmartX 原生虚拟化 ELF 经过 10+ 年的持续迭代,不仅已广泛应用于金融、医疗、制造等行业的头部企业生产环境,还将实践中积累的经验转化为更好用、更智能的产品能力,帮助用户解决日常使用与运维中遭遇的各种挑战。
本期,我们将聚焦“主机维护模式”,解读 SmartX 榫卯企业云平台如何通过三重“自动化”功能,帮助用户简单、快速、安全地开展虚拟机主机维护工作。
点击观看视频,了解重点特性与实践!
为什么需要主机维护模式
在 IT 基础设施的日常运维工作中,有大量场景需要对虚拟化主机进行离线维护,如:虚拟化软件版本升级、固件升级、操作系统 Kernel 升级、硬件维护或更换以及下线主机等。
传统的虚拟化环境虽然提高了物理主机的使用率,但在主机维护的场景下,维护人员在主机维护前期、中期、后期都涉及大量的手动操作,整个过程费时费力。
超融合架构在传统虚拟化基础上引入更加先进的分布式存储架构,由于存在多个数据副本,节点下线需确保存储副本重新均衡,避免数据冗余度下降;节点重新上线后,还需要快速同步数据,增大了维护时间成本。
客户遭遇的真实挑战
某金融机构运维人员在虚拟化日常维护中,因管理的主机数量机较多,特别是在物理机进行固件升级、Kernel 升级以及更换硬件的检修中,需要对物理节点进行离线操作,故存在以下问题:
- 需人工检查集群运行状态、虚拟机迁移、业务验证等操作。但随着业务的增多,集群规模增大,需要进行维护的主机数量增多,重复的人为操作不仅消耗了大量的时间,还增加了业务停机和恢复时长,影响业务的实际开展。尤其是在进行物理机内存扩容等节点关机操作时,运维人员需要提前逐一统计虚拟机数量,再手动迁移虚拟机至其他节点;扩容完成后,还需根据清单再将虚拟机逐一迁回,过程繁琐、耗时且存在人为操作风险。
- 随着业务数据量增大,停机导致的需要恢复的数据量也随之增大,运维人员经常需要花较长的时间等待数据恢复完成,进一步影响业务效率。
SmartX 解决方案:三重“自动化”特性
针对上述问题,SmartX 榫卯企业云平台优化了主机维护模式,通过三重“自动化“特性帮助该用户:
- 通过自动检测集群和主机状态,提高处理效率并降低出错概率。
- 对于扩容停机场景,系统不仅将自动迁移虚拟机,在完成扩容并重启主机后,退出维护模式即可将虚拟机会自动回迁,无需人工干预。
- 结合存储维护模式和敏捷恢复功能,降低维护过程中的数据恢复量;主机处于维护模式 12 小时后,系统将自动恢复主机上的冷数据,避免由于副本失联而导致的冷数据恢复,降低数据恢复时间。
主机维护模式:简化运维流程,提高操作安全性
SmartX 榫卯企业云平台的主机维护模式支持在进行主机关机维护前自动预检查集群和主机的状态,确保集群里其它主机的关键服务运行正常,保障集群剩余数据的安全;同时,支持自动迁移系统服务虚拟机,减少主机离线维护操作期间产生的数据恢复量,提高主机上线后完成数据恢复的速度。
点击观看视频,了解更多操作演示!
主机维护模式整体流程
#1 进入维护模式前
系统进行预检查,集群和主机状态符合要求才允许进入维护模式。
#2 进入维护模式中
设置主机进入维护模式,主机状态为“进入维护模式中”。
- 在进入维护模式的过程中,系统自动将该主机上所有运行中的虚拟机热迁移至集群中的其他主机,无法完成热迁移的虚拟机在用户确认后关机,开启了 HA 的虚拟机冷迁移至集群中的其他主机。此过程中任一虚拟机迁移失败或关机失败,则进入维护模式任务失败,需要重新进入维护模式。
- 系统再次检查集群是否存在数据恢复,如存在,待数据恢复完成后主机再继续进入维护模式;如不存在,则直接进入维护模式。
#3 主机处于维护模式
任务中心提示进入维护模式成功或主机状态更新为维护模式后,可以对主机进行离线升级或运维操作。主机处于维护模式 12 小时后,系统将自动恢复主机上的冷数据。
#4 退出维护模式
系统进行退出检查,主机符合要求才允许退出维护模式。在界面中,集成了虚拟机自动回迁和自动开机特性功能,极大降低了人为手动的维护成本;在退出维护模式时勾选相应的功能,即可自动将虚拟机迁回当前主机、关闭的虚拟机自动开机。
业务价值与客户收益
主机维护模式并非单纯的“停机维护”,而是通过科学的资源调度和环境隔离,在“业务不中断”与“系统可维护”之间找到平衡。通过多种自动化操作、减少主机离线期间产生的数据恢复量,从而降低主机维护操作用时、缩短主机重新上线后数据恢复时长,务求将主机停机维护对虚拟机业务造成的影响降至最低,最终实现效率、安全、成本的多重价值优化。
#1 保障业务连续性
在维护模式下进行操作(如硬件更换、系统升级)时,可通过自动迁移业务虚拟机,避免直接中断核心业务,保障业务的连续性。例如服务器内存升级时,通过集群调度将业务流量转移至其他节点,确保用户无感知。
#2 提升维护效率
维护模式下的主机可专注于离线维护任务,不再需要人工检查集群服务、手动统计业务清单、迁移虚拟机等手动操作,并且在退出维护模式后,也支持虚拟机自动回迁,极大减轻维护人员的工作负担。
#3 满足合规与审计要求
维护模式下的所有操作都通过管理平台 CloudTower 中的任务完整记录,便于企业应对监管审计,确保操作可追溯、可验证。
#4 降低数据恢复成本与时间
主机维护模式包含集群关键业务的预检查、虚拟机自动迁移/回迁、存储维护模式等关键功能,通过敏捷恢复的方式,避免由于副本失联而导致的冷数据恢复,优化数据恢复粒度,极大减少了需要恢复的数据量;同时虚拟机迁移/回迁支持并发操作,有效地缩短了迁移时间。
#5 提高操作安全性
主机维护模式都是后台自动化操作,替代了人工重复的工作,降低因人为操作等因素造成集群和业务受影响的风险,提高了运维操作的安全性。
配置实践:简单易用
用户可以在 SmartX 的统一多集群管理平台 CloudTower 中操作“主机维护模式”。后续所有操作均在 CloudTower 中完成。
1.选择需要维护的集群节点,点击“进入维护模式”。
2.进入维护模式前对集群进行预检查。
3.进入维护模式自动热/冷迁移虚拟机,存储开启维护状态。
4.已进入维护模式,节点可进行离线操作。
5.主机完成维护操作,点击“退出维护模式”。
6.虚拟机进行自动回迁操作。
7.虚拟机回迁完成,退出维护模式。
更详细的安装与配置指南,请联系 SmartX 技术支持或查看产品文档 https://docs.smartx.com/
欲了解更多 SmartX ELF 虚拟化及榫卯企业云平台核心功能,欢迎点击链接获取电子书《SmartX ELF 虚拟化核⼼功能集》!
推荐阅读:
业务视角下的虚拟机工具:提升运维效率的全能助手
业务视角下的虚拟化特性|内容库:灵活的模板分发让基线管理更便捷
以 SmartX ELF 替代 VMware vSphere:生产级虚拟化特性,深度适配国产生态
聊一聊 SmartX 虚拟化模块 ELF 之社区贡献
SmartX 虚拟化内容合集:特性、实践、迁移指南
18 个短视频,全面了解 SmartX ELF 虚拟化等超融合关键能力!