当前位置: 首页 > news >正文

阿里云监控及运维常见问题

云监控介绍:

阿里云的云监控服务(CloudMonitor)是一款简单易用、功能强大的监控工具,主要用来帮助用户实时监控阿里 云上的各种资源(比如服务器、数据库、网络等),并在出现问题时及时发出警报,确保业务稳定运行。

1.打开阿里云,找到对应服务

点击立即开通

2.在控制台找到云监控服务

开通云主机监控策略

为需要监控的主机安装Agent,点击自动安装Agent

等待片刻, 重新刷新对应的CPU使用率、内存使用率、磁盘使用率的数据即可出现

系统报警服务配置

云监控中的报警服务规则配置的主要目的是帮助用户实时监控阿里云资源、线下IDC、其他云厂商产品或自定义监 控数据的运行状态,并在监控指标达到预设条件时,自动触发报警通知。通过这种方式,用户可以及时获取异常信息 并 快速采取措施,确保业务系统的稳定性和可靠性。

1:设置报警联系人

报警联系人: 当触发条件后,需要通知相关人员, 这些对应的人员信息需要提前录入

2:设置报警联系组

报警联系组:多个联系人合并为一个组, 不同的类型可以单独设置为组,告警的时候可以直接针对多个用户同时告警

3:设置报警规则

报警规则:帮助用户监控运行状态,并在监控指标达到预设条件时,自动触发报警通知

 

系统运维常见问题

问题一:CPU负载

1: 确认是否存在负载过高使用top或htop命令查看系统的平均负载值。

注意:如果负载值持续高于CPU核心数的0.5倍,则可能存在负载过高问题。如果超过1则负载已经较高了, 当超过2~3倍意味着负载超高,需要立即解决

这三个值即表示CPU分别1分钟、5分钟和15分钟的平均负载情况

2: 排查CPU负载过高的原因

原因具体表现如何解决
异常进程或服务占用大量 CPU 资源单个进程或服务占用大量 CPU 资源,导致整体 CPU 使用率升高。使用 top 或 htop 命令查看具体占用 CPU 资源的进程。
按 Shift+P 按键,按 CPU 使用率排序定位异常进程,然后通过 Kill -9 终止异常进程。
系统资源不足实例的 CPU 性能不足以支撑当前业务需求升级实例规格或者优化业务逻辑
磁盘或网络 I/O 瓶颈CPU 负载高但实际 CPU 使用率较低,可能是磁盘或网络 I/O 瓶颈导致优化磁盘读写,比如升级高性能云盘
优化网络带宽:增加公网带宽或调整内网流量分布
僵尸进程或不可中断的睡眠状态通过 top 命令观察,CPU 使用率不高但负载值较高ps -axjf|grep "D+" 查看是否存在僵尸进程或不可中断的睡眠状态, 如果存在,建议恢复其对应依赖资源或重启系统
系统遭遇病毒或恶意程序攻击CPU 使用率高但无法通过 top 等命令找到异常进程通过云监控监测异常时间点,检查是否存在异常域名或 IP 的网络通信, 如果确认,建议先备份数据,然后回滚实例并进行病毒扫描

 问题二:内存爆满

1: 确认是否存在内存爆满 使用top或htop命令查看,或者直接云监控查看均可。

注意:如果内存使用率持续接近或达到100%,则定义为内存爆满

当Mem行的 free值几乎为0时, 表示剩余内存几乎没有了

2: 排查内存过高的原因

原因具体表现如何解决
异常进程占用大量内存单个进程或程序长时间占用大量内存资源使用 top 或 htop 命令查看具体占用内存资源的进程。
按 M 按键,按内存使用率排序,定位异常进程,然后通过 Kill - 9 终止异常进程。
系统内存不足实例的物理内存不足以支撑当前业务需求升级实例规格或者优化业务逻辑
内存泄漏或代码缺陷应用程序在运行过程中不断消耗内存,导致内存使用率持续升高使用内存分析工具(如 Valgrind、jprofiler、jmap 等)分析应用程序的内存占用情况
根据分析结果优化业务代码,修复内存泄漏问题
已删除未释放的僵尸文件磁盘空间充足,但内存使用率仍然很高lsof|grep deleted 查找已删除但未释放的文件,然后重启相关进程以释放内存
系统缓存或虚拟内存不足系统缓存占用过多内存,或虚拟内存配置不足设置 Swap 分区,增加虚拟内存大小

ECS服务器巡检报告介绍

ECS服务器巡检报告一般是用于评估云服务器ECS实例及其相关资源(如磁盘、网络等)的健康状态和运行性能。 该报告基于对ECS实例的全面检查,包括性能指标、安全风险、配置合规性等多个维度的分析。通过巡检报告可以提高 系统的稳定性、安全性、优化资源配置和支持合规性审计工作

巡检报告主要内容:

内容说明
性能监控数据包括 CPU 使用率、内存使用率、磁盘 I/O、网络流量等关键性能指标
异常问题诊断列出 ECS 实例在运行过程中发现的异常问题,例如高 CPU 利用率、磁盘 I/O 异常、网络连接问题等。
每个异常项需要附带严重等级(如 Info、Warn、Critical)
安全风险评估检查 ECS 实例是否受到 DDoS 攻击或其他安全威胁,并提供防护建议
资源使用与配置分析检查 ECS 实例的资源配置是否合理,例如磁盘空间是否充足、带宽是否满足业务需求,并提供优化建议
事件记录与处理建议监测到云盘性能达到上限或未创建快照备份等风险事件,确保系统的稳定性和数据的安全性

云服务器监控可视化大屏

2:打开自定义大盘,创建大盘

2:根据需求添加对应监测指标

如: 添加CPU使用率(折线图) 其他类似

http://www.dtcms.com/a/290613.html

相关文章:

  • MetaGPT源码剖析(一):MetaGPT框架下的多智能体协作项目——software_company.py
  • 安科瑞:能源微电网助力工业园区“绿色”发展
  • 数字孪生赋能智慧能源电力传输管理新模式
  • 光伏电站气象监测系统:为清洁能源高效发电保驾护航
  • Android 单编 framework 相关产物输出介绍
  • 如何在FastAPI中整合GraphQL的复杂度与限流?
  • jps用法整理
  • CSS的content属性妙用指南
  • 深度解析 HTML `loading` 属性:优化网页性能的秘密武器
  • 复习前端html,css,javascript
  • 一个适合MCU的分级菜单框架
  • 广播(Broadcast)和组播(Multicast)对比
  • docker磁盘空间不足解决办法
  • 【Qt Designer使用快捷键】
  • 【iOS】锁[特殊字符]
  • 18 零基础学webUI | Controlnet精讲(04)-图像风格转换类条件控图详解
  • 3、Spring AI_DeepSeek模型-多轮对话
  • Java在POJO中标记字段不需要被持久化到数据库,以及标记字段在对象序列化时忽略
  • 2025最新版IntelliJ IDEA Ultimate for Mac专业版安装使用指南
  • websocket和https的区别
  • 多尺度卷积模型:Inception块
  • 基于单片机儿童滞留车内防滞留系统
  • Go中的UDP编程:实战指南与使用场景
  • C语言重难点小复习(结构体/联合体/枚举)
  • 字节内部流传的数据分析手册
  • 浙江宁波,天一阁古籍资源(5262种,PDF格式,1.26T)
  • Redis的五大基本数据类型
  • Linux | C Shell 与 Bash 的差异 / 环境变量配置问题解析
  • 数学公式Latex语法快速入门
  • RANsemi 推出适用于 Split 7.2 Open RAN 无线电单元的即插即用基带板