阿里云 RDS PostgreSQL 可观测最佳实践
阿里云 RDS PostgreSQL
阿里云RDS PostgreSQL 是阿里云提供的一种稳定、可靠、可扩展的关系型数据库服务,基于开源对象-关系型数据库 PostgreSQL 打造,兼容 SQL 标准,支持复杂查询、事务处理、JSON 数据类型以及强大的扩展能力(如 PostGIS、hstore 等)。RDS PostgreSQL 提供全自动的主备高可用架构,支持跨可用区部署,确保业务连续性。用户无需关心底层运维,系统自动完成备份恢复、监控告警、性能优化和版本升级等操作。
该服务支持多种实例规格,可根据业务负载灵活调整配置,实现资源弹性伸缩。同时,集成阿里云安全体系,提供网络隔离、数据加密、访问控制等多重安全防护,保障数据安全。RDS PostgreSQL 广泛应用于金融、电商、地理信息、数据分析等对数据一致性与复杂查询要求较高的场景。通过与 DTS、DBS 等阿里云产品无缝集成,还可实现数据迁移、灾备与读写分离,提升系统整体性能与可靠性。是企业构建现代化应用的理想数据库平台之一。
观测云
观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
采集器配置
- 登录观测云控制台
- 点击【集成】菜单
- 点击【云账号管理】-【添加云账号】,选择【阿里云】
- 填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
- 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
- 点击【云账号管理】列表上可以看到已经添加的云账号,点击进入详情页
- 点击【集成】按钮,在未安装列表下找到阿里云 RDS PostgreSQL,点击【安装】按钮,弹出安装界面安装即可。
关键指标
| 指标名 | 描述 | 单位 |
|---|---|---|
| PG_DBAge | PG_数据库年龄 | count |
| PG_InactiveSlots | PG_非活跃复制槽数量 | count |
| PG_MaxExecutingSQLTime | PG_最慢SQL执行耗时 | seconds |
| PG_MaxSlotWalDelay | PG_最大复制槽延迟(MB) | byte |
| PG_ReplayLatency | PG_最慢Standby回放延迟(MB) | byte |
| PG_SwellTime | PG_最长事务执行耗时 | seconds |
| active_connections_per_cpu | PG_每CPU平均活跃连接数 | count |
| conn_usgae | PG_连接数使用率 | % |
| cpu_usage | PG_CPU使用率 | % |
| five_seconds_executing_sqls | PG_五秒慢SQL | count |
| iops_usage | PG_IOPS使用率 | % |
| local_fs_inode_usage | PG_INODE使用率 | % |
| local_fs_size_usage | PG_磁盘空间使用率 | % |
| local_pg_wal_dir_size | PG_WAL文件大小 | MB |
| mem_usage | PG_内存使用率 | % |
| one_second_executing_sqls | PG_一秒慢SQL | count |
| three_seconds_executing_sqls | PG_三秒慢SQL | count |
场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 阿里云 RDS PostgreSQL, 选择 “阿里云 RDS PostgreSQL 监控视图”,点击 “确定” 即可添加视图。


监控器
观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。
登录观测云控制台,点击「监控」 -「官方模板库」,输入 “阿里云 RDS PostgreSQL”, 选择对应的监控器,点击 “确定” 即可添加。
阿里云 RDS PostgreSQL 内存告警
该告警配置针对阿里云 PostgreSQL 数据库的内存使用率进行监控,检测频率为每分钟一次,检测区间为最近 5 分钟。当内存使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

阿里云 RDS PostgreSQL CPU告警
该告警配置针对阿里云 PostgreSQL 数据库的 CPU 使用率进行监控,检测频率为每分钟 1 次,检测区间为最近 5 分钟。当 CPU 使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

阿里云 RDS PostgreSQL 告警
该告警配置针对阿里云 PostgreSQL 数据库的磁盘使用率进行监控,检测频率为每分钟一次,检测区间为最近 5 分钟。当内存使用平均值持续高于 90% 时触发严重告警,介于 80% 至 90% 时触发重现告警,并支持连续触发判断机制,确保及时感知数据库资源异常。

总结
观测云通过一站式采集阿里云 RDS PostgreSQL 的关键指标(如 CPU、内存、连接数等),结合智能告警规则(如多级阈值、连续触发判断),实现对数据库性能的分钟级监控与异常快速定位。该实践可帮助企业提升数据库稳定性,降低运维成本,增强业务连续性,实现云上资源的精细化管控与主动运维。
