当前位置: 首页 > news >正文

AWS VPC NAT 网关可观测最佳实践

AWS VPC NAT 网关介绍

AWS VPC NAT 网关是一种网络地址转换 (NATI) 服务。您可以使用 NAT 网关,以便私有子网中的实例可以连接到 VPC 外部的服务,但外部服务无法启动与这些实例的连接。

  • 完全托管服务:由 AWS 负责管理,用户无需自行维护,如安装软件更新或操作系统补丁等,大大减少了管理工作量
  • 高带宽:可以纵向扩展到 100Gbps,能够轻松应对高流量场景,满足大规模应用的需求。
  • 冗余设计:每个可用区中的 NAT 网关都采用冗余实施,可自动处理故障转移,无需用户干预,从而确保服务的持续可用性。支持多可用区部署,可避免单点故障,进一步提高网络整体的可靠性

监控 VPC NAT 网关的必要性在于网络管理员通常需要了解 NAT 网关的运行状况和性能,从而能够密切监视网关的运行状况并快速排查任何问题。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到 AWS VPC NAT GATEWAY,点击【安装】按钮,弹出安装界面安装即可,点击【安装】按钮,弹出安装界面安装即可

关键指标

指标描述单位
ActiveConnectionCount通过 NAT 网关激活的并发 TCP 连接的总数。零值表示未通过 NAT 网关激活任何连接。 Statistics:最有用的统计工具是 Max。Count
BytesInFromDestinationNAT 网关从目标接收的字节的数量。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。Byte
BytesInFromSourceNAT 网关从 VPC 中的客户端接收的字节的数量。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。Byte
BytesOutToDestination通过 NAT 网关发送到目标的字节的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 BytesOutToDestination 的值小于 BytesInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。Byte
BytesOutToSource通过 NAT 网关发送到 VPC 中客户端的字节的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 BytesOutToSource 的值小于 BytesInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。Byte
ConnectionAttemptCount通过 NAT 网关尝试的连接次数。这仅包括初始 SYN。在某些情况下,由于 SYN 重新传输,ConnectionAttemptCount 可能低于 ConnectionEstablishedCount。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。Count
ConnectionEstablishedCount通过 NAT 网关建立的连接的数量。这包括 SYN 和 SYN 重新传输。如果 ConnectionEstablishedCount 的值小于 ConnectionAttemptCount 的值,则表示 NAT 网关后面的客户端已尝试为无响应的连接建立新连接。 Statistics:最有用的统计工具是 Sum。Count
ErrorPortAllocationNAT 网关无法分配源端口的次数。大于零的值表示通过 NAT 网关打开的并发连接太多。 Statistics:最有用的统计工具是 Sum。Count
IdleTimeoutCount从活动状态转换为空闲状态的连接的数量。如果活动连接未正常关闭并且前 350 秒内无活动,活动连接将转换为空闲状态。大于零的值指示存在已变为空闲状态的连接。如果 IdleTimeoutCount 的值增加,则可能指示 NAT 网关后面的客户端正在重复使用过期连接。单位:计数 Statistics:最有用的统计工具是 Sum。Count
PacketsDropCountNAT 网关丢弃的数据包的数量。要计算丢弃的数据包数量占数据包总流量的百分比,请使用以下公式:PacketsDropCount/(PacketsInFromSource+PacketsInFromDestination)*100。如果该值超过 NAT 网关上总流量的 0.01%,则 Amazon VPC 服务可能存在问题。使用 AWS 服务运行状况控制面板来确定可能导致 NAT 网关丢包的服务问题。 Statistics:最有用的统计工具是 Sum。Count
PacketsInFromDestinationNAT 网关从目标接收的数据包的数量。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。Count
PacketsInFromSourceNAT 网关从 VPC 中的客户端接收的数据包的数量。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。 Statistics:最有用的统计工具是 Sum。Count
PacketsOutToDestination通过 NAT 网关发送到目标的数据包的数量。大于零的值指示有流量从 NAT 网关后面的客户端流向 Internet。如果 PacketsOutToDestination 的值小于 PacketsInFromSource 的值,则 NAT 网关处理期间可能有数据丢失。单位:计数 Statistics:最有用的统计工具是 Sum。Count
PacketsOutToSource通过 NAT 网关发送到 VPC 中客户端的数据包的数量。大于零的值指示有流量从 Internet 流向 NAT 网关后面的客户端。如果 PacketsOutToSource 的值小于 PacketsInFromDestination 的值,则表示 NAT 网关处理期间可能存在数据丢失,或存在被 NAT 网关主动阻止的流量。 Statistics:最有用的统计工具是 Sum。Count
PeakBytesPerSecond该指标报告给定分钟内每秒的 10 秒字节最高平均值。 Statistics:最有用的统计工具是 Maximum。Count
PeakPacketsPerSecond此指标每 10 秒计算一次平均数据包速率(每秒处理的数据包),持续 60 秒,然后报告六个速率中的最大值(最高平均数据包速率)。 Statistics:最有用的统计工具是 Maximum。Count

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “AWS VPC NAT GATEWAY”, 选择 “AWS VPC NAT GATEWAY”,点击 “确定” 即可添加视图。

监控器(告警)

VPC_NAT_GATEWAY丢包百分比过高告警

VPC_NAT_GATEWAY无法分配源端口告警

总结

AWS VPC NAT 网关提供了一种高效、可靠的网络地址转换方案。观测云通过采集该服务的监控指标,以便网络管理员人员可以全面了解 VPC NAT GATEWAY 服务的运行状态并快速排查任何问题。

http://www.dtcms.com/a/305605.html

相关文章:

  • 【iOS】weak修饰符
  • 计算机组成原理(6) - 加法器
  • SpringBoot学习 |springboot概念+微服务架构
  • 【AI】入门级提示词模板:适用于ChatGPT、文心一言等主流模型
  • day25——HTML CSS 前端开发
  • 运维管理系统的优势和缺点
  • springcloud03-Nacos配置中心
  • HTML应用指南:利用POST请求获取全国公牛门店位置信息
  • Python 使用 asyncio 包处理并 发(使用asyncio包编写服务器)
  • WebSocket 简介与在 Vue 中的使用指南
  • LaTeX 创建工程并生成完整文档指南
  • tplink er2260t配置带vlan的pppoe拨号
  • 【人工智能99问】混合专家模型(MoE)是如何训练的?(18/99)
  • Tomcat 服务器日志
  • uvm-tlm-sockets
  • 论文Review 3DGSSLAM S3PO-GS | ICCV 2025 港科广出品!| 高效快速的3DGSSLAM!
  • 适配鸿蒙低性能设备的终极优化方案:从启动到渲染全链路实战
  • 企业级web应用服务器TOMCAT
  • Qt 嵌入式系统资源管理
  • 【GEO从入门到精通】生成式引擎与其他 AI 技术的关系
  • Linux线程同步与互斥(上)
  • HTML5 Web 存储
  • 从结构到交互:HTML5进阶开发全解析——语义化标签、Canvas绘图与表单设计实战
  • 【探索进程信号】:信号捕捉
  • iOS 签名证书与上架流程详解,无 Mac 环境下的上架流程
  • 微服务的编程测评系统8-题库管理-竞赛管理
  • 基于Rust与HDFS、YARN、Hue、ZooKeeper、MySQL
  • 【Dolphinscheduler】docker搭建dolphinscheduler集群并与安全的CDH集成
  • C++菱形虚拟继承:解开钻石继承的魔咒
  • 【ee类保研面试】数学类---线性代数