aws 实战小bug
使用方法
看到题目 → 先判断场景类别(EC2、S3、RDS、VPC、权限等)
按表格检查关键点 → 快速写答案
答案逻辑要写清楚:原因 → 检查点 → 解决办法
思路不对,重新再来,慢慢来,你可以的
计算类(EC2 / ECS / Lambda / EKS)
场景 | 常见问题 | 解题思路 |
---|---|---|
EC2 SSH 失败 | SG 未开 22;无公网 IP;密钥错误 | 检查 SG → 公网 IP → Key Pair → 系统日志 |
ECS 无法拉取镜像 | ECR 权限不足;镜像不存在 | 确认 ECR 镜像存在 → 任务执行角色有 ecr:GetAuth 权限 |
Lambda 无响应 | Handler 错误;权限不足 | 检查函数入口 → IAM Role → CloudWatch 日志 |
EKS Pod 无外网 | NAT 配置错误;SG 拦截 | 确认 Pod 在私有子网 → 路由表指向 NAT → SG 放行 |
存储类(S3 / EBS / EFS / Glacier)
场景 | 常见问题 | 解题思路 |
---|---|---|
S3 403 Forbidden | Bucket Policy 禁止访问;Block Public Access 打开 | 检查权限策略 → 关闭 Block Public Access → 配置正确的 IAM Role |
S3 静态网站打不开 | 没有 index.html;没启用静态托管 | 开启 Static Website Hosting → 确认 index.html 上传 |
EBS 无法挂载 | 没有挂载点;未格式化 | 检查 lsblk → mkfs 格式化 → mount 挂载 |
EFS 无法访问 | SG 未开 NFS(2049);挂载点错误 | SG 放行 2049 → 检查挂载点配置 |
数据库类(RDS / DynamoDB / ElastiCache)
场景 | 常见问题 | 解题思路 |
---|---|---|
RDS 无法连接 | SG 未开 3306/5432;子网不通 | 检查 SG → VPC 路由表 → 正确的用户名/密码 |
DynamoDB 写入失败 | 主键缺失;IAM 权限不足 | 确认主键字段一致 → 检查 dynamodb:PutItem 权限 |
Redis 无法连接 | SG 未开 6379;无密码 | SG 放行 6379 → 检查配置文件 requirepass |
网络类(VPC / NAT / ALB / CloudFront)
场景 | 常见问题 | 解题思路 |
---|---|---|
私有子网无外网 | NAT Gateway 配置错误 | 确认私有子网路由表指向 NAT → NAT 在公有子网 |
ALB 无法访问后端 | Target Group 健康检查失败 | 检查 SG → 健康检查路径 → 目标服务是否监听 |
VPC Peering 不通 | 路由未配置;CIDR 重叠 | 确认路由表双向配置 → 无 CIDR 冲突 |
CloudFront 缓存不更新 | 旧缓存未清理 | 执行 Invalidation → 检查缓存策略 |
安全类(IAM / KMS / Secrets Manager)
场景 | 常见问题 | 解题思路 |
---|---|---|
AccessDenied | IAM 策略缺少权限 | 检查 IAM Policy → Resource ARN → 最小权限原则 |
AssumeRole 失败 | Trust Policy 错误 | 检查角色信任关系 → sts:AssumeRole 权限 |
KMS 解密失败 | 没有 kms:Decrypt 权限 | IAM Policy 添加解密权限 |
Secrets Manager 无法获取 | Lambda 缺少权限 | 为 Lambda 绑定 secretsmanager:GetSecretValue |
监控与运维(CloudWatch / CloudTrail / Config)
场景 | 常见问题 | 解题思路 |
---|---|---|
CloudWatch 告警未触发 | 指标错误;时间窗口太短 | 确认指标(CPU、Network)→ 调整 Evaluation Period |
CloudTrail 无日志 | Trail 未开启;无写入 S3 权限 | 开启全局 Trail → 检查 S3 Bucket Policy |
Config 规则不生效 | 资源未纳管 | 确认资源类型在 Config 规则中 |
冷门场景
S3 跨区域复制失败 → 检查版本控制 + IAM 权限
Aurora 读写分离异常 → 用错 Endpoint(reader / writer)
Lambda 超时 → 默认 3 秒,需要调整 Timeout
ECR 镜像过期 → 生命周期策略清理了镜像
Route 53 域名解析失败 → 检查记录类型、TTL、是否启用别名
Step Functions 执行失败 → 某个 Lambda 无权限
题目:某 AWS 服务出现问题(如 EC2 无法 SSH 登录)
思路:
现象描述:无法 SSH
可能原因:SG 未开放 22、没有公网 IP、Key Pair 错误
排查步骤:
检查 SG 是否允许
0.0.0.0/0:22
确认实例分配了公网 IP
核对私钥文件权限是否为 400
解决办法:
修改 SG,放行 22
为实例绑定弹性 IP
使用正确的 Key Pair