当前位置：首页 > news >正文

面对3倍流量激增，「纽约时报」如何既稳又省？

news 2025/9/15 9:26:51

在这个信息爆炸的时代，一条突发新闻可能会在几分钟内吸引上百万用户同时涌入网站。

作为全球最具影响力的新闻机构之一，《纽约时报》如何应对这样的超高流量冲击？如何有效减少流量高峰期资源配置下的高昂成本？如何在短时间内完成快速弹性伸缩？

本文根据《纽约时报》高级软件工程师 Mel Cone 和 Deepak Goel 在2023年北美 KubeCon 上分享的实践案例整理而成，揭密他们如何以低成本、高效率应对突发新闻带来的流量洪峰。

突发新闻推送（Breaking News Alert）——即短时间内向用户发送通知，吸引用户进入网页和手机应用，能够瞬间引发流量的激增，一分钟内流量可能增长 2-3 倍。这不是普通的业务高峰，而是带有突发性与不可预测性的“流量地震”。

除了突发新闻，还有一些可预测的日常高峰，例如每天某款小游戏上线发布时，也会引发类似的波动——通常会带来 3 倍左右的瞬时访问量。

过去，工程师团队通常简单粗暴地“配置更多资源”来应对这一问题，但这会带来非常昂贵的成本代价和不必要的资源浪费。

因此，《纽约时报》需要一种能快速弹性伸缩的方案，以减少基础设施浪费。

《纽约时报》采用统一的 HTTP Ingress 来处理内外流量，这是一个较新的架构，目标是让所有流量最终都通过 Ingress。

为了让 Ingress 控制器能应对突发新闻推送和游戏发布带来的流量突增，我们经常需要将 Ingress 的副本数扩容 3 倍。

当用户访问《纽约时报》网站或 App 时，请求会先经过 HTTP Ingress，然后被路由到对应的上游服务。

但这些服务通常还需要调用其他内部服务——例如，首页服务会调用关闭服务（Off service）以检查用户是否登录和订阅服务，或调用个性化定制服务，最后再调回首页服务。这种“内部调用链”会进一步增加 Ingress 的流量负担。

Mel 介绍了《纽约时报》共享平台的一部分，特别是 AWS 上的共享 Kubernetes 集群。

“我们运行的是一个多租户的 Kubernetes 运行时环境，包含部署在多个区域和环境的集群，其中包含一个用于测试变更的沙箱集群。

每个团队都会获得一个租户级别的云账户，同时在开发环境和生产环境的集群中拥有属于该团队的命名空间（Namespace）。

所以每当我们需要进行扩容时，扩容操作往往需要在多个集群之间同时进行。当然，生产环境的扩容规模更大，但其实所有集群都会涉及。”

Pod级调度：通过 Binpack 策略优化节点资源利用率。
多实例类型支持：可以指定多种实例类型，Karpenter会自动选择成本最优的选项。
节点整合能力（Node Consolidation）：当它发现可以用单个更便宜的大节点替代多个小节点时，就会创建新节点并迁移工作负载，这种动态优化能显著降低我们的基础设施成本。

从这张架构图可以看出 Karpenter 的工作原理