Azure OpenAI GPT-5 PTU 容量规划与弹性配置实践
前言
本文分享我们在多区域部署 GPT-5 时的 PTU (Provisioned Throughput Units) 容量规划经验,以及如何通过弹性配置优化成本,年度节省约 $500K。
什么是 PTU?
PTU (Provisioned Throughput Units) 是 Azure OpenAI 提供的预留容量模式,适合高吞吐量、可预测的工作负载。
GPT-5 PTU 容量参数
- 1 PTU = 285,000 tokens/hour (4,750 tokens/min)
- 最小配置:15 PTU
- 增量单位:5 PTU
示例:
- 15 PTU = 4,275,000 tokens/hour
- 25 PTU = 7,125,000 tokens/hour
- 55 PTU = 15,675,000 tokens/hour
我们的场景
三个 Azure 区域部署 GPT-5 PTU,每个区域初始配置 25 PTU。
数据分析方法
1. 数据收集
使用
