FLOPs、TFLOPs 与 TOPS:计算能力单位
在 AI 模型和硬件性能讨论中,我们常会遇到几个计算能力的单位:FLOPs、TFLOPs 和 TOPS。它们都描述计算能力,但适用场景、计算类型和应用领域有所不同。理解它们有助于评估模型部署成本和硬件选型。
1. FLOPs(Floating Point Operations)
定义:一次浮点加法或乘法算作一次 FLOP
用途:衡量模型计算量或硬件浮点运算能力
应用领域:
深度学习训练:计算模型每次前向和反向传播所需浮点运算量
高性能计算(HPC):科学计算、天气模拟、物理仿真等
模型复杂度分析:帮助估算训练和推理所需算力
例子:一个 7B Transformer 模型的前向推理 FLOPs 可以达到数十亿次,训练时需要更多 FLOPs 来计算梯度。
2. TFLOPs(Tera FLOPs)
定义:万亿次浮点运算(10¹² FLOPs)
用途:衡量硬件理论峰值浮点计算能力
应用领域:
GPU 性能标注:如 NVIDIA、AMD 显卡的 FP32/FP16 理论峰值
超级计算机性能:Top500 超算榜单中通常以 PFLOPs(千万亿 FLOPs)衡量
深度学习加速:选择 GPU 训练或推理模型时参考峰值 TFLOPs
例子:RTX 4090 的 FP32 峰值约 82.6 TFLOPs,FP16 可达 165 TFLOPs。
3. TOPS(Tera Operations Per Second)
定义:万亿次算子运算,可以是浮点或整数运算
用途:衡量 AI 芯片或加速器的峰值推理能力
优势:
适用于 量化模型(INT8/INT4)
包括整数运算,更贴近实际推理速度
应用领域:
嵌入式 AI:Raspberry Pi + Coral Edge TPU、Jetson Nano、NPU 芯片
边缘推理设备:智能摄像头、物联网设备
量化模型推理:加速推理、降低功耗
例子:
Edge TPU:约 4 TOPS INT8
Jetson Nano:0.5~1 TOPS INT8
桌面 GPU 对量化模型可达几十到上百 TOPS
4. FLOPs 与 TOPS 的对比
指标 | 运算类型 | 使用场景 | 优势 |
---|---|---|---|
FLOPs | 浮点 | 模型训练、全精度推理、高性能计算 | 精度高,标准化度量 |
TFLOPs | 浮点(万亿次) | GPU 性能标注、深度学习硬件 | 便于对比 GPU 理论峰值 |
TOPS | 整数/浮点 | 量化模型、嵌入式 AI、边缘推理 | 更贴近实际推理性能,节能加速 |
简而言之:FLOPs/TFLOPs 适合训练和浮点计算分析,TOPS 更适合量化模型和嵌入式/边缘计算。
5. 实际应用示意
数据中心 GPU:大模型训练/推理 → 关注 FLOPs/TFLOPs
桌面 GPU:本地部署量化模型 → TOPS 可评估推理速度
嵌入式设备/单片机:量化模型推理 → TOPS 衡量性能和功耗
总结
FLOPs:描述模型计算量,关注浮点运算
TFLOPs:GPU/超算理论峰值,万亿级浮点运算
TOPS:量化运算峰值,更适合 INT8/INT4 和边缘设备
在选择硬件或部署量化模型时,结合显存、延迟和算力指标,能更直观地评估性能和成本