当前位置: 首页 > news >正文

【超算】算力的精度,数据中心的划分标准与行业现状(国家超级计算机,企业万卡GPU集群)

【超算】算力的精度,数据中心的划分标准与行业现状(国家超级计算机,企业万卡GPU集群)

文章目录

    • 1、算力的精度、CPU/GPU算力区别(FP64/FP16)
      • 1.1 算力的单位、精度
      • 1.2 CPU和GPU的算力区别
      • 1.3 稀疏算力与稠密算力
    • 2、国家超级计算机(FP64)
      • 2.1 超算是什么?行业现状,技术细节
      • 2.2 为什么超算用CPU & FP64?
      • 2.3 超算 VS GPU集群
    • 3、企业万卡GPU集群(FP16)
      • 3.1 AI算力与传统算力的区别
      • 3.2 数据中心的划分标准
      • 3.3 万卡GPU集群搭建

这两天突然看到超算这个词,唤醒了遥远的回忆,感觉上次听到这个还是高中的时候。天河二号,神威太湖之光,这些当年都是新闻里的词汇。
时境过迁,看着手上的手机,从中学时期的iPhone5,换到了现在的13,到即将新出的17,这么多年过去,个人终端领域的算力都早已大不同前,当年每次的性能提高20%,现在早已不再关注。
在企业里,日常中也会接触到密集的大模型GPU算力,就很好奇,眼前这千卡,万卡的GPU集群,比起多年前的超算,究竟威力如何。

1、算力的精度、CPU/GPU算力区别(FP64/FP16)

1.1 算力的单位、精度

算力的单位

  • 常用算力的衡量指标包括FLOPS(每秒浮点运算次数)、OPS (每秒运算次数)。
    FLOPS (每秒浮点运算次数)特别适用于评估超级计算机、高性能计算服务器和GPU等设备的计算性能。
  • AI 算力常见单位分为TOPS和TFLOPS。
    推理算力,即通常用设备处理实时任务的能力,通常以TOPS(每秒万亿次操作)为单位来衡量。
    训练算力,即设备的学习能力和数据处理能力,常用TFLOPS(每秒万亿次浮点操作)来衡量。
    ai算力芯片知识
    GPU服务器计算精度是什么?

不同精度的使用场景

  • FP32:1符号位 + 8指数位 + 23尾数位(IEEE 754标准)
  • FP16:1符号位 + 5指数位 + 10尾数位
  • BF16:1符号位 + 8指数位 + 7尾数位(与FP32指数对齐)
  • FP8标准:NVIDIA Hopper支持的新格式(E5M2/E4M3)
  • 大模型时代:BF16已成为训练事实标准,而INT4/FP8正在重塑推理市场格局。
精度类型优点缺点典型应用场景
FP64超高精度(15-17位有效数字)计算速度慢,显存占用高气候模拟、量子化学、航天轨道计算
FP32通用性强,硬件广泛支持速度/精度折中传统HPC、3D游戏渲染、CAD设计
FP16速度快,显存节省50%需处理数值稳定性(梯度消失)DL训练(混合精度)、实时渲染
INT8极致推理速度,功耗极低需量化校准,精度损失明显手机AI芯片、边缘设备、自动驾驶感知
BF16保留指数范围,训练稳定性好尾数精度仅7位大语言模型训练(GPT/LLaMA系列)

1.2 CPU和GPU的算力区别

CPU和GPU的算力区别

  • 单核CPU的FP64性能是GPU单核心的37倍(0.052 vs 0.0014),但GPU靠「人海战术」(数万核心并行)实现总算力反超。
  • GPU的24 TFLOPS需完美并行化才能发挥,实际科学计算中利用率常低于50%
维度GPUCPU
设计目标高吞吐、大规模并行(SIMD)低延迟、复杂逻辑控制(分支预测、乱序执行)
核心架构数千个轻量级核心(如NVIDIA H100: 16,896 CUDA核心)少数高性能核心(如AMD EPYC: 96核)
内存系统高带宽显存(HBM3: 4.8TB/s)低延迟缓存(DDR5 + 多级缓存)
算力类型稠密算力王者(FP16/FP32矩阵乘法)稀疏算力优势(条件判断、不规则数据访问)

CPU和GPU的算力区别-例子

硬件FP64算力(TFLOPS)核心数每核心FP64性能功耗
AMD EPYC 9654 (96核)~5 TFLOPS960.052 TFLOPS/核360W
NVIDIA H200~24 TFLOPS16,896 CUDA核心0.0014 TFLOPS/核700W

1.3 稀疏算力与稠密算力

稀疏算力与稠密算力

  • 稠密算力:GPU占绝对优势(高并行 + 高带宽显存)。
    如ResNet-50训练(GPU比CPU快100倍)。
  • 稀疏算力:CPU更高效(依赖缓存和分支预测,避免无效计算)。
    如推荐系统的Embedding查找(CPU延迟更低)
算力类型数据特征典型应用场景硬件优化方向
稠密算力(Sparse Compute)数据连续、规整(如全连接矩阵)图像处理、AI训练(矩阵乘法)GPU Tensor Core(并行计算优化)
稀疏算力(Dense Compute)数据稀疏(多数元素为0)推荐系统、自然语言处理(NLP)CPU缓存优化、专用稀疏加速单元

稀疏算力与稠密算力-例子

任务类型GPU算力CPU算力GPU vs. CPU优势倍数
稠密FP16(AI训练)1,979 TFLOPS~0.5 TFLOPS3,958x
稠密FP64(科学计算)24 TFLOPS5 TFLOPS4.8x
稀疏计算(推荐系统)效率低(显存带宽浪费)效率高(缓存命中优化)CPU胜出

2、国家超级计算机(FP64)

2.1 超算是什么?行业现状,技术细节

超算科普 算力的历史
行业现状 1, 2,3

定义,超级计算机(Supercomputer)

  • 是指性能远超通用计算机的高性能计算系统,通常用于解决复杂科学计算、工程模拟和大规模数据处理等问题。
  • 其计算能力以FLOPS(每秒浮点运算次数)衡量,现代顶级超算的算力可达每秒百亿亿次(EFLOPS)级别。
  • 2023年全球超算市场规模约150亿USD,预计2027年达300亿(CAGR 15%)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

行业案例

  • 全球超级计算机500强(TOP500) 排行榜
    每半年发布一次,榜单由国际组织“TOP500”编制,旨在对全球已安装的超级计算机进行排名。目前,日本超级计算机“富岳”位列榜首,中国有186台上榜,数量位居第一。
    1, 2, 3
  • El Capitan:以 1.742 exaFLOPS 的峰值算力位居第一。
    该超算位于美国加州劳伦斯利弗莫尔国家实验室,基于 AMD 第四代 EPYC 处理器(24 核,1.8GHz)和 AMD Instinct MI300A 加速器,拥有 11,039,616 个计算核心,运行于 HPE Cray EX255a 架构下,并使用 HPE Slingshot 网路互连技术,能效达到 58.9Gigaflop / 瓦。
  • Frontier:以 1.353 EFlop/s 的 HPL 性能排名第二。
    该超算位于美国田纳西州的橡树岭国家实验室,由美国能源部运营。其采用了 HPE Cray EX235a 架构,配备 2GHz AMD EPYC 64C CPU 和 AMD Instinct 250X GPU,共有 8699904 个 CPU 和 GPU 核心,并借助于 HPE Slingshot 11 网络进行数据传输。
  • 根据第 65 届超级计算机 TOP500 榜单(2025 年 6 月 10 日榜单),中国超算由于不再参与 HPL 基准测试的数据更新,没有进入前十。
    其中,神威太湖之光排名跌至第 21 名,天河 2A 则跌至了第 31 名。
    神威·太湖之光超级计算机最高排名是世界第一,它在2016年6月和2017年6月两次登上全球超级计算机TOP500榜单的首位。

技术细节

  • 超级计算机的技术实现涉及硬件架构并行计算框架编程模型优化技术等多个层面。
  • 1、硬件架构
    (1)异构计算节点:
    -CPU:多路多核(如AMD EPYC 96核/Intel Xeon 56核),负责逻辑控制。
    -加速器:GPU(NVIDIA H100)、FPGA或专用芯片(如TPU),负责密集计算。
    -互联网络:InfiniBand(200Gbps以上)或定制互联(如Cray的Slingshot)。
    (2)存储分层:
    -L1 Cache(每核心独占) → L2/L3 Cache(共享)→ HBM(High Bandwidth Memory,如H100的3TB/s)→ 节点本地NVMe → 全局并行文件系统(如Lustre)
  • 2、并行计算框架
    (1)MPI(消息传递接口):跨节点通信,实现任务级并行
    (2)OpenMP(共享内存并行)
    (3)CUDA/HIP(GPU加速)
  • 3、典型软件栈编程模型优化技术
    (1)数学库:BLAS/LAPACK:基础线性代数运算(如Intel MKL);FFTW:快速傅里叶变换;cuDNN/cuBLAS:GPU加速库;
    (2)性能分析工具:Gprof:函数级耗时分析;Nsight/NVProf:GPU内核性能剖析;TAU:跨平台性能监控;
应用层│├─MPI+OpenMP+CUDA(并行模型)│├─PETSc/Trilinos(数学框架)│├─HDF5/NetCDF(数据IO)│└─Slurm/LSF(资源调度)

代码示例

// (C+MPI)
#include <mpi.h>
int main(int argc, char** argv) {MPI_Init(&argc, &argv);int rank, size;MPI_Comm_rank(MPI_COMM_WORLD, &rank);  // 获取当前进程IDMPI_Comm_size(MPI_COMM_WORLD, &size);  // 获取总进程数double data = rank * 1.0;double sum;MPI_Allreduce(&data, &sum, 1, MPI_DOUBLE, MPI_SUM, MPI_COMM_WORLD);  // 全局求和if (rank == 0) printf("Global sum: %f\n", sum);MPI_Finalize();return 0;
}// (C+OpenMP)
#pragma omp parallel for reduction(+:sum)
for (int i = 0; i < N; i++) {sum += compute_heavy_task(i);  // 自动线程分配
}// 使用MPI派生数据类型减少通信次数
MPI_Datatype subarray;
int sizes[2] = {N, N}, subsizes[2] = {M, M}, starts[2] = {0, 0};
MPI_Type_create_subarray(2, sizes, subsizes, starts, MPI_ORDER_C, MPI_FLOAT, &subarray);
MPI_Type_commit(&subarray);// (矩阵乘法,CUDA)
__global__ void matmul_kernel(float *A, float *B, float *C, int N) {int i = blockIdx.x * blockDim.x + threadIdx.x;int j = blockIdx.y * blockDim.y + threadIdx.y;if (i < N && j < N) {float sum = 0;for (int k = 0; k < N; k++) sum += A[i*N+k] * B[k*N+j];C[i*N+j] = sum;}
}
// 调用:dim3 blocks(32,32); dim3 threads(16,16); matmul_kernel<<<blocks,threads>>>(A,B,C,N);// Slurm作业提交示例
#!/bin/bash
#SBATCH --nodes=4          # 4个节点
#SBATCH --ntasks-per-node=8 # 每节点8进程
#SBATCH --gres=gpu:4       # 每节点4块GPU
mpirun -np 32 ./parallel_app

2.2 为什么超算用CPU & FP64?

为什么科学计算FP64仍以CPU为主?

  • 内存访问模式
    CPU的大缓存+低延迟内存(DDR5)更适合科学计算的不规则内存访问(如稀疏矩阵)。
    GPU的HBM显存带宽高但延迟高,适合规整的并行计算(如矩阵乘法)。
  • 编程模型
    传统科学代码(Fortran/MPI)针对CPU优化,移植到GPU需重写为CUDA/OpenACC。
  • 精度稳定性
    CPU的FP64计算单元更成熟,避免累积误差(如航天器轨道计算)。
  • FP64算力峰值
    GPU(如H200)确实高于单颗CPU,但 实际科学计算中,CPU的架构优势(低延迟、易编程)更关键
    不要只看峰值算力,实际科学计算中「有效算力」取决于内存、编程、算法协同

何时用GPU跑FP64?

场景推荐方案案例
高并行FP64(如CFD)GPU加速(CUDA Fortran)NVIDIA的Simulia Abaqus
强依赖分支判断CPU集群(MPI)核爆模拟(如美国LANL实验室)
混合精度AI+科学计算CPU+GPU异构Frontier超算的癌症研究

UTSC-MPI

2.3 超算 VS GPU集群

超算 VS GPU集群

  • 超算在FP64领域绝对领先,GPU集群无法替代
  • 企业GPU集群在AI算力上碾压传统超算
对比项国家超算(如Frontier)企业H200集群(10,000张)
FP64算力1.2 ExaFLOPS(1,200 PetaFLOPS)240 PetaFLOPS(单卡24 TFLOPS×10k)
能效比较低(功耗≈20MW)较高(H200能效优化)
优势场景核模拟、流体力学无直接竞争力(FP64非设计重点)
FP16算力200 PetaFLOPS(转换效率低)19,790 PetaFLOPS(单卡1,979 TFLOPS×10k)
显存带宽一般(依赖CPU内存)48 PB/s(单卡4.8 TB/s×10k)
优势场景小规模AI辅助研究大模型训练、实时推理

3、企业万卡GPU集群(FP16)

3.1 AI算力与传统算力的区别

AI算力与传统算力的区别

  • 本质区别:AI算力是“速度优先,容忍误差”,FP64算力是 “精度优先,严控误差”
  • 硬件分工:GPU的Tensor Core为AI而生,CPU/传统超算的FP64单元为科学护航。
  • 协作未来:AI与科学计算的边界逐渐模糊,但FP64在关键领域仍不可替代。
维度/指标AI算力FP64算力
编程模型PyTorch/TensorFlow(自动微分/梯度下降)MPI/OpenMP(手动并行化)
计算模式数据并行(分批次处理)任务并行(分布式协同计算)
库支持cuDNN、TensorRTBLAS、LAPACK、FFTW
峰值算力单卡可达数千TFLOPS单卡通常<100 TFLOPS
能效比极高(TOPS/Watt)较低(高功耗换精确性)
延迟敏感度批处理优先(高吞吐)强依赖低延迟(紧耦合计算)
核心单元Tensor Core/矩阵加速器(专为矩阵乘法优化)通用浮点单元(支持复杂数学函数)
内存带宽极高(HBM3达4.8TB/s,满足数据吞吐)中等(依赖CPU内存带宽,通常<1TB/s)
芯片面积大量晶体管用于并行低精度计算晶体管优先保障高精度运算稳定性
精度等级低精度(16位浮点/8位整数)高精度(64位浮点)
典型场景深度学习训练/推理 (容忍数值误差)科学计算(气候模拟、核物理,需绝对精确)
数据范围牺牲动态范围,专注模式识别保留极大/极小数值,避免累积误差

3.2 数据中心的划分标准

传统数据中心大小
通常根据标准机架数量、设计最大用电负荷等指标进行划分,以下是常见的划分标准:

  • 按标准机架数量划分
    我国新制定的《电子信息机房设计规范》GB 50174-2008,将电子信息机房定义为A、B、C三类
    超大型数据中心,通常面积大于2000m2,服务器机柜数量大于1000个;
    大型数据中心,通常介于800~2000m2,服务器机柜数量200~1000个;
    中型数据中心,面积为200~800m2,机柜数量为50~200个;
    小型数据中心,面积为30~200m2,机柜数量为10~50个;

  • 按设计最大用电负荷划分
    超大型数据中心:设计最大用电负荷 P≥40MVA。
    大型数据中心:设计最大用电负荷满足 40>P≥10MVA。
    中型数据中心:设计最大用电负荷满足 10>P≥5MVA。
    小型数据中心:设计最大用电负荷 P<5MVA。

GPU集群常见规模划分

  • NVIDIA DGX 集群标准
    NVIDIA 作为 GPU 领域龙头,其 DGX 系列集群(如 DGX A100、DGX H100)的规模划分具有行业参考性:
    小型集群:1-8 台 DGX 服务器(每台 8 张 GPU,即 8-64 张 GPU);
    中型集群:8-32 台 DGX 服务器(64-256 张 GPU);
    大型集群:32 台以上 DGX 服务器(≥256 张 GPU),可扩展至数千台形成 “AI 超级计算机”(如 NVIDIA 的 Selene 超级计算机,含 4480 张 A100 GPU)。
  • 国内 “智算中心” 分级
    中国信通院《新型数据中心发展白皮书》中,对 “智能计算中心”(以 GPU 集群为核心)的规模划分参考:
    中小型智算中心:总算力≤100 PFLOPS(AI 算力);
    大型智算中心:总算力 100-1000 PFLOPS
    超大型智算中心:总算力≥1000 PFLOPS

3.3 万卡GPU集群搭建

2024年图
在这里插入图片描述

硬件选型

  • 服务器与拓扑:
    标准机架式服务器(10000/8卡每台 ~= 1024台服务器)
    内存(每GPU配1:4显存比例配置,如A100 80GB配320GB内存)
    CPU(每GPU配1-2个CPU核,AMD EPYC或Intel Xeon)

  • 计算GPU选择:
    显存带宽(如H100的3TB/s)、互联技术(NVLink/NVSwitch)、单卡算力(FP32/TFLOPS)
    计算优化:混合精度训练(FP16/BF16)+ Tensor Core利用

  • 网络架构:
    InfiniBand:使用NVIDIA Quantum-2 InfiniBand(400Gbps)或更高,支持RDMA
    NVLink/NVSwitch:节点内GPU通过NVLink全互联(如DGX A100的NVSwitch),节点间通过InfiniBand
    通信优化:NCCL调优:设置NCCL_ALGO=TreeNCCL_PROTO=LL。GPUDirect RDMA避免CPU拷贝。

  • 存储系统:
    高性能并行存储:Lustre、GPFS或CephFS,带宽需≥100GB/s。全闪存阵列(如NVMe SSD),元数据服务器独立部署。
    数据流水线:预处理与训练分离,避免IO瓶颈。

软件栈部署

  • 集群管理
    调度系统:Slurm、Kubernetes(KubeFlow)+ NVIDIA GPU Operator。
    容器化:使用NGC(NVIDIA GPU Cloud)镜像或自定义Docker,集成CUDA/cuDNN。

  • 分布式训练框架
    PyTorch:torch.distributed + NCCL后端,支持FSDP(全共享数据并行)。
    TensorFlow:MultiWorkerMirroredStrategy。
    定制方案:Megatron-LM(3D并行)、DeepSpeed(ZeRO-3优化)

  • 监控与运维
    硬件监控:Prometheus + Grafana,跟踪GPU温度、功耗、利用率。
    日志系统:ELK Stack(Elasticsearch, Logstash, Kibana)。
    故障自愈:自动化脚本检测GPU故障并隔离节点。

估算

  • 自建大约估计
    核心硬件,H100单个2.5~4w,加服务器网络存储等(约 40 亿US)
    电力与散热,电力与液冷(年运营 1.7 亿US)
    配套基础设施,场地与人员(约 5.5 亿US)
    10 年总:约 77 亿US
  • 租赁 1
    H200租赁约2~5 US per hour,2*7*8*24*30=80640~400000/month/单台8卡
    万卡约1024台服务器,1个小目标每month

部分参考资料

  • 行业统计 , 字节万卡-论文 , DS-万卡, 移动-万卡
  • 万卡集群搭建 , 万卡集群搭建-网络 , 万卡集群运维, h200

更多有趣的探索

  • 万卡集群的日常运营运维
    1、需实时监控数万节点的算力负载与网络拥塞,通过智能调度算法避免单点故障扩散,同时最大化集群利用率。​
    2、长期运维的关键在于预判性损耗管理,通过硬件健康度建模提前替换老化部件,将非计划停机率压降至 1% 以下。
  • AI基础设施与传统基础设施的区别,硬件上的全链路
    1、AI Infra 处于垂直整合的关键节点,必须针对特定硬件进行模型的定制化设计与深度优化。​
    2、强化学习的融入,绝非仅停留在算法层面的调整,而是对硬件选型、系统架构乃至模型设计产生全链路影响。​
    3、能最充分发挥计算效能的方法,才是长远竞争中的胜出者;延续并极致利用摩尔定律,是 Infra 领域的终极命题。
http://www.dtcms.com/a/330325.html

相关文章:

  • 深入详解C语言的循环结构:while循环、do-while循环、for循环,结合实例,讲透C语言的循环结构
  • 关于linux软件编程4:目录IO和一些时间函数
  • PAT 1065 A+B and C (64bit)
  • 驱动开发系列62 - glBufferDataARB实现分析
  • Windows下cuda的安装和配置
  • BGP 笔记梳理
  • 110. 字符串接龙
  • 【Spring AI 1.0.0】Spring AI 1.0.0框架快速入门(6)——MCP Client(MCP客户端)
  • 最新Coze(扣子)智能体工作流:用Coze实现「图片生成-视频制作」全自动化,3分钟批量产出爆款内容
  • Docker网络命名空间隔离与VPS服务器环境的连通性测试方法解析
  • kali linux 2025.2配置局域网打印服务器惠普打印机HP1108p
  • MySQL查询表结构、表大小
  • 告别意外中断,iOS辅助工具按键精灵「异常停止重启脚本」功能介绍
  • <c1:C1DateTimePicker的日期时间控件,控制日期可以修改,时间不能修改,另外控制开始时间的最大值比结束时间小一天
  • git clone 支持在命令行临时设置proxy
  • 康托展开与逆康托展开
  • 词向量转化
  • RocketMQ 消息存储机制 CommitLog和ConsumerQu
  • 第八课:python的运算符
  • 从 VLA 到 VLM:低延迟RTSP|RTMP视频链路在多模态AI中的核心角色与工程实现
  • 论文分享 | Flashboom:一种声东击西攻击手段以致盲基于大语言模型的代码审计
  • 04-spring-手写spring-demo-aop0V1
  • Canal解析MySQL Binlog原理与应用
  • Unity、C#常用的时间处理类
  • Laravel 使用ssh链接远程数据库
  • 使用 Simple Floating Menu 插件轻松实现浮动联系表单
  • AI一周事件(2025年8月6日-8月12日)
  • [ Mybatis 多表关联查询 ] resultMap
  • ResourcelessTransactionManager的作用
  • 第三天-如何在DBC中描述CAN Signal的“负数/值”