以前的计算集群:Beowulf集群(贝奥武夫集群)
今天刷到有人提到Beowulf集群(贝奥武夫集群),于是了解了一下。手册:GitHub - asankaSovis/Beowulf-Cluster-Setup-Tutorial: 🖥️ A Beowulf cluster is a type of High-Performance Computing (HPC) cluster that is designed to perform parallel computations on large data sets or complex computational problems. This tutorial explains how to setup and run your first Beowulf cluster. Beowulf集群算是比较老的技术了,现在流行的大约是Hadoop 集群技术。
Beowulf集群概述
Beowulf集群是一种基于廉价个人电脑硬件构建的高性能并行计算机集群,得名于古英语史诗《贝奥武夫》12。其核心目标是通过标准化硬件(如PC、以太网)实现高性价比的并行计算能力,主要应用于科学计算领域。
核心特征
-
硬件架构
- 由相同配置的节点组成,通过TCP/IP局域网连接,运行Linux或BSD系统。
- 采用MPI、PVM等并行程序库进行任务分配与通信。
-
性能优势
-
高可扩展性:计算能力随节点数量线性增长。
-
高性价比:相比传统超级计算机成本显著降低。
-
发展历程
- 起源:1994年由NASA的Donald Becker团队首次构建,使用16个节点和以太网。
- 演进:从早期100MHz Intel 80486芯片发展到多核处理器集群,带宽逐渐成为性能瓶颈。
典型应用案例
-
中国曙光4000A超级计算机。
-
卡耐基梅隆大学的过程系统工程集群。
-
瑞士联邦理工学院的Asgard计算系统。
技术延伸
在云计算时代,Beowulf集群的理念被Hadoop等大数据系统继承,进一步推动了分布式计算的发展。
部署
系统采用采用Ubuntu或者FreeBSD系统
安装软件
安装openmpi ,官网:Open MPI: Open Source High Performance Computing
FreeBSD系统下安装
pkg install openmpi
这个就不去实践了。
交大的交我算计算平台
平台手册:Getting Started - 上海交大超算平台用户手册
• “思源一号”高性能计算平台。2022年新上线的“思源一号”集群总算力6PFLOPS (每秒千万亿次),是目前国内高校第一的超算集群,TOP500榜单排名第132位。 CPU采用双路IntelXeonICXPlatinum8358 32 核,主频2.6GHz,共938个计算节 点;GPU采用NVIDIAHGXA100,共92块GPU卡。计算节点之间使用Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达10PB。
• π 2.0 超算平台。π 2.0 超算系统于 2019 年上线,双精度浮点数理论性能2.1 PFLOPS,拥有656个双路节点和1316颗第二代英特尔至强金牌6248处理器,并 配以英特尔Omni-Path架构的100Gbps高速网络互连,以及全闪存的NVMeLustre 存储系统,体现了强大的计算能力和先进的设计理念。
• AI平台。AI平台由8台NVIDIADGX-2服务器组成,双精度计算能力达1PFLOPS, 张量计算能力达16PFLOPS。每台DGX-2配置16块TeslaV100GPU加速卡,2颗 Intel 至强铂金8168CPU,1.5TBDDR4内存,30TBNVMeSSD和512GBHBM2 显存。
• ARM平台。ARM平台于2021年上线,基于ARM处理器构建,是国内首台基于 ARM处理器的校级超算。共100个计算节点,与π2.0和AI平台实现共享登录、 共享Lustre 文件系统和共享Slurm作业调度系统。ARM超算单节点配备128核 (2.6 GHz)、256 GB内存(16通道DDR4-2933)、240GB本地硬盘