当前位置: 首页 > news >正文

Mac Studio 和 DGX Spark 可用性分析

之前老有人给我说 苹果的Mac Studio可以安装DeepSeek满血671B的模型,非常牛,最近网上对 Nvidia DGX Spark 又热火朝天。

首先,声明一下,个人囊中羞涩,没钱去买来试试,只是看了一些资料,来分析一下两种机器的性能,特别是在跑大模型时的性能,看是牛皮吹破天,还是真有其事。

首先,我们关注一下两款机器的价格:

一:价格

1:Mac Studio

做过苹果手机开发的人,应该都知道mac 的迷你盒子,你可以理解为它是盒子的升级版了,只是它的实力最强了(加了NPU,配置更高,还有一些新特性)

为什么我要选这个配置,因为512是我们准备装满血必须的,而 硬盘,选个可以的就行了,再往上选,价格就虚高了。

2:DGX比较简单,我们就选NVidia的,只有这一种配置。现在网上很多人都在买它。

(DGX Deep Learning GPU eXtreme AI 训练/推理机器的品牌,Spark是桌面/开发版)

大家看了价格,相信就知道为啥我要纸上谈兵了。

二:关键特性——统一内存

        查了一下资料,为啥这两款机器那么火,原因无非就是低配高能,高能当然指的就是大模型的装载能力。而大模型的装载,如果不看速度(当然,这是不正确的,也是最忽悠人的),那主要是就是显存的大小,而显存是可以用内存来达成的,所以,内存的大小就成了关键。

        这两款机器,都提供了较大的内存,而且配备的内存是给到cpu和GPU共享的(在苹果m3中,实际也包括NPU),也就是有相同的地址空间,可以协同共享读写,这样,大大的减少了CPU和GPU在做运算时,对于内存的搬运,当然,也直接方便了GPU、NPU和内存直接访问。

        这就叫做统一内存,你可以简单理解为 内存访问更高效了。

        但是要注意:内存访问仍然是要时间的,相比服务器的HBM内存(直接核封内存),在这两款机器上的内存访问速度,仍然是差了很多。下面会给出数据。这也是为什么不能直接用主板的DDR内存来作为显存使用的原因,如果依赖PCIe的通讯,那速度就更慢了。因此它和算力芯片最好在一起,因为需要频繁的访问,读取,所以,装载参数的内存需要有访问的高带宽,高速率。

2.1:两个机器的内存都使用了 LPDDR5,且统一给到CPU, GPU, NPU(DGX没有)使用,这样,可以芯片间共享内存来使用,减少通过 PCIe 搬运数据。

2.2:提供的内存很大,可以在访问上将其作为传统的显存使用,提升装载模型的规模。

2.3:但是要注意——在访问内存时,带宽仍然不高。Apple是 800G(2颗),DGX是 273G。低于HBM内存访问速度,也低于独显内存的访问速度。DGX的内存是128G,苹果m3 Ultra最高配是 512G。

【最大装载能力】

单台DGX可以装 200B(MoE,活跃 20B) 可达到 3-15 token,8k prefill 1-3 min

2台可支持 400B模型级别。

两台苹果可以装满血DeepSeek R1,但是,满血运行态,性能推算下来只有 2-10tokens/S,8k prefill 2-5分钟,基本是不可用的。

为什么会这么慢?继续分析原因:

三:芯片算力对比

Apple mac studio 的 m3 ultra 是 CPU/GPU/NPU 三合一的SoC芯片,

CPU是 32 核的,GPU是80核的,NPU是30核的。

其中,npu 的算力 36 tops,我们理解为 FP8的算力。

来看看 Nvidia dgx spark:

CPU 是 2 * 20核ARM架构(10c X925 + 10c A725)。

GPU 是基于Blackwell架构的 GB10,它的 fp4 算力 1pflops。

折算一下,(fp8我们认为是int4的 1/4能力)

DGX 的算力估计是 Apple的 8倍左右。

DGX的算力是 1张4090卡的 3倍。

看起来,DGX的算力还可以。苹果的很弱。

三:内存访问的带宽

如上所述,两者都是采用了 LPDDR5内存,CPU和GPU共享

DGX的内存带宽差不多是 273G,远小于HBM3e的带宽(1.2T)。低于苹果m3 Ultra的带宽 800G(因为是两颗,单颗是300-400),也低于传统4090显卡的(1T)

折算一下:

DGX内存的带宽是 Apple studio m3 的 1/3。

DGX内存的带宽是 4090卡的 1/4。

DGX 的内存带宽比较低,苹果的基于内存大,还过得去。

四:内存量对比

DGX和Apple的内存统一访问,减少了内存搬运,并且,给的内存大于4090和传统算力卡。

DGX的内存是Apple studio 最高配的 1/4。

DGX的内存是 4090(28G)卡的 4.5倍。

苹果的内存比较大,所以它能装得下满血。

五:集群、扩展性

苹果和DGX的扩展方案类似,实际上都是支持双节点。

两者的双节点都是依赖一个额外的特殊程序来进行分片处理。

苹果互联使用雷雳 5 端口,Nvida的互联使用的是以太网口。

另外,苹果强依赖于Mac系统,它的软件方案是定制的,不能迁移。

两种机器的双节点支持都是点对对的互联,运行态主要是模型权重的切分,与vLLM这种多节点推理架构有本质区别,无法提升速度,并发,吞吐,更多提升的是模型的装载容量。这种扩展,最多也就到4个节点了。

模型分片方案大概是:将DeepSeek R1模型拆分,通过DistributedDataParallel (DDP) 将不同部分加载到两台设备上。使用Ollama进行部署即可。启动推理:编写分布式推理脚本,协调两台设备共同完成计算任务。

所以,DGX 和 Apple Mac Studio的特点都是 装得下,跑得慢,难扩展。

DGX跑得慢的主要原因是内存访问带宽低,苹果跑得慢的主要原因是算力低。

难扩展的原因是本来就定位为桌面版,没有考虑更好的多节点网络和软件支持。

六:模型装载示例

最后,我们以13B,32B,70B模型作对比:

结论:

单台DGX适合跑一下 7-13-32B 的模型,70B勉强可以用来PoC,再大就不行了。

单台Apple的性能和DGX 相当,考虑它的价格是 DGX一倍多,所以,性价比略低于DGX。

使用场景:

个人开发者,在无法获得4090及以上的算力卡的情况下,用来做中小模型的应用开发或者PoC。

http://www.dtcms.com/a/524465.html

相关文章:

  • 【小白笔记】「while」在程序语言中的角色
  • 网站推广员怎么做怎么投诉网站制作公司
  • Flexbox 与定位结合-实现更复杂布局
  • 基于随机森林算法的Boss直聘数据分析及可视化-hadoop+django+spider
  • 最适合seo的网站源码专门做网页的网站
  • 企业微信机器人配置webhook自动推送错误订单信息
  • Web3 前端与合约交互
  • 基于window/ubuntu安装rknn-toolkit2【docker】
  • Mac安装配置MySQL
  • JumpServer堡垒机的安装部署
  • Harmony鸿蒙开发0基础入门到精通Day05--JavaScript篇
  • 福州医疗网站建设电商平台管理系统
  • 【乐鑫】乐鑫平台库文件生成方法
  • 文件IO操作
  • GStreamer视频编码
  • 【Go】--闭包
  • 正规网店代运营公司seo难不难
  • 【Dataset】如何高效处理海量数据并从中智能筛选出有代表性的样本?
  • 攻防世界-Web-Confusion1
  • python:怎样用 Django 开发电子商务程序
  • 【u-boot】u-boot驱动模型-struct uclass_driver
  • 昌吉网站建设公司怎么用php安装wordpress
  • 山西网站建设营销什么价格html模板在哪找
  • MATLAB 实现基于短时傅里叶变换 (STFT) 的音频信号时频分析与可视化
  • 第十章-Tomcat性能测试与实战案例
  • 1.Linux初识
  • 如何在亚马逊做公司网站wordpress文档chm
  • 免费中英文网站源码想做个网站都需要什么
  • 【小程序】指定元素滚动到中间
  • 百度PaddleOCR-VL:基于0.9B超紧凑视觉语言模型,支持109种语言,性能超越GPT-4o等大模型