中石油第七建设公司网站seo关键词分析
昇腾
部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2(864G)服务器,用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)
由于模型权重较大,请确保您的磁盘有足够的空间放下所有权重,例如DeepSeek-R1在转换前权重约为640G左右,在转换后权重约为1.3T左右
推理作业时,也请确保您的设备有足够的空间加载模型权重,并为推理计算预留空间
生成模型w8a16量化权重,使用histogram量化方式,在CPU上进行运算
生成模型w8a8混合量化权重,使用histogram量化方式 (MLA:w8a8量化,MOE:w8a8 dynamic pertoken量化)
性能测试结果
context batch TTFT ms TPS (without prefill) TPS (with prefill)
128+1024 1 131.173 15.044 15.029
128+1024 8 237.365 14.309 14.274
128+1024 16 256.646 11.083 7.356
128+1024 32 426.948 7.771 3.704
128+1024 64 762.593 4.925 1.81
提供一切咨询、服务
满血部署Deepseek V3/R1的服务器方案
一、Deepseek V3/R1模型的综合研制成本估算
1、固定资产投入:按10000块H800计(公开信息是至少10000块A100和2000块H800),总投入至少19-20亿元。
2、年费用:资产折旧即使按10%计为2亿元左右,电费按20%利用率约1亿元,人力成本约1亿元,运维及其他成本约0.5亿元。
结论:我们拿到的免费Deepseek V3/R1模型,其研制综合成本至少为10-15亿元水平。
二、部署Deepseek V3/R1 FP8满血模型的方案
未完待续…