当前位置: 首页 > wzjs >正文

太原网站建设需要多少钱做经营性的网站需要注册什么条件

太原网站建设需要多少钱,做经营性的网站需要注册什么条件,营销失败案例分析,计算机(网站建设与维护)前言DeepSeek R1 是最近大火的大语言模型,主要是可以比肩 o1 的性能以及完全开源。之前一篇文章所说,我手里有两台 1T 内存的 EPYC 机器,因此正好可以用来部署 R1。本文主要记录一下利用 llama.cpp 部署过程中的经验。TL;DR: 对于 llama.cpp …

前言DeepSeek R1 是最近大火的大语言模型,主要是可以比肩 o1 的性能以及完全开源。之前一篇文章所说,我手里有两台 1T 内存的 EPYC 机器,因此正好可以用来部署 R1。本文主要记录一下利用 llama.cpp 部署过程中的经验。TL;DR: 对于 llama.cpp 以及衍生的 ollama 部署方案,推理速度基本和内存带宽成线性,符合 Roofline 模型。另外欢迎关注我的博客:
DeepSeek R1 671b 满血版部署笔记​

模型下载llama.cpp 支持 GGUF 类型的模型,所以直接下载 unsloth 做好的模型。注意 R1 是 FP8 训练的,也就是说其中的 Q8 就是满血版,也是我们这次要用的版本。编译选项如果是纯 CPU 推理,考虑到我希望有 -march=native 来达到最大运算速度采用了本地编译:
git clone 

https://github.com/ggerganov/llama.cppcdllama.cppmkdir build&&cdbuildcmake .. -DCMAKE_BUILD_TYPE=Releasemake -j install这里 llama.cpp 会帮我们加上 -mrach=native。如果是需要 GPU 推理,编译选项改为
cmake .. -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ONmake -j install运行运行比较简单,我比较喜欢 llama-server 的方法:
llama-server -t48-m ./DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf\-c4096–no-mmap\–host 0.0.0.0 –port9090
–no-mmap 的话会直接把模型拉到内存里
-t 48 使用 48 个线程
-c 4096 context 设置为 4k
占用合计在700G左右,增大 context 会显著提高内存占用。推理速度内存带宽我自己的服务器上推理速度有 2.5-3.5 token/s,这个数值基本上和内存带宽是绑定的,可以用 mbw 测试
mbw -n128256这个测出来的数值乘以通道数量就是最大内存带宽,我这里有大概 19926 * 16 = 318G/s。考虑 R1 是 memory bound,基本上推理速度会和最大内存带宽成线性。比如根据这里的汇报,使用 DDR5 和 24 通道拥有接近 1T/s 的带宽,因此推理速度来到了 6-8 token/s,提升几乎是线性的。顺带一提,这已经比很多纯 GPU 推理还快了。CPU 加速?上文中我只使用了 48 个核心,一个想法是更多的核心会不会更快?可惜的是,R1 是完完全全的 memory bound,我尝试过 48,64,96,128 四种配置,推理速度的偏差基本都在实验误差范围内,因此选择 48 是完全足够了。GPU 加速?一个非常直观的想法是利用 GPU 加速,不过在实际操作前仍然要强调 R1 是完全的 memory bound,也就是说如果不能把模型完全加载进入 VRAM 的话至少还要把数据多来回拷贝两次。虽然理论上来说利用了闲置的 PCIE 带宽,但是会抢 CPU 的内存带宽,所以未必能加速。下面实验基于一台双路 epyc 7763 + 4xA100 的服务器测试 llama.cpp 的 GPU offload 效果。
纯CPU推理:1.8 token/s (~700G RAM)
这里更加印证了之前说的内存带宽问题,因为在多路 EPYC 上存在非常严重的 NUMA 问题(在2代上更加严重),因此他的等效内存带宽会很低。所以即使这台服务器的内存带宽有我自己服务器的2倍,推理速度直接打了对折。
CPU + 8 layer GPU:3.0 token/s (~600G RAM + ~110G VRAM)
推理速度获得了近一倍的提升,根据观察推理过程中 CPU/GPU 的变化,可以看到加速的来源主要是 A100 运算速度远快于 CPU,但是最后 text generation 的过程中 A100 是完全闲着的,所以整体上仍然受制于内存带宽。
CPU + 16 layer GPU:2.4 token/s (~510G RAM + ~206G VRAM)
随着把更多的 layer 放到 GPU 上,推理速度反而下降了。不难猜测是更多的数据交换浪费了CPU的内存带宽所导致。总的来说 GPU 应该是可以加速 R1 的推理速度的,但是:
推理速度大部分还是由内存带宽决定的
不是越多计算放到 GPU 越好,计算性能看起来也并不重要
因为 R1 是 MoE 模型,也就是说每次不是全量权重参与计算,我猜测会有一个比较甜点的 GPU VRAM 大小,可能接近 90G 能达到最高的加速效果。总结对于 llama.cpp 这种 CPU + GPU 的方案,内存带宽越高,R1 的推理速度会越快。

普通人根本没那么多显卡,于是有大佬部署cpu内存版本,最低7999就能部署满血版


文章转载自:

http://gyfA04gX.mqwdh.cn
http://Ezoc6Dvk.mqwdh.cn
http://tjO1AmQm.mqwdh.cn
http://5uy2CVgd.mqwdh.cn
http://eVB9OHcb.mqwdh.cn
http://VRyJVwgX.mqwdh.cn
http://num0yFDy.mqwdh.cn
http://gGEC7ULs.mqwdh.cn
http://uhLBAjsP.mqwdh.cn
http://DYi2wPGT.mqwdh.cn
http://3mPLhqY7.mqwdh.cn
http://9na4yk5f.mqwdh.cn
http://e6F0RdwW.mqwdh.cn
http://ouLfJkGT.mqwdh.cn
http://sLcgGZ9f.mqwdh.cn
http://BDbwWld4.mqwdh.cn
http://MnOOpTRO.mqwdh.cn
http://nanL0meG.mqwdh.cn
http://5MAct1nr.mqwdh.cn
http://ja4Td61j.mqwdh.cn
http://56Kd4u9w.mqwdh.cn
http://Uuu0hbO9.mqwdh.cn
http://PruAMuBz.mqwdh.cn
http://7Mw3NHwd.mqwdh.cn
http://1lX3DJIk.mqwdh.cn
http://c8nIuKlH.mqwdh.cn
http://oPq51ERx.mqwdh.cn
http://sEActUgq.mqwdh.cn
http://hWupAgNY.mqwdh.cn
http://tRRhh6SU.mqwdh.cn
http://www.dtcms.com/wzjs/765773.html

相关文章:

  • 公司做网站要三千多吗永康网站建设优化建站
  • wordpress文章站重庆网站推广哪家服务好
  • 做俄语网站建设成都网络运营外包
  • 交流稿 网站建设怎样查看网站开发语言
  • 网站开发属于计算机系统开发吗商业网站首页怎么做
  • 网站风格包括wordpress 访问密码
  • wordpress网站是什么意思校园网站建设方案策划书
  • 企业网站建设的缺点制作网页之前必须先建立什么
  • 91卫星地图手机版下载官网网站版面布局对seo
  • 快速建企业网站杭州做网站一般多少钱
  • 医疗保健 网站 备案宁夏建设职业技术学院网站
  • 饮料网站建设网站的关键词可以取消吗
  • 宁波市高等级公路建设指挥部网站朔州网站建设收费多少
  • 找装修公司去哪个网站网页设计图片里面怎么包含文字
  • 网站建设需要缴纳印花税么个人网站可以做淘宝客嘛
  • 广州网站搭建费用网站恶意做评论
  • 浙江省建设政务网站网站开发中的开版什么意思
  • 怎么做冒牌网站青岛建网站的公司有哪些
  • 装潢设计专业可以考二建吗宁波seo教程
  • 空间网站链接怎么做廊坊网站建设总部在哪里
  • 做宣传册参考的网站网站怎么设置标题
  • 专业官网建设免费seo视频教程
  • 网站开发用mvc多吗徐州网站建设外包
  • 芒果tv网站建设的目标个性化定制网站的特点
  • 临沧网站建设公司网站推广
  • 企业网站建设成本如何制作表白链接
  • 做公司简介的开源网站做打鱼网站需要多少钱
  • 建自己的个人网站ftp怎么上传网站
  • 容易被收录的网站竞价托管外包代运营
  • 在百度网站备案查询上显示未备案是什么意思dede安装好后是模板怎么变成做好的网站