当前位置: 首页 > news >正文

梧州网站建设哪家好百度提交入口使用教程

梧州网站建设哪家好,百度提交入口使用教程,wordpress增加英文,免费的小程序平台有钱啥也不用说,买张最贵的就是了。对囊中羞涩的我还说,我该买张什么样的显卡呢? 我的旧显卡RTX1060 6G,满负荷消耗功率110多瓦,几乎达到设计最大TDP,周日时拿了朋友的RTX3060Ti 8G,发现是锁算…

有钱啥也不用说,买张最贵的就是了。对囊中羞涩的我还说,我该买张什么样的显卡呢?

我的旧显卡RTX1060 6G,满负荷消耗功率110多瓦,几乎达到设计最大TDP,周日时拿了朋友的RTX3060Ti 8G,发现是锁算力的,GPU使用率100%时,消耗功率也才 33% TDP,只有 65瓦,远没达到最大200瓦的设计TDP值(后来发现这个结论是错误的,可能与Pytorch2.5.0+cu124有关,消耗功率去到了158瓦),速度比RTX1060快了3倍左右。

看了文章《2024年 AI大模型显卡推荐 我该买一张什么卡》后,本来考虑买张RTX2080TI 22G魔改版或Tesla P40的,看了文章《NVIDIA Tesla GPU系列P40参数性能——不支持半精度(FP16)模型训练》发现 P40也不是那么合适,再看了视频《【捡显卡】二手城淘到2080Ti猛禽,六年前的旗舰还能有4070的几成功力?2080Ti猛禽清理、介绍、对比4070性能测试》也在犹豫要不要买RTX2080Ti 22G魔改版,还是买张原11G版?

从文章《2024年 AI大模型显卡推荐 我该买一张什么卡》中引用的《The Best GPUs for Deep Learning in 2023 — An In-depth Analysis》、《https://www.tomshardware.com/pc-components/gpus/stable-diffusion-benchmarks》先看看不同显卡的性能图:

(下面这张是根据柱形图片像素宽度标注的数值 )

参考上面文章数据,nVidia官方显卡数据,汇总了几张市面上有卖自己也勉强能买得起的显卡做了张表,比较下:

贴张chiphell上1080ti参数图(华硕Rog猛禽Gtx 1080ti200W到300W)

发现RTX2080Ti除了功耗大,只能买二手外,性能还是很强劲的,强大的性能伴随着高功耗好像又是必然的,剩下的缺点就是二手的东西,是否可靠的、以及居高的价钱是否能接受了。

AI能力主要是看Tensor Core能力,可惜nVidia直到40系列才标出Tensor Core指标数值,我们发现同为40系列的4060Ti与4070Ti,因为Tensor Core指标相差巨大,实测的AI能力也相差巨大,与Tensor Core指标成正比(见下图)。

除了显卡的算力,还需要考虑显存大小,然后就发现,黄老板对普通大众太不友好了,大显存的,都只能是高高在上的高端卡。

**研究到最后发现:**既然现在有朋友的RTX3060TI先用着,如果不买大内存22G的魔改版的话,实在没有要换显卡的冲动了(谁叫我穷呢),几时朋友要拿回再考虑了_

-----------------------------------------------------------------------------------------------------------------

忍不住冲动,还是买了张华硕猛禽2080ti魔改22G,性能比3060ti还是要强不少。

下载甜甜圈(furmark)测试软件ZIP版本(解压即用无需安装),测试:

用训练模型几乎占满显存测试了20多小时,一切正常,暂时来说,魔改的显存没什么问题:

另外还发现,内存也有影响,原来32G内存, 在 “Load Diffusion Model” 加载是会奔溃(没有错误信息的中断),内存增加到64G后,终于能跑通。加载期间,内存占用达到了50G多。

模型加载完后,内存占用就没那么高了:

最后要注意的就是:2080ti不支持BF16,而有些AI应用可能会使用到BF16,所以还是要慎重考虑。

在我的文章(解决2080Ti使用节点ComfyUI-PuLID-Flux-Enhanced中遇到的问题)中,解决了上面节点类似的问题。

下面资料来自deep seek

bf16、fp16、fp32的差别与影响,以及对算力的要求差别

以下是BF16、FP16、FP32的详细对比,包括存储格式、数值范围、精度、计算效率以及对算力需求的影响:


1. 存储格式与数值特性

格式

位数

符号位 (S)

指数位 (E)

尾数位 (M)

数值范围 (approx)

最小精度 (2^-(M+1))

FP32

32

1

8

23

±1.2×103 ~ ±3.4×103

~1.2×10

FP16

16

1

5

10

±6.1×10 ~ ±6.6×10

~4.9×10

BF16

16

1

8

7

±1.2×103 ~ ±3.4×103

~7.8×103

关键区别
  • 指数位

    • BF16(8位)与FP32(8位)指数范围相同,能表示极大/极小值,适合深度学习(避免梯度下溢)。

    • FP16(5位)范围窄,容易溢出(如梯度爆炸)或下溢(如小梯度归零)。

  • 尾数位

    • FP32(23位)精度最高,适合科学计算。

    • FP16(10位)精度适中,但范围受限。

    • BF16(7位)精度最低,但指数范围广,更适合深度学习中的中间计算。


2. 对深度学习的影响

(1) 训练稳定性

格式

优势

风险

适用场景

FP32

高精度,数值稳定

计算慢,内存占用高

科学计算、高精度需求

FP16

速度快,显存节省

易溢出/下溢(需梯度缩放)

推理、混合精度训练

BF16

数值范围广,训练更稳定

精度较低(可能影响收敛)

大模型训练(如LLM)

  • FP16 的缺陷

    • 梯度值可能超出表示范围(如 <6e-5 或 >6e4),需配合Loss Scaling(如NVIDIA的AMP)。
  • BF16 的优势

    • 指数范围与FP32一致,避免溢出问题,适合大模型训练(如GPT、BERT)。
(2) 推理效率
  • FP16/BF16的吞吐量通常比FP32高2-8倍(依赖硬件支持)。

  • FP16在NVIDIA GPU(Tensor Core)上优化更好,但BF16在新型硬件(如TPUv4、Intel Sapphire Rapids)中更高效。


3. 算力需求对比

(1) 计算吞吐量(FLOPS)

格式

理论计算速度(示例:NVIDIA A100)

内存占用

带宽需求

FP32

~19.5 TFLOPS

4字节/数

FP16

~312 TFLOPS(Tensor Core加速)

2字节/数

BF16

~312 TFLOPS(同FP16)

2字节/数

  • FP16/BF16的算力需求约为FP32的1/2~1/4(因内存带宽减半,计算单元利用率更高)。

  • 实际训练速度(混合精度):

    • FP16/BF16 + FP32主权重:比纯FP32快2-5倍

    • 纯BF16训练(如Google TPU):接近FP16速度,但更稳定。

(2) 硬件支持
  • NVIDIA GPU(Ampere+):

    • FP16/BF16均支持Tensor Core加速。

    • BF16在A100/H100中优化更好(如Transformer引擎)。

  • TPU/其他硬件

    • Google TPUv4 优先优化BF16。

    • Intel/AMD CPU 新增BF16指令(AMX、AVX-512_BF16)。


4. 如何选择?

场景

推荐格式

理由

大模型训练

BF16 + FP32主权重

数值范围广,避免溢出,适合LLM(如GPT-4、PaLM)。

小模型训练

FP16 + Loss Scaling

硬件优化更好(NVIDIA),需梯度缩放。

高精度计算

FP32

科学计算、金融模拟等需要高精度的场景。

边缘推理

FP16/INT8(量化)

低延迟、低功耗,适合移动端/嵌入式设备。


5. 总结

维度

FP32

FP16

BF16

精度

高(23位尾数)

中(10位尾数)

低(7位尾数)

数值范围

广

窄(易溢出)

广(同FP32)

算力需求

高(基准)

低(2-8倍加速)

低(2-8倍加速)

适用场景

科学计算

推理/小模型训练

大模型训练

建议

  • 训练:优先尝试BF16(尤其大模型),次选FP16+AMP

  • 推理FP16(NVIDIA)或BF16(TPU/Intel)。

  • 兼容性:旧硬件可能仅支持FP16,需检查文档(如CUDA Compute Capability)。

但貌似使用fp32代替bf16就可以了,而且同样的参数跑视频,速度比4060ti16g还要快(4990秒,还是跑的20步,而我是4477秒25步),看来也还没算买错。(2025.4.19测试数据)

最终结论:买2080ti22g魔改版没错,没钱的最优选择_

http://www.dtcms.com/a/408420.html

相关文章:

  • MATLAB画出湖面波纹相遇所形成的现象
  • 建站wordpress网站制作昆山
  • spring的依赖注入的3种方式(字段、构造函数、setter方法)
  • 长沙网站建设排名网络营销的模式主要有
  • 开服表网站开发免费推广网站排名
  • 焦作市网站建设哪家好权威的顺德网站建设
  • 网页设计六安模板松江网站关键词优化
  • 山西省建设监理官方网站工业软件开发流程
  • 网站构建规划书启信宝企业查询
  • 万字详解C++之构造函数析构函数
  • 网站过度优化首页被k青海省城乡建设厅网站
  • 电子工程基础原理与应用指南(初学者版)电子工程入门:三极管到MOS管全解析
  • 关于树形背包DP的时间复杂度证明
  • 镇江网站建站汉中网站建设费用
  • 网站建设dwm注册域名dns
  • 怎样创建网站和网页做网站吧
  • 如何搞好职业学校网站的建设和管理宣传片制作标准
  • 响应式网站推广wordpress 图片加载慢
  • 昭通商城网站建设最美logo图案大全
  • 比较优秀的国外wordpress网站phpcms对比wordpress
  • 网站建设手机登录密码是什么啊电脑做网站服务器教程
  • 兰州大学网页与网站设计企业培训考试系统
  • 大型摔倒检测识别数据集:3类,近7w图像,yolo标注
  • 老题新解|素数回文数的个数
  • 东莞市网站seowordpress音乐站源码
  • 模板网站制作多少钱推广普通话宣传周
  • MySQL-多版本并发控制
  • 防火墙(1)了解防火墙
  • 做后期哪个网站素材好网站作品怎么做链接
  • 制冷机电工程东莞网站建设网站建设服务市场细分