当前位置: 首页 > news >正文

主流 AI 芯片配置

FPGA 相比同等面积和工艺 ASIC 的算力差着数量级

大多数大模型 16-bit 权重真的可以量化到 8-bit 而不太损失精度。但要压缩到 4-bit,精度一般就会有比较大的损失了。

NVIDIA 的 Tensor Core 也可以很高效地执行 16-bit 和 8-bit 的计算,8-bit 的算力基本上是 16-bit 的两倍。

FPGA 还是适合用来做智能网卡,也适合做存储编码、压缩、加密等特定算法的加速。AI 大模型还是 ASIC 更在行。

摩尔线程

2022年,摩尔线程就推出了GPU统一系统架构MUSA,发布并量产“苏堤”和“春晓”两颗全功能GPU芯片,这也是国内采用现代GPU架构

主流 AI 芯片配置

厂商型号图形处理器架构显存FP16 算力BF16 算力INT8 算力FP32算力TF32 算力FP8算力CUDA CoreTensor Core
英伟达RTX 3090GA102-300-A1Ampere24GB(GDDR6X)35.58 TFLOPS--35.58 TFLOPS-不支持10496328
英伟达RTX 3090 TiGA102-350-A1Ampere24GB(GDDR6X)40.00 TFLOPS--40.00 TFLOPS-不支持10752336
英伟达RTX 4090AD102-300-A1Ada Lovelace24GB(GDDR6X)369.7 TFLOPS(Tensor Core)82.58 TFLOPS369.7 TFLOPS(Tensor Core)739.4 TFLOPS(Tensor Core)82.58 TFLOPS--16384512
英伟达RTX 4090 TiAD102-400-A1Ada Lovelace24GB(GDDR6X)93.24 TFLOPS--93.24 TFLOPS--18176568
英伟达RTX 4090D-特供-消费级AD102-250-A1Ada Lovelace24GB(GDDR6X)329.3 TFLOPS(Tensor Core)73.54 TFLOPS329.3 TFLOPS(Tensor Core)658.6 TFLOPS(Tensor Core)73.54 TFLOPS--14592456
英伟达L20(PCIe)-特供-推理(PCIe)AD102Ada Lovelace48GB(GDDR6)119.5 TFLOPS(Tensor Core)119.5 TFLOPS(Tensor Core)239 TOPS(Tensor Core)59.8 TFLOPS59.8 TFLOPS(Tensor Core)239 TFOPS(Tensor Core)11776368
英伟达H20-特供-训练(PCIe、Nvlink)-Hopper96GB(HBM3)148 TFLOPS(Tensor Core)148 TFLOPS(Tensor Core)296 TOPS(Tensor Core)44 TFLOPS74 TFLOPS(Tensor Core)296 TFOPS(Tensor Core)--
英伟达A800(PCIe)GA100Ampere80GB(HBM2e)312 TFLOPS(Tensor Core)77.97 TFLOPS312 TFLOPS(Tensor Core)624 TOPS(Tensor Core)19.5 TFLOPS156 TFLOPS(Tensor Core)不支持6912432
英伟达H800( SXM)GH100Hopper80GB(HBM3)1,979 TFLOPS(Tensor Core)1,979 teraFLOPS(Tensor Core)3,958 TOPS(Tensor Core)67 teraFLOPS989 teraFLOPS (Tensor Core)3,958 teraFLOPS(Tensor Core)18,432640
昇腾Atlas 800T A2训练(910B3-HCCS)-达芬奇64GB(HBM2e)313 TFLOPS313 TFLOPS640 TOPS75 TFLOPS141 TFLOPS(HF)不支持--
昇腾Atlas 800I 推理(910B4)-达芬奇32GB(HBM2e)280 TFLOPS280 TFLOPS550 TOPS75 TFLOPS141 TFLOPS(HF)不支持--

相关文章:

  • 第三章 组件(10)- CSS隔离
  • 【开源免费】基于SpringBoot+Vue.JS医院药品管理系统(JAVA毕业设计)
  • 细说 Java 线程池
  • 使用自动化运维工具 Ansible 集中化管理服务器
  • linux(rocky)设置更新服务器时间
  • 微前端架构深度解码:模块化拆解与联邦宇宙的构建
  • docker简介-学习与参考
  • 本地部署阿里万象2.1文生视频模型(Wan2.1-T2V)完全指南
  • 高性能模拟计算:让计算更快、更智能
  • iOS开发之最新Demo上传Github步骤(2025.02.28)
  • 深度学习之-“全连接网络的反向传播”
  • FFmpeg-chapter3-读取视频流(原理篇)
  • 网络原理 初识[Java EE]
  • 如何在一台服务器上搭建 mongodb副本集1主2从节点
  • linux之crosstool-NG(1)生成toolchain
  • 算法-二叉树篇13-路径总和
  • ARM MTE
  • 【算法】前缀和算法详解
  • Field 对象的使用
  • uCOSIII-任务内嵌信号量
  • 上海移动官网网站建设/有什么功能
  • 网站服务器租用多少钱才合理呢/百度seo怎么操作
  • 做网上任务赚钱的网站/微信营销案例
  • 怎么样让网站网址有图标/深圳seo专家
  • 惠州网站建设(推荐乐云践新)/腾讯广告
  • 人才市场招聘网站/百度关键词搜索排名帝搜软件