当前位置: 首页 > news >正文

[嵌入式系统-84]:NPU/TPU/LPU有指令集吗?

一、NPU(神经网络处理器)指令集

核心目标:加速神经网络推理(如卷积、矩阵乘法等),优化能效比。
指令集特点

  1. 指令类型
    • 基础指令DMA Read/Write(数据搬运)、Convolution(卷积)、Deconvolution(反卷积)、Inner-product(内积)、Scale(缩放)、Eltwise(逐元素操作,如加法、最大值)。
    • 控制指令:Stop(停止执行)。
    • 扩展参数:通过slots参数动态调整指令行为(如卷积变体),支持数据依赖性处理。
  2. 指令长度
    • 从32字节到256字节不等,适应复杂计算需求。
  3. 执行模式
    • 状态机架构NPU以状态机方式运行,持续执行指令直至遇到Stop指令。
    • 命令队列程序驻留在CPU的内存中被带入NPU后存储在命令队列中,解码为原始操作(如权重、数据地址)。
    • 数据本地化内部超大缓存(如32MB)减少与DRAM的数据交换,峰值读取带宽达786GB/s。
  4. 优化目标
    • MAC阵列优化:通过数据重用减少带宽需求,例如合并输出通道的X/Y维度像素,并行处理96个像素。
    • 量化支持:仅支持8位整数运算,降低功耗和存储需求。

典型应用

  • 特斯拉FSD芯片:每个FSD芯片集成两个NPU,2GHz频率下单NPU性能达36.86 TOPS(Int8),功耗7.5W,能效比4.9 TOPS/W。

二、TPU(张量处理单元)指令集

核心目标:加速张量运算(如矩阵乘法、卷积),最大化计算密度与能效比。
指令集特点

  1. 指令类型
    • 核心指令MatrixMultiply/Convolve(矩阵乘/卷积)、Activate(非线性激活函数、池化)、Read_Host_Memory/Write_Host_Memory(数据搬移)、Read_Weights(权重加载)。
    • 显式数据搬运:通过LOAD/STORE指令管理数据在HBM、片上缓存与寄存器间的流动,减少隐式内存访问开销。
  2. 并行性设计
    • 单指令多数据(SIMD):单条指令操作多个数据块(如128×128矩阵乘)。
    • 指令流水线:支持计算与通信重叠,预取数据至片上缓存。
    • 硬件固化逻辑:复杂操作(如卷积、Softmax)由专用电路实现,无需多条指令组合。
  3. 执行模式
    • 协处理器架构:通过PCIe总线接收主机CPU指令,执行后返回结果。
    • 脉动阵列(Systolic Array):优化矩阵乘法计算,减少数据搬运。
  4. 优化目标
    • 计算密度:脉动阵列设计提升每周期操作数(如TPU v3的128×128 MAC阵列)。
    • 能效比:通过收缩执行(Reduced Execution)减少统一缓冲区读写次数。

典型应用

  • 谷歌TPU v4:在推荐系统、自然语言处理等任务中,性能远超通用GPU。

三、LPU(语言处理单元)指令集

核心目标:加速自然语言处理任务(如大语言模型推理),降低延迟和功耗。
指令集特点

  1. 指令类型
    • 稀疏矩阵运算:针对语言模型中的稀疏特性优化。
    • 时序指令:通过时序指令集架构(TSP)减少对高带宽存储器的依赖。
    • 专用指令:如FlashAttention加速注意力机制计算。
  2. 架构创新
    • SRAM优先设计采用230MB片上SRAM替代HBM,带宽达80TB/s,减少DRAM访问能耗。
    • 静态调度:编译器静态调度指令流,避免数据搬运延迟。
  3. 执行模式
    • 确定性硬件调度:抛弃AI训练需求,实现实时交互性能。
    • 低功耗设计:通过指令调度优化(如分散高功耗指令执行时间)和动态电压频率调节(DVFS)降低能耗。
  4. 优化目标
    • 推理速度:每秒生成高达500个token,首词输出时间仅0.22秒。
    • 成本效益:能耗仅为英伟达GPU的1/10,成本为1/10。

典型应用

  • Groq LPU:在Meta Llama 2-70B推理任务中,性能比英伟达H100提升10倍,推理成本降低80%。

四、对比总结

特性NPUTPULPU
设计目标神经网络推理加速张量运算加速自然语言处理加速
指令类型卷积、矩阵乘、逐元素操作矩阵乘、卷积、数据搬移稀疏矩阵乘、时序指令、专用注意力指令
并行性多线程并行(如16×16 MAC阵列)SIMD并行(单指令多数据)序列级并行(支持512k+ tokens上下文)
内存系统32MB内部缓存HBM3显存(>1TB/s带宽)230MB片上SRAM(80TB/s带宽)
能效比高(特斯拉NPU达4.9 TOPS/W)高(数据中心级性能)极高(能耗为GPU的1/10)
典型场景自动驾驶视觉处理推荐系统、图像识别对话生成、大语言模型推理
http://www.dtcms.com/a/464781.html

相关文章:

  • 光伏安全协议-安全责任协议书8篇
  • Java 单元测试全攻略:JUnit 生命周期、覆盖率提升、自动化框架与 Mock 技术
  • SaaS多租户数据隔离实战:MyBatis拦截器实现行级安全方案
  • 【深入理解计算机网络08】网络层之IPv4
  • 网站的标签wordpress 导航栏居中
  • 解决电脑提示“0xc000007b错误”的简单指南
  • 【STM32项目开源】基于STM32的智能家居安防系统
  • 网络营销方式思维导图aso优化榜单
  • HKM9000视频处理卡
  • 机器视觉的平板显示屏加强膜贴合应用
  • 安卓玩机工具----手机秒变电脑麦克风
  • Win10系统笔记本电脑设置合上盖子自动锁屏
  • LLaMA: Open and Efficient Foundation Language Models 论文阅读
  • LeetCode——Hot 100【全排列】
  • 云南大理拍婚纱照价格表建网站优化
  • 双目测距实战1-环境配置
  • 2025人工智能在无人机数据处理中的应用
  • 阿里开源Qwen3-Omni-30B-A3B三剑客——Instruct、Thinking 和 Captioner
  • 长春建站程序湖南网络科技有限公司
  • xtuoj Can you raed it croretcly?
  • 异构动作空间
  • 【Nginx开荒攻略】Nginx虚拟主机配置:从域名、端口到IP的完整指南
  • 小杰深度学习(nine)——CUDA与CuDNN安装
  • 鸿蒙NEXT USB Host模式开发完全指南
  • MinerU2.5 windows 本地部署
  • UIkit中使用新版UICollectionViewCompositionalLayout进行复杂布局(二)
  • 网站建设的技术问题苏州吴江建设局招标网站
  • 河南省村镇建设处网站网站配色与布局 教材
  • Prometheus运维之路(ES监控接入)
  • OpenAMP专题(一):一文了解OpenAMP全貌