[嵌入式系统-84]:NPU/TPU/LPU有指令集吗?
一、NPU(神经网络处理器)指令集
核心目标:加速神经网络推理(如卷积、矩阵乘法等),优化能效比。
指令集特点:
- 指令类型:
- 基础指令:DMA Read/Write(数据搬运)、Convolution(卷积)、Deconvolution(反卷积)、Inner-product(内积)、Scale(缩放)、Eltwise(逐元素操作,如加法、最大值)。
- 控制指令:Stop(停止执行)。
- 扩展参数:通过
slots
参数动态调整指令行为(如卷积变体),支持数据依赖性处理。
- 指令长度:
- 从32字节到256字节不等,适应复杂计算需求。
- 执行模式:
- 状态机架构:NPU以状态机方式运行,持续执行指令直至遇到Stop指令。
- 命令队列:程序驻留在CPU的内存中,被带入NPU后存储在命令队列中,解码为原始操作(如权重、数据地址)。
- 数据本地化:内部超大缓存(如32MB)减少与DRAM的数据交换,峰值读取带宽达786GB/s。
- 优化目标:
- MAC阵列优化:通过数据重用减少带宽需求,例如合并输出通道的X/Y维度像素,并行处理96个像素。
- 量化支持:仅支持8位整数运算,降低功耗和存储需求。
典型应用:
- 特斯拉FSD芯片:每个FSD芯片集成两个NPU,2GHz频率下单NPU性能达36.86 TOPS(Int8),功耗7.5W,能效比4.9 TOPS/W。
二、TPU(张量处理单元)指令集
核心目标:加速张量运算(如矩阵乘法、卷积),最大化计算密度与能效比。
指令集特点:
- 指令类型:
- 核心指令:MatrixMultiply/Convolve(矩阵乘/卷积)、Activate(非线性激活函数、池化)、Read_Host_Memory/Write_Host_Memory(数据搬移)、Read_Weights(权重加载)。
- 显式数据搬运:通过LOAD/STORE指令管理数据在HBM、片上缓存与寄存器间的流动,减少隐式内存访问开销。
- 并行性设计:
- 单指令多数据(SIMD):单条指令操作多个数据块(如128×128矩阵乘)。
- 指令流水线:支持计算与通信重叠,预取数据至片上缓存。
- 硬件固化逻辑:复杂操作(如卷积、Softmax)由专用电路实现,无需多条指令组合。
- 执行模式:
- 协处理器架构:通过PCIe总线接收主机CPU指令,执行后返回结果。
- 脉动阵列(Systolic Array):优化矩阵乘法计算,减少数据搬运。
- 优化目标:
- 计算密度:脉动阵列设计提升每周期操作数(如TPU v3的128×128 MAC阵列)。
- 能效比:通过收缩执行(Reduced Execution)减少统一缓冲区读写次数。
典型应用:
- 谷歌TPU v4:在推荐系统、自然语言处理等任务中,性能远超通用GPU。
三、LPU(语言处理单元)指令集
核心目标:加速自然语言处理任务(如大语言模型推理),降低延迟和功耗。
指令集特点:
- 指令类型:
- 稀疏矩阵运算:针对语言模型中的稀疏特性优化。
- 时序指令:通过时序指令集架构(TSP)减少对高带宽存储器的依赖。
- 专用指令:如FlashAttention加速注意力机制计算。
- 架构创新:
- SRAM优先设计:采用230MB片上SRAM替代HBM,带宽达80TB/s,减少DRAM访问能耗。
- 静态调度:编译器静态调度指令流,避免数据搬运延迟。
- 执行模式:
- 确定性硬件调度:抛弃AI训练需求,实现实时交互性能。
- 低功耗设计:通过指令调度优化(如分散高功耗指令执行时间)和动态电压频率调节(DVFS)降低能耗。
- 优化目标:
- 推理速度:每秒生成高达500个token,首词输出时间仅0.22秒。
- 成本效益:能耗仅为英伟达GPU的1/10,成本为1/10。
典型应用:
- Groq LPU:在Meta Llama 2-70B推理任务中,性能比英伟达H100提升10倍,推理成本降低80%。
四、对比总结
特性 | NPU | TPU | LPU |
---|---|---|---|
设计目标 | 神经网络推理加速 | 张量运算加速 | 自然语言处理加速 |
指令类型 | 卷积、矩阵乘、逐元素操作 | 矩阵乘、卷积、数据搬移 | 稀疏矩阵乘、时序指令、专用注意力指令 |
并行性 | 多线程并行(如16×16 MAC阵列) | SIMD并行(单指令多数据) | 序列级并行(支持512k+ tokens上下文) |
内存系统 | 32MB内部缓存 | HBM3显存(>1TB/s带宽) | 230MB片上SRAM(80TB/s带宽) |
能效比 | 高(特斯拉NPU达4.9 TOPS/W) | 高(数据中心级性能) | 极高(能耗为GPU的1/10) |
典型场景 | 自动驾驶视觉处理 | 推荐系统、图像识别 | 对话生成、大语言模型推理 |