回头看,FPGA+RK3576方案的功耗性能优势
作者:Hello,Panda
各位朋友,大家好,熊猫君这次开个倒车,在这个广泛使用Xilinx(Altera)高端SoC的时代,分享一个“FPGA+ARM”实现的低功耗高性能传统方案。
图1 瑞芯微RK3576电路
当前,包含FPGA和硬核处理器的SoC主要集中于以下几个系列:
1、Xilinx(现在的AMD):(1)高端的VerSal系列,集成超大容量的FPGA和双核Cortex-A72/Cortex-A78E处理器;(2)中端的ZYNQ MPSoC,集成中等容量的FPGA和双核或四核的Cortex-A53处理器;(3)通用的ZYNQ-7000系列SoC,集成一般容量的FPGA和单/双核的Cortex-A9处理器。
2、Altera(现在的Intel可编程逻辑业务):(1)高端的Agilex和Stratix 10系列SoC均采用四核Cortex-A53处理和超大规模的FPGA;(2)通用的Arria 10和Cyclone V系列SoC均采用单/双/四核的 Cortex-A9处理器。
3、其他,包括高云、安陆等国内厂家,均有提供集成FPGA和硬核处理器的SoC。硬核处理器大多为ARM Cortex-M3/M4(搭配中小规模FPGA使用)或RISC-V处理(搭配较大规模的FPGA使用),主要还是适合在一些不太复杂的控制领域使用。
通过以上总结可以看到,Xilinx和Altera的大规模和超大规模SoC主要用于验证AISC设计或原理样机验证,不大可能用到量产工业或消费产品中去。中低端的FPGA处理器性能又普遍偏弱,在一些图形图像中的处理能力偏弱,功耗也不低,形成优势产品的难度较大。
在一些手持设备、电池供电的系统或对发热敏感的高性能图像应用系统,常常需要在功耗、面积、性能上找到一个最优解。对一个图像系统而言,常常需要FPGA来做图像采集、控制和其它接口扩展,处理一些适合Pipeline的图像或图像算法等等,同时又需要ARM或DSP做一些较为复杂的应用算法、图像效果或数据库等等。这种情况下,封装尺寸小的“低功耗FPGA+低功耗ARM SoC”分立方案反而成了最优解。
这里一个最典型的应用就是红外热成像领域,具有100%指征:
(1)非制冷的手持设备和电池供电设备:对热量敏感,机器内部发热会严重影响成像效果,带来灵敏度降低(NETD),热辐射“锅盖”现象等;对续航敏感,无论是测温设备、穿戴设备还是仪器仪表,都要求待机时间越长越好,因此对低功耗要求高;对计算要求较高,这些机器里面通常需要运行一些图像处理类的算法外,还需要运行图像融合,检测、识别、跟踪等算法或是较为复杂的图形界面、样本数据库等等,所以这些设备的计算性能要求绝对不低。
当然,也有部分非制冷探测器应用集成封装FPGA,如国内某头部红外制造商堆栈封装了易灵思Ti60 FPGA;
(2)制冷型的红外设备:此类设备主要用于仪器和特殊领域使用,虽然对续航时间没有要求,但其对发热和性能的要求同样高,一句话就是:性能尽量高,发热要小。
一、低功耗FPGA
现在咱们聊一聊低功耗的FPGA。咱们暂且分为国产和进口两大类。
(1)进口低功耗FPGA:说到功耗低、不发热,性能又比较好的,必须是Lattice,尤其是其Crosslink-NX系列(包括该系列的国内马甲芯片),可以说是排在低功耗性能器件的首位;其次是MicroChip的,功耗是真的低,但是容量和性能也是真的低;再次就是Altera的Max10系列,内部集成了Flash和ADC等,功耗性能比上也还是很不错的(缺点是没有mipi核,40k以上逻辑没有小封装)。综上:进口低功耗FPGA首选Lattice Crosslink-NX 40K逻辑器件,压榨其资源(尽可能能用的资源都用上,不含PCIe器件)平均实测功耗≤500mW,直观的用手去摸芯片表面,基本感受不到发热(测试FPGA型号为LIFCL-40-7MG121I)。
图2 :Lattice LIFCL-40电路图
(2)国产低功耗FPGA:严格意义上,国产器件没有专门的低功耗设计,其功耗由流片工艺决定。高云小蜜蜂、智多晶、京微齐力、紫光同创、安陆等等功耗较低的器件普遍容量小,接口和性能上也差事儿,能做的事情不多。目前来讲,可用的主要是高云的GW5A和易灵思的TI60(集成HyperRAM和QSPI Flash)两个系列的器件上。从实测效果上看,选用GW5AT-60 MG132封装和Ti60 100pin封装两颗器件(逻辑量均为60k),运行相同功能的逻辑,用手接触芯片表面明显发热,整体功耗也在1200mW以上。在对国产化要求有硬性指标的应用场合,这个大概是最佳选项。
图3 高云GW5AT-LV60UG225电路图
图4 易灵思Ti60电路图
下面是Lattice、高云、易灵思三家器件的对照表:
二、低功耗SoC
SoC的功耗直接与其制程和性能相关。咱们这里不讨论国外的如英伟达、高通、TI之类的,主要还是选国产,按照其能打程度,主要还是海思、瑞芯微和全志三大家,但是这三家又各有特点:
(1)海思SoC主要针对图像处理,ISP性能强,但是自其恢复供货后,受制造工艺限制,功耗高了不少;
(2)瑞芯微主要针对通用处理,其ISP性能较弱,但是通用计算能力强,接口也很丰富;
(3)全志比较低调,就是纯ARM SoC,没有较强的图像图形处理能力,且没有工业和车载等级器件。
从以上三家的情况来看,“FPGA+ARM”方案,ARM SoC主要承担的是应用处理算法和图形、数据处理能力,因此选用瑞芯微器件会更加合适。
下表是RK3576、RK3588和海思Hi3559AV100参数对照表。
实际上,低功耗视觉应用场景图像的分辨率不会太大,对应的图像链路的处理负载和内存消耗不会太大,对应的输入输出接口和Codec的功耗也会较小。其功耗消耗主要是运行前述的复杂算法。
三、案例
以下是一个常规的双光融合设备的框图,如前面内容所述,FPGA和RK3576各自分工承担计算负载,如下图5所示。像这样的一个典型应用方案,处理板上的功耗约4瓦(常温25°C时,不含屏)。
图5 FPGA+RK3576双光融合方案框图
今天就聊这么多,分享结束,感谢大家阅读,希望能起到抛砖引玉的作用。