GDDR6总结(1)-背景及优劣
产生原因:
当应用程序越来越多要进行3D显示及演算时,开始不能满足需频繁地读取在显卡中的SDRAM保存的连续画面图像数据的速度时,研发了GDDR(为了代替旧式显存的不足而出现)。
IP的系统级框图
几个关键参数:
工作频率:12-16Gbps
电压:1.35V (与GDDR5X相同)
16n预取架构(每16位通道读写32字节)/突发长度为16
单颗带宽:24-32GB/s
单颗芯片大小为1GB,1.5GB,2GB,3GB和4GB。(GDDRX5: 1GB和2GB)
16 bank(GDDR5: 8或16,GDDR5X: 16)
2个完全独立的16位通道。(类似HBM2)
GDDR5及以前版本支持1个32位通道:它有1个CA总线和1个32位DQ总线。
GDDR5X更复杂:它实际上只有一个真正的32位通道,但该通道可以分成2个16位伪通道。这种配置没有很大的灵活性,因为伪通道的读写操作需要发生在同一行中。也就是说:当访问来自特定行的数据时,可以使用高16位传输来自不同列的数据,而不是低16位传输的数据。
与HBM接口上的相似和区别:
相似:HBM具有真正独立的通道,单个HBM堆叠的行为就像一组完全独立的dram。每个HBM堆叠最多可以有8个真正独立的通道,并且每个通道可进一步分割为2个,可以访问不同列和行的伪通道。
GDDR6就像HBM,虽然是1个芯片,但它的行为就像2个完全独立的dram,有独立的CA总线和16 bits DQ总线。系统中的通道越多,controller管理dram的机会就越多,这样就可以避免由于页面刷新、页面激活限制等导致的大停顿,这是HBM真正的亮点。每个DRAM有两个通道而不是一个通道,有助于缩小这种差距。有另一个很好的理由为什么有两个通道是至关重要的:它抵消了16 个周期的burst length。
区别:GDDR6是有1个共享时钟。(在实践中,虽然HBM内存控制器不太可能为不同的通道使用不同的时钟速度。)
4倍速
很长一段时间,DRAM一直是双倍数据速率(DDR),数据位在字时钟(WCK)的上升沿和下降沿都在变化。DDR相对于单数据速率(SDR)的优势在于,PCB上的任何部件(甚至时钟)都不需要以比DQ更快的速率切换。所以,DRAM不用内部PLL/DLL或关闭PLL/DLL的也是OK的。
GDDR5X引入了四倍数据速率(QDR)。使用QDR,数据切换频率是WCK频率的4倍(这意味着它切换速度是WCK频率的两倍)。在这种模式下,总是需要一个PLL/DLL。GDDR5X同时支持QDR和DDR模式,但在DDR模式下,DRAM的运行速度只有QDR的一半。在GDDR5X中,DDR模式仅作为低性能节能选项存在。
GDDR6是第1个DRAM供应商可以决定支持全速QDR或DDR的DRAM。
举个例子:对于1个运行速度为14Gbps的GDDR6 DRAM, WCK将在DDR设备上运行在7GHz,在QDR设备上运行在3.5。(在这两种情况下,CK=1.75GHz)
伪通道模式:
GDDR6有1种模式,其中2个通道的多个引脚是共享的。这减少了controller的CA引脚的数量。
对于使用12个GDDR6芯片的384位内存接口的芯片,伪通道模式将使IOs数量减少96个。这是一个相当大的数目。在共享引脚中有CA[9:4]。
缺点是这种模式对在两个通道之间选择bank、行和列的方式施加了很大的限制。
例如,对于行激活,位CA[9:4]用于指定4个bank位以及6个行位。controller将只能独立选择最多13个行位中的7个。幸运的是,每个通道仍然可以自由地选择列位。
当然,由于GDDR5X伪通道要求所有的行位都是相同的,这是一个更严格的限制。
x8 - Clamshell Mode
GDDR5可只使用1半的DQ,16位而不是32位,同时仍然能访问芯片上的所有内存。
类似地,GDDR6具有x8模式,其中16个DQ位中只有8个连接到设备。
使用这种模式,可以将2个不同GDDR6设备的2个8位通道连接到控制器上的单个16位通道。
最终结果是可以连接到同1个controller最大内存量增加了1倍。
在下面的图片中,你可以看到它是如何工作的:在左边,你有标准的单个设备x16模式,每个GDDR6有2个16位通道,每个通道连接到一个通道控制器。
在右侧,有2个x8模式的GDDR6设备:每个16位通道连接2个GDDR6设备。通道控制器的CA引脚将连接两个GDDR6设备。
这模式用于有大量内存的GPU,如Nvidia Quadro和Tesla,或AMD FirePro产品。
GDDR6并不是革命性的,但增加的容量和带宽,双通道特性。这对于需要对内存的不同部分进行大量并行读写的工作负载来说非常好。