【深度学习新浪潮】大模型推理实战:模型切分核心技术(上)—— 张量并行原理+国内开源案例+踩坑点
在大模型落地过程中,“单卡跑不动”是每个算法工程师都会遇到的坎——比如1300亿参数的GLM-130B,按FP16精度存储就需要2.6TB内存,哪怕是A100 80G单卡也只能放下零头。这时候“模型切分”就成了必选项,而张量并行作为最基础的切分方式,是千亿级模型能跑起来的关键。
今天这篇文章,我们用“做美食”的通俗比喻讲透张量并行,再结合GLM、通义千问等国内开源模型的实战案例,最后点出工程落地中的坑,帮你快速理解并上手。
一、先搞懂:为什么需要张量并行?
大模型的核心计算单元是“Transformer层”,每个层里藏着两个“内存大户”:
- 多头注意力:比如GLM-130B的一个层有96个注意力头,每个头要处理10240维的特征,计算时会生成10240×10240的大矩阵;
- FeedForward网络:同样是大矩阵乘法,单一层的参数就超过1亿。
单卡的问题很直接:内存装不下大矩阵,算力扛不动大计算。比如上面的10240×10240矩阵,按FP16算就需要200MB(10240×10240×2字节),再加上其他中间变量,单一层就能占满单卡10%的内存——96层叠下来,单卡根本撑不住。
张量并行的本质就是:把“同一个Transformer层”的大计算拆成小块,分给多卡同时算,最后合并结果