加载模型
准备好了吗?我们即将进行一些“重量级”的模型加载操作——没错,就是加载模型!不过说实话,这些模型不会真的那么“重”,这正是量化技术的核心意义:让模型变得更小、更轻量,这样你的GPU就能腾出更多内存用于其他操作。
我们将用一个更易于操作的模型(Facebook的opt-350m)来测试几种不同的方案,这样每次用不同配置加载模型时就不用等太久。这个模型有多大呢?它包含3.5亿个参数,每个参数是32位(即4字节)的浮点数,因此模型大小大致为1.4GB。
def get_parm_dtypes(iterable, top_k=3):
return Counter([p