本地运行qwen3:30b-a3b速度测试
仍然使用的是ollama,运行的Q4_K_M量化版。
这个模型在相同硬件环境下对比我电脑上其他32b的模型速度(小于3 tokens/s)提升非常明显,并且可以设置是否打开思考模式。
注意: /no_think
前有个空格
非思考模式:
思考模式:
仍然使用的是ollama,运行的Q4_K_M量化版。
这个模型在相同硬件环境下对比我电脑上其他32b的模型速度(小于3 tokens/s)提升非常明显,并且可以设置是否打开思考模式。
注意: /no_think
前有个空格
非思考模式:
思考模式: