昇思+昇腾开发板+DeepSeek模型推理和性能优化
昇思+昇腾开发板+DeepSeek模型推理和性能优化
模型推理
流程: 权重加载 -> 启动推理 -> 效果比较与调优 -> 性能测试 -> 性能优化
权重加载
如微调章节介绍,最终的模型包含两部分:base model 和 LoRA adapter,其中base model的权重在微调时被冻结,推理时加载原权重即可,LoRA adapter可通过PeftModel.from_pretrained进行加载。
### 加载基础模型
model = AutoModelForCausalLM.from_pretrained("MindSpore-Lab/DeepSeek-R1-Distill-Qwen-1.5B-FP16", mirror="modelers", ms_dtype=mindspore.float16)
### 加载LoRA adapter
model = PeftModel.from_pretrained(model, "./output/adapter_model_for_demo") # adapter_model path
## 启动推理
通过model.generate,启动推理。generate_kwargs = dict(input_ids=input_ids,streamer=streamer,max_new_tokens=1024,do_sample=True,top_p=0.9,temperature=0.1,num_beams=1,
)
## 使用线程启动生成
t = Thread(target=model.generate, kwargs=generate_kwargs)
'''
效果比较
演示中以一个微调多轮后的LoRA权重为例,在微调前(不加载LoRA adapter),在问模型“你是谁”时,回答的是 "DeepSeek-R1”,而在加载LoRA adapter之后,回答为“甄嬛”。
微调前:
问: 你是谁?
答: 您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何任何问题或需要帮助,我会尽我所能为您提供帮助。
微调后:
问: 你是谁?
答: 我是甄嬛,家父是大理寺少卿甄远道。
效果调优
在进行长文本输出的过程当中,输出回答到一定长度后模型会输出重复内容,如下图所示,可在generate_kwargs中添加 repetition_penalty=1.2,解决长文本输出重复问题。
调优前: 模型在生成长回复时,末尾出现大量重复语句。
调优后: 通过设置 repetition_penalty,模型能够生成逻辑连贯且不重复的长篇回复。
性能测试
凡是在推理过程中涉及采样(do_sample=True)的案例,可以通过配置如下变量,注释掉之前添加的同步模式代码,再运行代码,即可获取每个token的推理时长和平均时长。
export INFERENCE_TIME_RECORD=True
此时,从终端的运行日志可以看到,平均推理时间为0.727秒,可通过禁用多线程将推理速度适当提升为平均单token推理时长0.674秒。
操作: 在脚本中添加禁用多线程代码
from mindspore._c_expression import disable_multi_thread
disable_multi_thread()
性能优化
通过上述禁用多线程的方式,可以适当减少平均单token的推理时长,但效果不明显。在此基础上,还可以通过jit即时编译的方式进一步加速。jit即时编译通过jit修饰器修饰Python函数或者Python类的成员函数使其被编译成计算图,通过图优化等技术提高运行速度。
在本章节的场景下,jit修饰器应该修饰模型decode的函数,但由于原代码将模型的logits计算、解码等过程整体封装成了一个model.generate函数,不好进行优化,所以需要手动实现解码逻辑。
DeepSeek-R1-Distill-Qwen-1.5B 模型推理性能调优
性能优化
前序准备
实现解码逻辑(decode函数、prefill-decode阶段)。
实例化StaticCache,动态Cache无法成图。
添加jit装饰器
设置O2整图下沉进一步优化。
调用 model.jit()。
使用 mindspore.jit 装饰器修饰decode函数。
#### 1. 设置上下文
mindspore.set_context(enable_graph_kernel=True, mode=mindspore.GRAPH_MODE, jit_config={"jit_level": "02"})#### ... 模型加载 ...
#### 2. 编译模型
model.jit()#### 3. jit装饰器修饰解码函数
@mindspore.jit(jit_config=mindspore.JitConfig(jit_syntax_level='STRICT'))
def decode_one_tokens_logits(model, cur_token, input_pos, cache_position, past_key_values):logits = model(...)return logits
Top_p函数的实现
出于效率的考虑,优先使用numpy进行函数的实现。
而在gather函数的实现上,基于mindspore.mint的实现方式会出现报错,故使用mindspore.ops来实现。
modeling_qwen2.py的decoder_layer中,需添加_modules.values()
为了在静态图模式下能正确遍历网络层,需要修改循环方式。
原代码
for decoder_layer in self.layers:
修改后
for decoder_layer in self.layers._modules.values():
modeling_qwen2.py原RotaryEmbedding在静态图编译会出现报错
需要参考modeling_llama.py将该类进行重写。相关pr已经合入mindnlp的0.4分支。
性能优化效果测试
推理时间测试代码
##### 自回归生成循环
cache_position = mindspore.tensor([seq_length + 1])
for i in range(1, NUM_TOKENS_TO_GENERATE):s = time.time()next_token = decode_one_tokens(model, next_token, None, cache_position, past_key_values)generated_ids[:, cache_position] = next_token.int()cache_position += 1t = time.time()print("[%d]: %s" % (i, t-s)) # 打印单步生成耗时
不使用jit优化,每个token推理时间约为1.1秒。
使用jit优化,每个token推理时间约为0.32秒,效率显著提高。
但是在推理首个token前需要对全图进行编译,故首token推理时间较长。在推理token数量较多时,使用JIT优化对效率提升效果更明显。