深度学习中保存最优模型的实践与探索:以食物图像分类为例
深度学习中保存最优模型的实践与探索:以食物图像分类为例
在深度学习的模型训练过程中,训练一个性能良好的模型往往需要耗费大量的时间和计算资源。而保存最优模型不仅可以避免重复训练,还能方便后续使用和部署。本文将结合食物图像分类的代码实例,深入探讨如何在深度学习项目中保存最优模型,以及不同保存方式的特点和适用场景。
一、保存最优模型的重要性
在深度学习模型的训练过程中,随着训练轮次(epoch)的增加,模型的性能(如准确率、损失值等指标)会不断变化。由于数据分布、模型复杂度、超参数设置等多种因素的影响,模型并非在训练的最后一轮就能达到最佳性能。因此,我们需要一种机制来记录和保存模型在训练过程中表现最优的状态,以便后续在实际应用中使用该模型进行预测和推理。
保存最优模型可以帮助我们:
- 避免过度训练:如果不保存最优模型,模型可能会在后续训练过程中出现过拟合,导致性能下降。通过保存最优模型,我们可以确保使用的是在验证集或测试集上表现最好的模型版本。
- 提高开发效率:在后续的项目迭代、模型优化或实际部署中,直接使用保存的最优模型,无需重新训练,节省大量的时间和计算资源。
- 便于模型评估与比较:保存不同训练阶段或不同参数设置下的最优模型,有助于我们对比分析模型的性能差异,为进一步优化模型提供依据。
二、代码实例解析
在食物图像分类的代码中,我们通过以下方式实现了最优模型的保存:
def test(dataloader,model,loss_fn):best_acc = 0size=len(dataloader.dataset)num_batches=len(dataloader) #打包的数量model.eval() #测试,w就不能再更新。test_loss,correct=0,0with torch.no_grad(): #一个上下文管理器,关闭梯度计算。当你确认不会调用Tensor.backward()的时候。for X,y in dataloader:X,y=X.to(device),y.to(device)pred=model.forward(X)test_loss+=loss_fn(pred,y).item() #test_loss是会自动累加每一个批次的损失值correct+=(pred.argmax(1)==y).type(torch.float).sum().item()a=(pred.argmax(1)==y) #dim=1表示每一行中的最大值对应的索引号,dim=0表示每一列中的最大值b=(pred.argmax(1)==y).type(torch.float)result = zip(pred.argmax(1).tolist(), y.tolist())for i in result:print(f"当前测试的结果为:{food_type[i[0]]}\t,当前真实的结果为:{food_type[i[1]]}")test_loss /=num_batchescorrect /=sizeprint(f'Test result: \n Accuracy: {(100*correct)}%, Avg loss: {test_loss}')
#保存最优模型的两种方法:if correct > best_acc:best_acc=correct# 1、保存模型参数方法: torch.save(model.state_dict(),path)print(model.state_dict().keys())torch.save(model.state_dict(),'best.pth')# # 2、保存完整模型(w, b, 模型cnn),# torch.save(model, 'best1.pt')
在上述代码的test
函数中,我们定义了一个变量best_acc
用于记录当前最优的准确率。每次进行测试时,计算模型在测试集上的准确率correct
,并与best_acc
进行比较。如果当前的准确率高于best_acc
,则更新best_acc
,并保存当前的模型。
1. 保存模型参数
(torch.save(model.state_dict(), 'best.pth')
)
这种方式只保存模型的参数(如卷积层的权重、偏置,全连接层的权重等),而不保存模型的结构。保存的文件格式通常为.pth
或.pt
。其优点在于:
- 文件体积小:由于只保存参数,文件大小相对较小,便于存储和传输。
- 灵活性高:在加载模型时,我们可以先定义相同结构的模型,然后将保存的参数加载到模型中。这样可以方便地在不同的代码环境或项目中使用,只要模型结构一致即可。
例如,在加载保存的模型参数时,可以使用以下代码:
model = CNN() # 定义与训练时相同结构的模型
model.load_state_dict(torch.load('best.pth')) # 加载模型参数
model.eval() # 将模型设置为评估模式
2. 保存完整模型
(torch.save(model, 'best1.pt')
)
这种方式会将整个模型(包括模型的结构和参数)一起保存。其优点是加载模型时非常方便,无需重新定义模型结构,直接加载即可使用:
loaded_model = torch.load('best1.pt') # 直接加载完整模型
loaded_model.eval() # 设置为评估模式
然而,这种方式也存在一些缺点:
- 文件体积大:由于包含了模型结构和参数,文件大小通常比只保存参数的方式大很多。
- 代码依赖性强:如果代码中的模型定义发生了变化,可能会导致加载失败。因为保存的模型是基于特定的代码结构保存的。
三、选择合适的保存方式
在实际应用中,我们需要根据具体需求来选择合适的模型保存方式:
- 如果注重文件大小和灵活性:例如在模型部署到资源受限的设备(如嵌入式设备),或者需要在不同代码库中共享模型参数时,保存模型参数的方式更为合适。
- 如果追求加载的便捷性:在快速测试、演示或者代码结构相对固定的项目中,保存完整模型的方式可以简化加载过程,提高开发效率。
四、总结
保存最优模型是深度学习项目中不可或缺的环节。通过合理选择保存方式,我们可以更好地管理和利用训练好的模型。在食物图像分类的案例中,我们展示了两种常见的保存模型的方法,并分析了它们的优缺点和适用场景。在实际项目开发中,开发者应根据具体情况灵活运用这些方法,确保模型能够在后续的应用中发挥最佳性能,推动深度学习技术在各个领域的落地与发展。