当前位置：首页 > news >正文

YOLO入门教程（番外）：机器视觉实践—Kaggle实战：深度学习实现狗的品种识别

news 2025/10/5 7:24:22

Kaggle实战：深度学习实现狗的品种识别

赛题背景与挑战

狗品种识别是计算机视觉领域的一个经典多分类问题。本次Kaggle比赛要求参赛者识别120种不同品种的狗，这是一个具有实际应用价值的挑战，可以应用于宠物识别、动物收容所管理等多个场景。

数据集特点

数据规模：训练集10,222张图像，测试集10,357张图像
类别数量：120种不同犬类
图像特点：高分辨率、尺寸不一、背景复杂
挑战：类间差异小（不同品种间相似度高），类内差异大（同一品种不同个体表现多样）

技术方案概述

本方案采用迁移学习策略，使用在ImageNet上预训练的ResNet-34模型作为特征提取器，仅训练自定义的小型输出网络，既保证了性能又提高了训练效率。

完整实现流程

1. 数据准备与预处理

数据集结构整理

def reorg_dog_data(data_dir, valid_ratio):# 读取标签文件labels = d2l.read_csv_labels(os.path.join(data_dir, 'labels.csv'))# 组织训练集和验证集d2l.reorg_train_valid(data_dir, labels, valid_ratio)# 组织测试集d2l.reorg_test(data_dir)

图像增广策略

针对ImageNet尺度图像设计的数据增强方案：

# 训练集数据增强
transform_train = transforms.Compose([transforms.RandomResizedCrop(224, scale=(0.08, 1.0), ratio=(3.0/4.0, 4.0/3.0)),transforms.RandomHorizontalFlip(),transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4),transforms.ToTensor(),transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])# 测试集预处理
transform_test = transforms.Compose([transforms.Resize(256),transforms.CenterCrop(224),transforms.ToTensor(),transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

2. 模型架构设计

使用预训练模型

def get_net(devices):# 加载预训练的ResNet-34finetune_net = models.resnet34(pretrained=True)# 冻结特征提取层参数for param in finetune_net.features.parameters():param.requires_grad = False# 自定义输出网络finetune_net.output_new = nn.Sequential(nn.Linear(1000, 256),  # 原始ResNet输出1000维nn.ReLU(),nn.Linear(256, 120)    # 120个狗品种)return finetune_net.to(devices[0])

3. 训练策略

损失函数与优化器

# 使用交叉熵损失
loss = nn.CrossEntropyLoss(reduction='none')# 只训练自定义输出层
trainer = torch.optim.SGD((param for param in net.parameters() if param.requires_grad),lr=5e-3, momentum=0.9, weight_decay=1e-4
)# 学习率调度
scheduler = torch.optim.lr_scheduler.StepLR(trainer, lr_period=2, lr_decay=0.9)

训练过程

def train(net, train_iter, valid_iter, num_epochs, lr, wd, devices, lr_period, lr_decay):# 多GPU训练net = nn.DataParallel(net, device_ids=devices).to(devices[0])for epoch in range(num_epochs):metric = d2l.Accumulator(2)for i, (features, labels) in enumerate(train_iter):# 前向传播output = net(features)l = loss(output, labels).sum()# 反向传播trainer.zero_grad()l.backward()trainer.step()# 记录损失metric.add(l, labels.shape[0])# 调整学习率if epoch > 0 and epoch % lr_period == 0:trainer.set_learning_rate(trainer.learning_rate * lr_decay)# 验证集评估if valid_iter is not None:valid_loss = evaluate_loss(valid_iter, net, devices)

4. 模型评估与预测

验证集评估

def evaluate_loss(data_iter, net, devices):l_sum, n = 0.0, 0for features, labels in data_iter:features, labels = features.to(devices[0]), labels.to(devices[0])outputs = net(features)l = loss(outputs, labels)l_sum += l.sum()n += labels.numel()return l_sum / n

测试集预测与提交

# 生成预测结果
preds = []
for data, label in test_iter:output = torch.nn.functional.softmax(net(data.to(devices[0])), dim=1)preds.extend(output.cpu().detach().numpy())# 创建提交文件
ids = sorted(os.listdir(os.path.join(data_dir, 'train_valid_test', 'test', 'unknown')))
with open('submission.csv', 'w') as f:f.write('id,' + ','.join(train_valid_ds.classes) + '\n')for i, output in zip(ids, preds):f.write(i.split('.')[0] + ',' + ','.join([str(num) for num in output]) + '\n')

关键技术与优化策略

1. 迁移学习优势

利用预训练特征：ImageNet预训练模型已学习通用视觉特征
减少训练时间：只需训练少量参数，大幅缩短训练时间
降低过拟合风险：预训练模型提供了良好的初始化

2. 数据增强设计

随机裁剪：增强模型对物体位置的鲁棒性
颜色扰动：提高对光照变化的适应性
水平翻转：增加数据多样性

3. 超参数选择

# 经过实验验证的有效超参数
batch_size = 128
num_epochs = 10
learning_rate = 5e-3
weight_decay = 1e-4
lr_period = 2
lr_decay = 0.9

实验结果与分析

性能表现

训练损失：1.017
验证损失：0.958
训练速度：149.7 examples/sec on [gpu(0), gpu(1)]

结果分析

收敛性：模型在10个epoch内快速收敛
泛化能力：训练损失与验证损失接近，表明模型具有良好的泛化能力
效率：多GPU训练显著提高了训练速度

进一步优化建议

1. 模型层面

尝试更深层的预训练模型（如ResNet-50、ResNet-101）
使用EfficientNet等现代架构
集成多个模型提升性能

2. 数据层面

应用更丰富的数据增强技术（MixUp、CutMix）
使用标签平滑处理类别不平衡
尝试自监督预训练

3. 训练策略

采用余弦学习率调度
使用梯度累积处理大批次训练
实施早停策略防止过拟合

实际应用扩展

1. 移动端部署

# 模型量化示例
quantized_model = torch.quantization.quantize_dynamic(model, {nn.Linear}, dtype=torch.qint8
)

2. Web应用集成

# 使用Flask创建API接口
@app.route('/predict', methods=['POST'])
def predict():file = request.files['file']img = Image.open(file.stream)prediction = model.predict(img)return jsonify({'breed': prediction})