当前位置：首页 > news >正文

图片旋转方向分类：从零开始构建深度学习模型

news 2025/10/29 23:55:40

引言

在计算机视觉领域，图片方向分类是一项常见的任务，尤其是在文档扫描、图像预处理和 OCR 系统中。本文将详细介绍如何使用深度学习技术构建一个高效的图片旋转方向分类模型，涵盖数据准备、模型设计、训练过程、超参数调试以及部署等关键步骤。

1. 整体流程

1.1 数据准备

为了训练一个可靠的旋转方向分类模型，我们需要准备包含 0°、90°、180° 和 270° 四种旋转方向的图片数据集。以下是数据准备的具体步骤：

收集数据 ：从目标场景中采集或下载包含不同旋转方向的图片。
标注数据 ：为每张图片标注其旋转方向（0°、90°、180° 或 270°）。
划分数据集 ：将数据集划分为训练集、验证集和测试集，确保类别分布均衡。

注意事项

数据均衡性 ：确保每个类别的样本数量一致，避免类别不平衡问题。
数据增强 ：通过随机裁剪、水平翻转、颜色抖动等方式增加数据多样性，提升模型泛化能力。

2 模型设计

我们选择了经典的卷积神经网络（CNN）架构 VGG11 作为基础模型，并对其进行了微调以适应旋转方向分类任务。以下是模型设计的关键点：

加载预训练模型 ：使用 PyTorch 提供的预训练权重（如 VGG11_Weights.IMAGENET1K_V1），加速收敛并提升性能。
替换最后一层 ：将 VGG11 的最后一层替换为适合 4 类分类的全连接层:

model.classifier[6] = nn.Sequential(
    nn.Dropout(0.5),
    nn.Linear(num_features, 4)  # 4 类旋转方向
)

注意事项

模型容量 ：如果数据集较大且任务复杂，可以尝试更深的模型（如 ResNet 或 EfficientNet）。
正则化 ：添加 Dropout 层以减少过拟合，同时使用 L2 正则化（weight_decay）进一步优化。

1.3 训练过程

训练过程包括以下几个关键步骤：

定义损失函数 ：使用交叉熵损失函数（CrossEntropyLoss）作为优化目标。
选择优化器 ：使用 Adam 优化器，支持自适应学习率调整。
学习率调度 ：引入学习率调度器（如 ReduceLROnPlateau），动态调整学习率以提高收敛速度。
早停法 ：当验证准确率不再提升时，提前停止训练以避免过拟合。

训练日志示例

Epoch [1/15], Train Loss: 0.8013, Val Loss: 0.3243, Val Acc: 93.57%, LR: 0.000010
Epoch [2/15], Train Loss: 0.2400, Val Loss: 0.1981, Val Acc: 95.14%, LR: 0.000010
...
Epoch [14/15], Train Loss: 0.0939, Val Loss: 0.1403, Val Acc: 96.43%, LR: 0.000000

注意事项

监控指标 ：定期记录训练损失、验证损失和准确率，分析模型收敛趋势。
保存最佳模型 ：在每个 epoch 结束时，保存验证集上表现最佳的模型权重。

1.4 测试与评估

在测试阶段，我们使用混淆矩阵分析模型的预测结果，找出潜在问题并针对性改进。以下是最终测试结果：

Test Accuracy: 96.00%
Confusion Matrix:
[[192   8   0   0]
 [  0 196   0   4]
 [  0   0 200   0]
 [  0   2   0 198]]

分析

模型对 0° 和 180° 的分类效果较好，但对 90° 和 270° 存在一定混淆。
针对混淆较多的类别，可以通过增加样本数量或调整类别权重来进一步优化。

2. 详细说明

2.1 数据增强

数据增强是提升模型泛化能力的重要手段。我们在训练阶段采用了以下增强操作：

随机裁剪 ：通过 RandomResizedCrop 增加图片的空间多样性。
水平翻转 ：通过 RandomHorizontalFlip 模拟镜像变换。
颜色抖动 ：通过 ColorJitter 调整亮度、对比度和饱和度。
高斯模糊 ：通过 GaussianBlur 模拟低质量图片。

代码示例

transform = transforms.Compose([
    transforms.Resize((256, 256)),
    transforms.RandomResizedCrop((224, 224), scale=(0.8, 1.0)),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1),
    transforms.GaussianBlur(kernel_size=(5, 9), sigma=(0.1, 5)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

2.2 模型架构

我们选择了 VGG11 作为基础模型，并对其进行了微调：

冻结部分层 ：保留预训练模型的卷积层权重，仅训练最后几层以适应特定任务。
替换分类层 ：将最后一层替换为适合 4 类分类的全连接层。

代码示例

model = models.vgg11(weights=models.VGG11_Weights.IMAGENET1K_V1)
num_features = model.classifier[6].in_features
model.classifier[6] = nn.Sequential(
    nn.Dropout(0.5),
    nn.Linear(num_features, 4)
)

2.3 损失函数与优化器

损失函数 ：使用交叉熵损失函数（CrossEntropyLoss）作为优化目标。
优化器 ：使用 Adam 优化器，初始学习率为 1e-5，并设置权重衰减（weight_decay=1e-4）以减少过拟合。

代码示例

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=1e-5, weight_decay=1e-4)

2.4 学习率调度

为了避免学习率过早降为 0，我们使用了 ReduceLROnPlateau 调度器，并设置了以下参数：

mode='max' ：基于验证准确率调整学习率。
factor=0.1 ：每次降低学习率为原来的 10%。
patience=3 ：容忍 3 个 epoch 内验证准确率不提升。
min_lr=1e-7 ：设置最小学习率，避免学习率过低。

代码示例

scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='max', factor=0.1, patience=3, verbose=True, min_lr=1e-7)

2.5 早停法

为了防止过拟合，我们在训练过程中引入了早停法（Early Stopping）。如果验证准确率在多个 epoch 内没有提升，则提前终止训练。

代码示例

best_val_acc = 0.0
patience = 5
trigger_times = 0

for epoch in range(num_epochs):
    # 训练阶段...
    
    # 验证阶段...
    val_accuracy = ...

    if val_accuracy > best_val_acc:
        best_val_acc = val_accuracy
        torch.save(model.state_dict(), "best_model.pth")
        trigger_times = 0
    else:
        trigger_times += 1
        if trigger_times >= patience:
            logging.info("Early stopping triggered.")
            break

3. 超参数调试细节

3.1 批量大小（Batch Size）

批量大小的选择会影响训练速度和模型性能：

较小批量 （如 16）：适用于内存受限的设备，但可能导致梯度估计不稳定。
较大批量 （如 64 或 128）：提升训练稳定性，但需要更多 GPU 内存。

建议

根据硬件资源选择合适的批量大小（推荐 32 或 64）。

3.2 学习率（Learning Rate）

学习率是影响训练收敛速度的关键参数：

初始学习率 ：设置为 1e-5，适合微调预训练模型。
动态调整 ：通过学习率调度器（如 ReduceLROnPlateau）动态调整学习率。

建议

如果模型收敛缓慢，可以尝试降低初始学习率（如 1e-6）。
如果模型容易过拟合，可以尝试更小的学习率下降步长（如 factor=0.5）。

3.3 权重衰减（Weight Decay）

权重衰减（weight_decay）用于控制模型复杂度，减少过拟合风险：

值范围 ：通常设置为 1e-4 至 1e-6。

建议

如果验证损失趋于平稳但验证准确率未提升，可以适当增加权重衰减（如 5e-4）。

3.4 数据增强

数据增强操作应根据任务特点进行设计：

随机裁剪 ：增加空间多样性。
颜色抖动 ：模拟不同的光照条件。
高斯模糊 ：增强模型对噪声的鲁棒性。

建议

避免引入与任务无关的增强操作（如 RandomRotation），以免干扰模型学习目标特征。

4. 注意事项

4.1 数据分布一致性

确保训练集、验证集和测试集的类别分布一致，避免因数据分布差异导致模型性能下降。

4.2 模型容量选择

如果数据集较小，可以选择较浅的模型（如 VGG11）以减少过拟合风险。
如果数据集较大且任务复杂，可以选择更深的模型（如 ResNet 或 EfficientNet）以提升表达能力。

4.3 日志记录

使用 Python 的 logging 模块记录训练过程中的关键信息（如损失、准确率和学习率），便于后续分析和优化。

logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s [%(levelname)s] %(message)s",
    handlers=[
        logging.FileHandler("train.log"),
        logging.StreamHandler()
    ]
)

4.4 部署优化

在部署阶段，可以采取以下措施提升性能：

使用 GPU 加速 ：将模型和输入张量移动到 GPU（如果可用）。
批量预测 ：实现批量预测接口以减少重复计算开销。
反向代理 ：使用 Nginx 或 Caddy 配置 HTTPS 和负载均衡。

5. 总结

通过上述步骤，我们成功构建了一个高效且准确的图片旋转方向分类模型。以下是关键总结：

数据准备 ：确保数据分布均衡并采用合适的数据增强策略。
模型设计 ：基于预训练模型进行微调，平衡性能与效率。
训练优化 ：动态调整学习率并使用早停法避免过拟合。
部署优化 ：利用 GPU 加速推理并实现批量预测接口。

如果您希望进一步提升模型性能，可以尝试以下方向：

更深层次的模型 ：如 ResNet 或 EfficientNet。
类别权重调整 ：为混淆较多的类别分配更高权重。
集成学习 ：结合多个模型的预测结果以提升鲁棒性。

import os
from collections import Counter
import torch
import torch.nn as nn
import torch.optim as optim
from PIL import Image
from torch.utils.data import DataLoader, Dataset
from torchvision import transforms, models
from torchvision.models import VGG11_Weights
import logging
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import base64
import io

# Step 0: 配置日志框架
def setup_logging(log_file="train.log"):
    logging.basicConfig(
        level=logging.INFO,
        format="%(asctime)s [%(levelname)s] %(message)s",
        handlers=[
            logging.FileHandler(log_file),
            logging.StreamHandler()
        ]
    )

setup_logging(log_file="classifier.log")

# Step 1: 数据集准备与预处理
class RotationDataset(Dataset):
    def __init__(self, root_dir, transform=None):
        self.root_dir = root_dir
        self.transform = transform
        self.image_paths = []
        self.labels = []
        for label, rotation in enumerate(["0", "90", "180", "270"]):
            rotation_dir = os.path.join(root_dir, rotation)
            for image_name in os.listdir(rotation_dir):
                self.image_paths.append(os.path.join(rotation_dir, image_name))
                self.labels.append(label)

    def __len__(self):
        return len(self.image_paths)

    def __getitem__(self, idx):
        image_path = self.image_paths[idx]
        label = self.labels[idx]
        image = Image.open(image_path).convert("RGB")
        if self.transform:
            image = self.transform(image)
        return image, label

# 数据增强管道
transform = transforms.Compose([
    transforms.Resize((256, 256)),
    transforms.RandomResizedCrop((224, 224), scale=(0.8, 1.0)),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1),
    transforms.GaussianBlur(kernel_size=(5, 9), sigma=(0.1, 5)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 加载数据集
card_type = 'jsz-zy'
train_dataset = RotationDataset(root_dir="../../dataset/train/" + card_type, transform=transform)
val_dataset = RotationDataset(root_dir="../../dataset/val/" + card_type, transform=transform)
test_dataset = RotationDataset(root_dir="../../dataset/test/" + card_type, transform=transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
]))

# 打印数据分布
logging.info(f"Train Label Distribution: {Counter(train_dataset.labels)}")
logging.info(f"Validation Label Distribution: {Counter(val_dataset.labels)}")
logging.info(f"Test Label Distributions: {Counter(test_dataset.labels)}")

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

# Step 2: 模型设置
model = models.vgg11(weights=models.VGG11_Weights.IMAGENET1K_V1)
num_features = model.classifier[6].in_features
model.classifier[6] = nn.Sequential(
    nn.Dropout(0.5),
    nn.Linear(num_features, 4)  # 4 类旋转方向
)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=1e-5, weight_decay=1e-4)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='max', factor=0.1, patience=3, verbose=True, min_lr=1e-7)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

# Step 3: 训练模型
num_epochs = 15
best_val_acc = 0.0
patience = 5
trigger_times = 0

for epoch in range(num_epochs):
    # 训练阶段
    model.train()
    running_loss = 0.0
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()

    # 验证阶段
    model.eval()
    val_loss = 0.0
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in val_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            loss = criterion(outputs, labels)
            val_loss += loss.item()
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    val_accuracy = 100 * correct / total

    # 打印日志
    current_lr = optimizer.param_groups[0]['lr']
    logging.info(f"Epoch [{epoch + 1}/{num_epochs}], Train Loss: {running_loss / len(train_loader):.4f}, Val Loss: {val_loss / len(val_loader):.4f}, Val Acc: {val_accuracy:.2f}%, LR: {current_lr:.6f}")

    # 更新学习率调度器
    scheduler.step(val_accuracy)

    # 保存最佳模型
    if val_accuracy > best_val_acc:
        best_val_acc = val_accuracy
        torch.save(model.state_dict(), "models/best_rotation_classifier.pth")
        logging.info(f"New best model saved with accuracy: {best_val_acc:.2f}%")
        trigger_times = 0
    else:
        trigger_times += 1
        if trigger_times >= patience:
            logging.info("Early stopping triggered.")
            break

# Step 4: 测试模型
model.load_state_dict(torch.load("models/best_rotation_classifier.pth"))
model.eval()

test_correct = 0
test_total = 0
all_labels = []
all_preds = []
with torch.no_grad():
    for images, labels in test_loader:
        images, labels = images.to(device), labels.to(device)
        outputs = model(images)
        _, predicted = torch.max(outputs, 1)
        test_total += labels.size(0)
        test_correct += (predicted == labels).sum().item()
        all_labels.extend(labels.cpu().numpy())
        all_preds.extend(predicted.cpu().numpy())

test_accuracy = 100 * test_correct / test_total
logging.info(f"Test Accuracy: {test_accuracy:.2f}%")

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(all_labels, all_preds)
logging.info("Confusion Matrix:")
logging.info(cm)

# Step 5: 部署服务（FastAPI）
app = FastAPI()

# 加载模型
def load_model(model_path: str):
    global model, transform, device
    transform = transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])
    model = models.vgg11(weights=None)
    num_features = model.classifier[6].in_features
    model.classifier[6] = nn.Sequential(
        nn.Dropout(0.5),
        nn.Linear(num_features, 4)
    )
    state_dict = torch.load(model_path, map_location=torch.device('cpu'))
    model.load_state_dict(state_dict)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)
    model.eval()
    logging.info(f"Model loaded successfully and using device: {device}")

load_model("models/best_rotation_classifier.pth")

# 定义旋转方向标签
rotation_labels = ["0", "90", "180", "270"]

# 图片解码函数
def decode_base64_image(base64_str: str) -> Image.Image:
    try:
        image_data = base64.b64decode(base64_str)
        image = Image.open(io.BytesIO(image_data)).convert("RGB")
        return image
    except Exception as e:
        logging.error(f"Error decoding Base64 image: {e}")
        raise HTTPException(status_code=400, detail="Invalid Base64 image data.")

# 图片预处理函数
def preprocess_image(image: Image.Image) -> torch.Tensor:
    tensor = transform(image).unsqueeze(0)
    return tensor.to(device)

# 预测函数
def predict(image: Image.Image) -> str:
    with torch.no_grad():
        tensor = preprocess_image(image)
        outputs = model(tensor)
        _, predicted = torch.max(outputs, 1)
        return rotation_labels[predicted.item()]

# 定义 Base64 请求体
class ImageBase64Request(BaseModel):
    image_base64: str

# API 路由：通过 Base64 图片进行预测
@app.post("/predict_base64/")
async def predict_image_base64(request: ImageBase64Request):
    try:
        image = decode_base64_image(request.image_base64)
        result = predict(image)
        logging.info(f"Prediction result for Base64 image: {result}")
        return {"predicted_rotation": result}
    except Exception as e:
        logging.error(f"Error during prediction from Base64: {e}")
        raise HTTPException(status_code=500, detail="Prediction from Base64 failed.")

# 健康检查路由
@app.get("/health/")
async def health_check():
    if model is not None:
        return {"status": "OK", "message": f"Model is loaded and ready. Using device: {device}"}
    else:
        raise HTTPException(status_code=503, detail="Model is not loaded.")

查看全文

http://www.dtcms.com/a/17696.html