当前位置：首页 > news >正文

一文掌握使用深度学习识别验证码详解（包括图形验证码和滑块验证码）

news 2025/10/14 23:32:28

文章目录

- 一、图形验证码识别
- - 1.1 图形验证码概述
  - 1.2 实现步骤
  - 1.3 图形验证码识别识别案例
- 二、滑动验证码识别
- - 2.1 滑动验证码概述
  - 2.2 数据收集与预处理
  - 2.3 模型构建与训练
  - 2.4 模型评估与优化
  - 2.5 滑动验证码识别案例
- 三、实际应用中的注意事项
- 四、总结

验证码（CAPTCHA）是一种常用的防机器人验证机制，广泛应用于网站和应用程序中，以确保操作是由人类而非自动化程序执行的。验证码主要分为图形验证码（Image CAPTCHA）和滑动验证码（Slider CAPTCHA）两种类型。本文将详细介绍如何使用深度学习技术识别这两种验证码。

一、图形验证码识别

1.1 图形验证码概述

图形验证码通常由扭曲的文字、噪点、线条等干扰元素组成，目的是增加自动化识别的难度。识别图形验证码的主要步骤包括：

数据收集：获取大量带有标签的图形验证码样本。
数据预处理：对图像进行预处理，如灰度化、二值化、去噪等。
数据增强：通过旋转、缩放、平移等方式增加训练数据的多样性。
模型选择与训练：选择合适的深度学习模型（如CNN）进行训练。
模型评估与优化：评估模型性能，并进行优化。

1.2 实现步骤

1、数据收集与预处理
首先，需要收集大量图形验证码样本，并进行标注。预处理步骤包括：

灰度化：将彩色图像转换为灰度图像，减少计算量。
二值化：将灰度图像转换为黑白图像，突出文字部分。
去噪：去除图像中的噪点和干扰线。
分割：将验证码中的每个字符分割出来，便于单独识别。

import cv2
import numpy as np

def preprocess_image(image_path):
    # 读取图像
    image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
    # 二值化
    _, binary = cv2.threshold(image, 128, 255, cv2.THRESH_BINARY_INV)
    # 去噪
    denoised = cv2.medianBlur(binary, 3)
    return denoised

2、数据增强
为了提高模型的泛化能力，需要对训练数据进行增强。

from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=10,
    width_shift_range=0.1,
    height_shift_range=0.1,
    shear_range=0.1,
    zoom_range=0.1,
    fill_mode='nearest'
)

3、模型构建与训练
使用卷积神经网络（CNN）进行字符识别。

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout

model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(64, 128, 1)),
    MaxPooling2D((2, 2)),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    Conv2D(128, (3, 3), activation='relu'),
    Flatten(),
    Dense(128, activation='relu'),
    Dropout(0.5),
    Dense(num_classes, activation='softmax')
])

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(train_generator, epochs=10, validation_data=validation_generator)

4、模型评估与优化
使用测试集评估模型性能，并根据结果进行优化。

loss, accuracy = model.evaluate(test_generator)
print(f'Test Accuracy: {accuracy}')

1.3 图形验证码识别识别案例

图形验证码通常包含扭曲的文本、噪声和干扰线。使用卷积神经网络（CNN）可以有效地识别这类验证码。

1、数据准备
生成或收集验证码数据集：如果你有验证码生成工具，可以生成大量验证码图片。如果没有生成工具，可以从目标网站爬取验证码图片。

数据标注：每张验证码图片需要标注其对应的文本内容（如 “A3B4”）。如果验证码长度固定，可以将每个字符单独标注。

数据预处理：将图像转换为灰度图或 RGB 图。调整图像大小（如 64x64）。归一化像素值到 [0, 1]。

from PIL import Image
import numpy as np

def preprocess_image(image_path, target_size=(64, 64)):
    """
    预处理验证码图像
    :param image_path: 图像路径
    :param target_size: 目标大小
    :return: 预处理后的图像
    """
    image = Image.open(image_path).convert('L')  # 转换为灰度图
    image = image.resize(target_size)  # 调整大小
    image = np.array(image) / 255.0  # 归一化
    return image

2、模型设计
使用卷积神经网络（CNN）构建模型。以下是一个简单的 CNN 模型示例：

import tensorflow as tf
from tensorflow.keras import layers, models

def build_captcha_model(input_shape, num_classes):
    """
    构建图形验证码识别模型
    :param input_shape: 输入图像的形状 (height, width, channels)
    :param num_classes: 类别数（字符数）
    :return: 模型
    """
    model = models.Sequential([
        layers.Conv2D(32, (3, 3), activation='relu', input_shape=input_shape),
        layers.MaxPooling2D((2, 2)),
        layers.Conv2D(64, (3, 3), activation='relu'),
        layers.MaxPooling2D((2, 2)),
        layers.Flatten(),
        layers.Dense(128, activation='relu'),
        layers.Dense(num_classes, activation='softmax')  # 输出每个字符的概率
    ])
    return model

# 示例：构建模型
input_shape = (64, 64, 1)  # 灰度图
num_classes = 36  # 假设有 36 个类别（0-9, A-Z）
model = build_captcha_model(input_shape, num_classes)
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model.summary()

3、训练模型
将数据集划分为训练集和验证集，然后训练模型。

from sklearn.model_selection import train_test_split

# 加载数据集
def load_data(data_dir):
    images = []
    labels = []
    for filename in os.listdir(data_dir):
        if filename.endswith('.png'):
            image_path = os.path.join(data_dir, filename)
            image = preprocess_image(image_path)
            label = filename.split('_')[0]  # 假设文件名格式为 "label_xxx.png"
            labels.append(label)
            images.append(image)
    return np.array(images), np.array(labels)

# 加载数据
data_dir = 'captcha_dataset'
images, labels = load_data(data_dir)

# 将标签转换为 one-hot 编码
labels = tf.keras.utils.to_categorical(labels, num_classes=num_classes)

# 划分训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(images, labels, test_size=0.2, random_state=42)

# 训练模型
model.fit(X_train, y_train, epochs=10, validation_data=(X_val, y_val))

# 保存模型
model.save('captcha_model.h5')

4、推理
使用训练好的模型识别验证码。

def predict_captcha(model, image_path):
    """
    使用模型预测验证码
    :param model: 训练好的模型
    :param image_path: 验证码图像路径
    :return: 预测结果
    """
    image = preprocess_image(image_path)
    image = np.expand_dims(image, axis=0)  # 添加批次维度
    prediction = model.predict(image)
    predicted_label = np.argmax(prediction, axis=1)
    return predicted_label

# 示例调用
image_path = 'test_captcha.png'
predicted_label = predict_captcha(model, image_path)
print(f"预测结果: {predicted_label}")

二、滑动验证码识别

2.1 滑动验证码概述

滑动验证码通常要求用户将滑块拖动到缺口处，以完成验证。识别滑动验证码的主要步骤包括：

图像预处理：获取整体图像和滑块图像，并进行预处理。
特征提取：提取缺口和滑块的关键特征。
模板匹配：将滑块图像在整体图像中进行滑动匹配，找到最佳匹配位置。
深度学习优化：使用深度学习模型提高匹配精度。

2.2 数据收集与预处理

收集大量滑动验证码样本，包括整体图像和滑块图像，并进行预处理。

import cv2

def preprocess_slider_images(background_path, slider_path):
    background = cv2.imread(background_path, cv2.IMREAD_GRAYSCALE)
    slider = cv2.imread(slider_path, cv2.IMREAD_GRAYSCALE)
    # 边缘检测
    background_edges = cv2.Canny(background, 50, 150)
    slider_edges = cv2.Canny(slider, 50, 150)
    return background_edges, slider_edges

2.3 模型构建与训练

使用卷积神经网络（CNN）进行模板匹配。

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(64, 64, 1)),
    MaxPooling2D((2, 2)),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D((2, 2)),
    Flatten(),
    Dense(64, activation='relu'),
    Dense(2, activation='linear')  # 输出滑块的x, y坐标
])

model.compile(optimizer='adam', loss='mse', metrics=['mae'])
model.fit(train_images, train_labels, epochs=10, validation_data=(val_images, val_labels))

2.4 模型评估与优化

使用测试集评估模型性能，并根据结果进行优化。

loss, mae = model.evaluate(test_images, test_labels)
print(f'Test MAE: {mae}')

2.5 滑动验证码识别案例

滑动验证码通常需要识别缺口的位置。可以使用目标检测或图像匹配的方法。

1、数据准备
收集背景图和缺口图。
标注缺口的位置（如左上角和右下角坐标）。

2、模型设计
使用目标检测模型（如 YOLO 或 Faster R-CNN）或图像匹配模型（如 Siamese Network）。

以下是一个简单的图像匹配模型示例：

def build_siamese_model(input_shape):
    """
    构建 Siamese 网络模型
    :param input_shape: 输入图像的形状 (height, width, channels)
    :return: 模型
    """
    input_a = layers.Input(shape=input_shape)
    input_b = layers.Input(shape=input_shape)

    base_network = models.Sequential([
        layers.Conv2D(32, (3, 3), activation='relu', input_shape=input_shape),
        layers.MaxPooling2D((2, 2)),
        layers.Conv2D(64, (3, 3), activation='relu'),
        layers.MaxPooling2D((2, 2)),
        layers.Flatten(),
        layers.Dense(128, activation='relu')
    ])

    encoded_a = base_network(input_a)
    encoded_b = base_network(input_b)

    distance = layers.Lambda(lambda x: tf.abs(x[0] - x[1]))([encoded_a, encoded_b])
    output = layers.Dense(1, activation='sigmoid')(distance)

    model = models.Model([input_a, input_b], output)
    return model

# 示例：构建模型
input_shape = (64, 64, 1)
model = build_siamese_model(input_shape)
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.summary()

3、训练模型
将背景图和缺口图作为输入，训练模型。

# 加载数据
def load_sliding_data(data_dir):
    bg_images = []
    gap_images = []
    labels = []
    for filename in os.listdir(data_dir):
        if filename.startswith('bg_'):
            bg_path = os.path.join(data_dir, filename)
            gap_path = os.path.join(data_dir, filename.replace('bg_', 'gap_'))
            bg_image = preprocess_image(bg_path)
            gap_image = preprocess_image(gap_path)
            bg_images.append(bg_image)
            gap_images.append(gap_image)
            labels.append(1)  # 正样本
    return np.array(bg_images), np.array(gap_images), np.array(labels)

# 加载数据
data_dir = 'sliding_captcha_dataset'
bg_images, gap_images, labels = load_sliding_data(data_dir)

# 划分训练集和验证集
X_train_bg, X_val_bg, X_train_gap, X_val_gap, y_train, y_val = train_test_split(
    bg_images, gap_images, labels, test_size=0.2, random_state=42
)

# 训练模型
model.fit([X_train_bg, X_train_gap], y_train, epochs=10, validation_data=([X_val_bg, X_val_gap], y_val))

# 保存模型
model.save('sliding_captcha_model.h5')

4、推理
使用训练好的模型识别缺口位置。

def predict_gap_position(model, bg_path, gap_path):
    """
    使用模型预测缺口位置
    :param model: 训练好的模型
    :param bg_path: 背景图路径
    :param gap_path: 缺口图路径
    :return: 预测结果
    """
    bg_image = preprocess_image(bg_path)
    gap_image = preprocess_image(gap_path)
    bg_image = np.expand_dims(bg_image, axis=0)
    gap_image = np.expand_dims(gap_image, axis=0)
    prediction = model.predict([bg_image, gap_image])
    return prediction

# 示例调用
bg_path = 'test_bg.png'
gap_path = 'test_gap.png'
prediction = predict_gap_position(model, bg_path, gap_path)
print(f"预测结果: {prediction}")