当前位置：首页 > news >正文

计算机视觉（opencv）实战二十五——摄像头动态轮廓识别

news 2025/9/18 7:47:21

实时文档检测与透视变换详解

在日常工作和学习中，我们常常需要对纸质文档进行拍摄、扫描并矫正其形状，使其看起来像是平铺扫描的效果。本文将结合 OpenCV 实现一个简单的实时文档检测与透视矫正系统，并详细解析其中的原理和关键代码。

一、核心原理

要实现实时文档扫描和矫正，整体思路可以分为以下几个步骤：

视频流采集：使用摄像头实时获取图像帧。
图像预处理：转换为灰度图、滤波降噪、边缘检测。
轮廓检测与筛选：找到图像中的最大四边形轮廓，判断是否是文档。
透视变换：根据检测到的四个顶点，计算仿射矩阵并将文档拉伸为俯视图。
二值化处理：提升最终效果，使其更接近扫描件。

打开摄像头，循环读取帧（frame）。
复制原始帧以备后续高质量透视变换使用（orig = image.copy()）。
对帧做预处理（灰度、降噪、增强）。
边缘检测（Canny） -> 形态学处理（可选） -> 找轮廓（findContours）。
在轮廓中找到可能的文档区域：按面积筛、用 approxPolyDP 逼近多边形，找到“4 个顶点且面积足够大”的候选。
对顶点排序（order_points），计算目标宽高，求透视变换矩阵（getPerspectiveTransform），并 warpPerspective 得到俯视图。
后处理（灰度/二值化/去噪/增强）得到类似扫描件效果。

二、关键函数解析

1. `cv2.findContours`

用于从二值化图像中提取轮廓。

cv2.RETR_EXTERNAL：只检测最外层的轮廓，忽略嵌套轮廓。
cv2.CHAIN_APPROX_SIMPLE：压缩冗余点，只保留轮廓的关键点。

2. `cv2.approxPolyDP`

多边形逼近，用于将曲线轮廓近似为多边形：

epsilon：最大逼近误差，常取轮廓周长的 2% ~ 5%。
closed=True：表示轮廓闭合。

如果逼近结果有 4 个顶点，就很可能是一个矩形文档。

3. `cv2.getPerspectiveTransform` 与 `cv2.warpPerspective`

这两个函数是实现透视变换的关键：

cv2.getPerspectiveTransform(src, dst)：计算从源点集到目标点集的 3×3 变换矩阵。
cv2.warpPerspective(image, M, dsize)：使用矩阵 M 将原图进行透视变换，得到俯视图。

4. 自定义函数 `order_points`

在透视变换前，需要对四个点的顺序进行排序（左上、右上、右下、左下），否则变换结果会错乱。

def order_points(pts):rect = np.zeros((4, 2), dtype="float32")s = pts.sum(axis=1)rect[0] = pts[np.argmin(s)]  # 左上rect[2] = pts[np.argmax(s)]  # 右下diff = np.diff(pts, axis=1)rect[1] = pts[np.argmin(diff)]  # 右上rect[3] = pts[np.argmax(diff)]  # 左下return rect

通过对坐标的和、差进行排序，就能正确识别顶点顺序。

三、完整代码实现

import cv2
import numpy as npdef cv_show(name, img):"""显示图像"""cv2.imshow(name, img)cv2.waitKey(100)def order_points(pts):# 一共4个坐标点rect = np.zeros((4, 2), dtype="float32")  # 用来存储排序之后的坐标# 按顺序找到对应坐标0123分别是 左上，右上，右下，左下s = pts.sum(axis=1)  # 对pts矩阵的每一行进行求和操作。(x+y)rect[0] = pts[np.argmin(s)]rect[2] = pts[np.argmax(s)]diff = np.diff(pts, axis=1)  # 对pts矩阵的每一行进行求差操作。(y - x)rect[1] = pts[np.argmin(diff)]rect[3] = pts[np.argmax(diff)]return rectdef four_point_transform(image,pts):rect = order_points(pts)(tl, tr, br, bl) = rectwidthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))maxWidth = max(int(widthA), int(widthB))heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))maxHeight = max(int(heightA), int(heightB))dst = np.array([[0, 0], [maxWidth - 1, 0], [maxWidth - 1, maxHeight - 1], [0, maxHeight - 1]], dtype="float32")M = cv2.getPerspectiveTransform(rect, dst)warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))return warpedcap = cv2.VideoCapture(0)  # 确保摄像头是可以启动的状态。
if not cap.isOpened():  # 打开失败print("Cannot open camera")exit()while True:flag = 0  # 用于标识 当前是否检测到文档ret, image = cap.read()  # 如果正确读取帧, ret 为Trueorig = image.copy()if not ret:  # 读取失败, 则退出循环print("不能读取摄像头")breakcv_show("image", image)gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)  # 图像处理-转换为灰度图# 预处理gray = cv2.GaussianBlur(gray, (5, 5), 0)  # 高斯滤波edged = cv2.Canny(gray, 15, 45)cv_show('1', edged)# 轮廓检测cnts = cv2.findContours(edged, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)[-2]cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:3]image_contours = cv2.drawContours(image, cnts, -1, (0, 255, 0), 2)cv_show("image_contours", image_contours)# 遍历轮廓for c in cnts:# 计算轮廓近似peri = cv2.arcLength(c, closed=True)  # 计算轮廓的周长# C表示输入的点集# epsilon表示从原始轮廓到近似轮廓的最大距离，它是一个准确度参数# True表示封闭的approx = cv2.approxPolyDP(c, 0.05 * peri, closed=True)  # 轮廓近似area = cv2.contourArea(approx)# 4个点的时候就拿出来if area > 20000 and len(approx) == 4:  # 20000 , 检测四边形轮廓screenCnt = approxflag = 1print(peri, area)print('检测到文档')breakif flag == 1:# 展示结果# print("STEP 2: 获取轮廓")image_contours = cv2.drawContours(image, contours=[screenCnt], contourIdx=0, color=(0, 255, 0), thickness=2)cv_show("image", image_contours)# 透视变换warped = four_point_transform(orig, screenCnt.reshape(4, 2))cv_show("warped", warped)# 二值处理warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)# ref = cv2.threshold(warped, 220, 255, cv2.THRESH_BINARY)[1]ref = cv2.threshold(warped, thresh=0, maxval=255, type=cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]cv_show("ref", ref)cap.release()  # 释放捕获器
cv2.destroyAllWindows()  # 关闭图像窗口

边缘检测（Canny）与参数选择
edged = cv2.Canny(gray, threshold1, threshold2)：
threshold1（低阈值），threshold2（高阈值）。通常 threshold1 < threshold2。
经验法（自动）：
v = np.median(gray) sigma = 0.33 lower = int(max(0, (1.0 - sigma) * v)) upper = int(min(255, (1.0 + sigma) * v)) edged = cv2.Canny(gray, lower, upper)
你原代码用 (15,45)：这是比较低的阈值，能检测微弱边缘，但在嘈杂背景下会产生大量杂边。
替代/补充：
Sobel / Scharr 求梯度然后阈值化也可。
形态学操作（闭运算 morphologyEx）可以“连通”断裂边缘，便于后面检测完整轮廓。
形态学操作（可选但常用）
在 Canny 后：
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5,5))
edged = cv2.morphologyEx(edged, cv2.MORPH_CLOSE, kernel)：闭合小缝隙，避免轮廓断裂。
cv2.dilate/erode 组合用于去小噪点或填充小洞。
轮廓检测：findContours 的细节与兼容写法
cnts = cv2.findContours(edged, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
不同 OpenCV 版本返回值不同，稳健写法：
cnts = cv2.findContours(... ) cnts = cnts[0] if len(cnts) == 2 else cnts[1]
常见参数：
cv2.RETR_EXTERNAL：只要最外层轮廓（对文档通常可行）。
cv2.CHAIN_APPROX_SIMPLE：压缩点集，节省计算。
排序与筛选：
按面积排序：sorted(cnts, key=cv2.contourArea, reverse=True)，通常只检查前 N 个最大轮廓（[:3]）。
面积阈值：代码中 area > 20000，这是固定阈值，在不同分辨率下表现不同。建议用相对阈值：
image_area = image.shape[0] * image.shape[1] min_area = max(10000, image_area * 0.01) # 1% 或至少 10000
示例（计算值）：
640×480（307,200）：1% = 3,072；2% = 6,144；5% = 15,360
1280×720（921,600）：1% = 9,216；2% = 18,432；5% = 46,080
1920×1080（2,073,600）：1% = 20,736；2% = 41,472；5% = 103,680
因此 20,000 大致等于 1%（1080p）~ >5%（640×480）。用相对阈值更鲁棒。
进一步验证：
要求 len(approx) == 4（四边形）。
cv2.isContourConvex(approx) 可判断是否凸。
计算 aspect_ratio = maxWidth/maxHeight，排除极端扁平或奇怪的矩形（比如 0.2 或 5.0 可视为异常）。
approxPolyDP（多边形近似）与 epsilon 调参
approx = cv2.approxPolyDP(c, epsilon, True)，epsilon 常设为周长的一个小比例：epsilon = k * peri，k 在 0.01 ~ 0.1 间变化。
k 越小，近似越精确（保留更多点）。0.05（代码中）是常用值。
如果 k 过大，轮廓可能被简化成三角形或更少顶点；如果太小，噪声会让逼近得到很多顶点而不是 4 个。
建议：在调试时打印出 peri 与 len(approx)，观察如何随 k 改变。