为什么卷积神经网络适用于图像和视频?
我们常听说“卷积神经网络(CNN)擅长图像和视频”,但其实 CNN 的核心本质远不止图像领域。我们先搞懂它为啥适合图像/视频。
🧠CNN 为什么适用于图像和视频?
主要因为 图像/视频具有空间局部性和结构平移性,而 CNN 的设计刚好能完美利用这些性质:
图像/视频特性 | CNN 的机制 | 配对说明 |
---|---|---|
局部相关性 | 卷积核只看局部区域 | 图像中像素之间局部关系强(比如边缘、纹理) |
参数共享 | 卷积核在整张图上滑动 | 用同一组参数提取所有区域特征,减少参数量 |
平移不变性 | 卷积操作天然具备 | 特征出现在哪都能被识别(比如猫耳在左上角 or 右下角) |
👉 视频相当于是多帧图像 + 时间维度,可以用 3D 卷积或时序 CNN 来处理。