【数字图像处理】机器视觉基础
机器视觉定义
Machine Vision(MV)
extract information from an image on an automated basis,自动提取图像信息
基于成像技术的自动识别与分类
过程:
1、acquisition of image,图像获取
2、digital image processing technique,数字图像处理
3、make decisions,做决策
机器视觉技术基础
人眼视觉系统的性能
1、找盲点
2、视觉滞留
3、找主眼
人眼光学成像模型
点扩散函数
马赫带效应
原因:人眼对于图像中不同空间频率具有不同的灵敏度,而在空间频率突变处就出现了 “欠调”或“过调”
亮度感觉-对比度
亮度对比效应:人眼对亮暗程度所形成的 “黑、白”感觉具有相对性,即按对比度感觉物体亮度对比参数
对比度 c = Bmax / Bmin
图像获取原理
多源信息图像
依据电磁波谱的分布,对不同波段图像反射、透射等图像的生成,即形成了光谱图像。
电磁辐射的特性: 波长+频率
分类:
1、伽玛射线图像
2、X射线图像
3、紫外波段图像
4、可见光与红外波段图像
5、无线电波图像
数字图像对真实世界的表达
1、图像感知与表现,Image sensing and representation
2、采样与量化,Sampling and quantisation
3、分辨率,Resolution
图像表现
定义为二维函数f(x,y)
x,y 是空间坐标,f(x,y) 是点(x,y)的幅值
灰度图像是一个二维灰度(或亮度)函数f(x,y)
数字图像由二维的元素组成,每一个元素具有一个特定的位置(x,y) 和幅值f(x,y),这些元素就称为像素
灰度图:0表示黑,255表示白,其他值在0~255
彩色图:RGB三元组的二维矩阵
图像采样
z空间坐标(x,y)的数字化被称为图像采样
z确定水平和垂直方向上的像素个数N、M
图像量化
函数取值的数字化被称为图像的量化
eg:量化到256个灰度级
采样
把空间上的连续的图像分割成离散的像素的集合
二维采样定理(Nyquist 准则)
空间采样频率1/△x,1/△y ≥ 2倍的图像函数上限频率
否则将出现频谱混叠现象
图像量化与图像分辨率
灰度级越高,图像越细腻,数据量也越大。
马赛克:降低图像的空间分辨率
数字图像的数据结构
常用的数据结构:矩阵、链码、属性图等
常用的分层表示数据结构:金字塔、四叉树(pyramids and quadtrees)
数据结构:数据的组织方式,对算法的选择和其实现的容易程度有明显的影响
算法 + 数据结构 = 程序
逻辑 + 控制 = 算法
图像数据的表示层次
反映图像处理的不同阶段,表达图像数据的不同抽象程度
逐级升高的表示层次:
1、像素层图像:由原始数据组成,是像素亮度的整数矩阵
2、分割图像:图像被分割为可能属于同一物体的区域
3、几何表示:2D和3D形状信息
4、关系模型:数据更高层次的抽象,使所用数据更为有效
图像的基本数据结构
1、矩阵
2、链码:描述物体的边界,链码中的符号一般对应于像素的邻接关系
根据链的斜率不同,有4链码和8链码
8链码的方向:
3、行程编码:常用于图像矩阵中符号串的表示,仅记录图像中属于物体的区域
解释:
11144:第一个1表示第一行,剩下的表示第一行的点列。表示列数11,从1到1的点,单点;44,从4到4的点,单点
214:第二行,列1到列4的连点
52355:第五行,列2到列3的连点,列5到列5的单点
4、拓扑数据结构:图像描述成一组元素及其相互关系的图结构
eg:赋值的属性表,区域邻接图
5、关系结构:信息集中在语义上重要的图像组成部分上,即物体之间的关系上,适合用于高层次的图像理解工作
分层数据结构
将图像描述成若干不同粒度的层次,使算法可以根据需要将处理控制在较小的数据量上;只有必要时,处理才会在最细的数据分辨率上进行
两种典型的分层表示数据结构:金字塔、四叉树
1、金字塔
(1)M-pyramid金字塔
M-pyramid金字塔:图像序列{ML, ML-1, ..., M0}
ML 是具有原始图像分辨率的图像(原始图像),依次降低1倍分辨率得到该图像序列
当原始图像的分辨率是2的整数幂时,M0则仅对应于一个像素
分辨率每降低一层,数据量减少为原来的 1/4,处理速度提高4倍
M-pyramid金字塔结构存储所有图像矩阵需要的像素个数为:
(2)T-pyramid金字塔
同时使用几个分辨率层次比仅使用单个层次优越
T-pyramid金字塔:树结构,每个结点有4个子结点
2、四叉树
除叶子结点外,每个结点有4个子结点(改进的T-pyramid)
西北NW:north-western,东北NE:north-eastern,西南SW:south-western western,东南SE:south-eastern
二值图的四叉树:
图像的分层表示的缺欠
1、依赖于物体的位置、方向和相对大小
2、两个仅有微小差别的相似图像,可能会具有非常不同的金字塔结构或四叉树结构
3、当两个图像描述的是完全相同而只是略微移动了的景物时,可能会产生完全不同的表示
图像的表达
灰度图:只含亮度信号,不含色彩信号的图像。灰度值一般是由0(黑)到255(白),总共256级
彩色图:真彩色图像。R、G、B分别是256级,共256*256*256个色
彩色变灰度: Y = 0.299R + 0.587G + 0.114B
常见的图像文件格式
1、BMP
2色位图,1位表示一个像素颜色,1字节8位表示8个像素
16色位图,4位表示一个像素颜色,1个字节表示2个像素
256色位图,1个字节表示一个像素
真彩色图,3个字节表示1个像素
2、TIFF
格式分为压缩和非压缩形式
压缩可采用LZW无损压缩
3、JPEG
ISO 10918-1
采用有损压缩方式去除冗余的图像数据
4、GIF
图形交换格式
特点:压缩比高,磁盘空间占用较少
GIF可同时存储若干静态图像,形成连续动画(GIF89a,可指定透明区域)
5、PNG
特点:
(1)保证最不失真(兼有GIF和JPEG的色彩模式)
(2)能把图像文件压缩到极限以利于网络传输
(3)显示速度快
(4)支持透明图像的制作
(5)不支持动画应用
机器视觉基础要点