当前位置: 首页 > news >正文

【数字图像处理】机器视觉基础

机器视觉定义

Machine Vision(MV)

extract information from an image on an automated basis,自动提取图像信息

基于成像技术的自动识别与分类

过程:

1、acquisition of image,图像获取

2、digital image processing technique,数字图像处理

3、make decisions,做决策

机器视觉技术基础

人眼视觉系统的性能

1、找盲点

2、视觉滞留

3、找主眼

人眼光学成像模型

点扩散函数

马赫带效应

原因:人眼对于图像中不同空间频率具有不同的灵敏度,而在空间频率突变处就出现了 “欠调”或“过调”

亮度感觉-对比度

亮度对比效应:人眼对亮暗程度所形成的 “黑、白”感觉具有相对性,即按对比度感觉物体亮度对比参数

对比度 c = Bmax / Bmin

图像获取原理

多源信息图像

依据电磁波谱的分布,对不同波段图像反射、透射等图像的生成,即形成了光谱图像。

电磁辐射的特性: 波长+频率

分类:

1、伽玛射线图像

2、X射线图像

3、紫外波段图像

4、可见光与红外波段图像

5、无线电波图像

数字图像对真实世界的表达

1、图像感知与表现,Image sensing and representation

2、采样与量化,Sampling and quantisation

3、分辨率,Resolution

图像表现

定义为二维函数f(x,y)

x,y 是空间坐标,f(x,y) 是点(x,y)的幅值

灰度图像是一个二维灰度(或亮度)函数f(x,y)

数字图像由二维的元素组成,每一个元素具有一个特定的位置(x,y) 和幅值f(x,y),这些元素就称为像素

灰度图:0表示黑,255表示白,其他值在0~255

彩色图:RGB三元组的二维矩阵

图像采样

z空间坐标(x,y)的数字化被称为图像采样

z确定水平和垂直方向上的像素个数N、M

图像量化

函数取值的数字化被称为图像的量化

eg:量化到256个灰度级

采样

把空间上的连续的图像分割成离散的像素的集合

二维采样定理(Nyquist 准则)

空间采样频率1/△x,1/△y ≥ 2倍的图像函数上限频率

否则将出现频谱混叠现象

图像量化与图像分辨率

灰度级越高,图像越细腻,数据量也越大。

马赛克:降低图像的空间分辨率

数字图像的数据结构

常用的数据结构:矩阵、链码、属性图等

常用的分层表示数据结构:金字塔、四叉树(pyramids and quadtrees)

数据结构:数据的组织方式,对算法的选择和其实现的容易程度有明显的影响

算法 + 数据结构 = 程序

逻辑 + 控制 = 算法

图像数据的表示层次

反映图像处理的不同阶段,表达图像数据的不同抽象程度

逐级升高的表示层次:

1、像素层图像:由原始数据组成,是像素亮度的整数矩阵

2、分割图像:图像被分割为可能属于同一物体的区域

3、几何表示:2D和3D形状信息

4、关系模型:数据更高层次的抽象,使所用数据更为有效

图像的基本数据结构

1、矩阵

2、链码:描述物体的边界,链码中的符号一般对应于像素的邻接关系

根据链的斜率不同,有4链码和8链码

8链码的方向:

3、行程编码:常用于图像矩阵中符号串的表示,仅记录图像中属于物体的区域

解释:

11144:第一个1表示第一行,剩下的表示第一行的点列。表示列数11,从1到1的点,单点;44,从4到4的点,单点

214:第二行,列1到列4的连点

52355:第五行,列2到列3的连点,列5到列5的单点

4、拓扑数据结构:图像描述成一组元素及其相互关系的图结构

eg:赋值的属性表,区域邻接图

5、关系结构:信息集中在语义上重要的图像组成部分上,即物体之间的关系上,适合用于高层次的图像理解工作

分层数据结构

将图像描述成若干不同粒度的层次,使算法可以根据需要将处理控制在较小的数据量上;只有必要时,处理才会在最细的数据分辨率上进行

两种典型的分层表示数据结构:金字塔、四叉树

1、金字塔

(1)M-pyramid金字塔

M-pyramid金字塔:图像序列{ML, ML-1, ..., M0}

ML 是具有原始图像分辨率的图像(原始图像),依次降低1倍分辨率得到该图像序列

当原始图像的分辨率是2的整数幂时,M0则仅对应于一个像素

分辨率每降低一层,数据量减少为原来的 1/4,处理速度提高4倍

M-pyramid金字塔结构存储所有图像矩阵需要的像素个数为:

(2)T-pyramid金字塔

同时使用几个分辨率层次比仅使用单个层次优越

T-pyramid金字塔:树结构,每个结点有4个子结点

2、四叉树

除叶子结点外,每个结点有4个子结点(改进的T-pyramid)

西北NW:north-western,东北NE:north-eastern,西南SW:south-western western,东南SE:south-eastern

二值图的四叉树:

图像的分层表示的缺欠

1、依赖于物体的位置、方向和相对大小

2、两个仅有微小差别的相似图像,可能会具有非常不同的金字塔结构或四叉树结构

3、当两个图像描述的是完全相同而只是略微移动了的景物时,可能会产生完全不同的表示

图像的表达

灰度图:只含亮度信号,不含色彩信号的图像。灰度值一般是由0(黑)到255(白),总共256级

彩色图:真彩色图像。R、G、B分别是256级,共256*256*256个色

彩色变灰度: Y = 0.299R + 0.587G + 0.114B

常见的图像文件格式

1、BMP

2色位图,1位表示一个像素颜色,1字节8位表示8个像素

16色位图,4位表示一个像素颜色,1个字节表示2个像素

256色位图,1个字节表示一个像素

真彩色图,3个字节表示1个像素

2、TIFF

格式分为压缩和非压缩形式

压缩可采用LZW无损压缩

3、JPEG

ISO 10918-1

采用有损压缩方式去除冗余的图像数据

4、GIF

图形交换格式

特点:压缩比高,磁盘空间占用较少

GIF可同时存储若干静态图像,形成连续动画(GIF89a,可指定透明区域)

5、PNG

特点:

(1)保证最不失真(兼有GIF和JPEG的色彩模式)

(2)能把图像文件压缩到极限以利于网络传输

(3)显示速度快

(4)支持透明图像的制作

(5)不支持动画应用

机器视觉基础要点

 

相关文章:

  • 分布式日志治理:Log4j2自定义Appender写日志到RocketMQ
  • YOLO V8的​​Anchor-Free​​、​​解耦头(Decoupled Head)、损失函数定义(含​​Varifocal Loss)
  • android display 笔记(十一)surfaceflinger 如何将图层传到lcd驱动的呢?
  • 指针入门C++
  • wkhtmltopdf 实现批量对网页转为图片的好工具,快速实现大量卡片制作
  • 数学建模学习资料免费分享:历年赛题与优秀论文、算法课程、数学软件等
  • Java基础自学(1):一个简单的Java程序
  • 如何使用PyCharm自动化测试
  • 医药采购系统平台第4天03:实现根据用户的角色显示不同用户的权限菜单编写拦截器实现权限拦截模块的开发流程和测试流程小节
  • FileReader 详细解析与记忆方法
  • DataEase同比环比
  • 微信小程序实战案例 - 餐馆点餐系统 阶段 2 – 购物车
  • 嵌入式常见概念的介绍
  • C++ 重构muduo网络库
  • FPGA 37 ,FPGA千兆以太网设计实战:RGMII接口时序实现全解析( RGMII接口时序设计,RGMII~GMII,GMII~RGMII 接口转换 )
  • 微信小程序跳4
  • RT-2论文深度解读:视觉-语言-动作统一模型的机器人泛化革命
  • AI NAS:当网络存储与人工智能深度融合的技术路径与未来展望
  • nvm使用手册
  • java零基础教学笔记
  • 苏轼“胡为适南海”?
  • 宜昌谱写新叙事:长江大保护与高质量发展如何相互成就
  • 中国巴西民间推动建立经第三方验证的“森林友好型”牛肉供应链
  • 中国巴西关于乌克兰危机的联合声明
  • 上海团队在医学顶刊连发两文,率先提出“证据污染”循证概念
  • 云南威信麟凤镇通报“有人穿‘警察’字样雨衣参与丧事”:已立案查处