当前位置：首页 > news >正文

【二】数字图像处理基础（上）【数字图像处理】

news 2025/10/30 2:29:53

考纲

文章目录

1 视觉感知要素
- 1.1 人眼结构
- 1.2 人眼中的图像（物体高度和人与物体的距离之比=视网膜图像中物体高度与17mm之比）
- - 习题2.2*
- 1.3 亮度适应
- - 2015甄题【简答题】
- 1.4 韦伯比
- - 可考题【简答题】
- 1.5 马赫带
- - 可考题【简答题】
- 1.6 同时对比
- - 可考题【计算题】
  - 可考题【计算题】
  - 习题2.1*
- 1.7 光学错觉
2 电磁波谱【不在考纲，但是考了】
- 2024甄题【简答题】
- 习题2.4*
- 习题2.4【第三版】*
- 习题2.3
- 习题2.7
3 图像感知和获取
- 3.1 使用单个传感器获取图像
- 3.2 使用条带传感器获取图像
- 3.3 使用阵列传感器获取图像
- 3.4 一个简单的成像模型
- - 2024甄题【计算题】
  - 习题2.12*
4 取样与量化
- 4.1 基本概念
- - 可考题【简答题】
  - 2018甄题【简答题】
- 4.2 数字图像表示
- - 2009甄题【名词解释】
  - 习题2.9
  - 习题2.10
- 4.3 线性索引
- - 习题2.11
- 4.4 空间分辨率（dpi）
- - 可考题【简答题】
- 4.5 线对（Line Pair, lp）
- - 习题2.5*【计算题】
  - 习题2.6*【计算题】
  - 习题2.8*【计算题】
- 4.6 灰度分辨率（bit）
- - 2006、2008、2010、2011、2012甄题【名词解释】
- 4.7 等偏爱曲线
- 4.8 图像内插
- - 4.8.1 最近邻内插
  - 4.8.2 双线性内插
  - 4.8.3 双三次内插
  - 2003甄题【计算题】
  - 2004甄题【计算题】
5 像素间的一些基本关系
- 5.1 相邻像素的表示
- - 5.1.1 闭邻域
  - 5.1.2 开邻域
  - 5.1.3 对角邻域、4邻域与8邻域的表示
  - 2011甄题【名词解释】
- 5.2 邻接：像素相邻的方式，定义了它们是否接触。
- - 习题2.14*
- 5.3 连通：描述一组像素是否可以通过邻接像素连接起来。
- - 2024甄题【计算题】
  - 习题2.15*
  - 习题2.18*
  - 习题2.19
- 5.4 区域：图像中一组具有某种特性且连通的像素。
- 5.5 边界：区域与背景或其他区域之间的界限，通常是区域的轮廓。
- - 习题2.17*
- 5.3 距离测度
- - 5.3.1 欧几里得距离【欧氏距离】
  - 5.3.2 曼哈顿距离【城市街区距离】
  - 5.3.3 切比雪夫距离【棋盘距离】
  - 可考题【计算题】
  - 可考题【计算题】
6 基本数学公式（点运算）
- 6.1 矩阵算数运算
- - 2018甄题【简答题】
  - 2022甄题【简答题】
  - 可考题【简答题】
  - 习题2.26*
  - 习题2.25【证明题】*
  - 习题2.27*
  - 习题2.28【24甄题中一个设计题的预处理需满足的条件】*

1 视觉感知要素

1.1 人眼结构

角膜：
- 坚硬透明，覆盖眼睛前表面，负责保护眼睛。
巩膜：
- 包围眼球其余部分的白色不透明膜，起到保护作用。
脉络膜：
- 位于巩膜下方，含有血管网，供应眼睛营养。脉络膜颜色深，减少入射光和散射光。前端分为睫状体和虹膜。
- 注意：脉络膜轻微损伤也容易引发炎症，影响血流，导致严重眼损伤。
虹膜：
- 控制进入眼睛的光量。虹膜中间的瞳孔直径在2~8\text{mm}之间变化，前面含有可见色素，后面有黑色素。
晶状体：
- 由纤维细胞组成，悬挂于睫状体之间。含60%~70%的水、6%的脂肪和大量蛋白质，吸收可见光谱的8%，尤其对短波光有较高吸收率。晶状体中的蛋白质吸收红外光和紫外光，过量吸收会伤害眼睛。
- 晶状体中的黄色色素随年龄加深，严重时会导致白内障，影响彩色辨识，甚至丧失视力。
视网膜：
- 位于眼睛最内部，负责聚焦成像。视网膜上有光感受器，分为两类：锥状体和杆状体。

光感受器的分类：

锥状体：
- 集中在中央凹区域，对颜色敏感。每个锥状体连接自身的神经末梢，负责分辨图像细节。
- 锥状体视觉称为明视觉，负责在高光照条件下的色觉。
杆状体：
- 分布广泛，共有7500~15000万个。多个杆状体连接一个神经末梢，降低了对细节的感知能力。杆状体没有色觉，但对低光照敏感。
- 杆状体视觉称为暗视觉，在低光照下工作，例如在月光下物体无色。

1.2 人眼中的图像（物体高度和人与物体的距离之比=视网膜图像中物体高度与17mm之比）

眼睛成像计算：相似三角形原理

观察远距离物体（大于3米）时，眼睛的焦距接近17毫米，无需明显调节即可聚焦。
观察近距离物体（小于3米）时，睫状体调节晶状体形状，使晶状体变厚，焦距在14毫米到17毫米之间变化，确保物体在视网膜上成像

例子：计算视网膜上物体的图像高度

假设某人在观察100米外的一棵15米高的树，视网膜上树的高度 $h$ 可以通过相似三角形原理计算：

$\frac{h}{17} = \frac{15}{100}$

解得视网膜上树的高度：

$\frac{15 \times 17}{100} = 2.55 \, \text{\text{mm}}$

因此，视网膜上这棵树的图像高度为2.55毫米。

习题2.2*

在这里插入图片描述
如图所示，由相似三角形性质可得 $\frac{d}{200}=\frac{x}{17}\Longrightarrow x = 0.085d$

参考答案直译：
点对应的视网膜图像直径 $x$ 是通过相似三角形得到的，如图 P2.3 所示。即: $\frac{d/2}{0.2}=\frac{x/2}{0.017}$ 因此得出 $x = 0.085 d$ 。根据第2.1节的讨论，并在解释上做一些自由假设，我们可以将中央凹视为一个大约有 337,000 个像素的方形传感器阵列，这相当于一个大约 580×580 像素的阵列。假设像素之间的间隔相等，这意味着在 15 毫米长的一条线上有 580 个像素和 579 个间隔，总共 1,159 个。由此可得每个像素和每个间隔的大小为 $\frac{1.5\text{\text{mm}}}{1,159} = 1.3×10^{-6}\text{m}$ 。如果图像上点在中央凹的大小小于单个分辨率单元的大小，我们假设该点对眼睛是不可见的。换句话说，如果点的直径 $d$ 满足 $d<1.3×10^{-6}\text{m}$ 或 $d<15.3×10^{-6}\text{m}$ ，则眼睛将不会检测到该点。

在这里插入图片描述

1.3 亮度适应

人眼感知的亮度（即主观亮度）与实际进入眼睛的光强并不是线性关系，而是对数成正比。这意味着在极暗和极亮的环境下，眼睛都可以平衡感知，适应较大的光强差异。
动态范围是指眼睛在某一时刻可以感知的光强范围，但我们并不能同时感知整个 $10^{10}$ 倍的光强变化。相反，眼睛通过亮度适应来调整其灵敏度，从而适应不同的光环境。

观察图2.4

$B_a$ 表示眼睛在当前环境下的适应水平，它是视觉系统调整后能够有效感知的亮度基准点。
$B_b$ 是 $B_a$ 的下限，对应视觉系统在该适应水平下无法感知的最暗亮度（即完全黑暗的部分）。
上限在 $B_a$ 之上，还会继续延伸一段范围，直到达到亮度的感知极限。（图中显示为短实线的另一个端点）

当环境亮度变化时， $B_a$ 会相应调整，比如从明亮环境到昏暗环境时， $B_a$ 降低，使得我们能在暗光中看清细节。

实例说明

电影情境：当你从明亮的外界（此时 $B_a$ 较高，处于明视觉）进入黑暗的电影院（ $B_a$ 往暗视觉移动）时，会忽然看不清楚座位和其他观众（此时 $B_a$ 走在了暗视觉和明视觉交点位置附近）。然而，经过几分钟后，眼睛会逐渐适应黑暗环境，并恢复对细节的感知。
夜间驾驶：驾驶员在夜间驾驶时也依赖暗适应。如果突然遇到对面车辆的大灯（强光刺激），短暂的视觉“失明”会发生，直到适应强光后逐渐恢复对道路的感知。

2015甄题【简答题】

当在白天进入一个黑暗剧场时，在能看清并找到空座位时需要适应一段时间。试描述发生这种现象的视觉原理。

当从明亮环境进入黑暗剧场时，人眼视觉系统需要一个暗适应过程：从锥细胞主导的明视觉切换到杆细胞主导的暗视觉。由于杆细胞对光的感知较慢，这个过程需要几分钟。期间，眼睛会暂时“看不见”，直到杆细胞激活，视力逐渐恢复。

1.4 韦伯比

韦伯定律公式：
$\frac{ΔI}{I} = k$

$Δ I$ ：感知到的亮度差异（差别阈值）。
$I$ ：原始刺激的亮度强度。
$k$ ：韦伯分数，是一个常数。

韦伯比（亮度对比度）：

$△ I / I$ 被称为韦伯比，用来衡量人眼对亮度变化的感知能力。
较小的韦伯比：表示人眼能够感知较小的亮度变化，即使目标亮度与背景亮度相差不大（像是黑色背景上的深灰色目标），眼睛也能辨别出来，说明亮度辨别能力强。
较大的韦伯比：表示人眼需要更大的亮度变化才能感知到，即目标亮度与背景亮度差距较大才能被分辨出来（像是黑色背景上的白色目标），这意味着亮度辨别能力较差。

韦伯比与亮度的典型曲线（图2.6）说明了人眼对亮度变化的敏感性如何随背景亮度的变化而改变。这条曲线通常以光强 ( $\log I$ ) 为横轴，以韦伯比 ( $\log \Delta I/I$ )为纵轴，展示人眼在不同亮度条件下的感知能力

低亮度区域（曲线的左侧）
- 当背景亮度（ $I$ ）较低时，韦伯比值较大（ $Δ I / I$ 大），这意味着人眼在低亮度环境中感知亮度差异的能力较差。
- 这是因为在昏暗环境中，眼睛需要更大的亮度差异（ $Δ I$ ）才能感知到目标物体。换句话说，目标物体与背景之间的亮度差异必须明显，才能被察觉。
- 在低亮度环境中，感知亮度差异的能力较差，需要更大的差别才能察觉。
中等亮度区域
- 随着背景亮度的增加，韦伯比值逐渐减小，表明人眼的亮度辨别能力逐渐增强。此时，眼睛能够感知到较小的亮度差异（ $Δ I$ ）。
- 这是因为在人眼的视觉系统中，杆细胞和锥细胞开始共同作用，增强了对光线变化的感知能力。
高亮度区域（曲线的右侧）
- 当背景亮度较高时，韦伯比值接近一个最小值，人眼的亮度辨别能力达到最强，即使目标与背景之间的亮度差别很小，眼睛也能察觉到。
- 但随着亮度继续增加，韦伯比值会趋于平稳。这表明在极高亮度下，进一步增加背景亮度对提高亮度感知能力的效果已经不明显。
- 在中高亮度环境中，感知能力增强，即使亮度差异很小也能辨别出目标。
曲线的总体形状
- 曲线的形状表明人眼对亮度的感知依赖于对比度，而不是对亮度本身的线性感知。

可考题【简答题】

什么是韦伯比？与亮度的关系如何？

韦伯比用来衡量人眼对亮度变化的感知能力，定义为亮度变化 $\Delta I$ 与背景亮度 $I$ 的比值 $\Delta I / I$ 。韦伯比越小，人眼的亮度辨别能力越强。

1.5 马赫带

马赫带（Mach Bands）：这是视觉感知现象，当眼睛观察两种不同亮度区域之间的边缘时，会在交界处看到一种虚假的亮度变化带。这并不是实际存在的亮度变化，而是视觉系统对亮度变化的响应。
马赫带效应：这是指在观察到的视觉现象中，亮度在明暗区域交界处的感知被增强，导致交界线旁边的亮区看起来更亮，暗区看起来更暗。这是由于人眼和大脑的边缘感知增强所致。
利用马赫带效应进行图像处理：
- 边缘检测：通过增强图像中边缘处的亮度对比，可以更容易地检测到图像的边界。这种增强对于图像处理中识别不同区域、物体轮廓非常有用。
- 图像增强：利用马赫带效应来增强图像细节，使得图像看起来更清晰或具有更高的对比度。这可以通过对比度拉伸或使用滤波技术如差分算子进行。

如图所示，颜色从浅灰到深灰的平滑过渡。在实际情况中，亮度变化是渐进的，没有突然的跳跃。
但是，马赫带现象让我们觉得浅灰区域接近深灰区域的边界处显得更亮，而深灰区域靠近边界处显得更暗，尽管它们的亮度变化是连续的。

这个现象来源于人眼的侧抑制机制，它帮助我们增强对比，看到更清晰的边界。

侧抑制机制解释

侧抑制机制是人眼中的一种神经机制，帮助我们增强对比度，使物体的边缘和细节看起来更清晰。

通俗解释：
当你看某个物体时，视网膜上的感光细胞（神经元）会被激活。如果某个感光细胞接收到光，它不仅会把这个信息传给大脑，还会抑制周围其他感光细胞的活动。这样一来，亮区的细胞会抑制暗区的细胞，而暗区的细胞也会抑制亮区。这种互相抑制的作用，强化了亮暗区域的对比，使得我们能够更清楚地感知物体边缘的变化。

可考题【简答题】

什么是马赫带？什么是马赫带效应？如何利用这一效应对图像进行处理？

马赫带是指在明暗交界处，视觉上出现的虚假亮度变化带。马赫带效应是由于人眼对边缘的感知增强，导致交界线旁边的亮区显得更亮，暗区显得更暗。利用该效应，可以增强边缘对比度，突出细节，常用于边缘检测和图像增强。

1.6 同时对比

同时对比是一种视觉现象，指的是同一物体的颜色或亮度会因为它周围环境的颜色或亮度不同，而看起来有所变化。这是人眼的一种错觉。

比如说：

如果一个灰色方块放在白色背景上，它会显得更暗。
同样的灰色方块放在黑色背景上，它反而会看起来更亮。

因此，即便方块的实际颜色不变，背景的亮度或颜色会影响我们对它的主观感知。

目标灰度值相同，随着背景变亮，视觉上目标逐渐变暗
目标灰度值相同，随着背景变暗，视觉上目标逐渐变暗

可考题【计算题】

人观察如题图所示两幅形状相同的目标图像时，会觉得哪一个目标更亮一些？与实际亮度有无不同？简述理由。[黑色（最暗）灰度值定为 0，白色（最亮）灰度值定为 255]

图A中的目标与背景的对比度为： $C_A = \frac{|I_{\text{目标}} - I_{\text{背景}}|}{I_{\text{背景}}} = \frac{|60 - 20|}{20} = 2$

图B中的目标与背景的对比度为： $C_B = \frac{|I_{\text{目标}} - I_{\text{背景}}|}{I_{\text{背景}}} = \frac{|100 - 50|}{50} = 1$ 图A中的对比度较大，所以视觉上，图A的目标看起来更亮。由于图A中的目标亮度为60，图B中的目标亮度为100，因此图B中的目标实际亮度更高。

可考题【计算题】

A,B图像完全一样，其背景与目标灰度值如图所示，请问哪一个目标人眼感觉更亮一些？为什么？

图A中的目标与背景的对比度为： $C_A = \frac{|I_{\text{目标}} - I_{\text{背景}}|}{I_{\text{背景}}} = \frac{|120 - 240|}{240} = 0.5$ 图B中的目标与背景的对比度为： $C_B = \frac{|I_{\text{目标}} - I_{\text{背景}}|}{I_{\text{背景}}} = \frac{|75- 100|}{100} = 0.25$ 由于背景比目标亮，图A中的对比度较大，所以视觉上，图A的目标会看起来更暗。于是，图B的目标看起来更亮一些。

习题2.1*

在这里插入图片描述
同时对比。

1.7 光学错觉

光学错觉是指眼睛和大脑在处理视觉信息时产生的误解，让我们看到的东西和现实情况不一致。这种现象是由于视觉系统在处理形状、颜色、亮度、深度等信息时，被环境或者背景的变化所影响，导致我们产生错觉。

实际例子：

静止的图片看起来在动：有些图片虽然是静止的，但由于图案设计特别，眼睛会误以为图片在动。如：英格玛错觉。（百度自行搜一下，放博文里面会看着很头晕，影响上下文的阅读）

这些错觉其实是因为我们的大脑在处理信息时，会根据经验和规律来快速判断，而有时候这种快速判断并不准确，从而产生了错觉。

2 电磁波谱【不在考纲，但是考了】

光是一种电磁辐射，可以被人眼感知，属于更广泛的电磁波谱的一部分。我们能看到的光被称为可见光，它是电磁波谱中的一小部分，波长从紫色的400 nm左右到红色的700 nm左右。电磁波谱包括许多其他看不见的波，如无线电波、微波、红外线、紫外线、X射线和伽马射线。

电磁波可以用波长（ $\lambda$ ）、频率（ $v$ ）或能量来描述。它们之间的关系由以下公式表示：
$\lambda = \frac{c}{v}$
- $c$ 是光速，约等于 $2.998 \times 10^8 \, \text{m/s}$ 。
- 波长（ $\lambda$ ）的单位通常是米（m），常用单位包括微米（ $\mu m$ ， $10^{-6}$ m）和纳米（nm， $10^{-9}$ m）。
- 频率（ $v$ ）以赫兹（Hz）表示，1 Hz 表示每秒一个波周期。
电磁波的能量与频率相关，公式为：
$E = h v$
- 其中 $h$ 是普朗克常数。
- 能量的常用单位是电子伏特（eV）。
彩色光谱可分为6个主要颜色区域：紫色、蓝色、绿色、黄色、橙色和红色。这些颜色并不是明确分割的，而是逐渐过渡的。每种颜色的物理表现都与其波长对应。
- 物体的颜色由它反射的光决定。白色的物体是因为它相对均衡地反射了所有可见光波长。
- 无颜色的光称为单色光，它只有亮度的属性，从黑色到灰色再到白色。这种亮度变化通常用灰度级来描述。
单色光没有颜色，只有亮度，亮度从黑到白的变化用灰度级表示。单色图像通常称为灰度图像。亮度是主观感知的光强度，不能准确度量，但它是影响色彩感知的关键因素之一。
要“看到”一个物体，电磁波的波长必须小于或等于物体的尺寸。这意味着较小物体只能通过较短波长的电磁波来观察。

2024甄题【简答题】

（5分）成像系统要达到0.001微米的空间分辨率，其光源应满足什么条件？为什么？

要使成像系统达到0.001微米的空间分辨率，则光源应该选择波长为 $0.001$ 微米的远紫外线。因为看到物体所需的光源的波长必须小于等于物体的尺寸。

习题2.4*

在这里插入图片描述
（a）能。因为看到物体所需的光源的波长必须小于等于物体的尺寸。由于完全包围细胞、细菌、病毒和蛋白质标本所需的要圆圈的直径分别为 $50 μ m, 1 μ m, 0.1 μ m, 0.01 μ m$ ，因此，在远紫外线（波长为 $0.001 μ m$ ）内的单个光源能够探测到所给标本，成像系统的分辨力与光源的波长相同，为0.001微米。故，要对标本成像，需要一个远紫外线相机传感器。

习题2.4【第三版】*

在这里插入图片描述

(a)根据2.2节中关于电磁波谱的讨论，观察物体所需的照明光源的波长必须与物体的大小相同或更小。由于我们感兴趣的只是物体的边界形状，而不是标本的其他光谱特性，因此使用波长为0.001微米或更小的远紫外光源可以检测所有物体，并且可以分辨的最小细节将与照明的波长相同，即0.001微米或更小。为了对标本成像，需要一个远紫外摄像机传感器。

习题2.3

在这里插入图片描述

习题2.7

在这里插入图片描述

一种可能的解决方案是为单色相机配备一个机械装置，该装置依次在镜头前放置红色、绿色和蓝色滤光片。相机最强的响应决定了物体的颜色。如果三个响应大致相等，则物体是白色的。一种更快的系统是使用三个不同的相机，每个相机都配有一个独立的滤光片。然后分析基于每个相机的响应投票。这个系统会稍微贵一些，但速度更快且更可靠。需要注意的是，两种解决方案都假设相机的视野完全被均匀的颜色填满（即相机对准车辆的某个部分，该部分只有颜色可见）。否则，需要进一步分析以隔离均匀颜色的区域，因为这是解决该问题的唯一关切点。

3 图像感知和获取

我们感兴趣的大多数图像，都是由照射源和形成图像的场景元素对光能的反射或吸收产生的。

照射可能来自电磁能源，如雷达、红外线或X射线系统，也可来自非传统光源（如超声波），甚至是来自计算机产生的照射模式。

场景元素可能是我们熟悉的物体，也可能是分子、沉积岩或人脑。

上图是将照射能量转换为数字图像的三种主要传感器配置。原理：组合输入电能和传感器对正被检测能量类型的响应，将入射能量转换为电压。输入电压波形是传感器的响应，将传感器响应数字化得到一个数字量。

3.1 使用单个传感器获取图像

要使用单个传感器生成二维图像，传感器和成像区域之间必须有x方向和y方向的相对位移（即二维移动）。图2.13显示了高精度扫描所用配置，其中底片装在一个鼓上（那个传感器形状就像个鼓），鼓的机械转动在一个方向上产生位移。传感器安装在产生垂直运动的引导螺杆上。鼓内含有光源，光通过胶片时，在到达传感器之前会因胶片的密度而变化。光强的这一“调制”使得传感器电压产生响应的变化，电压的变化最终由数字化处理转换为图像灰度。

由于我们可以高精度地控制机械运动，因此这是一种获得高分辨率图像的廉价方法。这种方法的主要缺点是速度慢且不便携带。

3.2 使用条带传感器获取图像

比单个传感器更常用的几何结构是内嵌式条带传感器。如图2.14b所示，条带在一个方向提供成像传感器。垂直于条带的运动在另一个方向上成像，如图2.14a所示。（即一排传感器，一移动）

成像条带传感器一次给出二维图像的一行，条带传感器相对于场景的运动给出二维图像的一列。

使用条带传感器获取图像时，条带中的传感器数量得到图像一个方向的样本，机械转动得到另一个方向的样本。量化传感器的输出完成数字图像的生成过程。

传感器的输出由重建算法处理，处理的目的是把感测的数据转换为有意义的剖面图像。换句话说，图像不是只靠传感器的运动直接得到的，而需要对图像做进一步的计算机处理。由图像堆叠而成的三维数字物体，是由物体垂直于传感器环运动产生的。

3.3 使用阵列传感器获取图像

阵列传感器是以二维阵列形式排列的各个感测元件组成，其主要优点是将能量聚焦到阵列表面就可以得到一幅完整的图像（即直接接受）。这是和前两节所述传感器的主要区别。

图2.15显示了使用阵列传感器的主要方法。图中成像系统执行的第一个功能是收集入射能量，并将它聚焦到一个图像平面上。如图所示，照射源对场景元素进行照射，照射到的场景投射到成像系统，其内部有个聚平面，即图像平面。与聚平面重合的传感器阵列会产生与每个传感器接收到的光总量成正比的输出。数字和模拟电路扫描这些输出并把它们转换成模拟信号，然后由成像系统的其他部分数字化，输出一幅数字图像。

3.4 一个简单的成像模型

我们是用形如 $f (x, y)$ 的二维函数来表示图像，且 $f (x, y)$ 一定是非负的和有限的，因为在存储和显示图像时，我们通常会缩放亮度，使最小的负值变为0。

$f (x, y)$ 由两个分量来表征：

入射到被观察场景的光源照射量（即入射分量 $i (x, y) \in [0, \infty)$ ）。入射分量的性质主要取决于照射源。
被场景中物体反射的照射量（即反射分量 $r (x, y) \in [0, 1]$ ）。反射分量限制在0（全吸收）和1（全反射）之间，其取决于被成像物体的特性。

两个函数的乘积形成 $f (x, y)$ ，即 $f (x, y) = i (x, y) r (x, y)$

2024甄题【计算题】

（15分）光线为 $\exp \left\{ -[(x - x_0)^2 + (y - y_0)^2] \right\}$ ，平面反射为0.5，问：平面为多少比特时不会出现伪轮廓。（假设人眼分辨率最低为8个灰度级）

由于 $\begin{align*} f(x,y) &=i(x,y)r(x,y) \\ &=255 e^{-[(x - x_0)^2 + (y - y_0)^2]} ×0.5 \\ &= 127.5 e^{-[(x - x_0)^2 + (y - y_0)^2]} \end{align*}$ 由于人眼可以分辨的最小灰度级变化是 8，要使用 $k$ 比特对灰度进行量化，则量化间隔 $\Delta G = 8= \frac{127.5 + 1}{2^k} = \frac{128.5}{2^k} \Longrightarrow k \approx 4$ 也就是当 $k = 4$ 时有明显可见伪轮廓。故，当平面为 5 比特时不会出现伪轮廓。

习题2.12*

在这里插入图片描述
图像中问题由下式给出： $f(x,y)=i(x,y)r(x,y)=255e^{-[(x-x_0)^2+(y-y_0)^2]}×1.0=255e^{-[(x-x_0)^2+(y-y_0)^2]}$ 图像的截面如图(a)所示。如果使用 $k$ 比特对灰度进行量化，那么我们得到如图(b)所示的情况，其中 $G = (255+1)/2^k$ 。由于假设人眼可以检测到8个灰度级的突然变化，因此 $G=8 =256/2^k$ ，由此得到 $k = 5$ 。换句话说，32个或更少的灰度级会产生可见的伪轮廓。（当 $k = 6$ 时，不会出现伪轮廓）
在这里插入图片描述

4 取样与量化

要产生一幅数字图像，就需要把连续感测的数据转换为数字形式。这种转换包括两种处理：取样和量化。

4.1 基本概念

取样是将连续的图像信号（如模拟信号）在空间上进行离散化的过程。这意味着我们从一个连续的图像中选择一组离散的点（像素）来代表整个图像。
- 空间分辨率：取样的密度决定了图像的空间分辨率。较高的取样密度（更多的像素）意味着更高的分辨率，图像能够保留更多的细节。反之，较低的取样密度则会导致图像失真，失去细节。
- 例如，在一幅图片中，取样可以理解为将整张图片划分为一个个小方格（像素），每个方格只取一个颜色值来代表该部分的图像信息。
量化是将图像中每个像素的灰度级（或颜色值）从连续值转换为离散值的过程。量化的目的是将每个像素的值限制在一个固定的范围内，这个范围通常由比特数决定。
- 灰度量化：灰度图像的量化是将每个像素的亮度值（通常在0到255之间）映射到一个有限的灰度级数上。例如，8比特量化可以表示256个灰度级，4比特量化则只能表示16个灰度级。
- 颜色量化：对于彩色图像，量化涉及到将RGB（红绿蓝）三原色的值进行离散化。这也是通过限制每个颜色通道的比特数来实现的，比如24比特的图像（每个颜色通道8比特）能够表示超过1600万种颜色。

在这里插入图片描述

取样与量化的关系
- 取样：决定图像的空间分辨率，即图像细节的捕捉程度。
- 量化：决定图像的灰度分辨率，即图像色彩和亮度的细腻程度。
伪轮廓效应
- 当量化位数较低时，灰度级或颜色的数量减少，会导致相邻像素之间的亮度或颜色变化不够平滑，形成明显的边界，这种现象称为伪轮廓效应。为了避免这种效应，通常需要提高量化的比特数，以增加灰度级或颜色的数量，从而使图像的色调过渡更加平滑。

可考题【简答题】

采样间隔的大小对图像有什么影响？

采样间隔的大小影响图像的空间分辨率。采样间隔越小，空间分辨率越高，图像细节越丰富；采样间隔越大，空间分辨率越低，图像越模糊，并可能导致失真或像素化效果。

2018甄题【简答题】

图像量化时，如果彩色量化级数小会怎么样？为什么？

彩色量化级数小时，图像中的颜色数量减少，导致颜色过渡不够平滑，可能出现颜色带状效应或颜色失真。这是因为较少的量化级数无法精确表示原始图像中的颜色细节，特别是在渐变区域，会出现颜色跳跃或不自然的色块。

4.2 数字图像表示

图2.18显示了3种 $f (x, y)$ 的表示方法。

a是一幅函数图，x轴和y轴决定空间位置， $f (x, y)$ 表示该位置的灰度值。
b表示的是 $f (x, y)$ 出现在计算机显示器或照片上的情况。会以人眼能识别的颜色形式展示出来，允许我们即时查看结果，所以更为常见。
c是由数值 $f (x, y)$ 组成的一个阵列矩阵。是用于计算机处理的表示。下面矩阵与图2.19对应着看。

$f(x,y)=\begin{bmatrix} f(0,0) & f(0,1) & \cdots & f(0,N-1) \\ f(1,0) & f(1,1) & \cdots & f(1,N-1) \\ \vdots & \vdots & \ddots & \vdots \\ f(M-1,0) & f(M-1,1) & \cdots & f(M-1,N-1) \\ \end{bmatrix}$
图像中心坐标为 $(x_c,y_c)=\left(\text{floor}\left(\frac{M}{2}\right),\text{floor}\left(\frac{M}{2}\right)\right)$

取样过程可以理解为将 $x y$ 平面划分为一个网格，每个网格单元的中心坐标来自笛卡尔积 $Z^2$ 中的一对整数坐标 $(x, y)$ 。如果 $f$ 是一个将灰度值赋给每个坐标对 $(x, y)$ 的函数，那么 $f (x, y)$ 就代表一幅数字图像。将连续的灰度值转换为离散值的过程称为量化。

图像数字化要求对 $M$ 值、 $N$ 值和离散灰度级数 $L$ 进行判定。 $M$ 、 $N$ 必须取正整数，灰度级数通常取为2的整数次幂 $L=2^k$ 一幅图像具有 $2^k$ 个可能的灰度级时，我们通常称该图像是一幅“ $k$ 比特图像”。

灰度跨越的值称为动态范围，动态范围建立一个系统所能表示和一幅图像所具有的最低和最高灰度级，决定了图像的对比度和细节表现能力。

上限：通常由图像的饱和度决定。
下限：由噪声水平决定，但噪声不仅限于暗区，亮度较高的区域也可能受到噪声影响。

与动态范围紧密相关的概念是图像对比度。图像的对比度和反差比是图像质量的重要衡量标准：

对比度定义为一幅图像中最高和最低灰度级间的灰度差。
反差比是图像中最高和最低灰度级的比率 $\text{反差比} = \frac{\text{最亮白色的亮度}}{\text{最暗黑色的亮度}}$ 反差比越大，图像的质量通常越好，亮部与暗部的差异越清晰。

一幅图像具有高动态范围时，图像具有高对比度，这意味着图像细节清晰、亮度范围广；而低动态范围的图像则可能显得灰暗、缺乏层次感。

存储一幅 $M \times N$ 大小的数字图像所需比特数 $b$ 为 $b = MN k$

2009甄题【名词解释】

图像对比度

对比度是指图像中最高和最低灰度级的灰度差。对比度高的图像具有高动态范围，细节和边缘更为突出；对比度低的图像具有低动态范围，看起来较为平淡。

习题2.9

在这里插入图片描述

(a) 在8位、1024×1024图像中，包含起始位和停止位的总数据量为 $1024^2 ×(8+2)$ 比特。通过 $3 M$ 波特调制解调器传输500幅此类图像所需的总时间为： $\frac{500×(1024)^2×10}{3 ×10^6}= 1,748 秒$

习题2.10

在这里插入图片描述

给定宽高比为16/9，垂直方向的分辨率为1125行（或相同意思的1125像素在垂直方向上）。假设水平方向的分辨率符合16/9的比例关系，因此水平方向的分辨率为 $1125 \times \frac{16}{9} = 2000$ 像素每行。

系统每1/30秒“绘制”一幅完整的 $1125 \times 2000$ 8位图像，并且分别为红、绿、蓝三种颜色分量生成图像。两小时内有7200秒，所以这段时间内生成的总数字数据为：

$1125 \times 2000 \times 8 \times 30 \times 3 \times 7200 = 1.166 \times 10^{13} \text{ 比特}$

或者：

$1.166 \times 10^{13} ÷ 8 = 1.458 \times 10^{12} \text{ 字节}$

即大约 1.5 TB。这个数据量表明图像数据压缩（第8章）的重要性。

4.3 线性索引

在图像处理算法编程中，除了坐标索引（或下标索引）之外，另一种常用的索引方法是线性索引。线性索引有两种主要方式：行扫描和列扫描。

列扫描线性索引
- 在列扫描线性索引中，图像从原点开始扫描，按列逐一向下遍历：
1. 扫描顺序：先扫描最左边的第一列，从顶部到底部；接着扫描第二列；依此类推，直到最右边的最后一列。
2. 索引生成规则：
  - 第一列产生线性索引值从 $0$ 到 $M - 1$ 。
  - 第二列产生线性索引值从 $M$ 到 $2 M - 1$ 。
  - 第三列产生线性索引值从 $2 M$ 到 $3 M - 1$ 。
  - ……
  - 最后一列产生索引值从 $(N - 1) M$ 到 $NM - 1$ 。
线性索引与坐标索引的转换公式
给定二维坐标对 $(x, y)$ （其中 $x$ 表示列， $y$ 表示行），其对应的线性索引值 $α$ 为：
$\alpha = My + x$
- $M$ 是图像的总列数。
坐标索引到线性索引的转换：

给定线性索引值 $α$ ，其对应的二维坐标 $(x, y)$ 为：

$\mod M$ $\frac{\alpha - x}{M}$
解释
1. 计算行索引 $x$ ： $x$ 是线性索引 $α$ 除以行数 $M$ 的余数，即 $\mod M$ 。
  - 当 $α = 0$ 时， $\mod M = 0$ ，所以 $x = 0$ 。
  - 当 $α = 1$ 时， $\mod M = 1$ ，所以 $x = 1$ 。
  - …
  - 当 $α = M - 1$ 时， $\mod M = M-1$ ，所以 $x = M - 1$ 。
  - 接着，当 $α = M$ （即进入第二列的起点）， $\alpha \mod M = 0$ ，所以 $x = 0$ ，这一模式在每列开始时重复。
2. 计算列索引 $y$ ： $y$ 是整数部分的商，即 $(\alpha - x) / M$ 。这表示当前索引 $α$ 位于哪一列。

在图像处理的编程实践中，线性索引是将二维坐标系下的像素位置转化为一个一维线性序列，这样的方式便于快速访问和处理大量数据。利用线性索引可以有效简化复杂的二维数据结构的操作，使得算法实现更加高效。

习题2.11

在这里插入图片描述
(a) 等式 $x ＋ M (y ＋ N z) = s$ 的两边对 $M$ 取模得到
$s\ mod\ M$ 其中我们在第一个等式的左边使用了这样一个事实：所有的量都是整数，且一个整数加上整数的 $M$ 倍的模数等于该整数。

4.4 空间分辨率（dpi）

空间分辨率是指图像中可分辨的最小细节，它反映了图像在物理空间上的像素密度，从而决定了图像在显示或打印时的清晰度。常用的度量单位包括：

DPI（每英寸点数）：表示打印或显示设备每英寸内的像素数，用来衡量图像的细致程度。
PPI（每英寸像素数）：与DPI类似，通常用来描述屏幕的像素密度。

空间分辨率直接影响图像的清晰度和细节，越高的空间分辨率，图像中的细节表现越清晰，显示或打印出来的效果也越精细。

采样（Sampling）决定空间分辨率：采样是指在信号处理中对连续信号进行离散化的过程。在图像处理中，采样决定了图像的空间分辨率，即图像在空间上的细节程度。采样点越密集，空间分辨率越高，图像越清晰。

可考题【简答题】

空间分辨率

空间分辨率是指图像中可分辨的最小细节，它反映了图像在物理空间上的像素密度，从而决定了图像在显示或打印时的清晰度。

4.5 线对（Line Pair, lp）

线对是量化空间分辨率的常用方式，特别适用于光学和成像系统。空间分辨率表示系统分辨细节的能力，单位通常用线对/毫米（ $\text{lp/mm}$ ）来表示。

用线对定量空间分辨率的原理：

线对/毫米（ $\text{lp/mm}$ ）是衡量分辨率的标准。它表示在1毫米内，成像系统能够分辨多少对黑白线条。每对线条包括一条黑线和一条白线。
线对数越大，空间分辨率越高，表示系统可以分辨出更细微的细节。例如， $\text{lp/mm}$ 表示每毫米可以分辨 10 对黑白线条，这意味着成像系统能够处理的细节非常丰富。

习题2.5*【计算题】

在这里插入图片描述
(a) 由题意得，图像要打印在 $5\text{cm}×5\text{cm}$ 的空间上，即图像需要适应的垂直（或水平）尺寸为 $50$ 毫米。由于要在 $50\text{mm}$ 内放入 $2048$ 条线，因此大约每毫米有 $2048 \div 50 \approx 41$ 条线。故，分辨率必须是 $41 \div 2 \approx 20$ 线对每毫米。

(b)要将图像打印在2英寸×2英寸的空间上，我们需要计算图像的空间分辨率 (dpi)。可以使用以下公式： $\frac{图像尺寸}{打印尺寸}$ 在这个情况下，图像大小为2048×2048像素，打印尺寸为2英寸×2英寸。因此，dpi为： $\frac{2048 \, \text{像素}}{2 \, \text{英寸}} = 1024 \, dpi$ 因此，图像分辨率需要为 1024 dpi 才能在2英寸×2英寸的空间上以该尺寸打印。

习题2.6*【计算题】

在这里插入图片描述

由相似三角形性质可得， $\frac{7 \text{\text{mm}}}{35 \text{\text{mm}}}=\frac{z}{500\text{\text{mm}}} \Longrightarrow z = 100 \text{\text{mm}}$ 因此目标边长为 100 毫米。由于每行总共有 $1024$ 条线，所以每毫米的分辨率为 $1024/100 = 10$ 像素/毫米。对于线对，我们除以 2，得到的结果是 $5$ 线对/毫米。

在这里插入图片描述

习题2.8*【计算题】

在这里插入图片描述
由题意可得，镜头焦点与摄影区域之间的距离为 $1\text{m}=1000\text{mm}$ ，成像区域的高度为 $0.5m=500\text{mm}$ ，镜头的焦距 $200\text{mm}$ 。要求CCD芯片的最小尺寸 $d \times d$ 。根据相似三角形性质可得： $\frac{500}{1000}=\frac{d}{200}\Longrightarrow d=100\text{mm}$ 由于所需的分辨率为5线对每毫米，这意味着芯片在垂直（和水平）方向上每毫米有 10 个像素。由于 $d=100\text{mm}$ ，设所需最小分辨率为 $x \times x$ 像素，于是有 $\Longrightarrow x=1000$

综上，满足要求的CCD 芯片的最小感测元素的数量为 $1000 \times 1000$ ，面积为 $100 \times 100 \text{mm}$
在这里插入图片描述

4.6 灰度分辨率（bit）

灰度分辨率指的是图像中每个像素的灰度级数，即一个像素能够表示的不同亮度或颜色的数量。它决定了图像中亮度变化的精细度。

量化（Quantization）决定灰度分辨率：量化是将连续信号的幅度值离散化为有限的离散值。在图像处理中，量化决定了每个像素的灰度级数，也就是图像的灰度分辨率。量化位数越高，图像的灰度级数越多，显示的灰度细节越丰富。
常用度量：
- 比特数（bit）：灰度分辨率通常用比特数来表示。例如，8比特灰度图像可以表示 $2^8 = 256$ 种不同的灰度级别（从 0 到 255）。
- 灰度级数：灰度分辨率的另一个直接度量是灰度级数，表示像素的亮度可以分为多少个不同的级别。
影响：灰度分辨率越高，图像的亮度过渡越平滑，细节越丰富。如果灰度分辨率太低，图像可能会出现伪影或色带，即亮度变化不连续，导致视觉上的不自然感。

2006、2008、2010、2011、2012甄题【名词解释】

灰度级分辨率

灰度分辨率是指图像中每个像素可以表示的不同灰度级数，单位是比特（bit）。灰度分辨率越高，图像的亮度过渡越平滑，细节越丰富；灰度分辨率低时，图像可能出现虚假轮廓或色带现象。

4.7 等偏爱曲线

书中所述实验，观察者通过主观感受对不同图像的质量进行排序，结果显示在Nk平面中，等偏爱曲线（表示相同主观质量的图像组合）呈现出一定规律，图2.26中显示了图2.25中各类图像的平均等偏爱曲线：

等偏爱曲线向右上方移动：这表明随着图像的空间分辨率 (N) 和灰度分辨率 (k) 增加，图像的主观质量提高。换句话说，图像尺寸越大、灰度级别越多，图像质量感受越好。
当图像细节增多时，曲线趋于竖直：在这种情况下，灰度级的增加对图像质量的影响变小，说明细节丰富的图像对灰度级的要求较低。即使灰度分辨率较低，细节丰富的图像仍然能够被认为具有较高的质量。
特例：人群图像的等偏爱曲线近乎竖直：对于人群图像等复杂内容，图像的质量感受与灰度分辨率 (k) 基本无关，意味着即使灰度级数较少，细节丰富度（由 (N) 决定）依然是主观质量的主要决定因素。

总结：实验结果揭示了不同类型图像对空间分辨率和灰度分辨率的敏感性差异。复杂细节的图像对灰度级别的依赖较小，空间分辨率 (N) 是主导因素，而对于细节较少的图像，灰度分辨率 (k) 影响更显著。

4.8 图像内插

【复试：图像内插有什么用】
图像内插是指在对图像进行放大、缩小或旋转等操作时，通过计算填充新像素点的过程。内插技术用于生成图像中不存在的像素值，以提高图像分辨率或适应新的图像尺寸。

应用场景：

图像缩放：将图像放大或缩小时，需要生成新的像素值以保持图像的清晰度。
图像旋转：在旋转图像时，原有像素位置发生变化，需要插入新像素。
重采样：在改变图像的分辨率时，需要根据新分辨率生成或移除像素。

总之，图像内插技术是保持图像质量、减少失真和保持细节的重要手段，在各种图像处理任务中广泛应用。

4.8.1 最近邻内插

每个新像素的值直接取最近的已知像素的值。

优点：计算简单，速度快。
缺点：可能导致图像锯齿现象或不平滑的边缘。

4.8.2 双线性内插

新像素的值由其周围四个像素计算。新像素值的计算方式如下： $v (x, y) = a x + b y + c x y + d$

优点：比最近邻内插平滑，减少锯齿现象。
缺点：边缘可能会略微模糊。

4.8.3 双三次内插

使用周围16个像素计算新像素，权重由三次函数决定。新像素值的计算方式如下： $v(x,y)=\sum_{i=0}^3\sum_{j=0}^3a_{ij}x^iy^j$

优点：生成的图像更加平滑，细节保留较好。
缺点：计算复杂，速度较慢。

2003甄题【计算题】

令 $F (221.396) = 18 ， F (221, 397) = 45 ， F (222, 396) = 52 ， F (222, 397) = 36$ ,问 $F (221.3, 396, 7) = ?$ ①用最邻近插值法，②用双线性插值法，写出双线性方程（形式如 $f (x, y) = a x + b y + c x y + d$ 及各系数的值。

① $45$
② $38.07 ， f (x, y) = 34 x + 27 y - 43 x y + 18$

2004甄题【计算题】

在这里插入图片描述
答：（1）逆时针旋转30°所需变换矩阵为 $\mathbf{} \begin{pmatrix} cos30°& -sin30° & 0 \\ sin30° &cos30° & 0 \\ 0& 0 & 1 \end{pmatrix}= \mathbf{} \begin{pmatrix} \frac{\sqrt{3}}{2}& -\frac{1}{2} & 0 \\ \frac{1}{2} &\frac{\sqrt{3}}{2} & 0 \\ 0& 0 & 1 \end{pmatrix}$ 将所有点平移，使得旋转中心 $f (2, 2)$ 移动到原点。所需平移变换阵为 $\mathbf{} \begin{pmatrix} 1 & 0 & -2 \\ 0 & 1 & -2 \\ 0 & 0 & 1 \end{pmatrix}$ 对 $f (4, 4)$ 平移后得到
$\mathbf{} \begin{pmatrix} 1 & 0 & -2 \\ 0 & 1 & -2 \\ 0 & 0 & 1 \end{pmatrix} \mathbf{} \begin{pmatrix} 4 \\ 4\\ 1 \end{pmatrix}= \mathbf{} \begin{pmatrix} 2 \\ 2\\ 1 \end{pmatrix}$ 再对平移后的点逆时针旋转30°，有
$\mathbf{} \begin{pmatrix} \frac{\sqrt{3}}{2}& -\frac{1}{2} & 0 \\ \frac{1}{2} &\frac{\sqrt{3}}{2} & 0 \\ 0& 0 & 1 \end{pmatrix} \mathbf{} \begin{pmatrix} 2\\ 2\\ 1 \end{pmatrix}= \mathbf{} \begin{pmatrix} \sqrt{3}-1 \\ \sqrt{3}+1\\ 1 \end{pmatrix}$ 最后，将旋转后的点反平移回原始位置，所需反平移矩阵为
$\mathbf{} \begin{pmatrix} 1 & 0 & 2 \\ 0 & 1 & 2 \\ 0 & 0 & 1 \end{pmatrix}$ 于是，将 $f (4, 4)$ 绕 $f (2, 2)$ 逆时针旋转30°将得到坐标
$\mathbf{} \begin{pmatrix} 1 & 0 & 2 \\ 0 & 1 & 2 \\ 0 & 0 & 1 \end{pmatrix} \mathbf{} \begin{pmatrix} \sqrt{3}-1 \\ \sqrt{3}+1\\ 1 \end{pmatrix}= \mathbf{} \begin{pmatrix} \sqrt{3}+1 \\ \sqrt{3}+3\\ 1 \end{pmatrix}$ 综上， $f (4, 4)$ 绕 $f (2, 2)$ 逆时针旋转30°的几何变换为
$\mathbf{} \begin{pmatrix} 1 & 0 & 2 \\ 0 & 1 & 2 \\ 0 & 0 & 1 \end{pmatrix} \mathbf{} \begin{pmatrix} \frac{\sqrt{3}}{2}& -\frac{1}{2} & 0 \\ \frac{1}{2} &\frac{\sqrt{3}}{2} & 0 \\ 0& 0 & 1 \end{pmatrix} \mathbf{} \begin{pmatrix} 1 & 0 & -2 \\ 0 & 1 & -2 \\ 0 & 0 & 1 \end{pmatrix}$ （2）设输出图像为 $g (x^{'}, y^{'})$ ，由
$\mathbf{} \begin{pmatrix} x'\\ y'\\ 1 \end{pmatrix}=\mathbf{} \begin{pmatrix} 2.5 & 0 & 0 \\ 0 & 2.5 & 0 \\ 0 & 0 & 1 \end{pmatrix}\mathbf{} \begin{pmatrix} x\\ y\\ 1 \end{pmatrix} 得变换函数\begin{cases} x'= 2.5x \\ y' = 2.5y \end{cases}$ 将 $x^{'} = 4, y^{'} = 6$ 代入变换函数得 $x = 1.6, y = 2.4$ 。 $f (1.6, 2.4)$ 的4个邻近像素值为 $f (1, 2) = 3, f (1, 3) = 4, f (2, 2) = 2, f (2, 3) = 5$
由双线性插值公式 $f (x, y) = a x + b y + c x y + d$ ，有
$\begin{cases} a+2b+2c+d=3 \\ a+3b+3c+d=4 \\ 2a+2b+4c+d=2 \\ 2a+3b+6c+d=5 \end{cases}\Rightarrow \begin{cases} a=-5 \\ b=-1 \\ c=2 \\ d=6 \end{cases} \Longrightarrow f(x,y)=-5x-y+2xy+6$ 故 $g (4, 6) = f (1.6, 2.4) = - 5 \times 1.6 - 2.4 + 2 \times 1.6 \times 2.4 + 6 = 3.28 \approx 3$

5 像素间的一些基本关系

数字图像处理中的“m连通”（举例讲解）

5.1 相邻像素的表示

5.1.1 闭邻域

如果一个邻域包含了中心像素 $p$ （即坐标 $(x, y)$ 处的像素），那么这个邻域称为闭邻域。
例如，常见的 $\times 3$ 邻域包含中心像素 $p$ 和它周围的 8 个像素。这种邻域就被称为闭邻域，因为中心像素 $p$ 包含在内。
用矩阵表示闭邻域： $\begin{bmatrix} (x-1, y-1) & (x-1, y) & (x-1, y+1) \\ (x, y-1) & \colorbox{yellow}{$\boldsymbol{(x, y)}$} & (x, y+1) \\ (x+1, y-1) & (x+1, y) & (x+1, y+1) \end{bmatrix}$ 这里 $(x, y)$ 处的像素 $p$ 就包含在这个闭邻域中。
闭邻域：常用于平滑滤波、边缘检测等操作中，因为它考虑了像素本身及其周围的像素。

5.1.2 开邻域

如果一个邻域不包含中心像素 $p$ ，那么这个邻域称为开邻域。
在这种情况下，中心像素 $p$ 只考虑其周围的像素，但它本身不参与邻域的定义。例如， $p$ 周围 8 个像素的集合就形成了一个开邻域。
用矩阵表示开邻域： $\begin{bmatrix} (x-1, y-1) & (x-1, y) & (x-1, y+1) \\ (x, y-1) & & (x, y+1) \\ (x+1, y-1) & (x+1, y) & (x+1, y+1) \end{bmatrix}$ 在这种开邻域中，中心像素 $(x, y)$ 被排除。
开邻域：可以用于一些计算，例如中心像素的周围像素统计，避免对中心像素的干扰。

5.1.3 对角邻域、4邻域与8邻域的表示

$(x, y)$ 处像素值 $p$ 的对角邻域像素集合： $N_D(p)=\{(x-1, y-1) (x-1, y+1), (x+1, y-1), (x+1, y+1)\}$
$(x, y)$ 处像素值 $p$ 的4邻域像素集合： $N_4(p) = \{(x-1, y), (x+1, y), (x, y-1), (x, y+1)\}$
$(x, y)$ 处像素值 $p$ 的8邻域像素集合： $N_8(p)= \{(x-1, y-1), (x-1, y), (x-1, y+1), (x, y-1), (x, y+1), (x+1, y-1), (x+1, y), (x+1, y+1)\}$

2011甄题【名词解释】

图像邻域

图像邻域是指当前像素与周围像素构成的一个区域，称为像素的邻域。

5.2 邻接：像素相邻的方式，定义了它们是否接触。

令 $V$ 是用于定义邻接的灰度值集合。考虑三种类型的邻接

4邻接： $q$ 在 $N_4(p)$ 中，值在 $V$ 中的两个像素 $p$ 和 $q$ 是4邻接的。
8邻接： $q$ 在 $N_8(p)$ 中，值在 $V$ 中的两个像素 $p$ 和 $q$ 是8邻接的。
m邻接（也称混合邻接）：
- $q$ 在 $N_4(p)$ 中。4邻接是m邻接的一种特殊情况，但当像素满足4邻接时，通常我们直接称为4邻接。
- $q$ 在 $N_D(p)$ 中，且 $N_4(p)∩N_4(q)$ 中没有 $V$ 中像素。只有当涉及对角线邻接的情况下，才需要特别区分是否是m邻接。

重点：在 m邻接中，允许像素通过对角线方向连接（类似于 8邻接），但前提是它们之间的水平方向或垂直方向上的公共邻居不属于灰度值集合 $V$ 。这样可以防止两个像素被错误地认为是相邻的。

习题2.14*

在这里插入图片描述

设 $p$ 和 $q$ 如图所示。
在这里插入图片描述

（a）因为 $q$ 不在集合 $N_4(p)$ 中，所以 $S_1$ 和 $S_2$ 不是4邻接的。
（b）因为 $q$ 在集合 $N_8(p)$ 中，所以 $S_1$ 和 $S_2$ 是8邻接的。
（c）因为 $q$ 在集合 $N_D(p)$ 中，且 $N_4(p)∩N_4(q)=0∉V$ ，所以 $S_1$ 和 $S_2$ 是m邻接的。

5.3 连通：描述一组像素是否可以通过邻接像素连接起来。

连通性是邻接的扩展，用来判断一组像素是否连成一个整体。连通性分为：

4-连通：如果在图像中，任何两个像素之间可以通过水平或垂直方向的邻接像素链相互到达，则它们是4-连通的。
8-连通：任何两个像素之间如果可以通过水平、垂直或对角线方向的邻接像素链相互到达，则它们是8-连通的。

连通性对图像的区域分析很重要，例如用于确定物体的连通分量。

2024甄题【计算题】

（15分） $V=\{2,3,4\}$ 求p到q的4连通的最短路径和m连通的最短路径。

如图所示，p到q的4连通的最短路径为3→2→2→3→4→2→2→4→2，路径长度为8
在这里插入图片描述
如图所示，p到q的m连通的最短路径为3→2→2→3→4→2，路径长度为5

习题2.15*

在这里插入图片描述

该问题的解决方案包括定义所有可能的邻域形状，以将对角线段转换为相应的4连通线段，如图P2.15所示。算法在每次边界中遇到对角线段时，简单地寻找适当的匹配。

在这里插入图片描述

习题2.18*

在这里插入图片描述
(a) 当 $V = \{0, 1\}$ 时， $p$ 和 $q$ 之间不存在4通路，因为不可能通过既是4邻接又具有来自 $V$ 的值的点从 $p$ 到达 $q$ 。图 P2.10(a) 展示了这种情况；无法到达 $q$ 。最短的8通路如图 P2.18(b) 所示，其长度为4。最短的m通路（虚线表示）的长度为5。在这种情况下，这两条最短通路都是唯一的。

(b) 当 $V = \{1, 2\}$ 时，图 P2.15(c) 显示了最短4通路的一种可能情况，其长度为6。可以很容易地验证， $p$ 和 $q$ 之间存在另一条相同长度的4通路。图 P2.15(d) 显示了最短8通路的一种可能情况（这条路径并不是唯一的），其长度为4。最短m通路的长度（虚线表示）为6。这条路径也不是唯一的。

在这里插入图片描述

习题2.19

在这里插入图片描述

(a) 图 P2.19 给出了点 $p (x, y)$ 到点 $q (s, t)$ 之间最短的4通路，其中假设路径上的所有点都来自集合 $V$ 。路径各段的长度分别为 $∣ x - s ∣$ 和 $∣ y - t ∣$ 。总路径长度为 $∣ x - s ∣ + ∣ y - t ∣$ ，这是 $D_4$ 距离的定义（记住：这个距离与点之间可能存在的任何路径无关）。显然，当路径长度为 $∣ x - s ∣ + ∣ y - t ∣$ 时， $D_4$ 距离等于最短4通路的长度。这种情况发生的条件下：我们可以通过一条路径从 $p$ 到达 $q$ ，且该路径的元素满足：

都来自集合 $V$ ，
这些元素按某种方式排列，使我们可以通过至多两个方向的转向（例如，向右和向上）来从 $p$ 到达 $q$ 。

在这里插入图片描述

5.4 区域：图像中一组具有某种特性且连通的像素。

区域是图像中具有某种特性（如灰度值、颜色等）的一组连通像素。通常，区域是通过某种阈值或其他判定标准从图像中分割出来的。例如：

二值图像中的区域：在二值图像中，区域是具有相同像素值（如全为1或全为0）的连通像素的集合。
灰度图像中的区域：灰度图像中，区域可以是像素值在某个范围内的所有连通像素。

5.5 边界：区域与背景或其他区域之间的界限，通常是区域的轮廓。

边界是区域与背景或其他区域之间的分界线。它描述了区域的外轮廓或边缘。

内部边界：区域内与背景接触的像素的集合。
外部边界：区域外，与该区域接触的背景像素集合。

例如，图像中一个物体的边界可以通过边缘检测算法（如Sobel、Canny算子等）提取，表示该物体与背景的分界。

习题2.17*

在这里插入图片描述
背景中孔洞像素与非孔洞像素之间的区别在于，孔洞像素和图像边界之间不存在路径。因此，该定义可以重述为：连接到图像边界的 $R_u)^c$ 的像素子集被称为背景。 $R_u)^c$ 的所有其他像素被称为孔洞像素。

5.3 距离测度

距离测度是用来量化两个点或对象之间的距离或差异的数学工具。不同的距离测度在不同的场景中应用广泛，特别是在图像处理、数据分析和机器学习中，用于衡量样本、像素或特征之间的相似度或距离。

5.3.1 欧几里得距离【欧氏距离】

欧几里得距离是最常见的距离测度，它是两点间的直线距离。对于在二维平面上的两个点 $p(x_1, y_1)$ 和 $q(x_2, y_2)$ ，欧几里得距离的计算公式为： $D_e(p, q) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}$ 在图像处理中，欧几里得距离可以用来测量像素之间的物理距离。

5.3.2 曼哈顿距离【城市街区距离】

曼哈顿距离也称为城市街区距离，它是指两点之间在水平和垂直方向上的距离之和。这种距离通常用于4邻接场景。对于两个点 $p(x_1, y_1)$ 和 $q(x_2, y_2)$ ，曼哈顿距离定义为： $D_4(p, q) = |x_2 - x_1| + |y_2 - y_1|$ 这种距离适合在网格状结构中衡量距离，比如城市道路或图像像素中的4邻接关系。

5.3.3 切比雪夫距离【棋盘距离】

切比雪夫距离也称为棋盘距离，是一种度量两个点之间的“最大移动步数”距离，适用于8邻接问题。对于两个点 $p(x_1, y_1)$ 和 $q(x_2, y_2)$ ，切比雪夫距离定义为： $D_8(p, q) = \max(|x_2 - x_1|, |y_2 - y_1|)$ 这种距离用于允许斜向移动的场景，常见于棋盘问题或图像的8邻接场景。

可考题【计算题】

考虑如下图像子集。在图中画出 $V=\{0,1\}$ 时的 $p$ 到 $q$ 的最短m连接通路，并计算 $p$ 到 $q$ 的欧氏距离、城区距离和棋盘距离。

最短m通路：在这里插入图片描述

采取矩阵坐标系， $p(x_1,y_1)$ 和 $q(x_2,y_2)$ 的坐标分别为 $p (2, 0)$ 和 $q (0, 3)$
欧氏距离： $D_e(p, q)=\sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} = \sqrt{(0 - 2)^2 + (3 - 0)^2}=2\sqrt{3}$
城区距离： $D_4(p, q) = |x_2 - x_1| + |y_2 - y_1|=|0 - 2|+|3 - 0|=5$
棋盘距离： $D_8(p, q) = \max(|x_2 - x_1|, |y_2 - y_1|)= \max(|0 - 2|, |3 - 0|)=3$

可考题【计算题】

给定点 $p (3, 4), q (6, 8)$ ，求 $D_e、D_4、D_8$ 距离。

$D_e(p, q) = \sqrt{(6 - 3)^2 + (8-4 )^2}=5$
$D_4(p, q) = |6 - 3| + |8-4|=7$
$D_8(p, q) = max(|6 - 3|,|8-4|)=4$

6 基本数学公式（点运算）

6.1 矩阵算数运算

图像可以看作是二维像素的矩阵，每个像素的值代表颜色或灰度级。因此，矩阵表示是图像处理的核心。两幅图像之间的运算均为对应像素运算。两幅图像 $f (x, y)$ 和 $g (x, y)$ 的算术运算

加：相加求平均可降噪（图2.29）。 $s (x, y) = f (x, y) + g (x, y)$
减：可用于比较图像差异（图2.32）。 $d (x, y) = f (x, y) - g (x, y)$
乘：可用于阴影校正与模板运算（图2.34）。 $p (x, y) = f (x, y) \times g (x, y)$
除：可用于阴影校正（图2.33）。 $v (x, y) = f (x, y) \div g (x, y)$

图像相乘（和相除）的一种重要应用是阴影校正。

2018甄题【简答题】

将 $M$ 幅图像相加求平均可以起到消除噪声的效果，用一个 $n \times n$ 的模板进行平滑滤波也可以起到消除噪声的效果，试比较这两种方法的消噪效果。

将 $M$ 幅图像相加求平均利用了 $M$ 幅图像中同一个位置的 $M$ 个像素的平均值，用一个 $n \times n$ 的模板进行平滑滤波利用了同一幅图像中的 $n \times n$ 个像素值的平均值。因为参与的像素越多，消除噪声的能力越强。所以，如果 $M > n \times n$ ，则前者消除噪声的效果更好，反之后者更好。

2022甄题【简答题】

若有两幅尺寸相同的图像a和图像b，灰度值为0~255，则不断从图像a中减去图像b，最终会得到什么结果？

对两幅尺寸相同的图像做减法，则是对应元素相减。不断从a中减去b，若b中不含0灰度值，由于图像灰度值不能为负数，计算得到的负值会被截断到0，所以最终一定会得到一张全黑的图像。若b中含0灰度值，则a对应b中0灰度值位置的灰度值不会发生变化，其他位置会全部变为0。

可考题【简答题】

为什么对多幅噪声图像相加可以降低图像噪声？

假设 $g$ 是无噪声图像 $f$ 被加性噪声 $η$ 污染后的图像，即 $g = f + η$ 。 $\overline{g}$ 是通过对 $K$ 幅不同的噪声图像相加后取平均得到的，求 $\overline{g}$ 的期望得， $E\{\overline{g}\}=E\left\{\frac{1}{K}\sum^K_{i=1}g_i\right\}=E\{f_i\}+E\{η_i\}$ 由于噪声的均值为0，即 $E\{η_i\}=0$ ，于是 $E\{\overline{g}\}= f$ ，噪声成功去除。

习题2.26*

在这里插入图片描述
(a) 根据方程 (2-26)，在任意点 $(x, y)$ 处： $\overline{g}(x,y)=\frac{1}{K}\sum^K_{i=1}g_i(x,y)=\frac{1}{K}\sum^K_{i=1}f_i(x,y)+\frac{1}{K}\sum^K_{i=1}η_i(x,y)$ 由于该方程适用于任意坐标 $(x, y)$ ，我们可以通过省略坐标来简化符号表示。 $E\{\overline{g}\}=\frac{1}{K}\sum^K_{i=1}E\{f_i\}+\frac{1}{K}\sum^K_{i=1}E\{η_i\}$ 但是所有的 $f_i$ 都相同，因此 $E\{f_i\}=f$ 。换句话说，噪声图像是通过向同一图像添加噪声形成的。噪声在不同的图像中有所变化，但 $f$ 保持不变。此外，已知噪声的均值为零，因此 $E\{η_i\}=0$ 。因此，推导出 $E\{\overline{g}\}= f$ ，这证明了方程 (2-27) 的有效性。

习题2.25【证明题】*

在这里插入图片描述

习题2.27*

在这里插入图片描述

(a) 像素为整数值，并且8位可以表示256个连续的整数值。在我们的工作中，8位图像的强度值范围是[0,255]。在此范围内的值相减会覆盖[-255,255]的范围。这个范围无法通过8位来表示，但题目中给出的条件是，减法的结果也必须用8位表示，因此被限制在[0,255]的范围内。这意味着，任何两个像素相减得出的负值都会被截断为0。

将图像 $b (x, y)$ 从图像 $a (x, y)$ 中反复相减的过程可以表示为： $\begin{align*} d_K(x,y) &= a(x,y)-\sum_{k=1}^Kb(x,y) \\ &= a(x,y)-Kb(x,y) \end{align*}$ 其中， $d_k(x, y)$ 是经过 $K$ 次相减后得到的差值图像。由于图像相减是逐像素的操作（参见第2.6节），我们可以专注于图像中任意对应像素对的相减。我们已经说明，负值结果会被截断为0。一旦获得0结果，它将保持不变，因为从0中减去任何非负值会得到负数，负数将再次被截断为0。同样，对于任何像素位置 $x_0, y_0)$ ，如果 $b(x_0, y_0)=0$ ，那么结果将是 $d_k(x_0, y_0)=a(x_0, y_0)$ 。也就是说，不断从一个值中减去0，最终结果还是该值。图像 $b (x, y)$ 中非0的位置最终会使 $d_K(x, y)$ 中的对应值减少到0。在当前问题的上下文中，最大相减次数为255次，这对应于 $a (x, y)$ 为255且 $b (x, y)$ 为1的情况。