图像特征与边缘检测:从Sobel算子到Canny边缘检测【计算机视觉】

图像特征与边缘检测:从Sobel算子到Canny边缘检测

1. 图像特征

在日常生活中,人类通过观察图像的特定特征来识别物体,如通过颜色、形状或纹理。对于计算机视觉而言,图像特征是计算机识别、理解图像的基础,帮助机器学习如何“看懂”图像。

什么是图像特征?

图像特征是图像中容易被辨认、独特并且与其他区域不同的部分。它们往往包含了丰富的信息,比如图像中的重要物体位置或边缘变化。通常,我们可以通过以下两种特征来分析图像:

  • 关键点特征:这是图像中具有显著性、能通过不同视角和光照变化保持相对稳定的点。通常是图像中容易定位或识别的兴趣点。
  • 边缘:图像中颜色、亮度或纹理发生显著变化的区域。边缘通常对应着物体的轮廓或界限。
    在这里插入图片描述

例如,角点(如建筑物的拐角)是图像中常见的关键点,而边缘则常用于检测物体的轮廓、区分不同的物体。在图像配准、物体检测等任务中,找到这样的特征至关重要。

如何找到合适的特征?

为了实现自动化的图像处理,找到合适的图像特征是第一步。例如,在立体匹配问题中,我们需要在两幅图像中找到相同的特征点,以便估计深度或场景结构。在这样的任务中,某些图像区域比其他区域更容易被匹配。
在这里插入图片描述

例如:

  • 一个平坦的区域(如天空或墙面)没有明显的变化,难以精确匹配;
  • 而在具有角点或显著边缘的区域,特征更独特,更容易被定位或匹配。

因此,合适的特征应当具备唯一性、稳定性和可匹配性。这些特征点也被称为兴趣点关键点,而边缘则是物体轮廓的核心。图像特征的检测是图像处理流水线中的第一步,也是后续特征描述、匹配等步骤的基础。

图像处理流水线(Pipeline)

在特征检测的过程中,图像处理通常遵循一个标准的流水线流程,每个阶段都有其明确的目标:

  1. 特征检测:寻找图像中重要的位置,如角点、边缘或兴趣点。
  2. 特征描述:将检测到的关键点或边缘区域转化为稳定的、可比较的特征向量。
  3. 特征匹配:通过比较不同图像中的特征向量,找出匹配的特征点,进行图像的对齐或分析。
  4. 特征跟踪(用于视频处理):在视频中对这些特征点进行跟踪,用于实现物体跟踪、视频稳定等任务。

在这条流水线中,边缘 是图像特征中的重要组成部分。通过检测边缘,机器可以识别出图像中的物体轮廓,从而帮助我们理解图像中的内容。


2. 特征检测器

图像中的边缘代表了物体表面、光照或颜色的突然变化。因此,边缘检测器的目标是通过计算图像的梯度(灰度值的变化率)来检测图像中的边缘。梯度值表示图像在某个方向上变化的幅度,变化越大,说明该方向上的边缘越明显。

图像梯度与离散化计算

由于图像是由像素组成的离散数据,我们不能直接计算连续的导数,而是通过卷积操作近似计算导数。在这个过程中,我们会用到卷积核,它们可以对图像的局部区域进行加权求和,从而计算梯度。

在图像处理中,边缘检测的一个关键步骤是计算图像的梯度,也就是计算图像在某个方向上像素值的变化率。由于图像是离散的像素点组成的,我们无法直接计算连续的导数,因此需要通过差分的方法进行离散化处理:
d f d x = lim ⁡ Δ x → 0 f ( x ) − f ( x − Δ x ) Δ x = f ′ ( x ) \frac{df}{dx}=\lim_{\Delta x\to0}\frac{f(x)-f(x-\Delta x)}{\Delta x}=f^{\prime}(x) dxdf=Δx0limΔxf(x)f(xΔx)=f(x)
在离散化( Δ x = 1 \Delta x = 1 Δx=1,像素坐标是整数,最小变化为1)之后,公式变为:
d f d x = f ( x ) − f ( x − 1 ) 1 = f ′ ( x ) \frac{df}{dx}= \frac{f(x)-f(x-1)}{1}=f'(x) dxdf=1f(x)f(x1)=f(x)

离散差分形式与卷积核

在边缘检测中,有三种常见的离散差分形式:前向差分后向差分中间差分,每种形式都对应不同的卷积核,并且卷积核在实际应用时会进行翻转。

1. 前向差分

前向差分的公式为:
f ′ ( x ) = f ( x ) − f ( x − 1 ) f'(x) = f(x) - f(x-1) f(x)=f(x)f(x1)

这个公式对应的卷积核是 [0, 1, -1],但在卷积操作中需要进行翻转。卷积核翻转后是 [-1, 1, 0],计算如下:

  • 首先,计算当前位置 x 与它前一个位置 x-1 的差值。
  • 具体的计算步骤为:
    f ′ ( x ) = f ( x − 1 ) ∗ − 1 + f ( x ) ∗ 1 + f ( x + 1 ) ∗ 0 f'(x) = f(x-1) * -1 + f(x) * 1 + f(x+1) * 0 f(x)=f(x1)1+f(x)1+f(x+1)0

因此,前向差分依赖于当前位置 x 和它左侧一个像素的值来计算梯度。

2. 后向差分

后向差分的公式为:
f ′ ( x ) = f ( x + 1 ) − f ( x ) f'(x) = f(x+1) - f(x) f(x)=f(x+1)f(x)

它的卷积核是 [1, -1, 0],该核在卷积操作中会被翻转。翻转后的卷积核为 [0, -1, 1]。因此,具体的计算步骤为:
f ′ ( x ) = f ( x − 1 ) ∗ 0 + f ( x ) ∗ − 1 + f ( x + 1 ) ∗ 1 f'(x) = f(x-1) * 0 + f(x) * -1 + f(x+1) * 1 f(x)=f(x1)0+f(x)1+f(x+1)1

这个公式表示我们利用当前位置 x 和它右侧的像素点来计算梯度。后向差分主要关注的是当前位置 x 与其右边像素之间的变化。

3. 中间差分

中间差分是一种对称的差分形式,公式为:
f ′ ( x ) = f ( x + 1 ) − f ( x − 1 ) 2 f'(x) = \frac{f(x+1) - f(x-1)}{2} f(x)=2f(x+1)f(x1)

这个公式对应的卷积核是 [1, 0, -1]。由于它是对称的卷积核,翻转之后还是 [1, 0, -1],因此在卷积操作中不需要特殊的翻转操作。具体的计算步骤为:
f ′ ( x ) = f ( x − 1 ) ∗ − 1 + f ( x ) ∗ 0 + f ( x + 1 ) ∗ 1 f'(x) = f(x-1) * -1 + f(x) * 0 + f(x+1) * 1 f(x)=f(x1)1+f(x)0+f(x+1)1

由于中间差分考虑了当前位置左右两侧的像素点,因此它对左右两侧的变化都比较敏感,是一种平衡的差分方法,适合用于检测对称性变化。


通过这三种差分方法,我们可以计算图像中的梯度并识别出图像中变化最明显的部分,也就是边缘。前向差分、后向差分和中间差分各有优缺点,前向差分和后向差分计算简单,而中间差分由于其对称性,对噪声具有更强的鲁棒性。

卷积计算与边缘检测

在实际应用中,我们会将这些卷积核应用到图像的每个像素点上,生成一张新的梯度图像。梯度值大的区域对应着图像中的边缘部分,而梯度值小的区域则代表图像的平坦部分。

通过这三种不同的离散差分方法,我们能够计算图像中的梯度,并识别出图像中变化最明显的部分,也就是边缘。对于更复杂的图像处理应用,通常会结合这些卷积核并进一步优化(例如在Canny边缘检测中),以获得更加准确和稳定的边缘检测结果。

Sobel算子

Sobel算子是一种经典的边缘检测算法,常用于图像处理中。其核心思想是利用卷积核来计算图像中像素点在水平方向和垂直方向上的灰度变化(即梯度),从而找到图像中的边缘。Sobel算子通过两个3x3的卷积核,分别计算图像的水平垂直梯度。

水平和垂直Sobel卷积核分别为:

  • 水平Sobel核:
    G x = [ − 1 0 1 − 2 0 2 − 1 0 1 ] G_x = \begin{bmatrix} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \\ \end{bmatrix} Gx= 121000121

  • 垂直Sobel核:
    G y = [ − 1 − 2 − 1 0 0 0 1 2 1 ] G_y = \begin{bmatrix} -1 & -2 & -1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \\ \end{bmatrix} Gy= 101202101

如何判断水平方向和垂直方向?
  • 水平Sobel核 G x G_x Gx)的结构可以看出,第一列和第三列的值具有相反的符号,分别为-1和1,而中间列为0。这表示该卷积核的作用是计算左右方向的变化,即水平方向的变化。该核能够增强图像中水平方向上有明显灰度值变化的区域,即水平边缘的检测。通过该核计算出的结果可以帮助我们识别出水平方向上物体的轮廓。

  • 垂直Sobel核 G y G_y Gy)的结构则显示,第一行和第三行的值分别为-1和1,而中间行则为0。这表明该核用于检测图像在上下方向的变化,即垂直方向的变化。通过该核,我们能够识别出图像中垂直方向的边缘,例如物体的垂直边界。

计算梯度

通过使用水平和垂直Sobel卷积核分别对图像进行卷积操作,我们可以计算出每个像素点在水平方向( G x G_x Gx)和垂直方向( G y G_y Gy)上的梯度。然后,通过以下公式,我们可以计算图像在该像素点处的梯度大小(也就是边缘强度):
∣ ∇ I ∣ = G x 2 + G y 2 |\nabla I| = \sqrt{G_x^2 + G_y^2} ∣∇I=Gx2+Gy2

上一篇:ScrapeGraphAI 大模型增强的网络爬虫