当前位置：首页 > news >正文

《MULTI-CLASS SEMANTIC SEGMENTATION OF FACES》论文分享（侵删）

news 2025/10/19 12:51:33

author={Khalil Khan and Massimo Mauro and Riccardo Leonardi}

原文链接：Multi-class semantic segmentation of faces | IEEE Conference Publication | IEEE Xplore

摘要

介绍了多类人脸的分割问题。与以前只考虑几个类（通常是皮肤和头发）的工作不同，标签集在这里被扩展到六个类别：皮肤、头发、眼睛、鼻子、嘴和背景。从MIT-CBCL和FEI人脸数据库中获取的包含70张图像的数据集被手动注释并公开1。从均匀采样的正方形块中提取颜色、形状和位置三种局部特征。利用随机决策森林建立判别模型，并进行分类。探索了多种不同的特征和参数组合，以找到最佳的可能模型配置。我们的分析表明，用一个相当简单的模型就可以达到非常好的性能（精确度约为93%）。

一、介绍

像素级语义分割是中级视觉的一个重要课题，其目的是将图像区域联合分类和分组为连贯的部分。在这个问题上已经进行了广泛的研究工作，主要是由PASCAL VOC分割挑战驱动的[1]。尽管如此，有限数量的作品专门关注面部。

事实上，面部标记在许多情况下都是潜在的兴趣。Huang等人[2]表明，简单的学习算法可以用于预测高级特征，例如姿势，从将面部图像标记为头发，皮肤和背景区域开始。在他们的视野中，诸如分割的中间水平特征为人脸识别提供了重要信息，并且在估计其他特征（诸如性别、年龄、头发颜色、皮肤颜色等）方面非常有用。心理学文献似乎证实了他们的主张，因为从人脸区域提取的重要面部特征（前额，头发）被证明是人类视觉系统的信息，以便识别面部身份[3，4]。

移动到不同的应用场景，头发建模，合成和动画已经成为计算机图形学中的活跃研究课题[5，6]。此外，面部处理和增强应用，如皮肤平滑[7]，肤色美化[8]和虚拟化妆[9]开始出现在文献中。在所有这样的应用中，精确的知识-在像素级-人脸段是至关重要的。

二、相关工作

几位作者已经建立了用于分割头发、皮肤和其他面部部分的系统[2，10-13]。Yacoob和Davis [10]的工作是第一个专门针对头发标记的工作。首先建立了头发颜色的高斯混合模型，然后采用区域生长算法对头发区域进行改进。Lee等人[11]通过学习六种不同的发型和其他混合模型来学习头发、皮肤和背景的颜色分布，从而扩展了GMM方法。Huang等人[2]使用基于超像素的条件随机场（CRF）[14]，在LFW数据集[15]的图像上进行训练，以消除相同类别之间的歧义。Scheffler等人[12]学习了头发、皮肤、背景和衣服的颜色模型，并且还为每个标签引入了空间先验。他们将这些信息与CRF结合，以确保当地标签的一致性。最后，Kae等人[13]提出了一种GLOC（GLObal和LOCal）模型，该模型结合了CRF和形状玻尔兹曼机[16]的优点，以联合实施局部一致性和适当的全局形状结构。据我们所知，这是迄今为止性能最好的毛发-皮肤-背景分割算法.

相对于现有技术，将人脸类别扩展为更多的语义类别可以打开新的研究场景，并增强大多数先前引用的应用程序的性能和灵活性。例如，在一个示例中，皮肤美化的应用当然可以受益于将“真实的”皮肤与嘴和眼睛区分开的方法。由于这些原因，在我们的工作中，我们将标签集扩展到六个类别：皮肤，头发，眼睛，鼻子，嘴巴和背景。

与之前使用生成混合模型方法的几项工作不同，我们纯粹依赖于标记数据，并通过使用随机森林[17]分类器构建判别模型。我们分类的图像内容考虑正方形补丁作为处理原语。我们采用三种地方特色，占颜色，形状和位置。空间线索结合在两个不同的设置。我们调查的影响，每个功能，其参数和空间组合设置，以找到最佳的配置。我们构建并公开提供了一个由70张手动标记的图像组成的数据集，这些图像取自MIT-CBCL [18]和FEI [19]人脸数据库1。我们分析了不同的设置，并显示出非常好的性能，获得了一个相当简单的模型。

三、PROPOSED ALGORITHM

3.1Patches and Feature Extraction

许多语义分割算法工作在像素或超像素级别。在这里，我们使用正方形补丁作为处理原语：我们对每个补丁的图像内容进行分类，并将标记转移到补丁的中心像素。我们的方法有一些好处：这些补丁中包含的信息比单个像素更全面。同时，每个像素都被单独分类，这与超像素方法不同，在超像素方法中，错误可能会损害整个超像素区域的分类。在训练和测试中，我们将原始图像重新缩放为具有恒定的高度H = 512像素，而宽度W相应地变化以保持原始图像比率。因此，对于不同的面部图像，给定的补丁维度的内容类型是可比较的。

我们使用颜色和形状的局部特征进行分类，结合空间信息。作为颜色特征，我们采用HSV颜色直方图：色调，饱和度和方差直方图连接起来，形成一个单一的特征向量。我们探索了不同的参数化补丁尺寸（DHSV= 16×16，32×32和64×64）和直方图箱的数量（Nbins = 16，32和64）。对于每个补丁，我们得到特征向量

为了解释形状信息，我们提取了广泛使用的HOG特征[20]，在DHOG = 16×16，32×32和64×64之间改变补丁尺寸。使用这些值，每个块分别生成特征向量f16×16 HOG ∈ R36、f32×32 HOG ∈ R324和f64×64 HOG ∈ R1764。

作为空间信息，我们使用像素的相对位置。给定位置（x，y）处的像素，相对位置被定义为floc = [x/W，y/H] ∈ R2。

3.2Classification with spatial information

在第2节中描述了拟定算法的示意图。

由于分类是在每个位置独立执行的，因此它包括用其最大概率类别标记每个像素：

其中C = {皮肤、头发、眼睛、鼻子、嘴巴、背景}，并且随机变量C、S和L分别是特征fHSV（颜色）、fHOG（形状）和floc（位置）。

我们研究了两种不同的设置，将空间信息集成到分类中：作为特征串联和作为空间先验。在第一种情况下，2D特征絮凝物在唯一特征向量中与fHSV和fHOG连接，该特征向量作为分类器的输入给出。在第二种情况下，使用floc来估计空间先验p（c| L），然后分类被执行为：

我们使用随机森林来训练模型，利用C++ ALGLIB [21]实现。

四、实验

分割结果示例。第二行标记了基础事实，第三行是算法输出。

4.1Experimental setup

我们用于训练和评估的数据集由70张正面人脸图像组成，这些图像取自MIT-CBCL和FEI数据库。这些面孔呈现出中等程度的变异性，因为我们包括了不同种族、性别和年龄的人。此外，面部在位置和比例上并不完全对齐。这使得该算法适合于对先前人脸检测得出的边界框执行人脸分割。我们随机选择20张图像的子集用于在训练过程中提取补丁，而剩余的50张图像用于测试。准确性被用作性能指标。

4.2Results

HSV参数的影响。HSV颜色特征有两个要考虑的重要参数：计算直方图的补丁维度DHSV和直方图本身的箱数Nbins。为了评估两者的影响，第一阶段的实验是通过仅使用位置和颜色特征而忽略形状来执行的。我们考虑来自集合DHSV = {16×16，32×32，64×64}和Nbins = {16，32，64}的所有9个值的组合。我们发现，当DHSV = 16 × 16和Nbins = 32时，可以实现最佳准确度- 92.27%。结果报告于表1和表2中。特征串联（FC）设置用于包含空间信息。

HOG特性和参数的影响。然后我们引入HOG特征，并运行第二阶段的实验来评估面片维数DHOG的影响。结果表明，当DHOG = 64 × 64，FC设置时，获得了最好的精度，达到了92.95%。结果见表3。

空间设置的影响。我们通过使用位置特征的特征拼接和空间先验（SP）设置来运行所有先前的测试。在表4中，我们显示了在具有不同特征和参数配置的两种情况下获得的结果。结果突出表明，在精度方面，FC设置始终优于SP设置。

查看全文

http://www.dtcms.com/a/37052.html