An improved YOLACT algorithm for instance segmentation of stacking parts
【一种用于堆叠零件实例分割的改进 YOLACT 算法】
摘要
实例分割在众多应用场景中均是一项至关重要的任务。对于计算机视觉而言,堆叠物体的实例分割是一项挑战。为应对这一挑战,我们提出了一种改进的 YOLACT(You Only Look At CoefficienTs)算法。为提高密集堆叠场景下特征提取、检测和分割的精度,将多级特征融合与通道注意力机制模块(MLCA)与 YOLACT 的主干网络相结合。此外,为在不降低图像质量的前提下扩大感受野,我们用注意力引导上下文特征金字塔模块(AC-FPN)替代了传统的特征金字塔网络(FPN)。通过在定制的堆叠机械零件数据集上进行大量实验,验证了改进的 YOLACT 算法的有效性。实验结果表明,改进的 YOLACT 算法在计算时间没有显著增加的情况下,在检测和分割性能上显著优于其他算法。
1 介绍
实例分割技术在制造系统中得到了广泛应用,例如零件组装和零件拣选,这有助于提高制造的自动化和智能化水平[1]。因此,它能够提升生产的灵活性和效率。在实现这些目标的过程中,将实例分割技术应用于非结构化的工业场景中是一个关键步骤[2]。然而,在实际的制造系统中,零件堆叠的场景非常普遍。在这样的堆叠场景中进行零件分割面临诸多挑战,尤其是在零件形状各异、大小不一且相互遮挡的情况下。
YOLACT(You Only Look At CoefficienTs)是一种专为实时物体检测和实例分割设计的神经网络[3]。与传统的两阶段实例分割网络相比,YOLACT在速度和准确性之间找到了平衡,这使得它特别适合工业环境中的实时检测应用。与SOLO和Mask R-CNN相比,YOLACT在推理速度上更为高效,这对于需要快速处理的制造系统至关重要。尽管Mask R-CNN具有高精度,但其两阶段流程(先提出区域,再进行掩码预测)导致了较慢的推理速度。同样,虽然SOLO采用了一阶段的方法,但在处理大量对象时,其处理速度仍存在局限性。
YOLACT能够在较短的计算时间内生成高质量的掩模,非常适合用于实时工业任务。在这个实际的制造系统中,我们不仅需要快速识别零件,还需要一定的识别精度。YOLACT完美地满足了这一需求。然而,在堆叠场景中精确检测和进一步分割零件尤其具有挑战性,尤其是在复杂的场景中。为了提高堆叠场景中零件实例分割的准确性,我们提出了一种改进的YOLACT零件识别方法。为了解决堆叠场景中实例分割准确性的挑战,本研究开发了一种改进的YOLACT实例分割算法,专门用于零件识别和实例分割。该算法结合了MLCA,并集成了AC-FPN。这些改进旨在通过捕捉零件的更详细特征来增强网络的效能。
本研究的贡献可概述如下:
1.我们开发了一种改进的YOLACT网络模型,专门用于识别堆叠场景中的部件。该模型由核心骨干网络、特征金字塔网络、预测头和掩码模板模块(Protonet)组成。此外,为了提高实例分割的准确性,还引入了一个并行子网络。
2.为了捕捉精细的物体特征,我们在主干网络中集成了多级特征融合和通道注意力机制,这有助于提取更详细的特征,并增强了网络在复杂堆叠场景中识别部件的能力。
3.为了在保持图像质量的同时捕捉广泛的特征,我们引入了AC-FPN。该模块改变了传统的FPN金字塔结构,通过增强网络的情境理解,从而实现更准确的预测。
4.为了验证我们提出的方法的有效性,我们在一个定制的数据集上进行了严格的测试和比较分析。结果表明,我们的方法在准确性和鲁棒性方面显著优于以往的方法。
2、相关工作
近年来,随着工业自动化和智能制造的快速发展,机械部件的视觉抓取技术逐渐成为研究热点。然而,可靠的抓取依赖于对堆叠部件的精确实例分割[4,5]。实例分割的目标是为图像中的每个对象获取实例级别的像素标签,这一点在处理堆叠物体[6]时尤为重要。现有的实例分割技术主要分为传统方法和基于深度学习的方法[7]。传统方法主要包括分水岭[8]和阈值[9]分割算法,这些算法适用于简单的场景。然而,随着堆叠部件数量的增加和对更高检测精度的需求,传统神经网络算法的能力已不足以应对复杂的任务[10,11]。
压缩感知领域的研究显著提升了计算机视觉中深度图的完成和实例分割技术。它为堆叠场景中的物体检测提供了新的方法。Chodosh等人[12]提出了一种用于LiDAR深度图完成的深度卷积压缩感知方法,能够将稀疏的深度测量图转换为高分辨率的深度图。Chodosh和Lucey [13]在计算机视觉的重建任务中采用了卷积稀疏编码(CSC)方法,不仅减少了JPEG伪影,还实现了非刚性轨迹的重建。Bazzi等人[14]提出了一种牛顿型前向-后向贪婪方法,用于到达角估计。该方法同样适用于多快照压缩感知中的稀疏恢复,用于图像重建。Liu等人[15]提出了一种多尺度卷积字典,用于图像重建,尤其适用于CT和MRI重建等逆问题。这些研究展示了压缩感知技术的潜力,尤其是在与深度学习结合时,能够显著提升深度图完成和实例分割