多模态融合新方向:光学+AI如何智能分拣,提升塑料回收率?
【导读】
面对触目惊心的全球塑料污染(每分钟百万瓶、年耗五万亿袋)以及较低的塑料回收率,本研究聚焦提升回收效率的核心环节——自动分拣技术。尽管AMP Robotics等公司利用结合现代机器学习(如R-CNN、YOLO系列)的光学检测(近红外、视觉识别)进行自动化尝试,但其在现实复杂场景(污染、塑料多样性)下的分类准确性面临严峻挑战。为深入探究光学识别的原理与局限,本研究构建了包含20,000+图像的新数据集,通过定制模型训练及Grad-CAM、混淆矩阵等可解释性分析工具,揭示了现有方法过度依赖颜色、形状等物理特征,导致对塑料(尤其是混杂废弃物)识别效果有限。研究结果强烈表明,依赖单一光学技术难以满足精准分类需求,亟需探索模型优化及结合其他技术(如数字水印)的多模态系统,以突破当前塑料回收的瓶颈。>>更多资讯可加入CV技术群获取了解哦~
论文题目:
DETAILED EVALUATION OF MODERN MACHINE LEARNING APPROACHES FOR OPTIC PLASTICS SORTING
论文链接:
https://arxiv.org/pdf/2505.16513
目录
一、技术方法
二、不同机器学习算法在塑料图像数据集上的应用
Mask RCNN在MRF 数据集上的应用
Mask RCNN 在美国塑料数据集上的应用
Resnet-34在开放食品事实数据集上的应用
Xception模型在MRF 数据集上的应用
Resnet-50 在MRF 数据集上的应用
无需代码,训练结果即时可见!
从实验到落地,全程高速零代码!
三、分析方法
四、讨论
五、结论和建议
一、技术方法
在该方法中,研究者们认为大多数基于图像的塑料分类算法都是基于识别塑料的物理特征。使用了各种分析工具,如 Grad-CAM、平均精度 (mAP) 和混淆矩阵来证明此观点。为了评估各种基于视觉的检测算法的功效,汇总了各种来源的塑料图像。
-
网络抓取塑料数据集:从 Google、Bing 和 Yandex(标注)等在线资源中通过网络抓取的方式收集了 9440 张图片数据集,涵盖 7 种塑料类型(HDPE、LDPE、PVC、PET、PS、PP 和其他)。应用了经过预训练的 Resnet-34 CNN 模型,分类准确率达到 96%。通过网络搜刮获得的图像是没有任何变形的干净塑料样本图像,不幸的是,这些图像并不能代表真实世界。
-
美国塑料公司数据集:从美国塑料公司的产品目录中收集了图片,进一步增加了由不同塑料类型组成的图片数据集,并通过网络抓取提取了 6 种塑料(HDPE、LDPE、PET、PP、PS、PVC)的 9564 张图片。对于收集到的这个庞大的数据集,采用了掩码 RCNN 算法来识别图像中的物体,验证数据集的平均精度 (mAP) 达到了80% 左右。这个数据集也很干净(刚出厂),这促使进一步研究收集现实世界中带有杂质和变形的塑料样本的数据集。
-
开放食品事实数据集:遇到了 Open Food Facts,这是一个非营利组织,致力于创建一个使用其应用程序收集的广泛的食品产品数据库。该数据集包含真实世界的样本,所有图像都是开源的,由世界各地的志愿者发送。这些图像是在具有挑战性的环境(不同的背景、光线条件等)中收集的,使用他们的应用程序接口获取图像,并使用相应的塑料树脂代码标识对这些图像进行了验证。
收集了约 2721 张不同塑料类型的图片,在应用了带有迁移学习功能的预训练 Resnet-34 模型后,准确率达到了71.8%。该数据集中的图像主要集中在食品产品标签上的食品规格,但图像经过人工清洗,以确保食品包装也清晰可见。此外,该数据集仅限于食品,不包含任何变形塑料。
-
材料回收设施数据集:为了收集真实世界中变形和受污染塑料的数据,以便使用计算机视觉对塑料进行有效识别和分类,访问了布法罗当地的材料回收设施,并在多条传送带上安装了摄像头进行数据收集。从两条不同的传送带上收集数据,一条传送带只运送 PET 样品,另一条传送带运送混合塑料样品。使用 GoPro Hero11 Black 摄像机,分辨率分别为 2.7K240 和 5.3K60,从装有塑料物品的移动传送带上收集了约 800 张图像。
在Coovally平台上,汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!
二、不同机器学习算法在塑料图像数据集上的应用
-
Mask RCNN在MRF 数据集上的应用
Mask RCNN(基于掩码区域的卷积神经网络)是一种流行的深度学习模型,用于实例分割任务,可识别和划分图像中像素级的对象。它是 Faster R-CNN 架构的扩展,以能够同时预测图像中每个实例的对象边界框、类标签和像素级掩码而著称。图 1 显示了掩码 RCNN 的架构及其各个组件。我们使用 Mask RCNN 算法训练了 MRF 数据集的 70 幅图像(50 幅训练图像和 20 幅验证图像),以识别图像中不同的塑料物体,并获得激活图,从而确定算法重点关注的图像区域。
-
Mask RCNN 在美国塑料数据集上的应用
我们还在美国塑料公司数据集上应用了 Mask RCNN,以评估不同数据集的性能,从而直接比较模型的有效性和泛化能力。我们对 6690 张图像进行了分类训练,并对 2874 张图像进行了验证,验证数据集的平均精度 (mAP) 达到了 80% 左右。mAP 表明,Mask RCNN 算法在数据集图像上的物体检测性能良好。我们在美国塑料数据集上对 Mask RCNN 进行了评估,以比较不同数据集的激活情况。
-
Resnet-34在开放食品事实数据集上的应用
我们在 Open Food Facts 图像上进行了训练和测试,得到了以下指标。准确率:71.8% 精度:71.6%,召回率:71.8%,F1 分数:71.6%: 71.8%,F1 分数:71.1%。图 2 显示了 OFF 数据集的混淆矩阵。从混淆矩阵中我们可以看出,PS 和 HDPE 中的预测正确率非常低,这是由于类不平衡造成的,这在现实世界的数据集中很常见。ResNet-34 是残差神经网络 (ResNet) 架构的一个变体,被选为基线模型进行比较,以评估 Mask RCNN 等更复杂模型与更简单架构的性能和行为。通过使用 ResNet-34 作为基线模型,我们旨在了解卷积神经网络 (CNN) 在训练过程中的学习情况。ResNet-34 相对轻量级的特性使我们更容易分析网络中学习到的特征和表征,并增加了本节中其他结果的直观性。
-
Xception模型在MRF 数据集上的应用
Xception 模型是一种深度学习卷积神经网络架构,旨在通过使用深度可分离卷积来提高计算效率,并在 ImageNet 数据集上进行了预训练。该模型旨在捕捉复杂的模式,同时减少参数的数量,可用于各种计算机视觉任务,包括图像分类、物体检测和语义分割。该模型用于评估 Grad CAM 激活,并与 Mask RCNN 模型的激活进行比较。从图 3(a,b,c,d)中的结果可以看出,该模型的重点是传送带区域。
-
Resnet-50 在MRF 数据集上的应用
Resnet-50 是 ResNet(残差网络)架构的一个变体,旨在应对训练深度神经网络所面临的挑战,我们在 ImageNet 数据集上对其进行了预训练,并利用它在 MRF 数据集上获得激活。由于模型设计和复杂性存在差异,因此这种架构允许我们捕捉 MRF 数据集的不同方面。通过在 MRF 数据集上提供与其他模型一致的预测结果,我们还能深入了解模型的鲁棒性。MRF 数据集是一个具有挑战性的数据集,其中包含变形和污染的塑料图像,因此可以对数据集进行全面探索,促进性能比较,帮助选择模型,并提高对模型行为的洞察力。从图 3(e,f)中该模型的 Grad CAM 激活情况可以看出,激活主要集中在传送带上,而不是塑料样本上。
如果你也想要进行模型的开发或者训练,Coovally满足你——作为新一代AI开发平台,为研究者和产业开发者提供极简高效的AI训练与优化体验!
-
无需代码,训练结果即时可见!
在Coovally平台上,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!
-
从实验到落地,全程高速零代码!
无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:
-
免环境配置:直接调用预置框架(PyTorch、TensorFlow等);
-
免复杂参数调整:内置自动化训练流程,小白也能轻松上手;
-
高性能算力支持:分布式训练加速,快速产出可用模型;
-
无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。
!!点击下方链接,立即体验Coovally!!
平台链接:https://www.coovally.com
无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!
三、分析方法
-
深度学习和神经网络中的特征图代表网络中中间层的输出。这些图捕捉输入数据中存在的特定特征或模式。每个特征图都与应用于输入数据的特定滤波器或内核相对应。
-
Grad CAM(梯度加权类激活图谱)用于直观显示图像中对卷积神经网络(CNN)预测贡献最大的区域,它能让人了解模型在进行特定预测时会关注输入图像的哪些部分。
图 3(a,b,c,d)显示了 Xception 模型的 Grad CAM 激活,我们可以看到重点是传送带区域。此外,图 3(e,f)显示的是 Resnet50 模型的 Grad CAM 激活情况,我们可以看到,激活的重点是传送带区域和金属罐,而不是金属罐旁边的高密度聚乙烯牛奶罐。图 4 是用于获取激活的样本图像。图 5 表示在样本图像上应用 Mask RCNN 得到的特征图。图 6 表示在另一张样本图像上重复上述过程。从图中所示的特征图可以推断出,Mask RCNN 将重点放在了大部分中间层的传送带上,而不是塑料材料本身。同样,对于美国塑料数据集,图 7 显示的特征图侧重于物体的形状。图 8 显示了OFF数据集的 Grad CAM 激活情况,我们可以看到,大多数激活的重点是塑料的标签。
四、讨论
利用计算机视觉算法对塑料分类进行了机器学习实验,观察结果揭示了应用模型的局限性和优势,令人深思。就在 MRF 数据集上训练的 Mask RCNN 而言,尽管成功识别了塑料物体,但激活图显示出各层主要关注传送带而非塑料类型。处理图像中的黑色需要人工干预,增加了深度学习模型处理的复杂性。这有力地证明了模型能够根据形状和颜色准确分辨塑料材料。此外,当 Mask RCNN 在美国塑料数据集上进行训练时,该模型在预测塑料类型方面表现出了值得称赞的准确性,并将重点放在了物体的形状上。这表明该模型有效地学习了用于分类的判别特征,这与其约 80% 的高平均精度 (mAP) 相吻合。与此类似,在 “开放食品信息 ”数据集上训练的 Resnet-34 在正确预测塑料类型的同时,Grad CAM 激活也表明其重点放在了塑料物体的标签上。最后,使用在 Imagenet 数据集上预先训练好的 Xception 模型获得的 Grad CAM 可视化效果揭示了一种值得注意的模式--该模型的分类重点是传送带而不是物体。这些观察结果凸显了准确塑料分类的复杂性,促使我们进一步研究如何改进模型,以提高其在实际场景中的可靠性。
五、结论和建议
在这项研究中,贡献在于策划了一个全面的图像数据集,其中包括来自不同来源的已标记和未标记样本。从现实世界(材料回收设施、Open Food Facts)和在线来源(网络搜刮、美国塑料公司)收集了 20,000 多张图片。该数据集是提高机器学习算法在塑料检测和识别中的有效性的宝贵资源。分析结合了各种指标,包括 Grad CAM、特征图和混淆矩阵,为机器学习模型利用图像中的特定信息提供了见解。在分析中,发现机器学习模型重点关注塑料物体的不同方面,如形状、标签和背景物体。研究结果表明,将光谱学等多种模式与计算机视觉相结合,有可能精确辨别塑料材料的特征,从而进一步提高塑料分类过程的准确性。