当前位置: 首页 > news >正文

文献阅读篇#5:5月一区好文阅读,BFA-YOLO,用于建筑信息建模!(上)

期刊简介:《Advanced Engineering Informatics》创刊于2002年,由Elsevier Ltd出版商出版,出版周期Quarterly。该刊已被SCIE数据库收录,在中科院最新升级版分区表中,该刊分区信息为大类学科工程技术1区,2023年影响因子为8。这篇文章收录于五月份,是一篇最近发表的文章,让我们一起看看它有何过人之处,能得到一区期刊的赏识。

文章标题:BFA-YOLO: A balanced multiscale object detection network for building façade elements detection

(翻译)BFA-YOLO:用于建筑立面元素检测的平衡多尺度目标检测网络

摘要:

建筑物外立面元素的检测,如门、窗、阳台、空调机组、广告牌和玻璃幕墙,是建筑信息建模(BIM)自动化创建的关键步骤,然而,该领域面临着重大挑战,包括外立面元素的不均匀分布,小物体的存在,以及大量的背景噪声,背景、问题为了解决这些问题,我们在本研究中开发了BFA-YOLO模型和BFA-3D数据集。BFA-YOLO模型是专门为分析立面元素的多视图图像而设计的高级架构。它集成了三个新组件:功能平衡主轴模块(FBSM),解决不均匀的目标分布的问题;目标动态对准任务检测头(TDATH),提高了小目标的检测;和位置记忆增强自我注意力机制(PMESA),旨在减少背景噪音的影响。这些元素共同使BFA-YOLO能够有效地应对每一个挑战,从而提高模型的鲁棒性和检测精度。BFA-3D数据集提供了多视角图像,并对各种立面元素类别进行了精确注释。该数据集旨在解决现有立面检测数据集的局限性,这些数据集通常具有单一视角和类别覆盖不足的特点。(各个模块和数据集的简介)通过对比分析,BFA-YOLO在BFA-3D数据集和公共Façade-WHU数据集上的mAP 50分别提高了1.8%和2.9%,这些结果突出了BFA的上级性能,YOLO在幕墙元素检测和智能BIM技术的进步。(实验及其结果)数据集和代码可在www.example.com获得https://github.com/CVEO/BFA-YOLO。(代码数据集公开)

解析:从摘要中可以看出,BFA-YOLO的作用是用于检测建筑外立面的元素,领域垂直,目标明确。虽然问题比较同质化,是元素不平衡和小目标的问题,但后续的改进模块针对这些问题也做出了响应的贡献。这篇文章还专门制作了一个比较规范的数据集,并且将算法和数据集公开,这点是相较于普通文章的很大区别,展现了其工作量之大和对自身改进算法的自信。最后看实验结果,实际上进步并不是很大,也有可能是基数比较大,后续我们可以看实验部分了解真相。

一、引言:

在城市景观中,建筑物作为基本组成部分,改善日常生活,工业流程和公共服务[1,2]。建筑立面元素的检测,如门、窗、阳台、空调机组、广告牌和玻璃幕墙,在一系列应用中起着关键作用[3,4],从智慧城市技术和遗产保护到精确导航和能源模拟[5-10]。这些应用推动了建筑信息建模(BIM)的发展并支持符合CityGML细节等级3(LOD 3)标准,肯定了立面元素检测的实际意义和广泛应用价值[11-17]。基本上就是背景和意义介绍)

尽管检测建筑立面元素的重要性,但目前主要利用语义分割和对象检测的研究方法面临着巨大的挑战[18]。虽然一些研究将联合收割机传统算法与机器学习相结合-例如随机森林和正式语法树-以改善建筑立面的分析[19],其他人利用卷积神经网络(CNN)进行街景图像的语义分割[20],或者采用全卷积网络(FCN)来分析无人机(UAV)图像[21,22]。此外,将CNN与迁移学习相结合已经显示出对前视立面的语义分割的承诺[23]。Wang等人提出了一种基于视觉转换器的新型管道RTFP,并通过实验验证了其在构建立面解析的任务中的优越性。尽管有这些进步,现有的研究集中在像素级分割上,阻碍了后续应用的精确位置识别和细节捕获[25,26]。为了更准确地检测立面元素,研究利用了Faster R-CNN等技术来识别街景中的结构元素[27],和YOLOv 5,用于通过检测多视图图像中的门来增强机器人室内-室外导航[28]。虽然YOLO和Faster R-CNN等方法在检测窗户,门和墙壁方面取得了成功,他们经常忽略其他类型的立面元素,忽视建筑物的结构如何影响这些元素的分布[29,30]的复杂性,例如某些元素的小尺寸(例如,空调机组和小窗户)和建筑物的复杂背景对目标检测任务提出了额外的挑战[31-33],导致复杂场景中的泛化能力降低[34,35]。因此,传统算法与机器学习相结合,可以改进立面分析,然而,在下游应用所需的精确定位和细节提取方面仍然存在局限性。对象检测技术,如YOLO和Faster RCNN,虽然成功地识别了门窗等基本元素,通常忽略了立面元素的复杂多样性以及建筑结构对这些元素分布的影响(利用深度学习算法解决建筑脸面元素检测问题的一些方法综述,以及当前存在的问题)

目前用于建筑立面元素检测的数据集通常受到有限的视角、尺寸和分类多样性的限制。这些限制阻碍了深度神经网络模型从各个角度检测元素的先进性和泛化能力。这些数据集可以根据视角分为三类:街景数据集,提供向上的视角;正面视图数据集,提供直接的正面角度;和鸟瞰视图数据集,由无人机(UAV)捕获。现有开源建筑立面元素数据集的详细比较见表1。值得注意的是,eTRIMS [36],LabelMe立面[37],和立面-WHU [38]数据集只关注街景视角,强调立面的立面方面,视角变化有限。相反,Paris 2010 [39],Graz 50 [40],CMP立面[41]和ENPC 2014 [42]等数据集,由建筑物正面图像组成,在分类标准上显示多样性,但尺寸有限。GFSD数据集[43]虽然通过从UAV捕获图像引入了俯视视角,但仅限于玻璃物体,并且提供的物体种类不足以检测多种类型的建筑物立面元素。类似地,开源UAV数据集,如UAVid [44],虽然包括建筑元素,但主要展示屋顶的垂直视角,对立面的洞察力有限。公开可用数据集的有限大小以及街道和前视图视角的主导地位对本研究中检测建筑立面元素构成了重大挑战。这些挑战,加上数据集之间分类系统的变化,限制了深度神经网络模型从不同角度检测立面元素的泛化能力[45,46].这项研究确定了为应对这些挑战而对数据集构建和模型开发采取综合办法的必要性。(说明了当前数据集的局限性)

针对上述局限性,本文介绍了一种新的方法,包括构建BFA-3D数据集和BFA-YOLO网络模型,这两个数据集都是为检测建筑立面元素而精心定制的。BFA-3D数据集由多视角图像和详细的分类系统制作而成,沿着BFA-YOLO的创新组件-特征平衡主轴模块(FBSM),目标动态对准任务检测头(TDATH)和位置记忆增强自注意机制(PMESA)-解决了不均匀目标分布、小目标检测和背景干扰的关键问题,这些进步强调了我们从各个角度显着提高检测性能的方法。这项研究是:(简单介绍,引出下文)

1.我们开发并展示了BFA-3D数据集,一个多视图和准确标记的资源,为建筑立面元素检测任务建立了一个新的基准。

2.我们提出了特征平衡主轴模块(FBSM),该模块旨在解决建筑立面元素检测过程中类别分布不均匀的挑战。

3.我们提出了目标动态对准任务检测头(TDATH),其目的是解决在建筑立面元素中检测小物体(如空调机组和小窗户)的挑战。

4.我们提出了位置记忆增强自我注意力机制(PMESA),其目的是解决在密集的城市建筑物的背景下检测立面元素的挑战。

(四个主要贡献)

本文的其余部分由六个部分组成。第2部分描述了我们的BFA-3D数据集是如何产生的。第3部分描述了BFA-YOLO网络模型的创新细节。第4部分描述了实验设置以及评估指标。第5部分显示了对比实验和消融实验的分析。第六节对实验结果进行了讨论,第七节对结论和未来的工作进行了探讨(对文章的每个部分进行提要)

解析: 这篇文章没有Related Works,因此介绍目前状况的内容不多。表格十分直观地展现了文章数据集的优越性。从其论述上的逻辑性和环环相扣的文笔,可以看出论文写作功底之深厚。能够把”故事“讲好,是放大自身亮点的关键。

二、数据集 

为了从多个角度增强建筑立面元素的检测,我们开发了一个专门的数据集BFA-3D。我们在2023年冬季收集了中国上海各种建筑类型的原始无人机图像,包括586栋建筑,其中包括326栋住宅楼,151栋混合用途建筑,及109幢商业写字楼。该数据集包括1240幅高分辨率图像(1200 × 1200像素),由使用无人机(UAV)通过倾斜摄影测量获得的3D模型渲染,确保高标准的现实主义和建筑多样性。(简介数据集)

2.1 图像的渲染策略

我们渲染3D建筑模型来模拟真实世界的视觉效果,这有助于获得详细的立面图像[47,48]。我们的渲染策略,如图1所示,采用了一种新的方法来最大化立面图像捕获。模拟相机以固定距离移动,位于附近最高建筑物上方10 m处,广泛覆盖立面。水平地,相机每60度旋转一次,从0度到300度,而垂直方向上,它在0度到30度之间随机向下倾斜,从而模仿真实世界的无人机操作,并增强数据集中的可变性和细节。(数据集制作策略)

2.2 注释过程

1240个建筑物立面图像的注释利用Segment Anything模型(SAM)进行初始有效的遮罩生成[49],然后通过最大外接矩形技术将这些遮罩转换为边界框。(门、窗、阳台、空调机组、广告牌和玻璃幕墙),包括窗户的细微差别,分为嵌入式和突出式。一组专家注释者确保注释的准确性和一致性,通过达成共识来协调差异,以保持高注释标准,如图2所示。通过咨询第三个注释者(P3)来进行最终类别确定并标准化边界框的定位以实现一致性,从而解决了来自注释者1(P1)和2(P2)的初始注释之间的差异。 (数据集标注)

2.3 数据集统计数据

我们将BFA-3D数据集按照8:1:1的比例划分为训练集、验证集和测试集,以支持稳健的模型训练和无偏评估。表2显示了BFA-3D数据集中建筑立面元素类别的全名和缩写之间的对应关系。图3显示了整个数据集中建筑立面元素类别数量的分布,突出了建筑立面检测中类别不平衡的挑战以及小尺寸目标的挑战。(数据集分配策略和数据集内容)

这些在数据集创建、增强和注释方面的细致方法不仅丰富了我们模型的学习前景,而且为实现更高的检测精度奠定了坚实的基础,如本文后续部分所示。

解析:这一部分作者写得非常详细,将数据集制作的整个过程都写了出来,也把这个数据集最大的类别不平衡的问题直观展现出来了。也就是窗户这个类别的目标太多了,这可能会影响到训练效果。

相关文章:

  • 新一代机载相控阵雷达的发展
  • 「Mac畅玩AIGC与多模态12」开发篇08 - 使用自定义汇率查询插件开发智能体应用
  • 【 Node.js】 Node.js安装
  • Java 期中考试练习题
  • 【速写】prune与activate
  • 解决Win10虚拟机“网络连接不上”,“Ethernet0 网络电缆被拔出”的问题
  • PB的框架advgui反编译后控件无法绘制的处理(即导入pbx的操作步骤)
  • 【漫话机器学习系列】234.阈值类特征的方差分析(Thresholding Categorical Feature Variance)
  • 分布式锁的几种实现
  • 【MySQL数据库】视图
  • ESP-ADF esp_dispatcher组件之audio_service子模块连接管理函数详解
  • 艾尔登法环最新3000+MOD大型整合包 5月最新更新
  • 伽利略如何测量光速?一场跨越山头的失败实验
  • 用spring-boot-maven-plugin打包成单个jar有哪些缺点优化方案
  • 最长公共前缀(14)
  • 【STM32】ADC的认识和使用——以STM32F407为例
  • 力扣面试150题--旋转链表
  • 蓝桥杯 7. 晚会节目单
  • ctfshow web入门 web46
  • 上位机知识篇---ARM 汇编语言与寄存器深度讨论
  • A股2024年年报披露收官,四分之三公司盈利
  • 三大上市猪企:前瞻应对饲料原材料价格波动
  • 国际油价重挫!美股道指连跌三月,啥情况?
  • 解放日报:人形机器人新赛道正积蓄澎湃动能
  • 涉嫌严重违纪违法,57岁证监会副主席王建军被查
  • 澎湃回声丨23岁小伙“被精神病8年”续:今日将被移出“重精”管理系统