voting 【泡泡图灵智库】DeepVoting:部分遮挡下语义部分检测的强大可解释深度网络

泡泡图灵智库，带你精读机器人顶级会议文章

题目:深度投票:一种用于部分遮挡情况下语义部分检测的健壮可开发的深度网络

编制人:皮炎艳

欢迎个人转发朋友圈；如果其他机构或自媒体需要转载，在后台留言申请授权

抽象的

大家好，今天带给大家的文章是——deep voting:一个用于部分遮挡下语义部分检测的强大可解释深度网络，发表于2018年CBMM备忘录第086期。

本文研究了部分遮挡情况下物体(如汽车车轮)语义部分的检测任务。该文提出所有模型都应该在看不到遮挡的情况下进行训练，并根据未遮挡时获得的信息进行遮挡处理。上述方法减轻了为了覆盖所有遮挡模式而收集大的指数数据集的困难，并且更重要。在这种情况下，基于提议的深度网络，如RCNN系列，通常会产生不令人满意的结果，因为提议提取和分类的阶段可能会被不相关的障碍所混淆。为了解决这个问题，“检测部分遮挡对象上的语义部分”提出了一种投票机制，该机制结合多个局部视觉线索来检测语义部分。即使部分视觉线索因遮挡而丢失，语义部分仍然可以被检测到。但是这种方法是手工设计的，很难进行端到端的优化。所提出的深度投票将“检测部分阻塞对象上的语义部分”的鲁棒性结合到深度网络中，使得整个过程可以被联合优化。具体来说，它在深度网络的中间功能之后添加了两层，如VGGNet的pool-4层。第一层提取局部视觉线索的证据，第二层利用视觉线索和语义部分之间的空关系实现投票机制。我们还提出了一个改进版本的深度投票+通过从对象外部的上下文中学习视觉线索。在实验中，深度投票与其他几种基线方法相比，显著提高了遮挡情况下语义部分检测的性能。另外，深度投票是可解释性的，因为可以通过查找投票线索来诊断检测结果。

介绍

主要贡献有:

1.为了在部分遮挡情况下实现语义功能，提出了深度投票和深度投票+两种端到端检测框架。

2.与深度投票相比，快速神经网络的检测精度更高，测试速度提高了2.5倍。除此之外，它还提供了通过寻找选票来解释检测结果的可能性。

算法流程

图1深度投票框架

1.将图片输入16楼的VGGNet，获得pool-4功能；

2.池-4特征输入到VC层，得到可视化概念图；

3.视觉概念图通过投票层得到语义部分图；

4.基于语义局部图，进行边界盒回归，然后进行非最大值抑制，得到最终结果。

主要结果

1.非屏蔽语义部分检测

如图2所示，展示了文章在通畅图上的语义部分检测准确率。无论视觉概念是通过K-Means聚类还是深度投票获得的，投票和深度投票的平均检测准确率都明显高于使用单一视觉概念的检测准确率。。

图2六种方法对通畅图片的检测准确率(平均AP，%)

1.1比例尺预测精度

在大于75%的条件下，预测的相对误差小于10%。事实上，这些预测结果对于深度投票来说已经足够准确了。即使提供了地面的真实比例并相应地重新缩放图像，检测精度也从72.0%略微提高到74.5%。

图3预测规模与实际规模之比分布图

2.遮挡语义部分的检测

如图4所示，当遮挡为L1、L2和L3时，深度投票法的检测精度远高于投票法和fast-RCNN法。

图4四种方法对遮挡图片的检测精度(平均AP，%)

为了验证fast-RCNN在检测遮挡图片的语义部分时，建议召回率和分类器性能的明显下降，本文对建议召回率和分类器的准确性进行了评估。结果如图5所示。图左侧四列的结果表明，随着遮挡程度的提高，建议召回值显著降低。图中中间三列是基于fast-RCNN处理不同级别遮挡图片的mAPs(%)，图中右边三列是基于DeepTopping+处理不同级别遮挡图片的mAPs(%)。可以看出深度投票+优于更快的RCNN。

图5建议召回和分类器评估结果

3.可视化视觉概念和热图

图6展示了一些典型的学习视觉概念和空热图。可以看出，学习到的视觉概念和空之间的热图在语义上是有意义的，即使训练时只有语义上的部分监督。

图6空之间的视觉概念和热图可视化

4.测试结果的解释

基于深度投票和深度投票+的方法可以解释检测结果。如图7所示，本文给出了无遮挡、部分遮挡和完全遮挡三个例子。研究发现，深度投票可以推断遮挡的语义部分，找到用于诊断的视觉投票概念(支持)，挖掘错误，理解文章方法的工作机制。

图7深度投票可以实现测试结果的解释

摘要

在本文中，我们研究了在部分遮挡情况下检测物体语义部分的任务，例如汽车车轮。我们建议，所有的模型都应该在没有看到遮挡的情况下进行训练，同时能够将所学的知识用于处理遮挡。此设置减轻了收集指数级大数据集以覆盖遮挡模式的难度，并且更为重要。在这种情况下，

基于提议的深度网络，像RCNN系列，经常产生不令人满意的结果，因为提议的牵引和分类阶段都可能被不相关的阻塞器混淆。为了解决这个问题，[25]提出了一种投票机制，它结合了多个局部视觉线索来检测语义部分。语义部分仍然可以被检测到

即使一些视觉线索由于遮挡而丢失。然而，这种方法是手动设计的，因此很难以端到端的方式进行优化。

在本文中，我们提出了深度投票，它将[25]所示的鲁棒性结合到深度网络中，从而可以联合优化整个管道。具体来说，它在深层网络的中间特征之后添加了两层，例如VGGNet的池4层。第一层提取局部视觉线索的证据，第二层通过利用空间

视觉线索与语义部分的关系。我们还提出了一个改进的版本DeepTopping+通过从外部对象的上下文中学习视觉线索。在实验中，

对于遮挡情况下的语义部分检测，深度投票的性能明显优于几种基线方法，包括快速RCNN。另外，Deep-

投票具有可解释性，因为可以通过查找投票线索来诊断检测结果。

【泡泡机器人SLAM】微信官方账号。

泡泡机器人SLAM的原创内容是泡泡机器人的成员花了很大力气做出来的。希望大家珍惜我们的劳动成果。请注明来源于【泡泡机器人SLAM】微信微信官方账号，否则追究侵权！同时，我们也欢迎大家转载到自己的朋友圈，让更多的人进入SLAM领域，让我们一起为推动SLAM在中国的事业而努力！

如需业务合作和转载，请联系liufuqiang_robot@hotmail.com

1.《voting 【泡泡图灵智库】DeepVoting:部分遮挡下语义部分检测的强大可解释深度网络》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《voting 【泡泡图灵智库】DeepVoting:部分遮挡下语义部分检测的强大可解释深度网络》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/caijing/992614.html

voting 【泡泡图灵智库】DeepVoting:部分遮挡下语义部分检测的强大可解释深度网络

施罗德被交易至湖人具体什么情况

腾讯因全民K歌涉黄被罚全面整改到底什么情况

美禁止投资部分中企商务部回应什么情况

抗菌科普|深度剖析！抗菌原理及抗菌纤维！

自如暂停部分租金贷业务具体是什么情况

西藏那曲市比如县发生6.1级地震震源深度10千米

快讯！西藏那曲市比如县发生6.1级地震震源深度10千米

voting 【泡泡图灵智库】DeepVoting:部分遮挡下语义部分检测的强大可解释深度网络

施罗德被交易至湖人 具体什么情况

腾讯因全民K歌涉黄被罚全面整改 到底什么情况

美禁止投资部分中企商务部回应 什么情况

抗菌 科普|深度剖析！抗菌原理及抗菌纤维！

自如暂停部分租金贷业务 具体是什么情况

西藏那曲市比如县发生6.1级地震 震源深度10千米

快讯！西藏那曲市比如县发生6.1级地震 震源深度10千米

施罗德被交易至湖人具体什么情况

腾讯因全民K歌涉黄被罚全面整改到底什么情况

美禁止投资部分中企商务部回应什么情况

抗菌科普|深度剖析！抗菌原理及抗菌纤维！

自如暂停部分租金贷业务具体是什么情况

西藏那曲市比如县发生6.1级地震震源深度10千米

快讯！西藏那曲市比如县发生6.1级地震震源深度10千米