我们的自我监督场景占领[1]很荣幸被接受为cvpr2020的口头代表。自18世纪末以来,无监督的去遮挡和场景分解的问题就一直被考虑,因为以前没有工作来很好地定义场景遮挡的问题,更不用说解决它了,更不用说用无监督的方法来解决它了,所以很多坑在早期阶段就被踩上了。那为什么要使用无人监管的?监督当然可以解决问题,但它并不具有挑战性(被划掉),因为amodalmask(包括可见和遮挡区域)的标记非常困难,并且具有很大的不确定性和模糊性。同样令人兴奋的是发现自我监督学习可以解决场景遮挡的问题。尽管经历了一段很长的跌宕起伏的时期,但最终还是花了一年多的时间才在2020年的cvpr与你相遇。
一个
问题定义
言归正传。让我们首先看看我们希望达到什么效果,如下所示:
我们希望将真实场景图片分解成完整的对象和背景,并根据对象之间的遮挡关系形成有向图。我们将场景去遮挡问题分解为以下步骤:
1.相邻对象之间的顺序被恢复。通过成对排序,我们可以得到一个描述场景遮挡关系的有向图,称为遮挡图。
2.amodalcompletion .在遮挡图中,我们可以检索哪些对象被任何对象遮挡,这样我们就可以执行amodalcompletion步骤来恢复对象的完整遮罩。
3 .内容完成.使用amodalmask,我们知道对象的遮挡区域(不可见部分),因此下一步是找到一种方法来填充不可见部分的rgb内容,以便可以恢复对象的完整外观。
我们现在拥有的数据包括rgb图片、modalmask和对象类别。模态掩码指的是对象可见部分的掩码,实际上是一般意义上的实例化掩码。实际上,这些只是构成了一个实例化的数据集,如coco、kitti和lvis。注意,在这样的数据集中没有遮挡关系和amodalmask标注,所以监督学习的思想不能解决上述问题。
二
自我监控部分完成机制
下面介绍一个重要的概念,它是部分完成的。在此之前,让我们介绍一下完整的。
如果有一个完整的注释,您可以使用完整的完成来训练和预测
完全完成是指在给定被遮挡物体及其障碍物的情况下,完成一个物体的完全遮挡。当然,它的前提是应该监督接地。我们发现一个完全完成相当于一系列部分完成。
完全完成可以转化为一系列部分完成
这里的部分完成意味着,给定某个遮挡,只有被当前遮挡遮挡的目标对象部分完成。例如,给定上图中的圆形障碍物,将m0设为m1。然而,这些部分完成过程是不可训练的,因为中间完成状态(如m1)和最终状态(如m2)是未知的。
接下来是手术。如下图所示,我们再次剪切m0,即从数据集中随机选择一个对象,用它的modalmask覆盖m0,得到m-1。然后我们训练部分完成并从m-1中恢复m0。这个过程是可以训练的。
自我监控部分完成机制
对于部分完成机制,为了促进以下步骤,我们还需要引入一个常规机制,即下面的案例2。
部分完成的正规化
案例1是用随机选择的替代对象覆盖目标对象。使用case1训练部分补码总是会增加对象的面积。我们还引入了案例2,它将代理对象放在目标对象下,然后要求在部分完成的过程中保持目标对象不变。训练过程在案例1和案例2之间随机切换,因此网络需要从输入中挖掘信息来判断目标对象是否被代理对象阻挡。只有当目标对象被阻塞时,它才会部分完成,否则它将保持不变。
三
部分完成的网络培训
我们使用神经网络来模拟部分完成过程。部分互补网络掩码(简称PCM net-m)的训练过程如下,其中A对象是目标对象,B对象是替代对象。对于案例1和案例2,PCM需要恢复A的初始模式图..
训练部分互补网络(PCM net-m)
四
顺序恢复的推理过程
如下图所示,使用经过训练的PCM net-m,我们设计了以下推理过程来恢复遮挡顺序。给定两个相邻的对象a1和a2,我们分别将a1作为目标对象和a2作为替代对象,并且我们发现PCM net-m没有增加a1的面积。相反,我们把a2作为目标对象,a1作为替代对象,我们发现a2的面积增加了。由此我们可以判断a1阻挡a2。
订单回收的双重完成
这种策略看似简单,实际上,它巧妙地利用了正则化部分完成机制的选择性完成特性,取得了良好的效果。我们得到的结果与可可和金斯数据集的监督方案非常接近。
订购恢复定量测试结果
五
基于遮挡顺序的不规则补全
如下图所示,利用遮挡序列,我们可以构建一个遮挡序列图。图中的边从被遮挡的对象指向被遮挡的对象,因此对于图中的任何对象,我们都可以得到它的所有祖先节点,即它的所有被遮挡的对象。其中,一阶祖先节点是直接障碍,高阶祖先节点是间接障碍。例如,在下面的例子中,我们可以得到物体3有两个直接的障碍物,即2和4。判断障碍物后,我们可以再次使用PCM net-m来恢复amodalmask。
基于遮挡顺序的自动补全推理过程
我们还需要解释为什么所有的祖先节点都应该被选择为遮挡,而不仅仅是直接被遮挡的一阶祖先节点。如下所示,我们需要完成对象1。从遮挡图来看,它的一阶祖先节点(直接遮挡)是2和4,它的高阶祖先节点(间接遮挡)是3。我们发现仅考虑一阶障碍,不可能用物体3来完成物体1的间接障碍。只有考虑了所有的祖先节点,才能得到正确的完成结果。
将一阶祖先节点与包括高阶祖先在内的所有祖先节点进行比较
以下是amodalcompletion的结果。同样,我们在amodalcompletion的子任务上用监督方案取得了非常接近的结果。
阿莫达完井的定量测试结果
amodalcompletion的可视化结果
六
内容完成
内容完成网络(pcnet-c)的训练方法与PCNET-M相似,同样,在训练过程中,我们不能用完整内容完成的结果来监督,所以我们设计了以下部分内容完成的训练策略。给定目标对象a和代理对象b,我们使用a∪b擦除图片的rgb作为要填充的缺失内容,然后使用ab表示缺失内容属于哪个对象。训练的目标是恢复原始图像。
培训内容部分补充了PCNET-C网络
在测试过程中,我们有目标物体的遮光器和遮光板,我们得到要被填充的区域(即,被遮挡的区域)。同时,目标对象的modalmask也被用作输入,以指示丢失的区域属于目标对象而不是其他对象。最后,pcnet-c完成了该对象的完整外观。
(说得太花哨了,这不是图像修复吗?
这真的不一样。让我们往下看。
如下图所示,关键的区别在于图像修复没有modalmask输入,因为图像修复不关心丢失部分属于哪个对象,只要结果看起来合理。然后,如果我们直接使用图像修复,丢失的区域将被其他物体的rgb填充,比如下面的咖啡杯。这个结果对于图像修复是非常合理的,但是对于对象的内容完成是不正确的。
当然,pcnet-c的其他训练方法,包括网络结构和损失,都类似于图像修复。因此,图像修复在将来会做得更好,这也将有助于提高内容完成的效果。
七
应用1:自动生成1:amodalmask
给定一个普通的instancesegmentationdataset,例如下图中的kittitrainingset,我们训练PCM net-m,并且仍然将我们的amodalcompletion方法应用于训练集,然后我们可以得到伪amodalmasks。就这样,我们在训练集上免费得到了一批口罩。
让我们来比较一下这些口罩和手工贴上标签的口罩的质量。我们使用来自不同来源的amodalmask作为监督,用maskr-cnn在kitti上训练amodalinstancesegmentation任务,并在人工标记的测试集上进行测试。我们发现通过我们的方法获得的amodalmask与手工标注完全相同。这意味着将来可能没有必要标记amodalmask。
八
应用2:场景编辑和重组
现在我们可以分解场景,我们可以编辑和重组场景。下图显示了基于基线模式的操作是基于普通的图像修复,只有modalmask,没有排序和amodalmask。我们的方法是基于排序和amodalmask,它可以做更多的自然场景编辑。
我们还制作了一个图形用户界面用于图片编辑,演示如下(完整的高清演示请参见文章末尾的链接):
场景编辑和重组
九
其他潜在应用
1.我仍然记得去年的一个伟大的工作(instaboost[2],iccv2019),它通过移动对象进行数据增强,但是它不能解决移动对象期间的遮挡问题。现在,有了场景遮挡,也许我们可以做得更好。
2.帮助全景光学分割后处理中的融合步骤。
3.适用于增强现实(ar)。例如,在下图中,在去除真实场景的遮挡后,虚拟对象可以放置在真实对象的后面。
十
讨论
1.我们能解决两个物体相互阻挡的问题吗?不行。因为在下图中相互遮挡的情况下,不能定义有序图。排序图是对象级的,但是需要边界级的去占用来相互阻塞。这相当于给每个人留下一个开放的问题让他们思考。
相互遮挡的示例
2.可以解决多个对象的圆形遮挡吗?当然可以。因为我们的方法是成对恢复顺序的,所以圆形遮挡没有问题。如下图所示(因为圆形遮挡的例子很少,我用剪刀剪了几张纸来设置这样的图片,然后运行了一个测试),预测排序图也是一个环。
圆形闭塞的示例
论文:arxiv.org/abs/2004.02788
代码:github/xiaohangzhan/de oclusion
演示视频(YouTube):www.youtube/watch? v =西克西娅布5古
演示视频(乙站):www.bilibili/video/bv1jt4y157wt
参考:
[1]小航占,新港盘,戴博,伊茨韦柳,大华林,汉昌洛依.自我监控-闭塞. incvpr2020 .
[2]郝-方舒,孙建华,润中旺,明壕沟,永鹿力,和谢乌鲁. insta boost:boostinginstancsegmentationvia概率mapguidedcopy-pasting . inicv2019 .
标题:自监督场景去遮挡
地址:http://www.hcsbodzyz.com/hcxw/437.html