本篇文章1636字,读完约4分钟
雷锋。(公开号码:雷锋。当今,在人工智能、自动驾驶等技术越来越成熟的时期,如何对图像中的对象进行自动分割和分类,即所谓的图像语义分割,显得尤为重要。
目前,大多数图像语义分割算法都是基于深度学习的,但是深度学习的效果很大程度上取决于大量的训练数据。目前,图像分割的方法不超过两种。一种是由标注人员手工标注,如在城市景观中标注(为无人环境下的图像分割提供数据集),但这种方法需要花费大量的人力、物力和时间。例如,下图包含28个目标案例,需要580次手动点击,这确实会伤害手。
二是将目标分割视为一个像素标记问题,自动完成分割。然而,这种方法具有很大的不准确性,并且不能通过人为干预进行校正,因此很难作为地面真实的评价数据。然后,在填充评估数据集(如城市景观)时,我们是否可以自动标记以节省成本,并且在必要时,我们可以手动更正它们以确保准确性?
在《用多边形网络标注对象实例》一文中,作者给了我们一个肯定的回答。与像素标注不同,本文将目标分割视为多边形预测问题,实现了基于深度学习的“半自动”目标案例标注。
该算法首先需要给出边界的真实值。简而言之,您可以使用该框来选择要标记的案例。然后基于递归神经网络算法预测目标案例周围的闭合多边形轮廓。
这个多边形的预测首先通过cnn(卷积神经网络)找到一个起始点,然后在顺时针方向的每次迭代中生成多边形的下一个顶点。rnn的每次迭代输入包括三个方面:
第一个是cnn图片的特征表示(图片中的绿色方块);
第二个是前两次rnn迭代的顶点(图中t-1和t-2的结果);
第三个是起点,用于帮助rnn决定何时关闭多边形。
此多边形轮廓是通过连续生成多边形的其他顶点,然后按顺序连接所有顶点而形成的。整个过程(每个目标案例)平均只需要250毫秒。这个过程的一个奇妙的特点是,每次迭代的结果都会影响后续的迭代,这就为人工干预留下了机会。如果一个顶点的迭代偏离目标情况,人们可以通过修改顶点来提高目标分割的准确性。
那么这种方法的结果是什么呢?在此之前,我们首先理解一个概念:交集超过并集(iou),也就是说,两个图形的交集面积大于并集面积。
显然,在目标分割中,标记图和目标案例之间的iou值越大,解释的准确性越高。让我们来看看多边形rnn自动标记和像素标记之间的比较。假设在城市景观中手动标注的iou为100%,多边形rnn自动预测的结果(无需标注人员的干预)与深度蒙版和锐度蒙版(分辨率高于深度蒙版,160 vs 56)进行比较,如下图所示:
这里,横轴表示对象最长边的像素大小,纵轴表示交叉比率(iou)。显然,当目标情况的像素较小时,多边形-rnn方法的精度高于像素标注方法,而当目标情况较大时,多边形-rnn方法的误差将变得很大。
与手动注释相比,结果如何?一方面,一些研究人员雇佣了一个熟练的标记员在10张随机选择的城市地图上标记所有的汽车。另一方面,研究人员通过该算法模拟了一个“注释器”,并让它自动纠正多边形生成的多边形。结果表明,使用多边形rnn,只需9.39次点击就能模拟出“注释者”,iou值可达78.4%,比手工标注快4.74倍。让我们感受作者的成果:
几名研究人员还利用基蒂的数据重复了上述比较,结果也不例外。多边形-rnn在自动标注中与深度蒙版和锐度蒙版等其他像素标注方法一样准确,但在人工干预的情况下明显优于后两种方法。这表明多边形rnn方法完全不依赖于特定的数据库,是一种可以广泛使用的半自动标记工具,既节省了成本又节省了时间,其精度完全可以胜任。
当然,多边形rnn仍然有一个严重的问题,正如我们前面所说的,那就是,对于大尺寸的目标情况,它的误差将急剧增加。为了解决这个问题,模型需要更高的分辨率,这意味着更多的内存。我们能优化模型本身来减少错误而不增加内存需求吗?让我们拭目以待吧!
雷锋(公开号:雷锋)(公开号:雷锋)注:用多边形标注对象实例的原始链接
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:“图像语义分割”自动学习数据不够吃,他们这么做来加快给它填数据
地址:http://www.hcsbodzyz.com/hcxw/10784.html