本篇文章1749字,读完约4分钟
雷锋。(公开号码:雷锋。ai科技评论:尽管2017年cvpr已经结束,精彩论文的解读仍在继续。以下是王金伟,穆明塔的高级研究员,他解释了这篇文章的例外:深度学习与深度方向可分离卷积包括在这次会议中。
切割模块是在imagenet上获得最佳结果的一大类模型的基本模块,如googlenet、initiative v2/v3和initiative-resnet。与传统网络(如vgg)不同,vgg通过堆叠简单的3*3卷积实现特征提取,初始模块通过结合1*1、3*3、5*5和具有更少参数和更少计算开销的汇集结构,可以学习更丰富的特征表示。
通常,一组特征图上的卷积需要一个三维卷积核,即卷积核需要同时学习空相关和通道相关。初始模块的思想之一就是明确地将这两种相关性分开。首先,初始模块使用1*1卷积核将特征图的每个通道映射到一个新的空,并在此过程中学习通道之间的相关性;然后,使用常规的3*3或5*5卷积核来研究空和信道之间的相关性。
但是此时,通道之间的相关性和空之间的相关性仍然没有完全分离,也就是说,3*3或5*5卷积核仍然是多通道输入,那么我们能假设它们可以完全分离吗?显然,当所有3*3或5*5卷积都作用在只有一个通道的特征图上时,通道之间的相关性和空之间的相关性达到了完全分离的效果。
如果初始模块被简化,则仅保留包含3*3卷积的分支:
然后拼接所有1*1卷积:
进一步增加3*3卷积的分支数量,使其等于1*1卷积的输出通道数量:
此时,每3*3个卷积作用在只包含一个通道的特征图上,作者称之为“极限初始(extreme inception)”模块,它是异常的基本模块。事实上,通过调整每个3*3卷积特征图的通道数,即调整3*3的卷积分支数与1*1的卷积输出通道数之比,可以实现传统初始模块与“极值初始”模块之间的一系列状态。
利用“极限初始”模块,作者建立了一个由一系列可分节点(即“极限初始”)组成的异常网络,类似于resnet的剩余连接形式和其他一些常规操作:
作者通过tensorflow实现了异常,并使用60台nvidia k80在imagenet和jft(谷歌内部图像分类数据集,包含3.5亿幅图像的17,000个类别)上进行了训练,并分别在imagenet和fasteval14k上进行了测试。在imagenet上,与事件v3和resnet-152或vgg-16(单一模型,单一作物)相比,异常的准确性有所提高:
在jft/fasteval14k上,与initiative v3相比,xception实现了比imagenet更高的精度提升:
同时,与初始v3相比,异常的参数数量减少,训练过程中的迭代速度没有明显减慢:
此外,imagenet和jft上的训练过程表明,与初始v3相比,xception具有更高的最终精度和更快的收敛过程:
类似于在异常中添加resnet的剩余连接机制也显著加快了异常的收敛过程,并获得了显著更高的精度:
值得注意的是,在“极限初始”模块中,在用于学习通道间相关性的1*1卷积和用于学习空间相关性的3*3卷积之间,不添加非线性单元将比添加relu或elu激活函数带来更快的收敛过程和更高的精度:
本文介绍了深度卷积运算,即具有相同组数、输入通道数和输出通道数的卷积层,近年来在许多cnn模型结构设计工作中得到了应用,包括因子卷积神经网络、xception、mobilenet和shufflenet等。,resnext中使用的大量组卷积运算与它们类似。它们中的一些在imagenet上取得了很好的效果,而另一些则大大减少了模型的理论计算,但损失了较少的精度。本文从空相关和通道间相关的角度解释了深度卷积,认为这是将学习空相关和学习通道间相关的任务完全分开的一种方法。
事实上,该操作也可以从低秩的角度来理解,即,每个输入通道上的可学习卷积参数的秩被限制为1。然而,潜在的问题是,虽然深度卷积可以提高精度或大大减少理论计算量,但由于其计算过程是分散的,现有卷积神经网络实现的效率不够高。例如,本文中异常的理论计算量远小于初始v3,但其在训练过程中的迭代速度较慢。期望将来更有效地实现深度卷积。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
标题:CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)的介绍
地址:http://www.hcsbodzyz.com/hcxw/5577.html