本篇文章2121字,读完约5分钟

雷锋。(公开号码:雷锋。ai科技评论:尽管2017年cvpr已经结束,精彩论文的解读仍在继续。以下是穆明塔的高级研究员陈亮,他解释了文章“点网:三维分类和分割的点集深度学习”。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

随着激光雷达、rgbd相机等3d传感器在机器人和无人驾驶领域的广泛应用。对三维点云数据的研究已经逐渐从低层次的几何特征提取(pfh、fpfh、vfh等)转向了高层次的几何特征提取。)到高级语义理解(点云识别、语义分割)。图像感知领域的深度学习几乎主导了整个世界,而针对无序点云数据的深度学习方法的研究进展缓慢。对其背后原因的分析不外乎三个方面:

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

1.点云有紊乱。受采集设备和坐标系的影响,同一物体被不同的设备或位置扫描,三维点的排列顺序变化很大,很难通过end2end模型直接处理这些数据。

2.点云稀疏。在机器人和自动驾驶场景中,激光雷达的采样点覆盖与场景的尺度相比是稀疏的。在kitti数据集中,如果原始激光雷达点云被投影到相应的彩色图像上,只有大约3%的像素具有相应的雷达点。这种强稀疏性使得基于点云的高级语义特别难以理解。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

3.点云中的信息量是有限的。点云的数据结构是由一些三维空组成的点集,本质上是对三维世界几何形状的低分辨率重采样,因此它只能提供片面的几何信息。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

面对上述困难,斯坦福大学的学者们提出了点网并给出了自己的解决方案。点网是第一个直接处理无序点云数据的深层神经网络。一般来说,深层神经网络要求输入信息具有标准化的格式,如二维图像、时间语音等。然而,在空.,原始的三维点云数据往往是一些无序的点集假设某个点云包含N个3D点,每个点由(x,y,z) 3D坐标表示。即使不考虑遮挡和视角的变化,也有N!有点可能。因此,我们需要设计一个函数,使函数值与输入数据的顺序无关。事实上,在代数组合学中,这样的函数被称为对称函数。在点网中,作者使用最大汇集层作为主要的对称函数,这很简单,但实验证明效果很好。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

上图显示了pointnet的网络架构。输入是包含n个点的三维点云(nx3)。通过3d空变换矩阵t-net(3)预测原始数据,并估计3×3变换矩阵t(3)并将其应用于原始数据以实现数据对齐。对齐的数据将以点为单位,特征提取将由共享参数的两层感知器模型来执行。从每个点提取64维特征,然后通过特征空之间的变换矩阵预测网络t-net(64)预测64×64变换矩阵,其作用于特征以实现特征的对准。然后,使用三层感知器(64,128,1024)以特征点为单位提取特征,直到特征的维数变为1024。然后,对空特征之间的维度进行最大化合并,提取点云的全局特征向量。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

在点云分类任务中,支持向量机或多层感知器可以通过特征向量直接训练进行分类,而在点云分割或分块任务中,需要结合每个点的局部特征和全局特征进行特征融合和处理,实现逐点分类。在点网中,特征对齐后的64维特征被视为点的局部特征,最后的1024维特征被视为点的全局特征。因此,通过简单的拼接,将局部和全局特征捆绑在一起,并使用多层感知器进行融合。最后,训练分类器实现逐点分类。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

点网是第一个能够直接处理原始三维点云的深层神经网络。这种新颖的网络设计可以直接处理原始点云,然后完成高级点云分类和语义分割的任务,并且完全依赖于数据。从实验验证的结果来看,其效果与目前最好的结果相当,甚至在某些方面超过了最先进的水平,值得进一步探索和研究。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

作者的问答:

问:是否需要对输入的原始三维点云数据进行归一化?

答:像其他网络的输入一样,输入的点云数据需要用零均值进行归一化,以保证更好的实验性能。

问:用深度神经网络处理三维离散点云有什么困难?pointnet如何解决这些困难?

答:深度神经网络处理三维离散点云数据的难点主要在于点云的无序和输入维数的变化。本文采用深层神经网络中常用的对称函数:最大池来解决无序问题,并采用共享网络参数的方法来处理输入维数的变化,取得了良好的效果。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

问:rnn/lstm可以用来处理三维点云数据吗?

答:RNN/LSTM可以处理序列数据,可以是时间序列或空.因此,从输入和输出的角度来看,它们可以用来处理三维点云数据。然而,点云数据是无序的,点之间的输入序列是不规则的,所以直接使用rnn/lstm不是很有效。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

问:网络在网络结构中的重要作用是什么?你需要预先训练吗?

答:t网是一个预测空.特征之间转换矩阵的子网络它从输入数据中学习与特征空之间的维数一致的变换矩阵,然后将变换矩阵与原始数据相乘,通过这种数据融合实现输入features /き的变换,可以逐步提取原始点云数据中包含的特征。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

问:与q:pointnet和mvcnn的实验结果相比,有些指标稍差。这背后的原因是什么?

答:点网提取了每个独立点的特征描述和全局点云特征描述,没有考虑点的局部特征和结构约束,因此与mvcnn相比,它在局部特征描述上较弱。面对这样的问题,我们在pointnet的基础上做了一些改进和升级。名为pointnet++的新网络已经上传到arxiv。欢迎您阅读、讨论和交流。

CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

论文地址:arxiv/ABS/1612.00000000001

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

地址:http://www.hcsbodzyz.com/hcxw/5255.html