本篇文章4675字,读完约12分钟
雷锋。(公开号码:雷锋。龙建瑞,深圳大道智创科技有限公司创始人之一、R&D董事,伊利诺伊理工大学博士生,“电子巡逻机警长”首席产品经理。
同步定位和绘图(slam)通常指的是一种系统,该系统收集和计算机器人或其他载体上的各种传感器数据,以生成其自身的位置和姿态定位以及场景地图信息。Slam技术对于机器人或其他代理的行动和交互能力至关重要,因为它代表了这种能力的基础:知道你在哪里,知道周围的环境,然后知道如何在下一步中自主行动。它广泛应用于自主驾驶、服务机器人、无人机、ar/vr等领域。可以说,所有具有一定移动性的代理都有某种形式的slam系统。
一般来说,slam系统通常包含各种传感器和各种功能模块。根据核心功能模块,普通机器人slam系统一般有两种形式:基于激光雷达的slam和基于视觉的slam。
激光slam简介激光slam诞生于早期基于测距的定位方法(如超声波和红外单点测距)。激光雷达(光探测和测距)的出现和普及,使测量更快、更准确,信息更丰富。激光雷达采集的目标信息呈现出一系列具有精确角度和距离信息的散乱点,称为点云。通常,激光slam系统通过匹配和比较不同时刻的两点云来计算激光雷达的相对运动距离和姿态变化,从而完成机器人自身的定位。
激光雷达测距更精确,误差模型简单,在阳光直射以外的环境中运行稳定,点云处理更容易。同时,点云信息本身包含直接的几何关系,使得机器人的路径规划和导航更加直观。激光slam的理论研究相对成熟,着陆产品更加丰富。
图1,激光slam的地图构建(谷歌制图员[1])
眼睛是人类获取外部信息的主要来源。视觉slam具有相似的特性,能够从环境中获取大量冗余的纹理信息,具有优越的场景识别能力。早期的视觉slam是基于滤波理论,其非线性误差模型和庞大的计算量成为其实际应用的障碍。近年来,随着稀疏非线性优化理论、相机技术和计算性能的发展,实时视觉slam不再是梦想。
通常,vslam系统由前端和后端组成(图2)。前端负责通过视觉增量计算机器人的位置和姿态,速度快。后端主要负责两个功能:
首先,当存在循环时(即,确定机器人已经返回到先前访问过的地方的附近),找到循环,并且校正两次访问中间的每个地方的位置和姿势;
其次,当前端跟踪丢失时,根据视觉纹理信息重新定位机器人。简单地说,前端负责快速定位,而后端负责慢速地图维护。
vslam的优势在于其丰富的纹理信息。例如,两个大小相同但内容不同的广告牌不能用基于点云的激光slam算法来区分,但可以很容易地用视觉来区分。这在重新定位和场景分类方面带来了无可比拟的优势。同时,视觉信息可以方便地用于跟踪和预测场景中的动态目标,如行人和车辆,这对复杂动态场景的应用非常重要。第三,视觉投影模型理论上可以使无穷远处的物体进入视觉画面,在合理的配置下(如长基线双目摄像机),可以用来定位大规模场景和构建地图。
图2,可视化slam的前端定位和后端地图维护(orb-slam2[2])
接下来,我们将在子项目中比较激光slam和vslam。
应用场景
在应用场景中,根据使用的激光雷达等级,激光slam基本上分为不同的室内应用和室外应用,vslam在室内和室外都有丰富的应用环境。vslam面临的主要挑战是光照变化,如中午和晚上室外的跨时定位和地图构建,其工作稳定性不如高端室外多线激光雷达。近年来,基于深度学习的光照模型修正和高鲁棒性特征点在视觉slam的研究中得到了广泛的应用,并取得了良好的效果。应该说,随着这些技术的进步,vslam将在光照变化的环境中具有更稳定的性能。
影响稳定工作的因素激光slam不善于在动态环境中定位,如大量人员阻挡其测量环境,也不善于在类似的几何环境中工作,如长而直的环境,两边都有墙。由于重定位能力差,激光slam在跟踪丢失后很难恢复工作状态。然而,视觉slam在无纹理环境(如干净的白色墙壁)和光照特别弱的环境中表现不佳。
定位和地图构建精度在静态和简单的环境中,激光slam定位一般优于视觉SLAM;然而,在大规模动态环境中,视觉slam由于其纹理信息而显示出更好的效果。在地图构建中,激光slam的特点是单点测量更加精确,但地图信息较少;视觉slam,尤其是三角测距法,在单点和单次测量精度上普遍不如激光雷达,但通过重复观测可以反复提高精度,具有更丰富的地图信息。
一般来说,激光slam缺乏环路检测能力,因此很难消除累积误差。然而,视觉slam使用了大量的冗余纹理信息,因此循环检测很容易,即使在前端积累了某些错误,这些错误仍然可以通过循环校正来消除。
传感器成本激光雷达实际上有许多等级,其成本高于视觉传感器。最昂贵的室外长距离多线雷达,如velodyne,售价数十万元人民币,而室外高端中长距离平面雷达,如病假和火影,售价约数万元人民币。广泛用于室内的中低端平面激光雷达也需要几千元,其价格相当于高端工业相机和感光芯片。大规模生产后,激光雷达的成本可能会大大降低,但能否降低到同等级相机的水平仍是一个很大的问号。
传感器安装和稳定性目前,常用的激光雷达为旋转扫描式,机械结构长期旋转会给系统带来不稳定性,尤其是在碰撞和晃动时。然而,相机不包括移动的机械结构,这对于空有较低的要求,并且可以在更多的场景中安装和使用(图3)。然而,固态激光雷达的逐渐成熟可能会给激光slam带来这一缺点。
图3激光雷达和视觉系统的安装和应用。谷歌无人驾驶飞行器上的多线激光雷达
dji Elf 4上的视觉系统。
算法难度激光slam由于其成熟的研究和相对简单的误差模型,在算法上具有较低的阈值,一些开源算法甚至作为标准被纳入ros系统。另一方面,视觉slam,首先,图像处理本身是一门很深的学问,而基于非线性优化的地图构建也是一个非常复杂和耗时的计算问题。有许多优秀的开源算法(如orb-slam[2]、lsd-slam[3]),但在实际环境中优化和改进现有的视觉slam框架,如增加光照模型、使用深度学习提取特征点、使用单目和双目融合视角等,将是进一步提高视觉slam性能和实用性的唯一途径。这些技术的算法阈值远高于激光slam。
毫无疑问,激光slam的计算性能要求远低于视觉slam。主流的激光slam可以在普通arm cpu上实时运行,而视觉slam基本上需要强大的准桌面cpu或gpu支持。然而,该行业也看到了巨大的机遇,为视觉处理定制的asics市场已经准备就绪。英特尔旗下的movidius就是一个很好的例子。他们设计了一种特殊的架构来处理图像、视频和深层神经网络,并以超低功耗达到了只有桌面gpu才有的吞吐量。Dji的Elf 4系列产品利用这种特殊芯片实现了高速低功耗的视觉计算,为无人机避障和近地面场景导航提供了基础。
多机器协作视觉主要是被动检测,不存在多机器人干扰问题。然而,当有更多的机器人时,激光雷达的主动发射可能会造成干扰。尤其是固态激光雷达的广泛使用,可能会使场景充满信号污染,从而影响激光slam的效果。
在未来,激光大满贯和视觉大满贯擅长赢得比赛,当单独使用时,它们有自己的局限性,而综合使用可能有很大的潜力来学习彼此的长处。例如,视觉在具有丰富纹理的动态环境中稳定工作,能够为激光slam提供非常精确的点云匹配,而激光雷达提供的精确方向和距离信息将对正确匹配的点云发挥更大的作用(图4)。然而,在光照严重不足或缺乏纹理的环境中,激光slam的定位工作使视觉能够记录信息很少的场景。
图4,kitti数据集的视觉里程表。双筒视觉。
v-壤土[4],视觉引导激光矫正。
实际上,激光和视觉slam系统几乎总是配备有惯性组件、船用里程表、卫星定位系统、室内基站定位系统和其他辅助定位工具。近年来,slam系统与其他传感器的集成成为热点。不同于以往基于卡尔曼滤波的松耦合融合方法,基于非线性优化的紧耦合融合是学术界研究的热点。例如,与imu的融合和实时相互校准使激光或视觉模块在机动(剧烈加速、减速和旋转)时保持一定的定位精度,防止跟踪丢失,大大提高定位和地图构建的稳定性。
激光点云信息本身仍有潜力可挖。在高端长距离多线激光雷达上,返回的点云不仅包含方向和距离信息,还包含目标点的反射率信息。当行数较大且密度较大时,由反射率信息组成的数据可以视为纹理信息,在一定程度上可以享受到纹理信息带来的视觉算法和重新定位的优势。一旦这些信息被整合到高精度地图中,高精度地图就可以在点云和纹理之间无缝切换,这样,使用高精度地图的定位就可以由只有廉价摄像机的自主车辆共享。这也是一些国外团队的研究方向([5])。
同时,视觉所依赖的投影模型包含丰富的“混合匹配”游戏。长基线和短基线的单目和双目相结合,可以保证大尺度定位水平,提高中近距离障碍物检测和地图构建的精度;广角鱼眼镜头和360度全方位摄像机结合标准单目和双目可以进一步提高vslam的覆盖范围,特别适合根据距离定位不同精度和速度的场景。被动视觉和深度相机的结合产生了rgb-d slam,深度相机范围的逐渐扩大将为这种特殊的vslam带来更多的应用。
vslam的另一个可能更雄心勃勃的扩展是在人工智能领域。端到端深度学习带来的图像特征已经大大超过了人类在识别和分类领域人工选择的sift/surf/orb特征。我们可以有把握地说,通过深度学习训练出来的提取、匹配和位置估计方法在未来一定会超过vslam领域最先进的人工方法。更不用说,图像本身携带了大量的信息,可广泛应用于场景理解、场景分类、物体识别、行为预测等重要方面。未来的视觉处理系统很有可能直接包括定位、地图构建、运动规划、场景理解和交互等几个功能模块,更紧密的结合将带来更智能的机器人动作能力。
如果我们想知道slam技术的过去、现在和未来趋势,我们推荐文献[6]。
结论slam技术将赋予机器人和智能体前所未有的机动性。作为目前slam框架的主要类型,激光slam和视觉slam将在相互竞争和融合中发展,这将带来机器人技术和人工智能技术的真正革命,也将使机器人走出实验室和展厅,真正服务和解放人类。
引用参考:
[1]制图员github/谷歌制图员
[2] orb-slam2 r. mur-artal和j. d. tardos,“orb-slam2:单眼、立体和rgb-d摄像机的开源slam系统”,ieee机器人事务(2017)。
[3] lsd-slam j. engel,j. stuckler和d. cremers,“带立体摄像机的大规模直接slam”,智能机器人和系统(iros),2015年ieee/rsj国际会议。ieee,2015
[4]v-loom j . Zhang和s. singh," visual-lidar odometry and mapping:low-flood,robotics and automation (icra),2015 ieee国际会议。ieee,2015。
[5] g. pascoe,w. maddern和p. newman,“变化的城市环境中道路车辆的直接视觉定位和校准”,ieee计算机视觉研讨会国际会议记录,2015年。
[6] c. cadena等人。艾尔。“同步定位和绘图的过去、现在和未来:走向鲁棒感知时代”,ieee机器人事务32.6 (2016): 1309-1332。
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
标题:激光SLAM与视觉SLAM的现状与趋势
地址:http://www.hcsbodzyz.com/hcxw/7097.html