本篇文章5056字,读完约13分钟
Imagenet的竞争已经结束。
夏威夷当地时间7月26日,也就是2017年美国计算机视觉研究中心(cvpr)的最后一天,李菲菲教授和其他学者在imagenet研讨会上回忆了过去八年中计算机视觉(cv)发展的imagenet时代,并宣布挑战最终归于卡格尔。
同一天上午,webvision还宣布了一等奖获得者。
网络视觉竞赛由苏黎世联邦理工学院、谷歌研究院、卡内基梅隆大学等联合举办。正式来说,它的任务是接管imagenet竞争。然而,相比之下,webvision使用的数据集是直接从网络上抓取的,没有手工标记,并且包含大量的噪声。此外,数据的种类和数量远远大于imagenet。
那么,为什么imagenet会结束呢?webvision将如何促进简历发展?简历学术和应用研究的出路在哪里?带着这些疑问,雷科技评论与许多计算机视觉专家进行了交流。
在cvpr研讨会上,李菲菲教授作为谷歌研究院的代表和竞赛的赞助商,向Codelong技术算法团队颁发了网络视觉冠军奖
为什么cvpr 2017并不令人惊讶?在为期六天的会议期间,cvpr 2017论文的结果通常通过口头报告、研讨会、海报、聚光灯等方式展示。,但业内人士普遍认为“今年没有特别令人兴奋和惊讶的结果。”上汤科技联合实验室的琳达·华教授解释说,包括最好的论文如《天津互联协同网络》,我们已经看到了许多不同的网络设计思想和切入角度。这些扎实的工作推动了现有系统和架构向前迈进了一步,但普遍缺乏根本性的突破。
近几年来,通过在imagenet数据集下的深度学习,计算机视觉和模式识别的研究取得了很大进展。然而,正如webvision的组织者文立博士所指出的,培训依赖于数据标注,这也是简历研究在过去遇到瓶颈的原因。由于许多实际场景中没有大规模的标注数据,如果webvision希望实现促进半监督或无监督学习对图像理解的初衷,将更符合实际应用。
地平线机器人公司的创始人兼首席执行官余凯在接受雷锋采访时说。“目前的深度学习实际上是一个有问题的框架。它基本上是用大数据和大量标记数据训练的。这在过去几年中是成功的,但这并不意味着这是正确的方向。”余凯说,目前的计算机视觉系统是一个培训系统,而不是一个学习系统。我们需要从训练系统转变为学习系统,让机器主动学习数据结构和时间/时间空,而不是被动地用手动训练来标记它。“这在自动驾驶领域尤其重要,因为在驾驶中总是有许多不在训练数据集中的死角。”
关于简历研究的现状,林大华教授指出:“似乎有新的成果诞生,但停滞不前,就像过去几年里深入学习的状态一样,才开始流行。”尽管各种想法层出不穷,但许多核心问题尚未取得新的突破。”
然而,面对今年来自世界各地的5000多名与会者的盛会,华教授说:“现在我们正处于承前启后的阶段,大家都非常关注计算机视觉领域。目前,许多研究小组正在积极探索新的问题和方向。我相信,在今后一两年里,我们可以在许多方面取得新的突破。”
以腾讯人工智能实验室等大公司的两篇论文《弱监督目标定位的深度自学》为例,提出依靠检测器自身不断提高训练样本质量,解决弱监督目标检测中训练样本质量低的瓶颈;和“多样的图像注释”,它用少量多样的标签表达尽可能多的图像信息。目标是充分利用标签之间的语义关系,使自动标注结果更接近人类标注——所有这些都强调了自主学习方法的突破和对模型的理解。
寻找下一个“突破”的方向和出路在今年的cvpr中,论文比例最高的五个类别是:计算机视觉中的机器学习(24%)、物体识别和场景理解(22%)、三维视觉(13%)、低级和中级视觉(12%)以及图像中的人类分析(11%)
所谓的“突破”是指每个人都渴望解决这个问题,但暂时没有好的办法来解决,所以这要看谁提出好的办法。从今年cvpr的结果来看,数据集的研究仍然是热点;但是,华教授指出,到目前为止,imagenet已经基本达到了极限。“当一件事情的标准是98%和99%时,从学术的角度来看,这件事情就做到了这种程度,学术界的使命也就差不多结束了。”
因此,无论是新升级的webvision竞赛,还是大公司的研发,作为学者的人们如何发现新的挑战?
林大华教授介绍雷锋的《人工智能科技评论》。根据他的实验室研究,cv领域有三个主要的突破方向,它们的未来和挑战是什么?
方向1:制作更大、更具挑战性的数据集
在webvision研讨会上,谷歌科学家介绍了如何用3亿张3d图片进行深度学习。更早些时候,雅虎在被收购前还发行了一个“yfcc 1亿”,其数据库达到了10亿。
然而,这些数据的最大问题是,像imagenet这样的数亿个数据集几乎不可能被标记。由于数据量巨大,新的挑战是:如何提供标签?同时,每个领域的人工智能应用程序都需要自己的数据集,这意味着每个领域都需要用自己的imagenet标记?显然,这样的效率很难被工业界所接受。
因此,人们现在不会选择提供标签。例如,谷歌可能直接通过数据收集了一些标签。只是我们不能完全100%确认标签是正确的,也就是说,检查准确率达到70%和80%。webvision竞争最重要的特点是它使用非人工标记,但通过特定的标签在互联网上搜索1000种图片,这很容易导致图像和标签包含大量错误信息(噪音)。这与“干净”的imagenet数据不同,图片内容和相应的标签非常单一和清晰。
“那么,如何使用这些嘈杂的数据呢?这实际上带来了一个非常大的挑战。我们对现有的视觉模型和学习方法在有噪声的数据集上进行了内部测试,发现不用说20%,甚至10%的错误标签都会严重损害性能。”琳达·华教授说。
从理论上讲,如果有十倍以上的数据和一个好的方法,机器的识别和理解水平一定会超过原来的imagenet水平,但目前只能达到同样的效果。接下来的问题是:你是想投入一些资源,继续做一百万个标记数据,还是想找到一种方法来解决上亿个数据集的问题?
“这是一个非常开放的领域。”没有标签,就没有标准参考。这台机器如何处理这些嘈杂的数据?如何把握机器识别的准确性?.....这些都是有待探索的问题。
作为本次网络视频的第一位获奖者,科技首席科学家博士对雷科技进行了点评。因此,要实现这一突破,有必要发展半监督甚至无监督学习。因此,有必要设计更好和更优化的损失函数,以减少模型训练对标签数据的依赖。对于更复杂的图像分割任务,最重要的是开发弱监督学习算法,以避免在像素级标记。
在这个过程中,最近流行的生成对抗网络(gan)可以自动生成大量的人工样本。这些人工样本对训练缺少样本和标签的图像数据有很大帮助,为解决多层次图像理解提供了重要思路。此外,如何利用少量的图像数据和标签来训练优化的深度模型也是一个重要的课题,而课程学习对于提高模型的泛化能力非常有效。
然而,如果将它扩展到更广泛的计算机视觉应用领域,业内人士会认为这还不够。这是下一步需要解决的问题。
方向2:需要有结构的数据。也就是说,我认为计算机视觉应该和机器人学结合起来。它利用时间的维度来观察场景的变化,什么是前景,什么是背景区域,什么是物体,什么是形状。最后,结果应该是一个语义识别理解与空之间的信息,这仍然是很少的,它是由弱监督和产生对抗。地平线机器人公司的创始人兼首席执行官余凯指出,
“所以我认为研究方法应该改变,研究的目的也应该改变。改变的目的是指所研究的空和场景之间的关系,这对于自动驾驶尤其重要。”
因此,这不是指nlp字段中的所谓结构化数据。在自主驾驶领域,林大华教授指出,很多人在进行自动驾驶预测时需要进行路线检测和三维重建,而这些任务中的每一项都是从传统的学术研究角度单独研究的。然而,在实践中,解决这些问题,如驾驶,是一个综合的问题,当人们开车时,他们不会把自己的任务分成几个方向来分别做出判断。
在以往的图像分割中,每次分割都使用一次cnn,不能全面处理这些任务。例如,通过地图,在周围环境中存在空结构,并且图像分割不能全面考虑这些空结构。“简单的语义分割,例如,在地图中,这500,000个像素是道路,而其他800,000个像素是建筑物。
林大华教授说,从学术角度来看,只有在几何框架下整合结构数据,我们才能知道客观世界是什么——前方有多少米是人和建筑物,前方的汽车行驶有多快……这是一个实用而有用的结果。
“因此,所谓的结构有许多不同的方面,它们在数学上、语义上和物理上都是相关的。在一个各种互补结构相互关联的系统中,从系统的角度,用结构的角度,系统地观察和结合不同的观点来解决问题,我认为这也是一个现在开始前进的方向。”
方向3: imagenet在视频领域继续设想上述结构性数据处理问题,将发现在整个cvpr 2017中,与视频理解相关的研究仅占整个会议论文的不到30%,但在实践中,这个问题被广泛使用。人脸识别、监控、网络视频、自动驾驶等,所有具有巨大商业价值的视觉数据都是以视频的形式存在的,而不是一帧一帧的。
与图像相比,视频最重要的一点是它还有一个维度:时间轴。如何利用这个新的维度和时间的关系...
众所周知,许多大公司和研究团体今年都制作了新的视频数据集,包括facebook、谷歌、伯克利大学等。“每个人都努力成为视频领域的形象网,谁能脱颖而出?现在很难说这是战国时代,百家争鸣。”林大华教授说:“不过,视频是一个非常重要的方向,这也是我们实验室在过去两年里不断的投入。”
挑战:学术和商业重叠的距离网络视觉在今年的cvpr会议上开辟了一个特别的话题,提出了视觉理解和从网络数据中学习的挑战。平安科技首席科学家、平安科技人工智能总工程师刘飞解释说,今年的挑战分为两部分:第一部分是图像分类,第二部分是迁移学习。
每个人都意识到无监督学习和半监督学习的重要性和困难。然而,从观察行业学术进展的角度来看,刘飞指出,迁移学习可能是一个更具创新性和更大的挑战。“迁移学习是为了解决在一种环境中学习的模型在新的环境中不需要样本数据就可以用于机器学习的问题,而迁移学习是一种提高机器学习泛化能力的方法。如果迁移学习技术取得了快速进步,那么深度学习技术将在未来迅速而广泛地部署到各个领域的商业场景中。”
然而,在实际应用中,图像处理不仅是一个视觉问题,还涉及到需要自然语言处理交叉组合的研究。结合实际应用的经验,刘飞说:
目前,webvision提到的视觉理解只是字面意义上的,这可能会在未来几年提出的新挑战中得到反映。真正的视觉理解所面临的更大挑战应该是理解图像内容的语义内涵,不仅是检测、定位和分类的任务,还包括图像所表达的人类高级知识的内容,如表达社会事件的图片、个人聚会或一对什么风格的艺术品等。
无独有偶,腾讯ai实验室计算机视觉总监刘伟博士在接受(公开号:雷)ai技术评论采访时也指出。
如今,互联网上的很多数据都是视觉和文本信号,比如腾讯视频,它不仅包括视频信息,还包括音频信息,以及相应的字幕、评论、弹幕等信息。如何探索或了解它们之间的相关性也是业界的研究热点。
近年来,随着计算机视觉和+nlp的结合,出现了许多研究热点,如图像文本匹配、图像描述生成、图像问答等。今年cvpr的一个主题演讲还邀请了斯坦福大学nlp领域的著名教授丹·尤拉夫斯基来讨论语言的研究进展。因此,多个交叉领域的研究可以促进研究成果在实际业务场景中的应用。
因此,在讨论了这些方法之后,我们将经历什么样的创新期才能在未来实现这一突破?这个问题是跨领域机器学习的技术集成,如计算视觉、自然语言处理、语音识别等的集成。;以及学术界和产业界之间的进一步研究合作,是业内人士普遍希望推进的途径。
与此同时,中国互联网企业的大部分创新仍停留在应用层面或技术层面。美国的创新与技术研究往往从理论基础出发,建立起完整的思维方式,这就是为什么美国,尤其是硅谷,在过去的几十年里一直引领着创新:他们有能力和意愿从基础研究开始,与大学和研究机构保持密切联系,共同完成学术创新和商业化。
正如上塘科技首席执行官许立所说,人工智能的普及不是一蹴而就的。虽然看起来像一夜之间盛开的梨花,但更重要的是从源头上积累创新成果。本次cvpr中,上塘科技与香港仲达大学-上塘科技联合实验共录取论文23篇,远远高于英美烟草。“现在,基础研究不能失去带来足够时间的窗口。人工智能的发展需要工业和研究的结合,以确定问题和解决问题。”
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:深度学习集体瓶颈,产业化加速时代CV研究出路在哪里?| CVPR 2017
地址:http://www.hcsbodzyz.com/hcxw/10835.html