本篇文章3404字,读完约9分钟

雷锋的《人工智能科技评论》报道,2017年计算机视觉领域的顶级学术会议——计算机视觉与模式识别会议刚刚结束。在今年的CVPR,共有783篇论文被收录,接受率为29%,口头报告接受率仅为2.65%。作为中国著名的人工智能研究机构,腾讯人工智能实验室为cvpr选择了6篇论文。它们是:

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

论文1:视频的实时神经风格转换

本文利用深度前向卷积神经网络探索视频艺术风格的快速迁移,提出了一种新的两帧协同训练机制,能够保持视频在时域的一致性,消除闪烁缺陷,保证视频风格迁移的实时、高质量和高效完成。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

论文2: wsisa:根据整张载玻片的组织病理学图像进行存活预测

本文首次提出了一种基于病理图像的全面、无标记、有效的患者生存预测方法。wsisa在肺癌和脑癌三个不同数据库上的性能超过了基于小图像的性能,这有力地支持了大数据时代的精确个性化医学。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

论文3:美国有线电视新闻网:图像采集自愿网络中的空间和通道方向注意

对于图像描述生成任务,sca-cnn基于卷积网络的多层特征动态生成文本描述,然后在文本生成过程中对空和频道之间的注意力模型进行建模。

论文4:弱监督目标定位的深度自学

提出了一种提高训练样本质量和增强检测器性能的新方法,解决了弱监督目标检测中训练样本质量低的瓶颈问题。

论文5:多样的图像注释

本文提出了图像自动标注的一个新目标,即用少量不同的标签表达尽可能多的图像信息。这一目标充分利用了标签之间的语义关系,使自动标注结果更接近人类标注。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

论文6:利用对称性和/或曼哈顿特性从单个和多个图像进行三维物体结构估计

基于曼哈顿结构和对称性信息,提出了一种基于运动的单幅图像三维重建和多幅图像三维重建的新方法。

腾讯人工智能实验室成立于2016年4月正式成立的Be,专注于图像识别、语音识别、自然语言处理和机器学习。在今年3月的第10届联盟杯世界电脑围棋赛决赛中,腾讯ai实验室开发的围棋人工智能程序fine art击败了日本开发的deepzengo,以11胜的成绩获得冠军,巧妙地展示了实验室的算法实力。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

腾讯副总裁姚星曾表示,腾讯人工智能实验室的目标是加强腾讯人工智能的原创性和基础研究,这与集团内其他专注于产品应用的研究团队不同。从以上论文选题中还可以看出,研究主题更多地体现为方法论的突破。其中,雷曾报道“集体深度学习的瓶颈,在加速工业化的时代,简历研究的出路在哪里?| cvpr 2017指出“多样性图像标注”用少量的多样性标签表达尽可能多的图像信息,而“深度自学弱监督对象定位”等作品则讨论了弱监督学习,体现了在cv研究遇到瓶颈、曙光初现的时代创新性的突破方向。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

那么,这些论文和腾讯人工智能实验室对未来简历研究和创新的判断背后的想法是什么呢?2017年,雷锋。(公开号码:雷锋。《人工智能技术评论》与人工智能实验室计算机视觉中心主任刘伟博士交换了意见。以下是对话记录(已删除):

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

雷锋。你参加过多少次cvpr?

刘伟:我参加cvpr已经十多年了,最早是在2005年。

雷锋。com:你曾经说过,cvpr的口头报告是当年最前沿的研究课题,在学术界和工业界都有很大的影响。你能谈谈你今年对cvpr的看法吗?

刘伟:在今年的cvpr中,论文比例最高的五个类别是:计算机视觉中的机器学习(24%)、物体识别和场景理解(22%)、三维视觉(13%)、低级和中级视觉(12%)以及图像中的人体分析(11%)。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

从我们的研究方向和兴趣出发,团队还十分关注五个前沿领域:中低层视觉、图像描述生成、三维视觉、计算机视觉和机器学习、弱监控下的图像识别。

雷锋。据了解,本实验室重点分析了“视频的实时神经风格转换”一文。你为什么选择这篇文章?刘伟:本刊接受了六篇文章。虽然数量不多,但我对质量很满意。本文研究的实时视频过滤技术已经在腾讯qq手机版上推出,实现了从基础研究到应用的快速转化,形成了一个更好的闭环,符合我们“学术影响力和产业产出”的研究目标。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

雷锋。视频实时神经风格迁移的突破将给当前的视频处理和应用带来什么样的变化和价值?刘伟:研究结果表明,在训练过程中考虑视频的时域一致性,可以约束前馈神经网络生成时域一致的编辑结果。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

在过去很长一段时间里,业界流行的图像过滤器通常只调整全局颜色属性,如亮度、色调、饱和度等。在2016年的cvpr中,gatys等人首次提出将深度神经网络应用于图像的艺术风格转换,使输入的图像可以模仿任何类型的艺术风格,如梵高的《明星空》、莫奈的《日出印象》,效果令人惊叹。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

Gatys等人的工作已经取得了非常好的结果,但缺点是基于优化耗时;到2016年,eccv、johnson等人提出用深度前馈神经网络代替优化过程,实现了图像风格的实时迁移,润饰工具prisma开始流行。然而,将图像风格转换的方法直接应用到视频中,会使原本连贯的视频内容在不同的帧中转换成不一致的风格,从而导致视频闪烁和跳跃,严重影响视觉体验。为了解决闪烁问题,ruder等人考虑了时域的一致性,提出了一种基于优化的视频艺术滤波方法,但速度太慢,无法实现实时性。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

腾讯ai lab利用深度前向卷积神经网络探索视频艺术风格快速迁移的可能性,提出了一种全新的两帧协同训练机制,既保持了视频在时域的一致性,又消除了闪烁缺陷,保证了视频风格迁移能够实时完成,兼顾了视频风格转换的高质量和高效率。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

类似的方法有望将其他图像编辑方法推广到视频。

雷锋。在这六篇论文中,除了一般的视频媒体分析,还涉及到医学和其他子领域的研究。腾讯人工智能实验室如何选择研究方向?刘伟:在基础和前沿的研究方向上,cv团队目前主要关注中高层视觉,尤其是对视频等视觉结构数据的深度理解,并在视觉+自然语言处理、视觉+信息检索等重要交叉领域做出努力。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

正在进行或计划进行的研究项目既有挑战性又很有趣,包括超大规模图像分类、视频编辑和生成、时间序列数据建模和增强现实。这些项目吸引了国内外著名大学如哥伦比亚大学和清华大学的优秀实习生。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

雷锋。在实际应用中,图像处理似乎不仅是一个视觉问题,也是一种自然语言处理方法。你能结合实际应用谈谈这些交叉现象吗?

刘伟:目前,互联网上的很多数据都是视觉和文字信号。例如,腾讯视频不仅有视频信息,还有音频信息,以及相应的字幕、评论、弹幕等信息。如何探索或了解它们之间的相关性也是业界的研究热点。近年来,随着计算机视觉和+nlp的结合,出现了许多研究热点,如图像文本匹配、图像描述生成、图像问答等。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

今年cvpr的一个主题演讲还邀请了斯坦福大学nlp领域的著名教授丹·尤拉夫斯基来讨论语言的研究进展。因此,多个交叉领域的研究可以促进研究成果在实际业务场景中的应用。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

雷锋。深度自学中提到的弱监督目标定位和多样化图像标注的方法似乎都强调机器学习的自主性。这是哪个领域的突破吗?刘伟:我认为这在研究的实用价值上取得了一定的突破。以第一篇文章为例,描述了从少量低质量数据中进行模型学习。经过不断的学习,模型的性能得到增强,可以独立选择更多的数据,选择质量更高的模型进行训练,从而提高模型的性能,实现模型的自主学习。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

这种独立的采集过程,依靠模型本身实现数据由少到多、由坏到好,在数据量大、质量参差不齐的情况下,更具有实际的指导价值。

雷锋。在今年的cvpr大会上,一个据说将接管imagenet的网络视觉竞赛也宣布了第一批获胜者。与数据标注的分析和处理相比,后者强调图像学习和理解。你觉得这件事怎么样?在实现所谓的图像学习和理解方面,当前的挑战是什么?为了在未来实现这一突破,我们需要经历什么样的创新时期?在这个创新过程中,哪些技术有潜力?刘伟:随着2012年深度学习技术的兴起,计算机视觉从此取得了巨大的进步。除了经典的中层视觉问题(如目标检测和识别)之外,它在解决低层视觉问题(如图像去噪、去模糊、超分辨率和语义分割)方面也取得了长足的进步。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

根据最近的两篇cvpr论文,未来cv领域的研究不仅将继续提高经典视觉问题的算法性能,还将伴随着新数据集设计和细分研究领域的新挑战,一些有趣且具有挑战性的研究问题也将受到更多关注。就我个人而言,我认为视觉和+nlp的交叉将继续升温,而对视频分析和理解的研究(包括视频分类、视频对象分割等)也将继续升温。)将达到更高的水平。

专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:专访腾讯AI Lab刘威:视觉+NLP交叉将持续升温,视频理解的研究将再上一个台阶

地址:http://www.hcsbodzyz.com/hcxw/5241.html