本篇文章3391字,读完约8分钟
汇川智能首席执行官:康
在雷锋主持的第二届ccf-gair全球人工智能与机器人峰会人工智能+特别会议上。今天,汇川智能首席执行官康发表了题为“ai让视频变得更简单”的主题演讲,并推出了一款新的视频内容理解api产品:智鹰视频理解api。
康表示,该api可以利用深度学习技术对完整输入视频中包含的图像和视频流进行模式识别、分解和结构化,从而将视频内容准确地处理到每一帧。
康告诉雷锋。智英视频理解api已经向第三方开发者、媒体、内容制造商和其他团体开放。值得注意的是,这个api对于实现视频内容的结构化也有着重要的意义。因此,当当前的视频内容理解相对处于空白状态时,该api的开通具有重要意义。
从学术界到工业界的又一次转移
左起:汇川智能创始人康,右起:cmu大学计算机科学与机器人研究所金熊教授
说起汇川智能的创业团队,其实有点意思:创始人康,cmu博士,在微软研究院工作,研究方向主要是人工智能和视频理解;宾夕法尼亚州立大学首席技术官博士是微软研究院康的同事。他以前在谷歌工作,他的研究方向是自然语言处理和机器学习;总建筑师是康的cmu医生。他在conviva工作,他的研究兴趣主要是云计算和视频大数据。
作为世界第一计算机大学,cmu已经向学术界和工业界输送了许多优秀的人才。就像计算机视觉的创始人吴雄·楚谨和现任微软全球执行副总裁沈向洋一样,他们都来自这里。无独有偶,康在cmu和微软分别有了向和学习的经历。
除了这些辉煌的“缘分”,还值得一提的是,在2015年,三个创业成员都有过与视频ai处理相关的商业经历。两年后,康和由于一些行业情况,开始了他们的第二次创业。
"这个短片目前非常火爆."
“就视频而言,90%的功劳归于创造力,只有5%取决于体力。许多人被这5%的体力所束缚。”康告诉雷(公开号码:雷锋网)。
了解这一行业现象与康的研究方向和经验有关,与湖南卫视的合作让他有了深刻的认识。通常一个大型综艺节目,一个小时的视频,往往需要数千小时的幕后编辑工作。康发现其实有很多繁琐的工作可以由机器来完成,而且机器的速度和效果会更快更好。
为此,康开始与湖南卫视和浙江卫视合作,帮助他们制作一些系统和产品来简化工作流程。智能阴影是一个衍生自这些系统的人工智能产品。
然而,这还不够。
“短片目前很流行”,康弘文有点激动。
更不用说拥有超过20亿月用户的facebook,但仅在中国,就有5.5亿活跃的在线视频用户。微信每天产生超过100万条公共文章,其中67%适合制作视频。随着机器学习、cv和nlp应用的不断扩展,用户正在从图像和文本慢慢转变为视频和短视频,人们越来越依赖于信息量大的视频内容。
从这个行业的趋势来看,短片最终会爆发并非没有道理。然而,人工智能行业对于文本和图像的处理技术和算法已经逐渐成熟,但是对于视频信息的理解却暂时处于空·怀特的状态。业内有些人甚至认为“视频是一种暗物质”,机器无法知道视频中有什么,或者视频之间有什么联系。“它们占整个网络存储空的90%,但根本没有这样的结构化数据。”
市场的痛点就这样形成了。这一切都让深深涉足履历领域的康感到,这既是一个挑战,也是一个机遇。
2分钟视频,4小时人力,30秒机器,同样的效果,怎么做?
康为雷锋列出了这样一个价值。对于一个2分钟的视频,人类需要花费4个小时收集、编辑和渲染素材,直到整个视频发布,而智英可以在30秒内自动生成这个视频,达到同样的效果。
如何实现它?
智能视频技术的学术积累
1990年以前,学术界开始对视频合成技术和目标检测与识别进行一些讨论和研究。2000年后,特别是2005年前后,整个学术领域开始研究视频合成和视频内容理解。根据谷歌的学术数据,在2005年之前,有4530个关于视频内容理解的结果。近十年来,这一学术搜索结果已增加到17,000。同样,视频合成、目标检测与识别、机器学习和自然语言处理的理论研究正如大家所感觉的那样处于井喷状态。
这些学术研究成果确实为人工智能行业的企业家们搭建了一个架子。
视频数据结构化的优势
此外,汇川智能依靠cmu创业团队的学术研究成果和他们在facebook、微软、谷歌等技术巨头的经验,可以从各种公共数据源获取整个网络的数据,并通过自身ai算法的积累进行内容结构化处理。
康表示,汇川智能也取得了新的研究成果,这也是康在今天的ccf-gair 2017上发布的亮点:根据完整的视频输入,机器可以使用深度学习对其覆盖的图像和视频流进行模式识别、分解和结构化,从而实现对每帧视频内容的精确处理。例如,一辆兰博基尼出现在第20-40帧,两个人的对话出现在第60-95帧。在那之后,从100-120帧,一架商业客机滑出,直到结束......
该算法可以帮助机器更好地理解视频内容,从而实现更高精度的视频智能处理。
因此,与其他公司相比,这是汇川智能在数据结构相对空白的产业形势下的一大优势。
简历、自然语言处理和背后的机器学习
然而,视频数据结构化只能被视为关键的助推剂之一,因此智英可以实现上述副标题,而无需智英背后的机器学习、cv、nlp和信息检索的贡献。
具体的工作原理可以从这幅图中看出:
康认为,智英的运作过程有以下四个步骤:
文本分析
材料匹配
在线编辑和预览
云视频渲染
关键的基本步骤是前两个。在一个有足够信息和内容的数据库中,当一篇文章上传到机器上时,在自然语言处理和机器学习的帮助下,机器将首先分析文本,抓住文本中的关键元素,如时间、地点、人物、事件等,并理解它们。之后,机器将进入“材料匹配”阶段。因为这些材料没有标签信息,系统需要输入它们来查找这些相关信息。例如,在整个网络的所有图片、社交媒体、视频剪辑和原声广告中,某个人出现的场景都会被截取,这需要履历的帮助。在完成两个最基本和最困难的任务后,机器可以连续地实现在线编辑、预览和渲染,直到生成整个视频。当然,整个过程不可避免地得到机器学习的支持。
“与其他公司相比,智英的api产品在对象识别的范围、类型、准确性和鲁棒性方面都是最先进的。”康弘文相当自信地表达了这一点。
视频内容会给未来的产业结构带来什么影响?
当被问及这个问题时,康告诉雷锋。这是一个大问题。
"它应该会带来整个产业结构的变化."康以谷歌为例。
谷歌能够成为谷歌的原因之一是它能够以结构化的方式处理文本。谷歌搜索是核心,它周围有索引技术和广告词业务,所有这些都是基于对文本的深刻理解。
然而,随着用户越来越依赖信息量大的视频内容,并逐渐习惯于用短视频代替文本和图像,在目前没有视频内容结构化方案的过渡阶段,行业发展到一定程度后,不可避免地会出现一种为视频内容提供结构化或标准化处理的方案公司。
这个过程的有趣之处在于,提供人工智能技术解决方案提供商的公司不会“闭门造车”或“自己玩”,而是会逐渐向第三方开发者、媒体甚至所有人开放他们的应用程序(汇川智能已经开放了智英)。当“信息视频化”发展到一定规模时,将会有更多的人参与和使用这些产品,这个过程将会产生足够的数据,进而刺激整个行业的爆炸式增长,直到出现巨头。
康弘文说:“如果我们是授权党,我们一定会创造更大的价值。”
结论
谈到将来可能遇到的竞争时,康对很有信心。“因为任何人工智能公司,同样的算法不能立即应用到其他领域。每一个应用领域都会孕育出许多技术细节,所有的公司都需要不断地解决技术挑战和困难。它不同于产品经理时代,也不同于运营驱动产品的公司,它可以在不看产品模型的情况下学习。”
事实上,目前国内一些创业公司正在做消费视频的人工智能应用,比如给视频信息加标签,以达到准确广告的效果。在康看来,这些技术的应用更多的是一种“任务驱动”。该机器可以很好地完成基于命令的任务,但它不会增加对视频内容的理解。
随着机器学习能力的增强,人工智能在一些特殊的任务上显示出了其优于人类的优势,如文字游戏、ct图像识别、图片场景分类等。长期以来,人类对人工智能的理解仅限于做一些机械化的工作,但在康看来,随着机器人加深对特殊任务本质的理解,它们可以获得创造力的延伸,比如作曲机器人可以达到真正的水平,写诗机器人比人类多,等等。人工智能的“能做什么”和“不能做什么”之间的界限正在逐渐模糊。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类?
地址:http://www.hcsbodzyz.com/hcxw/9905.html