本篇文章2596字,读完约6分钟
雷科技评论:众所周知,卡耐基梅隆大学在计算机科学研究方面名列前茅,而迪斯尼则打算将计算机科学技术引入动画制作。他们与卡内基梅隆大学合作建立的实验室最近发表了一篇论文《广义语音动画的深度学习方法》,该论文使用深度学习方法来生成自然的语音动画。这篇论文已被收入siggraph 2017。
他们引入了一种简单有效的深度学习方法来自动生成声音动画,这种动画看起来很自然,并且可以与输入的声音同步。利用滑动窗口预测器,该方法可以学习从音素标签输入序列到嘴部运动的任何非线性映射,并且可以准确捕捉自然运动和视觉协同发音效果。
这种方法有几个吸引人的特点:它可以实时运行,只需要很少的参数调整,可以推广到新的输入语音序列,易于编辑创建风格化和情感化的语音,并兼容现有的动画重定向方法。
迪士尼实验室表示,他们工作的一个关键点是开发一种方法,能够高效地生成声音动画,并轻松地将其集成到现有作品中。他们的论文详细介绍了这种端到端的方法,包括机器学习的一些设计决策。本文利用动画片段中不同的人物和声音来展示概括的语音动画效果,包括歌唱和外语输入。该方法还可以根据用户的语音输入实时生成灵活的语音动画。
雷锋。《com ai技术评论》将论文的部分内容编辑如下:
前言
声音动画是生成逼真角色动画的一个重要且耗时的部分。广义地说,声音动画就是这样一个任务:改变图形(或机器人)模型的面部特征,使嘴唇的动作与声音同步,并形成说话的感觉。作为人类,我们都是面部表情专家。糟糕的声音动画可能会让人分心、不愉快和困惑。例如,当你看到的口型与你听到的声音不一致时,听众有时会认为他们听到的是另一种声音(mcgurk和macdonald的论文,1976)。对于实用的角色动画,高保真的声音动画非常重要。
目前,电影和视频游戏制作中使用的传统声音动画方法趋于两个极端。一种方法是,高预算产品通常采用性能捕捉技术或雇佣大型专业动画制作团队,这种方法成本高且难以大规模复制。例如,目前还没有一种好的制作方法,能够经济高效地跨多种语言制作出高质量的语音动画。另一种方法是,对于低成本和多内容的产品,可以使用简单的lip库来快速生成质量相对较低的语音动画。
最近,人们对自动生成声音动画的数据驱动方法越来越感兴趣,以便找到折衷这两个极端的解决方案(de martino等人,2006;Edwards等人,2016年;泰勒等人,2012年)。然而,在以前的工作中,有必要预先定义一组有限的嘴唇并混合它们。简单的混合函数限制了可以建模的视觉语音动力学的复杂性。因此,我们计划使用现代机器学习方法直接从数据中学习视觉语音的复杂动力学。
我们提出了一种深度学习的方法来自动生成语音动画,这为大规模生成高保真语音动画提供了一种经济高效的手段。例如,我们使用100多个自由度在电影特效制作层面的人脸模型上生成逼真的声音动画。我们工作的重点之一是开发一种高效的声音动画方法,可以无缝地集成到现有作品的制作中。
我们的方法使用连续深度学习滑动窗口预测器,这是受2015年kim等人发表的一篇论文的启发。滑动窗口方法是指预测器能够表达输入语音描述和连续语音输出视频之间复杂的非线性回归,这自然包括语境和共音效应。我们的研究结果表明,在kim等人之前的决策树方法上,神经网络深度学习方法带来了改进。
重叠滑动窗口更直接地用于捕捉局部上下文和共发音的效果,这比传统的顺序学习方法如循环神经网络和lstm更适合于预测语音动画(hochreiter和schmidhuber,1997)。
使用机器学习的主要挑战之一是以对期望的最终目标有用的方式适当地定义学习任务(例如选择什么样的输入/输出和训练集)。我们的目标是让动画师能够轻松地将高保真声音动画融入到任何装备中,这种装备适用于任何扬声器,并且易于编辑和风格化。
我们将我们的机器学习任务定义为学习用单个说话者的中性语音作为参考来制作高保真度的动画。通过关注参考人脸和中性语音,我们可以低成本、高效率地收集全面的数据集,充分描述语音动画的复杂特征。大型训练数据集使我们能够使用现代机器学习方法来可靠地学习语音运动中细微的动态变化。
与先前关于生成声音动画的研究相比(de martino等人,2006;Edwards等人,2016年;Taylo等人,2012),我们的方法可以直接从数据中学习自然的共发音效果。
我们将输入定义为文本(音素标签),这意味着我们可以独立于说话者学习从上下文到语音动画的映射。
我们只需要现成的语音识别软件来自动将任何说话者的声音转换成相应的音素描述。因此,我们的自动语音动画可以推广到任何说话者,任何形式的语音,甚至其他语言。
局限性和未来研究
主要的实际限制是我们的动画预测是基于aam参数化生成的参考面。这使得我们的方法可以推广到任何东西,但是重新定位特征会引入潜在的误差源。当建议重定向模型的初始特征设置时,必须注意保持预测动画的保真度。幸运的是,这个预先计算步骤只需要为每个角色执行一次。展望未来,一个有趣的研究方向是利用真实的动画数据开发数据驱动的自动语音动画重定位技术。
通过只学习中性语音,我们可以得到一个健壮的语音动画模型,它可以推广到任何语音内容。目前,为动画添加表情和情感仍然是艺术家的工作。将来,一个有趣的方向是从由许多情绪环境(生气、悲伤等)产生的训练数据中训练一个更大的神经网络。),因此预测的面部动作更接近真实的情绪。
一个主要的挑战是如何收集一个全面的数据库,为培训成本效益和效率。如果没有一个全面的训练集,将很难使用现代机器学习技术,因为深度学习和其他方法通常严重不足。可能的方向是大规模收集杂乱的数据(例如,从公共视频存储库中),或者开发一种主动学习方法,该方法可以自适应地选择要收集的视频,从而最小化总收集成本。
进一步的概括可以从具有各种面部特征(男性、女性、圆脸、方脸、肥胖、消瘦等)的多个说话者训练语音动画模型。),并在预测时选择与动画角色模型最匹配的特征。这种方法可以根据人们的说话风格推广到不同人脸的不同面部表情。同样,有效地收集综合训练集是一个巨大的挑战。
雷锋。(公开号码:雷锋。人工智能技术评论汇编
地址:宜松月/出版物/siggraph 2017 _ speech.pdf
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:迪士尼也来研究人工智能啦,将AI用于动画制作
地址:http://www.hcsbodzyz.com/hcxw/5813.html