本篇文章1017字,读完约3分钟
HC安全网络新闻人工智能已经突破了音障。麻省理工学院的研究人员开发了一种人工智能系统,可以“观看”无声视频并产生声音。这种效果如此逼真,以至于大多数观众无法分辨这些声音是否是由电脑产生的。麻省理工学院计算机科学与人工智能实验室称,其“深度学习算法”是第一个通过“声音图灵测试”的,而且生成的声音可以伪造。 这个视觉上独立的声音系统(vis)被训练用来分析棍子在击打、刮擦或刺伤一系列物体(从树叶和水到土壤和钢铁)时发出的声音。 研究人员说,vis的技能可以扩展到许多其他场景。例如,未来的版本可以为电影和电视产生比传统方法(如在铝箔上撒盐来模拟雨)更逼真的声音效果。项目负责人andrewowens说,更重要的应用可能是帮助机器人理解物体的物理属性,并更好地与环境互动。这个项目将于本月晚些时候在拉斯维加斯的计算机视觉和模式识别会议上展出。他说:“机器人可以看着人行道,本能地知道水泥地面是硬的,草是软的,所以它知道如果它踩在两种地面上会发生什么。”“能够预测声音是预测与世界的物理相互作用的结果的重要的第一步。” 麻省理工学院的团队通过输入1000个包含46000种声音的视频来“训练”vis,这些声音是通过敲击或敲击不同硬度物体上的鼓槌而产生的。之后,帮助计算机在大量数据中找到模式的“深度学习”算法会解构这些声音。 为了从无声视频剪辑中预测新的声音,vis将查看最有可能与每个视频图像相关的音频属性,并将这些音频串在一起以编辑连贯的声音。Vis可以模拟快节奏和舒缓的细微声音,无论是间歇拍打岩石的声音还是常春藤发出的细微沙沙声。它不仅可以模拟撞击垫子时发出的低沉的撞击声,还可以模拟撞击栏杆时发出的刺耳声音。为了测试这些声音在人耳中的保真度,研究人员调查了400名观众。他们看了两遍视频,一个听真实的声音,另一个听模拟版的vis。他们想知道哪一个是真正的声音。 如果vis产生的声音与真实声音无法区分,则选择vis版本的概率应为50%。结果本次调查的概率为40%,是一个非常好的分数。 当声音清晰尖锐时,例如敲击木头或金属的声音,该系统的性能最差,当产生由树叶或土壤产生的更柔和且持续时间更长的声音时,vis的性能最佳。有时,如果棍子刚好停在目标前面,它会“幻想”假敲门的声音。 欧文斯的梦想是让vis在没有清晰视觉线索的情况下模拟声音。他说:“从微风到笔记本电脑的嗡嗡声,环境中随时都有许多声音与我们所注视的东西无关。”
标题:新发现!人工智能系统可对多场景声音进行识别
地址:http://www.hcsbodzyz.com/hcxw/1783.html