本篇文章859字,读完约2分钟
腾讯ai实验室副主任、西雅图人工智能研究室主任俞东最近发表了自己的看法:虽然语音识别在过去几十年里取得了一些进展,但在电话聊天等任务上,机器已经达到甚至超过了人的识别水平,但现实中的人与机器之间仍存在一定的差距。
俞东还介绍了语音识别的四个前沿方向,包括更有效的序列间直接转换模型、鸡尾酒会问题、连续预测和自适应模型以及前端联合优化。
值得一提的是,腾讯人工智能实验室成立于2016年4月。作为腾讯的人工智能实验室,人工智能实验室注重基础研究和应用探索的结合,语音识别是其四个基础研究方向之一。腾讯西雅图研究室由人工智能实验室副主任、语音识别和深度学习专家俞东博士领导,主要从事语音识别和自然语言理解两大领域的基础研究。
俞东在参加全球机器智能峰会(gmis 2017)时透露了上述观点。他发表了题为“语音识别前沿研究”的演讲,分享了语音识别领域的四个前沿研究方向。
他认为,当今的语音识别环境,以及声音衰减等问题正在制约着语音识别技术的进一步发展。“如今,我们正在研究的语音识别问题越来越少受到环境、说话风格、口音、词汇等的限制。(与过去的许多限制不同),这大大增加了语音识别的难度,同时,研究的前沿已经从近场麦克风转移到远场麦克风。它们之间的区别在于,在远场中,当人们的声音到达麦克风时,声音衰减是严重的。因此,以前在近场麦克风中难以看到的一些困难在远场麦克风场景中变得明显。如果这些问题得不到解决,用户仍然会觉得语音识别在很多应用中效果不好。”余东指出。
俞东还介绍了语音识别的四个前沿方向,包括更有效的序列间直接转换模型、鸡尾酒会问题、连续预测和自适应模型以及前端联合优化。以鸡尾酒会为例,俞东指出,在鸡尾酒会这样嘈杂的环境中,人们可以关注某个人的声音,屏蔽周围的声音或噪音,很好地理解他想关注的人的声音。目前,大多数语音识别系统不具备这种能力。这个问题在近场麦克风中并不明显,因为与噪声相比,人声的能量非常大,而远场识别系统中的信噪比大大降低,所以这个问题变得非常突出,成为一个非常关键和难以解决的问题。
标题:腾讯AI LAB副主任俞栋:语音识别有四大前沿方向
地址:http://www.hcsbodzyz.com/hcxw/8710.html