本篇文章1425字,读完约4分钟

雷科技评论:语音到文本转换是语音研究领域的一个重要课题。自神经网络引入以来,语音识别的准确率有了很大的提高,这也为苹果siri、亚马逊echo、HKUST讯飞语音输入法等实用产品提供了成长的土壤。面对算法识别仍然比人类差的事实,微软刚刚发表了一篇博文宣布其最新成果,达到人类水平不再是梦想。《雷技术评论》编辑如下。

新里程碑!微软语音识别系统的准确性达到了人类水平

2016年,微软的语音和对话研究团队宣布了一个里程碑,他们在总机数据库的对话语音识别任务中达到了人类一致性的水平,这意味着他们的系统在对话中识别单词的能力与专业人类转录者一样好。

新里程碑!微软语音识别系统的准确性达到了人类水平

当时,微软研究人员测量出这个转录系统的单词错误识别率为5.9%,达到了他们测量的人类转录者的水平;其他研究人员也做了他们自己的研究,使用了一个更深入的多转录者协作模型,实现了更好的5.1%的平均人类单词错误率。这一结果与早期的研究一致,早期的研究表明,如果人类做得更仔细、更努力,他们将能够与对话中出现的确切单词有更高的一致性。

新里程碑!微软语音识别系统的准确性达到了人类水平

一年后的8月20日,微软语音与对话研究团队负责人黄兴奋地宣布了他们的最新进展,他们的语音识别系统也达到了同样的5.1%的错误率。这是该行业的一个新里程碑,也大大高于他们去年的成就。他们发表的论文《微软2017会话语音识别系统》介绍了研究细节。

新里程碑!微软语音识别系统的准确性达到了人类水平

总机是一个录音电话会话语料库,20多年来一直被语音研究界用来测试语音识别系统的性能。测试任务是将陌生人之间关于体育和政治话题的讨论从发音转录到写作。

新里程碑!微软语音识别系统的准确性达到了人类水平

与去年的单词误识率相比,今年的系统降低了12%。新系统继续对基于神经网络的语音语言模型进行了一系列改进,其中增加了一个额外的CNN-lstm(卷积神经网络结合双向长短期记忆),以提高语音建模的效果。此外,以前在系统中使用的多语音模型综合预测方法可以在框架/句子级别和单词级别发挥作用。

新里程碑!微软语音识别系统的准确性达到了人类水平

此外,微软研究人员还根据整个会话过程的历史记录预测了接下来可能会说什么,这进一步增强了识别器的语言模型,并极大地增强了该模型对主题和本地上下文的适应性。

新里程碑!微软语音识别系统的准确性达到了人类水平

在开发过程中,无论是探索模型架构还是优化模型的超级参数,研究团队都从自己的大规模深度学习软件微软认知工具包2.1 (CNTK)中受益匪浅。此外,微软对云计算基础设施的投资,尤其是azure cloud gpu,也有助于改进培训模式以及测试新想法的效果和速度。

新里程碑!微软语音识别系统的准确性达到了人类水平

在过去的25年里,这个领域的研究目标一直是实现人类水平的错误率。今天,微软在长期研究上的投资已经证明了它们的价值,微软也将让用户在自己的产品和服务中感受到这些技术的好处,比如未来的cortana、presentation translator和微软认知服务。微软的研究团队也很高兴看到每天有数百万用户使用这些产品。

新里程碑!微软语音识别系统的准确性达到了人类水平

在语音识别领域,业界和学术界的许多研究团队都做出了杰出的贡献,微软的研究团队也表示,他们从该领域的整体发展中获益匪浅。然而,尽管在总机语音识别任务中取得了令人满意的5.1%的错误率,但在整个语音研究领域仍有许多挑战需要克服,如在噪音大、录音距离长、口音重、语音风格和语言训练数据有限的情况下,仍然很难达到接近人类水平的语音识别效果。另一方面,在教计算机将语音转换成单词后,下一步是教计算机理解意思和目的。在微软研究团队看来,从语音识别到语音理解将是语音相关技术的下一个重要前沿。

新里程碑!微软语音识别系统的准确性达到了人类水平

地址:微软/en-us/研究/出版/微软-2017-会话-语音识别-系统/

微软研究博客,雷锋(公开号:雷锋)人工智能技术评论汇编

标题:新里程碑!微软语音识别系统的准确性达到了人类水平

地址:http://www.hcsbodzyz.com/hcxw/6025.html