本篇文章1527字,读完约4分钟

慧聪智能家居网络新闻2015年10月,微软建造了世界上最安静的实验室,以增加消费声学产品的研发;几乎与此同时,苹果还收购了声乐学,以增强siri的语音助手功能,尤其是在汽车领域。随后,谷歌以7,500万美元的价格收购了国内语音助理Mobvoi的股份。此外,在不到三个月的时间里,微软再次努力将语音助手微软小娜推广到ios和安卓平台。 自从iFlytek上市以来,语音识别技术一直很热门,但是语音识别并没有改变我们的生活,我们更喜欢把这项技术作为娱乐消费。随着智能家居和汽车互联的兴起,语音交互的焦点迅速转移到语音助理领域,语音助理将重点解决语音识别后的语言理解问题。 这似乎离我们的自然人机交互目标越来越近了,但似乎仍有一些不足之处。没错,也就是声纹识别,也就是人机自然交互的前提是首先知道谁是交互对象。通过定义交互对象,更有利于机器理解人的语言并做出智能反应。那么,声纹识别会成为继语音识别和语音助手之后的下一个语音交互窗口吗? 首先,让我们看看什么是声纹识别。声纹识别是通过分析一个或多个语音信号的特征来识别未知声音的技术。简单地说,它是一种识别某个句子是否由某个人说出的技术。 这项技术最初是由贝尔实验室在20世纪40年代末开发的,主要用于军事情报领域。随着这项技术的逐渐发展,这项技术在20世纪60年代末被用于美国的法医鉴定和法庭证据。从1967年至今,美国至少有5000起案件,包括谋杀、强奸、勒索、毒品走私、赌博和政治腐败,通过声纹识别技术提供了有效的线索和有力的证据。 声纹识别的理论基础是每个声音都有独特的特征,可以有效地区分不同人的声音。 这一独特特征主要由两个因素决定。首先是声腔的大小,包括喉咙、鼻腔和口腔。这些器官的形状、大小和位置决定了声带的张力和声音频率的范围。 因此,虽然不同的人会说同样的话,但声音的频率分布是不同的,有些声音很低,有些声音很大。每个人的声腔都不一样。就像指纹一样,每个人的声音都有独特的特征。 决定声音特征的第二个因素是发声器官的操纵方式。发声器官包括嘴唇、牙齿、舌头、软腭和腭肌等。它们之间的相互作用会产生清晰的声音。他们之间的合作方式是后天人们与周围人的交流中随机学会的。在学习说话的过程中,人们会通过模仿周围不同人的说话方式,逐渐形成自己的声纹特征。 因此,声纹就像指纹,很少有人有相同的声纹特征。美国的几个研究机构已经表明,在某些特定的环境中,声纹可以作为有效的证据。此外,美国联邦调查局统计了2000起与声纹相关的案件,使用声纹作为证据的错误率仅为0.31%。目前,通过声纹识别不同人的技术已经被广泛认可并应用于各个领域。让我们来看看常用的声纹识别方法,包括模板匹配法、最近邻法、神经网络法、vq聚类法等。虽然治疗方法不同,但基本原则是相似的。通常,一维声音信号通过短时傅立叶变换被转换成二维频谱图。声谱图是声音信号的图像表示。横轴代表时间,纵轴代表频率。每个频率点的语音幅度由颜色区分。说话人声音的基频和谐波频率在声谱图上表现为亮线,然后通过不同的处理方法得到不同声谱图之间的相似度,最终达到声纹识别的目的。 此外,如果环境嘈杂且混合有扬声器,则很难提取和模拟声纹特征。 虽然深度学习极大地改善了语音交互,谷歌甚至开辟了人工智能算法,但声纹识别的研究进展仍然很小,仍然受制于语料库的收集和特征的建立。虽然声纹识别应用已经在iFlytek等市场上发布,但成熟的应用场景很少,智能家居一度被认为是最有可能的突破。然而,随着声纹锁的批评,这个概念似乎已经冷却了很多。然而,人们追求自然人机对话的目标不会改变。作为关键技术之一的声纹识别,尤其是随着机器人技术的发展,必将迎来新的市场繁荣和应用。

标题:声纹识别是语音交互的下一个风口?

地址:http://www.hcsbodzyz.com/hcxw/3556.html