本篇文章5702字,读完约14分钟
雷锋。(公开号码:雷锋。. com)出版社:本文来源于公开号“极限元”,作者温正琪,极限元技术副总裁,中国科学院自动化研究所副研究员,中国科学院“智能交互联合实验室”主任——极限元。雷锋再版。
作为互联网的一个入口,声音正在侵入我们的生活。对话系统是人机交互的核心,对于交互式应用非常重要。人脑和机器智能的结合能突破现有技术的瓶颈吗?在这里,有必要关注与人机交互相关的核心技术。
从整个交互系统访问用户的输入信息开始,包括语音、人脸和多模态情感相关信息,我们理解对话系统中的输入信息,在这个对话部分之后产生输出,最后用文字或语音合成显示出来。这是整个过程,其中语音部分和对话系统部分是我们最重视的部分,今天其他的多模式分享不会涉及太多。
国内与语音相关的研究团队主要包括三个部分:研究机构、语音技术公司和互联网公司:
研究机构主要包括大学和科学院,如科学院语音与自动化研究所,以及清华大学、北京大学、西工大学、科技大学、上海交通大学等。,这是老式的团队,在语音圈有很高的位置。
语音技术公司包括我们熟悉的iFlytek、云之声、Esprit和极限元。
包括英美烟草和搜狗在内的互联网公司拥有强大的语音技术团队来支持他们自己的许多业务。
在对话系统的应用中,从语音输入开始就必须有一些前端处理,包括硬件和软件的预处理;接下来,判断语音内容、说话人识别和其他相关内容。对话系统根据输入信息分析对话逻辑,并生成相应的语言。最后,语音合成系统合成语音。这里着重介绍前端处理、语音识别和说话人识别语音合成等相关技术。
前端处理技术的研究进展
前端处理包括诸如反弹消除、噪声抑制、混响抑制等技术。近年来,特别是回声的推出,一些远场问题已经被纳入到语音识别系统中,所以这部分的研究近年来迅速兴起。语音识别的研究从手机录音等简单数据扩展到远场语音识别,促进了前端处理技术的发展。应该是陈敬东先生在演讲圈子里做前端处理。
回波消除
回声消除是远场语音识别中的典型功能。最典型的应用是,当智能终端播放音乐时,由远场扬声器播放的音乐被传输回近端麦克风。此时,需要一种有效的回声消除算法来抑制远端信号的干扰,这是音频和智能家居等智能设备需要考虑的问题。在复杂的回声消除系统中,近端通过麦克风阵列收集信号,远端从双通道扬声器输出信号。因此,近端需要考虑如何将广播形成算法与回声消除算法对接,而远端需要考虑如何关联立体声信号。
噪声控制
噪声抑制可以是多通道或单通道。今天,我们主要介绍单通道噪声抑制。dnn增强了单通道语音增强。语音信号具有谐波结构,加入噪声会破坏这种结构。语音增强的主要目的是提高峰值和降低谷值。这种训练对dnn来说相对容易。然而,一些实验研究表明,基于dnn的语音增强对浊音段更好,但对轻音段不是很好。浊音段具有显著的和声结构,因此我们应该有目的地训练这个模型。
混响抑制
在房间传输过程中,声音被墙壁或其他障碍物反射后到达麦克风,从而产生混响语音。混响语音会受到房间大小、声源麦克风位置、室内障碍物等因素的影响。大多数房间的混响时间约为200-1000毫秒。如果混响时间太短,声音会变得干燥、沉闷和不清晰。如果混响时间太长,声音会模糊不清,需要合适的声音才能圆润优美。
前端处理涉及很多内容,包括多说话人分离、说话人移动时的语音采集、不同的麦克风阵列结构、各种噪声以及如何更好地模拟房间模型等。
声音识别技术的研究进展
通过前端处理,反馈信息将被添加到训练语音识别模型中。语音识别主要是建立一个从声学参数到发音单位的映射模型,或一个判别模型。目前的方法是从传统的gmm-hmm模型到dnn-hmm混合模型,再到最新的端到端ctc相关。通过特征提取从语音信号中获得声学特征,然后通过声学特征训练获得声学模型。在通过将声学模型与语言模型和发音词典相结合来构造声码器之后,最终识别出文本。
Gmm用于对每个状态建模,而hmm描述每个状态之间的转移概率,因此构建了音素或三因素hmm模型建模单元。gmm训练速度相对较快,gmm声学模型可以做得相对较小,移植到嵌入式平台上。其缺点是gmm不使用真实的上下文信息,并且gmm不能学习深层的非线性特征变换,因此其建模能力有限。
随着深层神经网络的兴起,深层神经网络也被应用于语音识别中的声学建模,主要取代了gmm-hmm模型中的gmm模型。顶端仍然是隐马尔可夫模型加上状态转换。gmm模型中可能有500-10,000个状态。每个状态的概率可以通过dnn模型预测,输出是三个因素。我们将二者结合起来,建立了一个基于dnn-hmm的声学模型。
dnn可以使用的上下文系统在输入端扩展框架,并且可以学习非线性变换。然而,dnn不能通过使用历史信息来捕获当前任务,因为帧扩展是有限的,不可能无限扩展,所以他输入的历史信息仍然是有限的。因此,自然有一个基于rnn的混合声学模型。通过用rnn模块代替dnn模块,rnn可以有效地对历史信息进行建模,并为未来的预测保存更多的历史信息。然而,在rnn训练过程中会出现梯度消失和梯度扩展的问题。梯度扩展可以通过在训练过程中添加一些约束来实现。当梯度超过一定值时,设定一个固定值,但梯度消失很难把握。因此,有很多方法可以解决这个问题。一个相对简单的方法是将内部的rnn单元转换成一个长短期记忆模型lstm,这样可以很好的解决记忆消失的问题,但是会大大增加计算量,这也在建设中。
Cnn有一个模拟声学模型的老方法。在dnn前端增加了两层cnn变换,使参数只做一定的非线性变换,参数变化后输入dnn和lstm。然而,随着超深cnn在图像识别中的成功应用,这些也应用于声学模型。例如,谷歌、微软和ibm都在2016年公布了结果,证明了非常深层的cnn模型已经超越了其他深层的神经网络模型,并且其单词错误率是最低的。
Ctc本身是一个训练标准,而不是声学模型。在dnn输出中,每个电话占用的帧数可以是10帧和20帧。因为它不是一个高峰,反恐委员会将把它变成一个高峰。ctc可以将每个帧转换成senones或相应的因子,但是每个因子只需要几个帧。解码过程中可以删除一些空白帧,这可以显著提高解码速度。减少解码帧的方法有两种,一种是减少帧并跳过帧,另一种是在解码过程中有一个波束,特别是遇到波束时降低联合值,我们的实验结果表明跳过帧会更好。
在自然语言处理中广泛使用的端到端声学模型可以从自然语言网络的历史信息中选择重要的信息来建立词汇学模型。目前,准确率相对较低,这应该是一种趋势。至少它在自然语言处理中被证明是成功的。
在声学模型中,有tdnn和链式模型。在声学模型中,帧和操作过程之间会有一些重叠,这有效地消除了信息冗余。嵌入式模型也是一种训练标准。通过采用单态模型并结合mmi来区分信息链准则,可以在训练过程中实现跳帧,这也加快了解码速度。综上所述,目前的语音识别模型更新非常快,而最重要的核心内容就是数据。如果数据量足够大,就比较容易得到好的结果。此外,我们目前的语音识别核心模块主要是优化在一些解码模块,这相当于一个艺术。
语音合成技术的研究进展
语音合成是从文本参数到声学参数的映射模型。目前,有拼接合成、参数合成和端到端语音合成。
基于hmm统计参数的语音合成是指在训练过程中建立文本参数的映射模型,如韵律参数、通用参数和基频参数,通过决策数聚类方法为每个与上下文相关的文本特征建立gmm模型,训练其gmm模型,在合成过程中为输入文本预测其gmm,然后生成语音参数,然后通过参数生成算法输出语音。在这个过程中,有三个地方会导致语音质量下降,第一是决策树聚类,第二是声码器,第三是参数生成算法。为了解决这三个问题,我们将看看研究人员提出的解决方案。
为了解决决策树聚类问题,我们可以将hmm决策树分类到一个dnn模型中,通过dnn可以很容易地实现文本参数到语音参数的映射,实验结果会比决策树好一点,但是在我们的理想中并没有取得令人惊讶的结果。
除了dnn之外,rnn还用于统计参数语音合成,而lstm模型用于rnn,因此我们可以从统计参数语音合成中去掉参数生成算法模块,从而可以基于lstm-rnn直接预测语音参数,并通过声码器合成语音。在rnn-lstm对一阶和二阶统计量进行预测后,使用参数生成算法生成语音参数来合成语音的效果是相似的,所以RNN-
近年来,我们在声码器这方面做了大量的工作。例如,wavenet实际上属于声码器模型,它建立了一个当前预测模型,并通过先前的采样点来预测随后的采样点。然而,有几个问题:例如,速度慢在开始,这是由许多公司在后期解决。此外,它不是传统的声码器,它需要文本参数作为其输入。它的优点是在输入过程中可以很容易地控制后端说话人的特征,比如不同说话人的情感特征,这些都是外部特征,我们可以很好地添加它们。
另一个成功的例子是百度的深层语音,它利用深层神经网络来实现其中的多个模块,达到了极致,最终可以通过一个类似wavenet的合成器来合成,效果也很理想。
以下两种端到端语音合成:
第一个是char2wav,它是一个用于直接编码输入文本的模型。将输入的字母直接编码成输入的字母,然后在中间生成一个编码信息,并将其放入解码器进行最终合成。合成使用simplernn的合成器来合成语音,这也是理想的,并且是纯端到端的语音合成模型。
另一个是谷歌提出的端到端语音合成系统,类似于char2wav,输入是嵌入的,所以合成比rnn更直接更好。
语音合成的前期工作主要集中在前端的文本分析上,因为我们可能更注重听觉。但是,如果有一些好的端到端模型,文本分析就不是很重要,我们也可以将一些文本分析结果添加到后端进行预测,这是一种尝试,也是一种好方法。现有合成器的质量不再考虑我们首先使用哪种声码器,而是使用直接生成方法在实域中直接合成。
语音合成中更重要的是一些声音库。我们不能忽视声音库在语音合成中的地位及其重要性。目前,Extreme Meta Intelligent Technology语音合成定制支持录音机选择、录音收集、语料库标注、模型迭代训练、合成引擎优化、在线和离线模式,适用于多个平台
说话人识别是声纹识别。本文简要介绍了现有的I-向量系统以及如何将dnn应用于相应的I-向量系统。同时,我们还跟踪了最近的端到端方法。基于向量机的系统通过ubm模型训练数据,然后训练得到高斯混合模型,并通过统计抽取训练其差分空 t,从而提取其向量机。最后,针对信道补偿考虑了不同的补偿方法,使得性能更加完美。同时,我们还在合成端和最终识别端对其difference/きだよ 0/t进行了训练
dnn在说话人识别中的应用主要针对向量机系统,而ubm训练是一种无监督的训练方法。我们不考虑与声速相关的信息,所以我们不考虑在声学空.中每个人的声速是不同的我们可以将这部分信息应用到说话人识别中,并用dnn模型的输出代替前面提到的ivector中的关键统计量。在训练发音者的过程中,我们考虑了与每个人的声速和发音声速相关的不同特征。
还有一种dnn的应用形式,将原有的mfcc和plp相关功能替换为瓶颈功能,这也是从声速的差异和每个人的不同声速来考虑的。
百度前一段时间提到了一个深沉的说话者。这部分的主要优点是采用了三重损耗,可以很好的用于训练。本来,如果我们要训练一个说话人,输出可能是一个热点,但是说话人的训练语言并不多,所以训练效果不是很好。如果我们利用这个训练误差,我们可以建立许多训练参数来训练,这样模型会更好。
智能客服平台以简单的技术原理,采用基于状态转移图的结构来控制会话。在这个状态转换图中,表达了所有对话片段和用户意图之间的关系。系统根据用户的意图和当前知识库中的会话片段移动到下一个会话片段,并根据每个状态的定义对用户做出响应。整个会话过程是在状态转换中实现的。
在智能客户服务平台的培训阶段,现有系统的数量很简单,包括两个虚拟人。在运行过程中,向虚拟人提问,通过关键词抽取匹配关键词,然后找到与其状态相关的相应信息,得到最优的问题解决方案并返回。
Pomdp是一个六元组,包括状态集、观察集、动作集、返回函数、传递函数和观察函数。根据用户输入的句子得到意图分类,然后根据意图分类得到观察值,观察值通过反向pomdp中的训练分布进行更新。训练分布与pomdp结合以获得动作,并且在接收新数据之前分析每个子动作以获得反馈。例如,如果我想去上海,它会问你从哪里开始,使用什么交通工具,以及相应的信息,如查看天气,因为在查看天气时,你需要反馈是上海的天气还是北京的天气,这将根据上面的陈述进行询问。
在未来人机交互的研究方向中,除了前面提到的以声音为主要界面的对话形式外,我们还将考虑一些多模态的相关信息。例如,对于用户和机器人来说,有一个人机交换属于人机合作,但会有更多的信息需要处理。例如,机器人将根据用户输出个性化的声音,同时,它们将整合多种情感。机器人会根据你输入的信息独立学习并智能成长。这些都是未来人机交互中需要考虑的问题。
目前,基于交互学习的知识回答和智能增长主要基于短期工作记忆。将来,主要的工作可能转化为长期记忆,我们可以快速学习和更新新知识。
我们考虑的信息不仅是听觉信息,也是视觉信息。通过多模态融合,我们还将研究与这些大脑区域的功能有关的一些主要问题,这将成为未来的研究重点。对话平台具有以前的多模态信息输入,我们希望将它们集成到一个多模态综合对话系统中。
作为互联网的重要入口,声音越来越受到人们的关注。当然,语音行业需要更多的人来发展。目前,对话系统的功能在经验上并不理想,这也是行业从业人员需要考虑的问题。同时,未来我们将研究并采用多模态智能成长等相关交互技术,促进人机交互的发展。
相关文章:
采访阿里idst语音集团董事齐志杰:从技术到产品的智能语音交互的核心和细节是什么?
了解智能语音前端处理中的关键问题
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
标题:语音对话系统的技术突破点在哪?深度解读人机交互的技术核心
地址:http://www.hcsbodzyz.com/hcxw/10783.html