本篇文章3464字,读完约9分钟
据雷锋说。(公开号码:雷锋。作者,,博士,中国科学院自动化研究所,高级智能语音算法专家,中科院与极限环智能交互联合实验室核心技术人员。多次在国际顶级会议上发表论文,在语音和音频领域获得多项专利,具有丰富的工程经验。
深度学习在2006年出现后,近年来发展迅速,在学术界和工业界呈现指数增长趋势;随着该技术的不断成熟,深度学习在智能语音领域处于领先地位,并取得了一系列成功的应用。本文将重点分享近年来语音生成中深度学习的新方法,并介绍语音合成和语音增强两个典型问题。
1.深度学习在语音合成中的应用语音合成主要采用两种方法:波形拼接合成和统计参数合成。波形拼接语音合成需要足够高质量的说话人录音来合成高质量的语音,这在工业上得到广泛应用。虽然统计参数语音合成的整体合成质量稍低,但在有限的说话人语料库条件下,其优势更加明显。在最后一期中,我们重点讨论了深度学习在统计参数语音合成中的应用。本期我们将与大家分享基于波形拼接的语音合成系统,并介绍siri公司最近推出的语音合成系统,这是一个混合语音合成系统。语音选择的方法类似于传统的波形拼接方法。它使用参数合成方法来指导语音选择,本质上是一个波形拼接语音合成系统。
单元选择是波形拼接语音合成系统中的一个基本问题,需要在没有明显误差的情况下组合合适的基元。语音合成系统通常分为前端和后端,前端模块对提高语音合成系统的表现力起着非常重要的作用。前端模块对包含数字和缩写的原始文本进行正则化,预测每个单词的发音,并分析文本中的句法、节奏、重音和其他信息。因此,前端模块高度依赖于语言信息。后端通过语言特征预测声学参数,模型的输入是数字语言特征。模型的输出是声学特性,如频谱、基频、持续时间等。在合成阶段,通过使用训练的统计模型将输入文本特征映射到声学特征,然后用于指导声音选择。在声音选择过程中,应考虑以下两个标准:(1)候选基元和目标基元的特征必须接近;(2)两个相邻图元之间的边界必须自然过渡。这两个标准可以通过计算目标成本和缝合成本来评估。然后通过维特比算法计算最优路径,确定最终候选图元;最后,通过波形相似度叠加算法找出最佳拼接时间,生成平滑连续的合成语音。
siri tts系统的目标是训练一个基于深度学习的统一模型,能够自动准确地预测数据库中单元的目标成本和镶嵌成本。因此,该方法使用深度混合密度模型来预测特征值的分布。这种网络结构结合了传统深度神经网络和高斯混合模型的优点,即输入和输出之间的复杂关系用dnn建模,输出采用概率分布。该系统采用了基于mdn的统一目标和镶嵌模型,可以预测语音目标特征(频谱、基频、持续时间)和镶嵌代价分布,指导原始搜索。对于元音,有时语音特征相对稳定,但有时变化很快。为了解决这个问题,模型需要能够根据这种可变性调整参数,因此在模型中使用嵌入的方差来解决这个问题。该系统在运行速度和内存使用方面有一定的优势,通过快速预选机制、单元剪枝和计算并行化优化了系统性能,可以在移动设备上运行。
第二,深度学习在语音增强中的应用可以有效地抑制各种干扰信号,通过语音增强来增强目标语音信号;一种有效的语音增强算法一方面可以提高语音的可懂度和质量,另一方面可以提高语音识别和声纹识别的鲁棒性。经典的语音增强方法包括谱减法、维纳滤波和最小均方误差。这些方法都是基于一些数学假设,很难有效地抑制真实环境中非平稳噪声的干扰。基于盲分离的非负矩阵分解方法也受到了一定的关注,但这些方法的计算复杂度相对较高;近年来,基于深度学习的语音增强方法越来越受到重视。接下来,重点介绍了几种典型的基于深度学习的语音增强方法。
1.这种方法通过深层神经网络模型建立了含噪语音和干净语音频谱参数之间的映射关系。模型的输入是含噪语音的幅度谱相关特性,模型的输出是干净语音的幅度谱相关特性。利用深层神经网络强大的非线性建模能力,重构了安静语音的幅度谱相关特性。神经网络的模型结构可以是dnn/blstm-rnn/cnn等。与谱减法、最小均方误差、维纳滤波等传统方法相比。这些方法可以更有效地利用上下文相关信息,在处理非平稳噪声时具有明显的优势。
2.预测掩蔽值信息用这种方法建模时,模型的输入可以是听觉域相关特征,模型的输出是二进制掩蔽值或浮点掩蔽值。最常用的听觉域特征是伽马滤波相关特征。该方法根据听觉感知特征将音频信号分成不同的子带,提取特征参数;对于二进制掩蔽值,如果某个时间-频率单位能量被语音支配,它将被保留,如果它被噪声支配,它将被设置为零。这种方法的优点是谐振峰位置的能量被很好地保留,而相邻谐振峰之间的波谷处的能量有很大的失真误差,但是人耳对这种失真不敏感;因此,用这种方法增强的语音具有较高的可懂度;浮点值掩码是对二进制掩码的进一步改进。目标函数反映了每个时频单元的抑制程度,进一步提高了语音质量和增强语音的可懂度。
3.预测复杂的频谱信息目前,主流的语音增强方法更注重增强幅度谱的相关特征,保留原始语音的相位谱。随着信噪比的降低,相位谱失真对听觉的影响明显增强。在低信噪比条件下,有效的相位重构方法有助于提高语音清晰度;典型的相位重建方法是利用基音周期线索来有效地修复浊音段的相位,但这种方法不能有效地估计清音段的相位信息;复杂神经网络模型可以对复值进行非线性变换,而语音帧的复谱可以包含幅度谱信息和相位谱信息。通过复神经网络可以建立带噪语音复谱和干净语音复谱之间的映射关系,同时增强幅度信息和相位信息。
4.通过说话人分离技术,pit说话人分离可以有效地分离混合语音中不同的说话人信息。现有的基于深度学习的说话人分离模型受到说话人的限制,只能分离特定说话人的声音;利用具有排列不变性的训练方法得到的说话人分离模型不再局限于特定的说话人;该方法通过自动寻找分离信号和标记声源之间的最佳匹配来优化语音增强的目标函数。模型的输入是混合语音的频谱参数特征,模型的输出包含多个任务,每个任务对应一个说话人;在训练过程中,对于训练集中的一个样本,每个任务固定地对应于某个说话者;它可以用blstm-rnn模型结构来建模。
5.深度聚类说话人分离基于深度聚类的说话人分离方法是另一种与说话人无关的分离模型,它将混合语音中的每个时频单元映射成一个新的空,并将其聚类在这个空.上将时间-频率单位映射到新空类似于单词向量提取的思想。时频单元可以用K均值聚类方法进行分组,然后计算二进制掩蔽值来分离不同说话人的声音,或者用模糊聚类方法描述不同的时频单元,计算浮点掩蔽值后分离混合声音。基于深度聚类的方法和基于坑的方法各有优势。为了更有效地解决问题,可能有必要将这两种方法有效地结合起来。
6.深度学习生成模型中基于对抗网络的语音增强的最新突破是生成对抗网络。gan在计算机视觉领域的真实感图像生成方面取得了巨大的成功,能够生成像素级和复杂的分布式图像。甘在言语生成中并未得到广泛应用。介绍了一种基于对抗网络的语音增强方法。该方法提供了一种快速的增强处理方法,在rnn中没有因果关系和类似的递归运算。直接处理原始音频的端到端方法不需要手动提取特征和对原始数据做出明显的假设;从不同的说话人和不同类型的噪声中学习并组合它们以形成相同的共享参数使得系统简单并且具有很强的泛化能力。
语音增强的问题是从输入的噪声信号中获得增强的信号。这种方法是通过语音增强gan来实现的,其中生成网络用于增强。它的输入是噪声语音信号和电位表征信号,其输出是增强信号。该发生器设计为全卷积层(无所有连接层),可以减少训练参数,缩短训练时间。生成的网络的一个重要特征是端到端结构,它直接处理原始语音信号,避免通过中间变换提取声学特征。在训练过程中,鉴别器负责将输入数据中的真实性信息发送给发生器,使发生器能够将其输出波形微调到真实分布,从而消除干扰信号。
3.本文介绍了近年来语音合成和语音增强中深度学习的新方法。虽然语音合成和语音增强所要解决的问题不同,但建模方法有很多相似之处,可以借鉴。深度学习方法也广泛应用于语音转换、语音带宽扩展等领域。感兴趣的读者可以关注这一领域的最新研究成果。尽管深度学习的快速发展促进了智能语音产品的落地,但仍存在一些深度学习方法无法完全解决的问题,如提高合成语音的表现力和增强语音的可懂度。有必要在深入理解输入和输出特征的物理意义的基础上,有效地表示信息并选择适当的建模方法。
相关文章:
了解智能语音前端处理中的关键问题
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
标题:一文看懂深度学习在语音合成&增强上的应用
地址:http://www.hcsbodzyz.com/hcxw/7059.html