1.本公开涉及语音处理领域,具体涉及一种语音数据的合成方法、装置、电子设备及存储介质。
背景技术:
2.随着音频处理技术的发展,语音合成的应用也越来越多,例如:其可应用在智能问答、语音播报、有声读物、虚拟主播等场景中。目前的端到端的语音合成模型能够基于输入的文本,直接输出与该文本对应的语音。但是端到端的语音合成技术合成的语音风格较为单一,在跨语种迁移的语音合成过程中,无法准确的得到跨语种的风格特征,导致合成音频的效果不佳。
技术实现要素:
3.有鉴于此,本公开实施例提供了一种语音数据的合成方法、装置、电子设备及存储介质,以解决在跨语种迁移的语音合成过程中,无法准确的得到跨语种的风格特征,导致合成音频的效果不佳的问题。
4.第一方面,本公开实施例提供了一种语音数据的合成方法,所述方法包括:
5.获取语音合成任务,其中,所述语音合成任务包括目标语言类型对应的文本信息以及原始语言类型对应的风格标识;
6.利用所述文本信息以及所述风格标识预测目标风格特征,其中,所述目标风格特征是利用原始语言特征进行处理后得到的风格特征,所述原始语言特征是所述风格标识在所述原始语言类型下对应的语言特征;
7.基于所述文本信息以及所述目标风格特征合成所述目标语言类型对应的目标语音数据。
8.第二方面,本公开实施例提供了一种语音数据的合成装置,所述装置包括:
9.获取模块,用于获取语音合成任务,其中,所述语音合成任务包括目标语言类型对应的文本信息以及原始语言类型对应的风格标识;
10.预测模块,用于利用所述文本信息以及所述风格标识预测目标风格特征,其中,所述目标风格特征是利用原始语言特征进行处理后得到的风格特征,所述原始语言特征是所述风格标识在所述原始语言类型下对应的语言特征;
11.合成模块,用于基于所述文本信息以及所述目标风格特征合成所述目标语言类型对应的目标语音数据。
12.第三方面,本公开实施例提供了一种电子设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的语音数据的合成的方法。
13.第四方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施
方式的语音数据的合成方法。
14.本公开实施例提供的上述技术方案具有如下优点:本公开实施例提供的方法在基于文本信息和风格标识预测风格特征的过程中,利用原始语言类型的原始语言特征对风格特征进行处理,得到目标风格特征,以此保证跨语种迁移时所得风格特征的准确性,增强了合成音频的效果。
附图说明
15.为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1是根据本公开一些实施例的语音数据的合成方法的流程示意图;
17.图2是根据本公开一些实施例的另一语音数据的合成方法的流程示意图;
18.图3是根据本公开一些实施例的风格预测模型的训练方法的流程示意图;
19.图4是根据本公开一些实施例的语音数据的合成装置的结构框图;
20.图5是本公开实施例的电子设备的硬件结构示意图。
具体实施方式
21.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。本公开实施例提供了一种新型电网拓扑的编辑方法、装置、电子设备及存储介质。本公开实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
22.根据本公开实施例的一方面,提供了一种语音数据的合成的方法实施例。图1是根据本公开实施例提供的语音数据的合成方法的流程图,如图1所示,该流程包括如下步骤:
23.步骤s11,获取语音合成任务,其中,语音合成任务包括目标语言类型对应的文本信息以及原始语言类型对应的风格标识。
24.本公开实施例提供的方法可应用于具有语音处理功能的智能设备,例如:耳机、录音笔、家居智能终端,商务智能终端(包括:可视电话、会议桌面智能终端等),可穿戴设备(包括智能手表、智能眼镜等),金融智能终端机,以及智能手机、平板电脑、车载设备、计算机等。户可以通过智能设备上传语音合成任务,语音合成任务中包括:目标语言类型对应的文本信息以及原始语言类型对应的风格标识,目标语言类型可以是英文,韩文,日文等等,原始语言类型可以是中文等等,语言类型在此不做具体限定。
25.具体的,用户基于智能设备使用具有语音合成功能的客户端的过程中,用户上传完目标语言类型的文本信息后,可在客户端对应的交互界面上为用户提供可供选择的多个候选风格标识,并获取用户从多个候选风格标识中选择的风格标识,其中,每个候选风格标识对应一种风格,风格可以理解为是语言对象在不同场景或情绪下的讲话风格,例如:不同
场景或情绪下进行新闻播报、阅读、对话、朗诵等语音活动的风格。最终,利用获取的文本信息以及风格标识生成语音合成任务。
26.步骤s12,利用文本信息以及风格标识预测目标风格特征,其中,目标风格特征是利用原始语言特征进行处理后得到的风格特征,原始语言特征是风格标识在原始语言类型下对应的语言特征。
27.在本公开实施例中,智能设备可以提取文本信息的文本特征,并获取预设文本特征,风格标识分别与风格特征之间的关联关系,通过该关联关系,预测出文本特征以及风格标识对应的一个初始风格特征,其中风格特征可用于表征一个人的说话风格、说话特点或者语言表现力。风格特征可以包括但不限于情感特征、场景特征以及方言特征。然后获取风格标识在原始语言类型下对应的语言特征,并将原始语言特征与初始风格特征分离,将分离后的初始风格特征作为目标风格特征。
28.需要说明的是,由于本技术实施例实现的是跨语言类型合成语音数据,在现有的跨语言类型合成语音数据的过程中,例如:直接将中文风格的新闻直播迁移到英文风格的新闻直播,由于风格特征中包含一部分声学风格特征,同时也会存在一部分语言特征,如果不分离语言特征,则会出现中式口音的现象,最终影响合成语音的效果。基于此需要将原始语言类型的原始语言特征从初始风格特征中分离出来,从而保证最终得到的目标风格特征是标准的风格特征。
29.步骤s13,基于文本信息以及目标风格特征合成目标语言类型对应的目标语音数据。
30.在本公开实施例中,基于文本信息以及目标风格特征合成目标语言类型对应的目标语音数据,包括以下步骤a1-a4:
31.步骤a1,检测文本信息对应的目标文本特征,并基于目标文本特征以及目标风格特征确定目标韵律特征。
32.在本技术实施例中,检测文本信息对应的目标文本特征可以是:将文本信息输入文本处理模型,文本处理模型提取文本信息的目标文本特征,然后将目标文本特征转换为音素序列。基于音素序列以及目标风格特征确定最终的目标韵律特征。具体的,可以结合目标风格特征以及音素序列中各个音素的时长边界,确定目标韵律特征。
33.在本技术另一实施例中,基于文本特征和风格特征进行韵律预测,包括:在目标文本特征和目标风格特征中添加特征编码,基于添加特征编码的目标文本特征和添加特征编码的目标风格特征进行韵律预测,得到目标韵律特征,目标韵律特征属于语言的一种音系结构,与句法和语篇结构、信息结构等其他语言学结构密切相关。韵律特征可以分为三个主要方面:语调、时域分布和重音。需要说明的是,韵律和时间是相关的,韵律特征是一个序列,不同时刻的韵律特征不同,在目标文本特征和目标风格特征中添加特征编码,能够提升韵律特征的丰富性。
34.步骤a2,获取语音对象对应的音色特征。
35.在本技术实施例中,语音对象可以是待合成语音数据的讲话者,获取语音对象的音频数据,并将音频数据输入音色检测模型,得到语音对象的音色特征。音色特征可以包括但不限于音高、长度、音调等特征。
36.步骤a3,基于目标文本特征,目标韵律特征以及音色特征合成目标声学特征。
37.在本技术实施例中,将目标文本特征,目标韵律特征以及音色特征输入至语音合成模型,语音合成模型包括:特征处理器以及解码器。特征处理器对目标文本特征和目标韵律特征进行处理,得到处理后的文本特征和处理后的韵律特征,并将处理后的文本特征以及处理后的韵律特征传递至解码器。解码器基于处理后的文本特征、处理后的韵律特征和音色特征进行解码和合成,得到目标声学特征,目标声学特征可以是梅尔倒谱系数特征。
38.步骤a4,将目标声学特征转换成语音波形,得到目标语音数据。
39.在本技术实施例中,语音合成模型还包括:声码器。声码器接收编码器传递的目标声学特征,并将目标声学特征转换成语音波形,然后获取音频模板,将语音波形添加至音频模板得到目标语音数据。
40.本公开实施例提供的方法在基于文本信息和风格标识预测风格特征的过程中,将原始语言类型的原始语言特征从初始风格特征中分离,从而得到目标风格特征,以此保证跨语种迁移时所得风格特征的准确性,增强了合成音频的效果。
41.根据本公开实施例的另一方面,提供了一种语音数据的合成的方法实施例。图2是根据本公开另一实施例提供的语音数据的合成方法的流程图,如图2所示,方法包括:
42.步骤s21,获取语音合成任务,其中,语音合成任务包括目标语言类型对应的文本信息以及原始语言类型对应的风格标识。详细说明参见上述实施例对应的相关描述,此处不再赘述。
43.步骤s22,利用文本信息以及风格标识预测目标风格特征,其中,目标风格特征是利用原始语言特征进行处理后得到的风格特征,原始语言特征是风格标识在原始语言类型下对应的语言特征。
44.在本公开实施例中,利用文本信息以及风格标识预测目标风格特征,包括以下步骤b1-b3:
45.步骤b1,获取预先训练好的风格预测模型,其中,风格预测模型包括第一预测网络以及第一处理网络。
46.步骤b2,通过第一预测网络提取文本信息对应的目标文本特征,并根据目标文本特征以及风格标识预测初始风格特征。
47.步骤b3,通过第一处理网络获取风格标识在原始语言类型对应的原始语言特征,并将原始语言特征从初始风格特征中分离,得到目标风格特征。
48.在本技术实施例中,将文本信息以及风格标识输入风格预测模型中的预测网络,预测网络提取文本信息的目标文本特征,并基于预设文本特征、风格标识与风格特征之间的对应关系,确定目标文本特征和风格标识对应的初始风格特征。需要说明的是,此时得到的初始风格特征携带有声学风格特征以及语言特征。预测网络将初始风格特征传递至处理网络,处理网络获取风格标识在原始语言类型对应的原始语言特征,并将语言特征从初始风格特征中分离,得到目标风格特征。
49.步骤s23,基于文本信息以及目标风格特征合成目标语言类型对应的目标语音数据。详细说明参见上述实施例对应的相关描述,此处不再赘述。
50.本公开实施例提供的方法在基于文本信息和风格标识预测风格特征的过程中,利用风格预测模型中的处理网络将原始语言类型的原始语言特征从初始风格特征中分离,从而得到目标风格特征,以此保证跨语种迁移时所得风格特征的准确性,增强了合成音频的
效果。
51.图3是根据本公开实施例提供的风格预测模型的训练方法的流程图,如图3所示,风格预测模型的训练方法包括:
52.步骤s31,获取训练样本数据,其中,训练样本数据包括第一语言类型的文本样本和第二语言类型的风格标识样本。
53.在本公开实施例中,训练样本数据包括:第一语言类型的文本样本以及第二语言类型的风格标识样本,第一语言类型可以是英文,韩文,日文等等,原始语言类型可以是中文等等,语言类型在此不做具体限定。训练样本数据的来源不做限制,第一语言类型的文本样本可以通过录音设备实时采集并识别得到的,也可以是例如广播节目对应的文本、电视节目的录音文本,真人语音的文本等。
54.步骤s32,将文本样本以及风格标识样本输入初始风格预测模型,得到输出风格特征。
55.在本公开实施例中,初始风格预测模型包括:第二预测网络以及第二处理网络。
56.在本公开实施例中,将文本信息以及风格标识输入初始风格预测模型,得到输出风格特征,包括以下步骤c1-c2:
57.步骤c1,通过第二预测网络提取文本样本对应的文本特征,并根据文本特征以及风格标识样本预测风格特征。
58.在本公开实施例中,将文本样本以及风格标识输入风格预测模型中的预测网络,预测网络提取文本信息的目标文本特征,并基于预设文本特征、风格标识与风格特征之间的对应关系,确定文本特征和风格标识样本对应的初始风格特征。需要说明的是,此时得到的初始风格特征携带有声学风格特征以及语言特征。预测网络将初始风格特征传递至处理网络。
59.步骤c2,通过第二处理网络获取风格标识在第二语言类型对应的语言特征,并将第二语言类型对应的语言特征从风格特征中分离,得到输出风格特征。
60.在本公开实施例中,处理网络获取风格标识在第二语言类型对应的语言特征,并将语言特征从初始风格特征中分离,得到风格特征。具体的,通过处理网络计算第二语言类型对应的语言特征与风格特征之间的互信息;在互信息最小时,将语言特征从风格特征中分离,得到输出风格特征。
61.需要说明的是,在利用训练样本数据训练初始风格预测模型时,将风格特征与预言特征的互信息最小化为训练目标,进行训练。通过将风格特征与预言特征的互信息最小化,是为了让风格特征与语言特征的互信息最小化完全独立,互不干扰。从而实现在跨语言类型迁移时,能够将原始语言类型的语言特征分离出来,从而提高合成语音的真实度。
62.步骤s33,确定输出风格特征与标准风格特征之间的目标损失,其中,标准风格特征是基于第一语言类型对应的音频数据得到的。
63.在本公开实施例中,确定输出风格特征与标准风格特征之间的目标损失,包括:获取风格标识样本对应的第一语言类型的音频数据,并提取音频数据对应的声学特征;将声学特征输入风格检测模型,得到声学特征对应的标准风格特征;计算输出风格特征与标准风格特征之间的均方差,并将均方差作为目标损失。
64.在公开实施例中,为了保证初始风格预测模型的输出风格特征的准确性,还设置
了风格检测模型。首先获取风格标识样本对应的第一语言类型的音频数据,例如:风格标识样本对应的第一语言类型的音频数据为:新闻播报风格的汉语音频数据。然后利用声学检测模型提取汉语音频数据的声学特征(例如:音色,韵律等等),并将声学特征输入至风格检测模型,由风格检测模型基于声学特征与风格特征之间的映射关系,确定声学特征对应的标准风格特征。最终计算输出风格特征与标准风格特征之间的均方差,并将均方差作为目标损失。
65.作为一个示例,风格标识样本对应的第一语言类型的音频数据为:使用情感h(对应风格特征为严肃)、语言类型e(风格特征为英文)、场景c(风格特征为新闻播报)录制的音频数据,该音频数据为说话严肃地用英文进行新闻播报,记为hec。其中,“hec”为风格标识,对应情感、语言类型、场景三种风格标识。然后将该音频数据输入至声学检测模型,利用声学检测模型提取汉语音频数据的声学特征,此时声学特征为可以理解为利用英文进行新闻播报的关键特征。再将声学特征输入至风格检测模型,由风格检测模型基于声学特征与风格特征之间的映射关系,确定声学特征对应的标准风格特征,即确定声学特征中哪些特征属于严肃(情绪)的特征,以哪些特征属于发音(语言类型)的特征等等。
66.步骤s34,基于目标损失对初始风格预测模型进行校正,直至得到训练好的风格预测模型。
67.在本公开实施例中,在确定目标损失未落入预设损失范围的情况下,确定当前的初始风格预测模型没有达到训练要求,因此需要基于目标损失对初始风格预测模型中的预测网络以及处理网络的参数再进行更新/优化,并对更新后的预测网络以及更新后的处理网络继续训练,直至最终输出的风格特征的目标损失落入预设损失范围,则表示初始风格预测模型达到训练要求。
68.本公开实施例提供的训练方法在训练过程中,一方面通过设置风格检测模型,并利用风格预测模型的输出风格特征与风格检测模型输出的标准风格特征计算损失,能够保证输出风格特征的准确性。另一方面,将风格特征与预言特征的互信息最小化为训练目标,进行训练,使让风格特征与语言特征的互信息最小化完全独立,互不干扰,从而进一步保证风格特征的准确性。
69.在本实施例中还提供了一种语音数据的合成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
70.本实施例提供一种语音数据的合成装置,如图4所示,包括:
71.获取模块41,用于获取语音合成任务,其中,语音合成任务包括目标语言类型对应的文本信息以及原始语言类型对应的风格标识;
72.预测模块42,用于利用文本信息以及风格标识预测目标风格特征,其中,目标风格特征是利用原始语言特征进行处理后得到的风格特征,原始语言特征是风格标识在原始语言类型下对应的语言特征;
73.合成模块43,用于基于文本信息以及目标风格特征合成目标语言类型对应的目标语音数据。
74.在本公开实施例中,预测模块42,用于获取预先训练好的风格预测模型,其中,风
格预测模型包括第一预测网络以及第一处理网络;通过第一预测网络提取文本信息对应的目标文本特征,并根据目标文本特征以及风格标识预测初始风格特征;通过第一处理网络获取风格标识在原始语言类型对应的原始语言特征,并将语言特征从初始风格特征中分离,得到目标风格特征。
75.在本公开实施例中,语音数据的合成装置还包括训练模块,训练模块,包括:
76.获取单元,用于获取训练样本数据,其中,训练样本数据包括第一语言类型的文本样本和第二语言类型的风格标识样本;
77.输入单元,用于将文本样本以及风格标识样本输入初始风格预测模型,得到输出风格特征;
78.损失计算单元,用于确定输出风格特征与标准风格特征之间的目标损失,其中,标准风格特征是基于第一语言类型对应的音频数据得到的;
79.校正模块,用于基于目标损失对初始风格预测模型进行校正,直至得到训练好的风格预测模型。
80.在本公开实施例中,初始风格预测模型包括:第二预测网络以及第二处理网络;
81.输入单元,用于通过第二预测网络提取文本样本对应的文本特征,并根据文本特征以及风格标识预测风格特征;通过第二处理网络获取风格标识在第二语言类型对应的语言特征,并将第二语言类型对应的语言特征从风格特征中分离,得到输出风格特征。
82.在本公开实施例中,输入单元,用于通过处理网络计算第二语言类型对应的语言特征与风格特征之间的互信息;在互信息最小时,将语言特征从风格特征中分离,得到输出风格特征。
83.在本公开实施例中,损失计算单元,用于获取风格标识样本对应的第一语言类型的音频数据,并提取音频数据对应的声学特征;将声学特征输入风格检测模型,得到声学特征对应的标准风格特征;计算输出风格特征与标准风格特征之间的均方差,并将均方差作为目标损失。
84.在本公开实施例中,合成模块43,用于检测文本信息对应的目标文本特征,并基于目标文本特征以及目标风格特征确定目标韵律特征;获取语音对象对应的音色特征;基于目标文本特征,目标韵律特征以及音色特征合成目标声学特征;将目标声学特征转换成语音波形,得到目标语音数据。
85.本实施例中的语音数据的合成装置是以功能单元的形式来呈现,这里的单元是指asic电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
86.上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
87.本公开实施例还提供一种电子设备,具有上述图5所示的语音数据的合成装置。
88.请参阅图5,图5是本公开可选实施例提供的一种电子设备的结构示意图,如图5所示,该电子设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上
显示gui的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器10为例。
89.处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
90.其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
91.存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的电子设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
92.存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
93.该电子设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置20可以通过总线或者其他方式连接,图x中以通过总线连接为例。
94.输入装置30可接收输入的数字或字符信息,以及产生与该电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。上述显示设备包括但不限于液晶显示器,发光二极管,显示器和等离子体显示器。在一些可选的实施方式中,显示设备可以是触摸屏。
95.该电子设备还包括通信接口30,用于该电子设备与其他设备或通信网络通信。
96.本公开实施例还提供了一种计算机可读存储介质,上述根据本公开实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
97.虽然结合附图描述了本公开的实施例,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所
限定的范围之内。