1.本技术涉及歌曲合成领域,特别涉及一种歌曲合成方法、装置、电子设备及计算机可读存储介质。
背景技术:
2.歌曲合成往往包含多个人工操作,尤其在将干声和伴奏进行混音时,往往需要人工进行精细的编辑,这不仅降低了歌曲合成的效率,且难以规避因手工编辑所带来的对齐误差,进而容易影响歌曲作品质量。
技术实现要素:
3.本技术的目的是提供一种歌曲合成方法、装置、电子设备及计算机可读存储介质,可利用神经网络模型实现待合成干声与待合成伴奏的自动对齐,进而可提升歌曲合成的效率及合成歌曲的质量。
4.为解决上述技术问题,本技术提供一种歌曲合成方法,包括:
5.获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱;
6.利用神经网络模型对所述干声梅尔频谱和所述伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐;所述干声特征和所述伴奏特征均包含对应的梅尔频谱在各个时刻对应的特征信息;
7.基于对齐的干声特征和伴奏特征之间的时刻对应关系,对所述干声梅尔频谱和所述伴奏梅尔频谱进行对齐,并利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。
8.优选地,所述获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱,包括:
9.获取所述待合成干声对应的曲谱及所述待合成伴奏;
10.将所述待合成伴奏转换为频谱,并将所述频谱转换为所述伴奏梅尔频谱;
11.从所述曲谱中提取每一音符对应的歌词文本、音高及音高时长,并将所述音符的歌词文本、音高及音高时长整合为三元组;
12.根据所述曲谱中各所述音符的顺序将各所述音符的三元组依次写入三元组序列,并利用歌声合成模型将所述三元组序列转换为所述干声梅尔频谱。
13.优选地,在利用歌声合成模型将所述三元组序列转换为所述干声梅尔频谱之后,还包括:
14.利用增强模型对所述干声梅尔频谱进行增强处理,以利用所述神经网络模型对增强处理后的干声梅尔频谱进行特征提取。
15.优选地,所述利用增强模型对所述干声梅尔频谱进行增强处理,包括:
16.利用概率扩散模型对所述干声梅尔频谱进行增强处理。
17.优选地,所述利用歌声合成模型将所述三元组序列转换为所述干声梅尔频谱,包括:
18.将所述三元组序列中的每一三元组编码为对应的向量,得到向量序列;
19.利用所述歌声合成模型将所述向量序列转换为所述干声梅尔频谱。
20.优选地,所述利用所述歌声合成模型将所述向量序列转换为所述干声梅尔频谱,包括:
21.利用fastspeech模型或fastspeech2模型将所述向量序列转换为所述干声梅尔频谱。
22.优选地,所述利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲,包括:
23.将所述对齐的干声梅尔频谱和伴奏梅尔频谱进行混合,得到混合梅尔频谱;
24.利用声码器将所述混合梅尔频谱转换为所述合成歌曲。
25.优选地,所述利用神经网络模型对所述干声梅尔频谱和所述伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐,包括:
26.利用卷积循环神经网络模型对所述干声梅尔频谱和所述伴奏梅尔频谱进行特征提取,得到所述干声特征和所述伴奏特征;
27.利用注意力机制模型对所述干声特征和所述伴奏特征进行特征对齐。
28.本技术还提供一种歌曲合成装置,包括:
29.获取模块,用于获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱;
30.特征提取及对齐模块,用于利用神经网络模型对所述干声梅尔频谱和所述伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐;所述干声特征和所述伴奏特征均包含对应的梅尔频谱在各个时刻对应的特征信息;
31.合成歌曲生成模块,用于基于对齐的干声特征和伴奏特征之间的时刻对应关系,对所述干声梅尔频谱和所述伴奏梅尔频谱进行对齐,并利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。
32.本技术还提供一种电子设备,包括:
33.存储器,用于存储计算机程序;
34.处理器,用于执行所述计算机程序时实现如上所述的歌曲合成方法。
35.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上所述的歌曲合成方法。
36.本技术提供一种歌曲合成方法,包括:获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱;利用神经网络模型对所述干声梅尔频谱和所述伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐;所述干声特征和所述伴奏特征均包含对应的梅尔频谱在各个时刻对应的特征信息;基于对齐的干声特征和伴奏特征之间的时刻对应关系,对所述干声梅尔频谱和所述伴奏梅尔频谱进行对齐,并利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。
37.可见,本技术首先会获取待合成干声对应的干声梅尔频谱以及待合成伴奏对应的伴奏梅尔频谱,即本技术可利用待合成干声及待合成伴奏这两者的梅尔频谱来进行歌曲合成;随后,本技术可使用神经网络模型将对上述两种梅尔频谱进行特征提取,得到干声特征和伴奏特征,由于这两个特征均包含对应的梅尔频谱在各个时刻对应的特征信息,因此可
进一步根据这些特征信息的相似性,利用神经网络模型对干声特征和伴奏特征进行自动对齐,进而可基于互相对齐的干声特征和伴奏特征在时刻方面的对应关系对干声梅尔频谱和伴奏梅尔频谱进行对齐,并最终利用相互对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。换句话说,本技术可利用待合成干声的干声梅尔频谱、待合成伴奏的伴奏梅尔频谱及神经网络模型实现待合成干声与待合成伴奏的自动对齐,不仅可提升歌曲合成的效率,还能够有效规避因手工编辑所带来的对齐误差,进而可提升合成歌曲的质量。本技术还提供一种歌曲合成装置、电子设备及计算机可读存储介质,具有上述有益效果。
附图说明
38.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
39.图1为本技术实施例所提供的一种歌曲合成方法的流程图;
40.图2为本技术实施例所提供的一种神经网络伴奏添加模块的示意图;
41.图3为本技术实施例所提供的一种歌曲合成模型的示意图;
42.图4为本技术实施例所提供的一种歌曲合成装置的结构框图;
43.图5为本技术实施例所提供的一种电子设备的结构框图。
具体实施方式
44.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.现有的歌曲合成流程往往包含多个人工操作,例如在进行干声和伴奏混音时,往往需要精细的人工编辑,这显著降低了歌曲合成的效率,且难以规避对齐误差,进而容易影响歌曲作品质量。有鉴于此,本技术可提供一种歌曲合成方法,可使用神经网络模型实现对干声和伴奏的自动对齐,不仅可提升歌曲合成的效率,也可有效减少干声与伴奏之间的对齐误差,进而有效提升歌曲作品质量。请参考图1,图1为本技术实施例所提供的一种歌曲合成方法的流程图,该方法可以包括:
46.s101、获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱。
47.应当说明的是,干声是指不包含伴奏的人声。在本技术实施例中,为了实现干声和伴奏的自动对齐,首先要获取这两者对应的梅尔频谱,以将梅尔频谱输入至神经网络模型中进行自动对齐,其中梅尔频谱是语音合成过程中的一种中间数据,是音频的一种表征形式。
48.需要说明的是,本技术实施例并不限定干声梅尔频谱和伴奏梅尔频谱的获取方式。例如,考虑到梅尔频谱可由一般频谱转换而来,因此可录制干声及伴奏对应的音频文件,并对音频文件进行转换得到对应的干声频谱和伴奏频谱,进而可将这两种频谱转换为
对应的干声梅尔频谱和伴奏梅尔频谱;又例如,演唱内容通常具有对应的曲谱,即待合成干声具有对应的曲谱,而曲谱中通常包含有各个音符对应的歌词文本、音高及音高时长(表示当前音高在演唱时所要持续时长),这三个要素可用于合成语音,且梅尔频谱又可用于表征合成语音,因此可利用预设的歌声合成模型对待合成干声的曲谱进行合成处理,得到待合成干声对应的干声梅尔频谱。值得指出的是,由于伴奏也可通过机器合成的方式进行录制,即只要得到了伴奏对应的工程文件(包含有歌曲的结构和组成、伴奏的乐器、乐曲乐谱、词曲谱和声混音等),就可通过机器合成的方式直接合成得到伴奏对应的音频文件;且,本技术后续实施例中提及的对齐操作及歌曲合成操作均可由机器自动完成,无需人工监督及操作,因而本技术仅需将使用到的各类模型封装为一个完整的歌曲合成模型,即可实现对歌曲的端到端合成,即仅需将伴奏和干声对应曲谱输入至这一歌曲合成模型,即可得到对应的合成歌曲,无需人工操作,能够进一步提升歌曲合成的效率及合成质量。
49.s102、利用神经网络模型对干声梅尔频谱和伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐;干声特征和伴奏特征均包含对应的梅尔频谱在各个时刻对应的特征信息。
50.为实现对干声和伴奏的自动对齐,本技术实施例在得到干声梅尔频谱和伴奏梅尔频谱之后,将使用神经网络模型对这两个频谱进行特征提取,然后再利用神经网络模型对得到的干声特征和伴奏特征进行对齐,以根据对齐结果对干声梅尔频谱和伴奏梅尔频谱进行对齐。应当指出的是,干声特征和伴奏特征均包含两个维度,即时间维度和特征维度,其中干声特征的大小为t1×
d1,表示干声特征的时间维度和特征纬度的大小分别为t1和d1,其特征维度即包含干声梅尔频谱在各个时刻对应的特征信息;而伴奏特征的大小为t2×
d2,表示伴奏特征的时间维度和特征纬度的大小分别为t2和d2,其特征维度即包含伴奏梅尔频谱在各个时刻对应的特征信息。由于干声与伴奏之间存在相似性,即干声特征和伴奏特征之间存在相似性,因此可根据这种相似性对干声特征和伴奏特征进行特征对齐,即在时间维度上对上述两种特征进行滑动,以使干声特征和伴奏特征在特征维度上对齐。进而,可以理解的是,可根据对齐后的干声特征和伴奏特征在时间维度上的时刻对应关系,对干声梅尔频谱和伴奏梅尔频谱进行对齐。
51.需要说明的是,本技术实施例并不限定特征提取及特征对齐具体对应的神经网络模型,优选地,特征提取可采用卷积循环神经网络模型(简称:crnn,全称:convolutional recurrent neural network),而特征对齐则可使用注意力机制模型(attention mechanism),这是由于卷积循环神经网络所提取的特征质量较高,而注意力机制模型能够让计算机更加关注特征间的相似性,进而可提升干声特征和伴奏特征间的特征对齐准确率。
52.在一种可能的情况中,利用神经网络模型对干声梅尔频谱和伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐,包括:
53.步骤11:利用卷积循环神经网络模型对干声梅尔频谱和伴奏梅尔频谱进行特征提取,得到干声特征和伴奏特征;
54.步骤12:利用注意力机制模型对干声特征和伴奏特征进行特征对齐。
55.s103、基于对齐的干声特征和伴奏特征之间的时刻对应关系,对干声梅尔频谱和伴奏梅尔频谱进行对齐,并利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。
56.如上所述,在完成特征对齐之后,可基于对齐的干声特征和伴奏特征之间的时刻对应关系,对干声梅尔频谱和伴奏梅尔频谱进行对齐,以利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。具体的,可将对齐后的干声梅尔频谱和伴奏梅尔频谱进行混合处理,得到混合梅尔频谱,再利用声码器将混合梅尔频谱转化为合成歌曲,其中声码器是一种能够根据梅尔频谱来生成频谱的模型。
57.在一种可能的情况中,利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲,可以包括:
58.步骤21:将对齐的干声梅尔频谱和伴奏梅尔频谱进行混合,得到混合梅尔频谱;
59.步骤22:利用声码器将混合梅尔频谱转换为合成歌曲。
60.下面将结合具体的结构图对步骤s102和步骤s103完整的实施过程进行介绍。请参考图2,图2为本技术实施例所提供的一种神经网络伴奏添加模块的示意图。其中,伴奏梅尔频谱及干声梅尔频谱首先会分别输入至伴奏编码器和干声编码器中进行特征提取,其中伴奏编码器和干声编码器均为卷积循环神经网络结构;随后,可将上述两个编码器输出的干声特征和伴奏特征输入至注意力机制模块(attention)中进行对齐,以根据对齐结果对干声梅尔频谱和伴奏梅尔频谱进行对齐;最后,可将对齐后的干声梅尔频谱和伴奏梅尔频谱进行混合处理,得到混合梅尔频谱,再利用声码器将混合梅尔频谱转化为合成歌曲。
61.基于上述实施例,本技术首先会获取待合成干声对应的干声梅尔频谱以及待合成伴奏对应的伴奏梅尔频谱,即本技术可利用待合成干声及待合成伴奏这两者的梅尔频谱来进行歌曲合成;随后,本技术可使用神经网络模型将对上述两种梅尔频谱进行特征提取,得到干声特征和伴奏特征,由于这两个特征均包含对应的梅尔频谱在各个时刻对应的特征信息,因此可进一步根据这些特征信息的相似性,利用神经网络模型对干声特征和伴奏特征进行自动对齐,进而可基于互相对齐的干声特征和伴奏特征在时刻方面的对应关系对干声梅尔频谱和伴奏梅尔频谱进行对齐,并最终利用相互对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。换句话说,本技术可利用待合成干声的干声梅尔频谱、待合成伴奏的伴奏梅尔频谱及神经网络模型实现待合成干声与待合成伴奏的自动对齐,不仅可提升歌曲合成的效率,还能够有效规避因手工编辑所带来的对齐误差,进而可提升合成歌曲的质量。
62.基于上述实施例,下面对干声梅尔频谱和伴奏梅尔频谱的获取过程进行详细介绍。在一种可能的情况中,获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱,可以包括:
63.s201、获取待合成干声对应的曲谱及待合成伴奏。
64.s202、将待合成伴奏转换为频谱,并将频谱转换为伴奏梅尔频谱。
65.需要说明的是,本技术实施例并不限定频谱转换及梅尔频谱转换的具体过程,可参考频谱及梅尔频谱的相关技术。
66.s203、从曲谱中提取每一音符对应的歌词文本、音高及音高时长,并将音符的歌词文本、音高及音高时长整合为三元组。
67.曲谱信息可通过工具包可以从中提取出每个音符对应的歌词文本、音高及音高时长,并可整合为(文字,音高,音高时长)三元组,例如(你,83,0.5)。需要说明的是,本技术过实施例并不限定曲谱信息提取的具体方式,由于曲谱信息通常以musicxml格式保存,因此可参考musicxml文件解析的相关技术。
68.s204、根据曲谱中各音符的顺序将各音符的三元组依次写入三元组序列,并利用歌声合成模型将三元组序列转换为干声梅尔频谱。
69.可以理解的是,三元组序列即为曲谱的一种表现形式,该序列是依照各音符在曲谱中的顺序对各音符的三元组进行整合得到的;而歌声合成模型则用于将将三元组序列转换为干声梅尔频谱的一种神经网络模型。当然,为便于歌声合成模型对三元组序列进行转换处理,也可将三元组序列中的各个三元组编码为神经网络模型能够处理的向量形式,再将得到的向量序列输入至歌声合成模型中进行转换处理。需要说明的是,本技术实施例并不限定具体的编码方式,可根据实际应用需求进行设定。
70.在一种可能的情况中,利用歌声合成模型将三元组序列转换为干声梅尔频谱,可以包括:
71.步骤31:将三元组序列中的每一三元组编码为对应的向量,得到向量序列;
72.步骤32:利用歌声合成模型将向量序列转换为干声梅尔频谱。
73.进一步,本技术实施例也不限定歌声合成模型的具体种类,可根据实际应用需求,在语音合成的相关模型中进行选择,亦或是自行设计歌声合成模型。在本技术实施例中,考虑到fastspeech模型及fastspeech2模型所合成的干声质量较好,因此可利用fastspeech模型或fastspeech2模型将向量序列转换为干声梅尔频谱,其中fastspeech模型是一种声学模型,而fastspeech2模型是fastspeech模型的升级版。本技术实施例也不限定歌声合成模型的训练过程,其通常采用由真人演唱音频及对应的梅尔频谱所组成的训练集训练得到,具体可参考fastspeech模型及fastspeech2模型的相关技术。
74.进一步,考虑到合成的干声梅尔频谱仍可能存在不自然、饱满度不够等问题,因此可对歌声合成模型输出的干声梅尔频谱进行增强处理,以得到质量更高的干声梅尔频谱。具体的,可采用增强模型对干声梅尔频谱进行增强处理,其中该模型可根据输入的梅尔频谱预测对应的高质量梅尔频谱。可以理解的是,该模型的训练集由低质量梅尔频谱及对应的高质量梅尔频谱组成,其中低质量梅尔频谱存在不自然、噪声多、饱满度不够等缺陷,而高质量梅尔频谱则不存在上述缺陷,利用该训练集对增强模型进行训练,可使其能够根据输入的低质量梅尔频谱预测对应的高质量梅尔频谱。
75.在一种可能的情况中,在利用歌声合成模型将三元组序列转换为干声梅尔频谱之后,还可以包括:
76.步骤41:利用增强模型对干声梅尔频谱进行增强处理,以利用神经网络模型对增强处理后的干声梅尔频谱进行特征提取。
77.优选地,增强模型可以是概率扩散模型,该模型可将歌声合成模块的输出看作一种噪声,并从概率论的角度将其进行建模,从国通过降噪过程来获得质量更好的梅尔频谱。换句话说,可利用概率扩散模型对干声梅尔频谱进行增强处理。
78.基于上述实施例,本技术实施例可使用神经网络模型对待合成干声对应的曲谱及待合成伴奏进行自动合成,得到对应的干声梅尔频谱及伴奏梅尔频谱,可进一步提升歌曲合成的效率及合成质量。
79.下面将基于完整的结构图介绍上述歌曲合成方法的完整实施过程。请参考图3,图3为本技术实施例所提供的一种歌曲合成模型的示意图。下面将对该图中出现的各个模块进行介绍。
80.1.提取模块:用于从曲谱中提取出合成需要的歌词文本、音高以及相应的音高时长,曲谱信息通常以musicxml格式保存,通过工具包可以从中提取出每个音符对应的(文字,音高,音高时长),例如(你,83,0.5)。类似上述三元组组成了歌声合成模块的基本输入。
81.2.歌声合成模块:用于将给定的(文字,音高,音高时长)的序列转化为相应的梅尔频谱,这个过程通常是将三元组中的每一个项目编码成为一个向量,最后将这些向量拼接起来送入歌声合成模块。在训练阶段,还需要为歌声合成模块提供真实的梅尔频谱来指导模型学习。真实的梅尔频谱通常是由人对歌曲进行演唱,再直接将其频谱转换为梅尔频谱而得到。
82.3.增强模块:通常的歌声合成模块是以fastspeech模型或者fastspeech2模型为代表,这类模型合成音频的质量较为有限,为了使得得到的结果更接近真实的频谱或者更接近人的听感,可再使用一个增强模型,例如概率扩散模型,该模型将歌声合成模块的输出看作一种噪声,从概率论的角度将其进行建模,通过降噪过程来获得质量更好的梅尔频谱。
83.4、神经网络伴奏添加模块:该模块的结构请参考图2。与传统的合成方法直接将伴奏和合成干声线性叠加在一起不同,本技术可使用神经网络来进行更加优质的合成。在该模块中,首先需要将伴奏预处理转化为梅尔频谱m
acc
,接着通过一个伴奏编码器来进行处理,得到一系列经过变换的伴奏特征f
acc
。这里伴奏编码器是一个crnn神经网络结构,所有的时间步的输出结果构成了f
acc
。同样的,干声梅尔频谱m
ugc
也会经过干声编码器来提取其特征f
ugc
。紧接着,使用一个注意力机制模块将伴奏的干声的特征进行对齐,对齐的结果再通过一个声码器转换为作品声音。
84.下面对本技术实施例提供的歌曲合成装置、电子设备及计算机可读存储介质进行介绍,下文描述的歌曲合成装置、电子设备及计算机可读存储介质与上文描述的歌曲合成方法可相互对应参照。
85.请参考图4,图4为本技术实施例所提供的一种歌曲合成装置的结构框图,该装置可以包括:
86.获取模块401,用于获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱;
87.特征提取及对齐模块402,用于利用神经网络模型对干声梅尔频谱和伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐;干声特征和伴奏特征均包含对应的梅尔频谱在各个时刻对应的特征信息;
88.合成歌曲生成模块403,用于基于对齐的干声特征和伴奏特征之间的时刻对应关系,对干声梅尔频谱和伴奏梅尔频谱进行对齐,并利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。
89.优选地,获取模块401,可以包括:
90.获取子模块,用于获取待合成干声对应的曲谱及待合成伴奏;
91.第一转换子模块,用于将待合成伴奏转换为频谱,并将频谱转换为伴奏梅尔频谱;
92.提取子模块,用于从曲谱中提取每一音符对应的歌词文本、音高及音高时长,并将音符的歌词文本、音高及音高时长整合为三元组;
93.第二转换子模块,用于根据曲谱中各音符的顺序将各音符的三元组依次写入三元组序列,并利用歌声合成模型将三元组序列转换为干声梅尔频谱。
94.优选地,获取模块401,还可以包括:
95.增强子模块,用于利用增强模型对干声梅尔频谱进行增强处理,以利用神经网络模型对增强处理后的干声梅尔频谱进行特征提取。
96.优选地,增强子模块,具体用于:
97.利用概率扩散模型对干声梅尔频谱进行增强处理。
98.优选地,第二转换子模块,可以包括:
99.向量转换单元,用于将三元组序列中的每一三元组编码为对应的向量,得到向量序列;
100.梅尔频谱转换单元,用于利用歌声合成模型将向量序列转换为干声梅尔频谱。
101.优选地,梅尔频谱转换单元,具体用于:
102.利用fastspeech模型或fastspeech2模型将向量序列转换为干声梅尔频谱。
103.优选地,合成歌曲生成模块403,包括:
104.混合子模块,用于将对齐的干声梅尔频谱和伴奏梅尔频谱进行混合,得到混合梅尔频谱;
105.合成歌曲生成子模块,用于利用声码器将混合梅尔频谱转换为合成歌曲。
106.优选地,特征提取及对齐模块402,可以包括:
107.特征提取子模块,用于利用卷积循环神经网络模型对干声梅尔频谱和伴奏梅尔频谱进行特征提取,得到干声特征和伴奏特征;
108.特征对齐子模块,用于利用注意力机制模型对干声特征和伴奏特征进行特征对齐。
109.本技术还提供了一种电子设备,该电子设备可以包括处理器和存储器。该电子设备中处理器和存储器之间的关系可以参考图5。
110.其中,电子设备10的处理器11用于执行存储器12中存储的程序;
111.电子设备10的存储器12用于存储程序,该程序至少用于:
112.获取待合成干声对应的干声梅尔频谱,以及待合成伴奏对应的伴奏梅尔频谱;
113.利用神经网络模型对干声梅尔频谱和伴奏梅尔频谱进行特征提取,并对得到的干声特征和伴奏特征进行特征对齐;干声特征和伴奏特征均包含对应的梅尔频谱在各个时刻对应的特征信息;
114.基于对齐的干声特征和伴奏特征之间的时刻对应关系,对干声梅尔频谱和伴奏梅尔频谱进行对齐,并利用对齐的干声梅尔频谱和伴奏梅尔频谱生成合成歌曲。
115.当然,该电子设备还可以包含通信总线16、通信接口13、显示器15以及输入单元14等,在此不加以限制。
116.另一方面,本技术还提供了一种存储介质,该存储介质中存储有计算机程序,该计算机程序被处理器加载并执行时,用于实现如上任意一个实施例中所描述的歌曲合成方法。
117.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
118.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
119.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
120.以上对本技术所提供的一种歌曲合成方法、装置、电子设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。