音频合成方法、装置、终端设备及存储介质与流程-j9九游会真人

文档序号:35753731发布日期:2023-10-16 19:09阅读:10来源:国知局


1.本技术涉及音频合成技术领域,尤其涉及一种音频合成方法、装置、终端设备及存储介质。


背景技术:

2.tts(text-to-speech synthesis,声音合成)是一种基于文本合成音频的技术,其具体实现形式通常为tts模型。目前的tts模型大多是采用固定的音频素材进行训练得到,并且tts模型在训练完成之后就不会改动。所以,目前的tts模型合成的音频信息效果单一,无法满足用户的个性化需求。


技术实现要素:

3.本技术的主要目的在于提供一种音频合成方法、装置、终端设备及存储介质,旨在解决或改善tts模型合成的音频信息效果单一,无法满足用户的个性化需求的问题。
4.为实现上述目的,本技术提供一种音频合成方法,所述音频合成方法包括:获取待合成文本;通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。
5.可选地,所述通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息的步骤之前,还包括:获取所述个性化音频素材;对所述个性化音频素材进行分析,得到第一类训练音频特征以及对应的训练文本;基于预设的预处理规则,对所述第一类训练音频特征进行预处理得到对应的第二类训练音频特征;基于所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到所述个性化tts模型。
6.可选地,所述获取所述个性化音频素材的步骤包括:根据预先获取的用户的历史播放记录,获取对应的第一类个性化音频素材。
7.可选地,所述获取所述个性化音频素材的步骤包括:响应于用户的个性化音频设置操作,获取对应的第二类个性化音频素材。
8.可选地,所述基于所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到所述个性化tts模型的步骤包括:基于预设的若干种情感类别各自对应的情感训练参数、所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到情感效果个性化tts模型。
9.可选地,所述获取待合成文本的步骤包括:
获取用户的交互语音信息;对所述交互语音信息进行分析,得到对应的待回复文本;基于预设的回复规则对所述待回复文本进行分析,得到对应的待合成文本;所述通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息的步骤之后,还包括:播放所述目标音频信息。
10.可选地,所述对所述交互语音信息进行分析,得到对应的待回复文本的步骤包括:对所述交互语音信息进行分析,确定对应的目标情感类别并得到对应的待回复文本;所述通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息的步骤包括:通过所述情感效果个性化tts模型根据所述目标情感类别对所述待合成文本进行音频合成,得到携带情感效果的目标音频信息。
11.本技术实施例还提出一种音频合成装置,所述音频合成装置包括:获取模块,用于获取待合成文本;合成模块,用于通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。
12.本技术实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频合成程序,所述音频合成程序被所述处理器执行时实现如上所述的音频合成方法的步骤。
13.本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有音频合成程序,所述音频合成程序被处理器执行时实现如上所述的音频合成方法的步骤。
14.本技术实施例提出的音频合成方法、装置、终端设备及存储介质,通过获取待合成文本;通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。基于本技术方案,个性化tts模型是在原始tts模型的基础上基于个性化音频素材重新训练得到的,由于个性化音频素材的来源广泛,所以通过重新训练得到的个性化tts模型,能够对待合成文本进行音频合成得到效果更为丰富的目标音频信息,能够满足用户的个性化需求,提高了用户体验。
附图说明
15.图1为本技术音频合成装置所属终端设备的功能模块示意图;图2为本技术音频合成方法第一示例性实施例流程示意图;图3为本技术音频合成方法第二示例性实施例流程示意图;图4为本技术音频合成方法第三示例性实施例流程示意图;图5为本技术音频合成方法第四示例性实施例流程示意图;图6为本技术音频合成方法第五示例性实施例流程示意图;
图7为本技术音频合成方法第六示例性实施例流程示意图;图8为本技术音频合成方法第七示例性实施例流程示意图。
16.本技术目的的实现、功能特点及优点将结合实施例,参照附图作进一步说明。
具体实施方式
17.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
18.本技术实施例的主要j9九游会真人的解决方案是:获取待合成文本;通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。基于本技术方案,个性化tts模型是在原始tts模型的基础上基于个性化音频素材重新训练得到的,由于个性化音频素材的来源广泛,所以通过重新训练得到的个性化tts模型,能够对待合成文本进行音频合成得到效果更为丰富的目标音频信息,能够满足用户的个性化需求,提高了用户体验。
19.具体地,参照图1,图1为本技术音频合成装置所属终端设备的功能模块示意图。该音频合成装置可以为独立于终端设备的、能够进行音频合成的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
20.在本实施例中,该音频合成装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
21.存储器130中存储有操作系统以及音频合成程序,音频合成装置可以将获取的待合成文本;通过预设的个性化tts模型对待合成文本进行音频合成,得到的目标音频信息;预设的原始tts模型;以及预先获取的个性化音频素材等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括wifi模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
22.其中,存储器130中的音频合成程序被处理器执行时实现以下步骤:获取待合成文本;通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。
23.进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:获取所述个性化音频素材;对所述个性化音频素材进行分析,得到第一类训练音频特征以及对应的训练文本;基于预设的预处理规则,对所述第一类训练音频特征进行预处理得到对应的第二类训练音频特征;基于所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到所述个性化tts模型。
24.进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:根据预先获取的用户的历史播放记录,获取对应的第一类个性化音频素材。
25.进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:
响应于用户的个性化音频设置操作,获取对应的第二类个性化音频素材。
26.进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:基于预设的若干种情感类别各自对应的情感训练参数、所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到情感效果个性化tts模型。
27.进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:获取用户的交互语音信息;对所述交互语音信息进行分析,得到对应的待回复文本;基于预设的回复规则对所述待回复文本进行分析,得到对应的待合成文本;进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:播放所述目标音频信息。
28.进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:对所述交互语音信息进行分析,确定对应的目标情感类别并得到对应的待回复文本;进一步地,存储器130中的音频合成程序被处理器执行时还实现以下步骤:通过所述情感效果个性化tts模型根据所述目标情感类别对所述待合成文本进行音频合成,得到携带情感效果的目标音频信息。
29.本实施例通过上述方案,具体通过获取待合成文本;通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。本实施例中,个性化tts模型是在原始tts模型的基础上基于个性化音频素材重新训练得到的,由于个性化音频素材的来源广泛,所以通过重新训练得到的个性化tts模型,能够对待合成文本进行音频合成得到效果更为丰富的目标音频信息,能够满足用户的个性化需求,提高了用户体验。
30.参照图2,本技术音频合成方法第一实施例提供一种流程示意图,所述音频合成方法包括:步骤s10,获取待合成文本。
31.具体地,tts(text-to-speech synthesis,声音合成)是一种基于文本合成音频的技术,本实施例涉及的个性化tts模型能够对待合成文本进行音频合成,得到目标音频信息。因此,待合成文本是进行音频合成的基础材料,音频合成的过程首先需要获取待合成文本。
32.更为具体地,本实施例的执行主体可以是用户端,用户端可以是车载智能语音系统,待合成文本的来源可以有两种。第一种是用户通过向用户端手动导入或者输入待合成文本,第二种是用户与用户端进行语音交互,用户的语音被录制下来作为交互语音信息,从交互语音信息之中可以经过一系列分析得到待合成文本。因此,本实施例的用户端可以获取用户导入或者输入的待合成文本,也可以从与用户的语音交互过程中获取交互语音信息,并从交互语音信息中进一步获取待合成文本。
33.步骤s20,通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。
34.具体地,本实施例涉及的个性化tts模型基于预先获取的个性化音频素材和预设
的原始tts模型重新训练得到。
35.其中,个性化音频素材可以是符合用户偏好的音频素材,例如,用户将录制的人声文件作为个性化音频素材,或者用户将喜欢的歌手的歌曲文件作为个性化音频素材,或者用户将选定的某地方言对应的音频文件作为个性化音频素材。另外,个性化音频素材也可以是符合用户习惯的音频素材,例如,以用户在用户端经常播放的歌曲对应的音频文件作为个性化音频素材,或者以用户端当前位置对应的方言作为个性化音频素材。
36.预设的原始tts模型是指基于默认的音频素材进行训练得到的tts模型。可以理解的是,原始tts模型支持基础的音频合成功能,但是由于原始tts模型是基于默认的音频素材进行训练得到的,其合成的音频信息的效果受到默认的音频素材的限制,也就是说,原始tts模型无法满足用户的个性化需求。
37.在获取个性化音频素材之后,可以基于个性化音频素材对原始tts模型进行重新训练。在重新训练的过程中,原始tts模型对应的模型参数会改变,最终得到参数调整后的tts模型,即个性化tts模型。可以理解的是,个性化tts模型是基于个性化音频素材进行训练得到的,其合成的音频信息具备与个性化音频素材类似的效果。例如,个性化音频素材是某位歌手的歌曲文件,那么通过个性化tts模型对待合成文本进行音频合成得到的目标音频信息也可以体现出该歌手类似的人声效果。
38.本实施例通过上述方案,具体通过获取待合成文本;通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。本实施例中,个性化tts模型是在原始tts模型的基础上基于个性化音频素材重新训练得到的,由于个性化音频素材的来源广泛,所以通过重新训练得到的个性化tts模型,能够对待合成文本进行音频合成得到效果更为丰富的目标音频信息,能够满足用户的个性化需求,提高了用户体验。
39.进一步地,参照图3,本技术音频合成方法第二实施例提供一种流程示意图,基于上述图2所示的实施例,步骤s20,通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息之前,还包括:步骤s01,获取所述个性化音频素材。
40.具体地,本实施提出了基于预先获取的个性化音频素材和预设的原始tts模型重新训练,得到个性化tts模型。上述重新训练的过程首先需要获取个性化音频素材,获取个性化音频素材的方式可以分为主动获取方式和被动获取方式。主动获取方式是指用户端主动监测用户的音频播放行为,确定用户偏好的歌曲或者歌手,进而根据用户偏好的歌曲或者歌手获取对应的个性化音频素材;被动获取方式是指用户端被动获取用户录制/导入/输入的音频文件,将用户录制/导入/输入的音频文件作为对应的个性化音频素材。
41.步骤s02,对所述个性化音频素材进行分析,得到第一类训练音频特征以及对应的训练文本。
42.具体地,在获取到个性化音频素材之后,可以对个性化音频素材进行特征提取以及文本分析,得到第一类训练音频特征以及对应的训练文本。可以理解的是,第一类训练音频特征是一种未经预处理的音频特征,可能存在较多噪声信息。训练文本是指个性化音频素材对应的文本,例如,个性化音频素材是歌曲文件,那么个性化音频素材对应的训练文本为歌词内容。
43.步骤s03,基于预设的预处理规则,对所述第一类训练音频特征进行预处理得到对应的第二类训练音频特征。
44.具体地,由于第一类训练音频特征可能存在较多噪声信息,可以基于预设的预处理规则对第一类训练音频特征进行预处理,预处理的过程可以包括降噪、去除环境声、去除背景声等一种或多种步骤。预处理过程结束后,可以得到对应的第二类训练音频特征,可以理解的是,第二类训练音频特征为包含较少的噪声信息,可以视为一种包含纯净人声的音频特征。
45.步骤s04,基于所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到所述个性化tts模型。
46.具体地,在得到第二类训练音频特征以及对应的训练文本之后,可以进一步对原始tts模型进行重新训练。在重新训练的过程中,原始tts模型对应的模型参数会改变,最终得到参数调整后的tts模型,即个性化tts模型。
47.可以理解的是,由于用户端算力及存储空间有限,上述分析处理以及模型训练的过程可以交由服务端进行。用户端与服务端预先建立通信连接,可以进行数据交互。
48.本实施例通过上述方案,具体通过获取所述个性化音频素材;对所述个性化音频素材进行分析,得到第一类训练音频特征以及对应的训练文本;基于预设的预处理规则,对所述第一类训练音频特征进行预处理得到对应的第二类训练音频特征;基于所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到所述个性化tts模型。本实施例给出了基于个性化音频素材和原始tts模型重新训练得到个性化tts模型的具体步骤,其中,对第一类训练音频特征进行预处理得到对应的第二类训练音频特征,可以有效减少第二类训练音频特征所包含的噪声信息。如此基于第二类训练音频特征以及对应的训练文本,对原始tts模型重新训练可以得到性能更加优越的个性化tts模型,同时个性化tts模型能够满足用户的个性化需求,提高了用户体验。
49.进一步地,参照图4,本技术音频合成方法第三实施例提供一种流程示意图,基于上述图3所示的实施例,步骤s01,获取所述个性化音频素材进一步细化,包括:步骤s011,根据预先获取的用户的历史播放记录,获取对应的第一类个性化音频素材。
50.具体地,本实施例涉及个性化音频素材的主动获取方式。用户端对用户在用户端的播放行为进行检测,获取用户的历史播放记录,历史播放记录包括若干个已播放音频文件信息以及各自对应的播放次数。如果已播放音频文件信息是歌曲文件信息,那么历史播放记录还可以包括若干个歌曲文件各自对应的播放次数;如果已播放音频文件信息是歌手信息,那么历史播放记录还可以包括若干个歌手各自对应的歌曲文件的播放次数。可以理解的是,播放次数与用户对歌曲或歌手的偏好程度呈正相关。
51.进一步地,对历史播放记录进行分析,根据播放次数确定用户偏好的歌曲或者歌手,进而根据用户偏好的歌曲或者歌手获取对应的个性化音频素材。
52.值得注意的是,当用户端为车载智能语音系统时,获取的用户的历史播放记录为用户通过车载系统播放音乐的历史播放记录。
53.本实施例通过上述方案,具体通过根据预先获取的用户的历史播放记录,获取对应的第一类个性化音频素材。本实施例中,根据历史播放记录可以获取到符合用户偏好的
第一类个性化音频素材,进一步地,基于第一类个性化音频素材训练得到的个性化tts模型能够合成符合用户偏好的目标音频信息,提高了用户体验。
54.进一步地,参照图5,本技术音频合成方法第四实施例提供一种流程示意图,基于上述图3所示的实施例,步骤s01,获取所述个性化音频素材进一步细化,包括:步骤s012,响应于用户的个性化音频设置操作,获取对应的第二类个性化音频素材。
55.具体地,本实施例涉及个性化音频素材的被动获取方式。用户的个性化音频设置操作包括录制音频文件、导入音频文件、输入音频文件,用户端被动获取用户录制/导入/输入的音频文件,将用户录制/导入/输入的音频文件作为对应的个性化音频素材。例如,用户端支持音频录制功能,用户可以通过用户端实时录制音频文件,并将实时录制的音频文件作为个性化音频素材;或者,用户向用户端导入/输入预先准备好的歌曲文件或者录音文件等音频文件,并将导入/输入的音频文件作为个性化音频素材。
56.本实施例通过上述方案,具体通过响应于用户的个性化音频设置操作,获取对应的第二类个性化音频素材。本实施例中,用户可以通过个性化音频设置操作以使用户端获取对应的第二类个性化音频素材,基于第二类个性化音频素材训练得到的个性化tts模型能够满足用户的个性化需求,提高了用户体验。
57.进一步地,参照图6,本技术音频合成方法第五实施例提供一种流程示意图,基于上述图3所示的实施例,步骤s04,基于所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到所述个性化tts模型进一步细化,包括:步骤s041,基于预设的若干种情感类别各自对应的情感训练参数、所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训练得到情感效果个性化tts模型。
58.为了使合成得到的目标音频信息能够携带情感效果,本实施例提出了基于预设的若干种情感类别各自对应的情感训练参数进行模型训练,以得到情感效果个性化tts模型。具体地,预设的若干种情感类别包括高兴、悲伤、愤怒、厌恶、惊讶、恐惧等。每种情感类别各自对应的语调或者语速是不同的,例如,情感类别“高兴”对应的语调和语速通常都会比情感类别“悲伤”对应的语调和语速要高。为此,预设若干种情感类别各自对应的情感训练参数,情感训练参数用于控制语调和语速。
59.进一步地,基于若干种情感类别各自对应的情感训练参数、第二类训练音频特征以及对应的训练文本,对原始tts模型重新训练。在重新训练的过程中,原始tts模型对应的模型参数会改变,尤其是控制情感效果的模型参数会改变,最终得到参数调整后的tts模型,即情感效果个性化tts模型,情感效果个性化tts模型支持合成携带情感效果的音频信息。
60.可以理解的是情感类别还可以进一步拓展为基于情感的风格化类别,例如,基于情感的风格化类别可以包括卖萌、撒娇、淘气、憨厚等。同理,也可以为若干个基于情感的风格化类别设置对应的风格化训练参数,若干个基于情感的风格化类别及对应的风格化训练参数可用于训练得到对应的个性化tts模型。
61.本实施例通过上述方案,具体通过基于预设的若干种情感类别各自对应的情感训练参数、所述第二类训练音频特征以及对应的训练文本,对所述预设的原始tts模型重新训
练得到情感效果个性化tts模型。本实施例中,基于若干种情感类别各自对应的情感训练参数可以训练得到情感效果个性化tts模型,情感效果个性化tts模型支持合成携带情感效果的音频信息,提高了用户体验。
62.进一步地,参照图7,本技术音频合成方法第六实施例提供一种流程示意图,基于上述图6所示的实施例,步骤s10,获取待合成文本进一步细化,包括:步骤s101,获取用户的交互语音信息。
63.具体地,本实施例涉及用户与用户端进行语音交互的应用场景。用户端设有录音单元和播放单元,在用户与用户端进行语音交互时,用户端通过录音单元录制用户的语音,得到交互语音信息。
64.用户的交互语音信息可以包括语音提问或者语音指令。例如,用户端为车载智能语音系统,用户在行车过程中发出语音提问“请问附加的加油站在哪里?”,或者发出语音指令“请打开驾驶座车窗”,那么车载智能语音系统就可以获取反映上述语音提问或者语音指令的交互语音信息。
65.步骤s102,对所述交互语音信息进行分析,得到对应的待回复文本。
66.具体地,在用户与用户端的语音交互过程中,用户端需要回复用户的语音提问或者语音指令。为此,需要对交互语音信息进行分析得到对应的待回复文本。例如,对交互语音信息进行分析得到对应的待回复文本的内容为语音提问“请问附加的加油站在哪里?”,或者语音指令“请打开驾驶座车窗”。
67.步骤s103,基于预设的回复规则对所述待回复文本进行分析,得到对应的待合成文本。
68.具体地,用户端预设有回复规则,可以根据回复规则对待回复文本进行分析,得到对应的待合成文本。可以理解的是,待合成文本包括对待回复文本的语音提问或者语音指令的回复内容。
69.例如,待回复文本的内容为语音提问“请问附加的加油站在哪里?”,那么基于回复规则对待回复文本进行分析得到对应的待合成文本的内容为“最近的加油站位于前方道路200米处”;又如,待回复文本的内容为语音指令“请打开驾驶座车窗”,那么基于回复规则对待回复文本进行分析得到对应的待合成文本的内容为“已打开驾驶座车窗”。
70.步骤s20,通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息之后,还包括:步骤s05,播放所述目标音频信息。
71.具体地,在合成得到目标音频信息之后,用户端可以通过预设的播放单元,播放目标音频信息。如此,便可以使用户与用户端的语音交互过程形成闭环,用户可以及时听到播放的目标音频信息。
72.本实施例通过上述方案,具体通过获取用户的交互语音信息;对所述交互语音信息进行分析,得到对应的待回复文本;基于预设的回复规则对所述待回复文本进行分析,得到对应的待合成文本;播放所述目标音频信息。本实施例提出了用户与用户端进行语音交互的应用场景,从用户的交互语音信息获取待回复文本,并根据待回复文本得到对应的待合成文本,利用待合成文本合成目标音频信息。本实施例还可以具体应用于车辆智能座舱等涉及语音交互的应用场景,以提高用户在车辆智能座舱等应用场景下的用户体验。
73.进一步地,参照图8,本技术音频合成方法第七实施例提供一种流程示意图,基于上述图7所示的实施例,步骤s102,对所述交互语音信息进行分析,得到对应的待回复文本进一步细化,包括:步骤s1021,对所述交互语音信息进行分析,确定对应的目标情感类别并得到对应的待回复文本。
74.具体地,在用户与用户端的语音交互过程中,用户端可以获取到用户的交互语音信息,基于交互语音信息分析对应的语速以及语调,可以确定用户在当前语音交互过程中的目标情感类别。例如,基于交互语音信息分析对应的语速以及语调,确定对应的目标情感类别为“高兴”。另外,对交互语音信息进行分析还得到对应的待回复文本。
75.步骤s20,通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息进一步细化,包括:步骤s201,通过所述情感效果个性化tts模型根据所述目标情感类别对所述待合成文本进行音频合成,得到携带情感效果的目标音频信息。
76.具体地,在确定目标情感类别之后,可以根据目标情感类别生成对应的情感效果合成控制指令,通过情感效果个性化tts模型根据情感效果合成控制指令对待合成文本进行音频合成,得到携带情感效果的目标音频信息。可以理解的是,携带情感效果的目标音频信息与用户当前的情感状态相对应,并且可以体现出个性化音频素材对应的效果。例如,个性化音频素材为某歌手的歌曲文件,那么最终合成得到的携带情感效果的目标音频信息不仅可以体现出与用户当前的情感状态相对应的情感效果,而且可以体现出与该歌手相对应的人声效果。
77.值得注意的是,目标情感类别不一定与用户当前的情感状态相对应,目标情感类别可以根据用户当前的情感状态进行适应性地调整。例如,用户当前的情感状态为“悲伤”时,目标情感类别可以是“高兴”,目的是使携带“高兴”情感效果的目标音频信息起到取悦用户的效果。
78.本实施例通过上述方案,具体通过对所述交互语音信息进行分析,确定对应的目标情感类别并得到对应的待回复文本;通过所述情感效果个性化tts模型根据所述目标情感类别对所述待合成文本进行音频合成,得到携带情感效果的目标音频信息。本实施例中,根据用户与用户端进行语音交互时的情感状态,合成得到携带情感效果的目标音频信息,提高了用户体验。
79.此外,本技术实施例还提出一种音频合成装置,所述音频合成装置包括:获取模块,用于获取待合成文本;合成模块,用于通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。
80.本实施例实现音频合成的原理及实施过程,请参照上述各实施例,在此不再赘述。
81.此外,本技术实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频合成程序,所述音频合成程序被所述处理器执行时实现如上所述的音频合成方法的步骤。
82.由于本音频合成程序被处理器执行时,采用了前述所有实施例的全部技术方案,
因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
83.此外,本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有音频合成程序,所述音频合成程序被处理器执行时实现如上所述的音频合成方法的步骤。
84.由于本音频合成程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
85.相比现有技术,本技术实施例提出的音频合成方法、装置、终端设备及存储介质,通过获取待合成文本;通过预设的个性化tts模型对所述待合成文本进行音频合成,得到目标音频信息,其中,所述个性化tts模型基于预先获取的个性化音频素材和预设的原始tts模型重新训练得到。基于本技术方案,个性化tts模型是在原始tts模型的基础上基于个性化音频素材重新训练得到的,由于个性化音频素材的来源广泛,所以通过重新训练得到的个性化tts模型,能够对待合成文本进行音频合成得到效果更为丰富的目标音频信息,能够满足用户的个性化需求,提高了用户体验。
86.需要说明的是,在本文中,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
87.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
88.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本技术每个实施例的方法。
89.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1  
相关技术
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图