音频生成方法及装置与流程-j9九游会真人

文档序号:34945228发布日期:2023-07-29 00:56阅读:11来源:国知局


1.本技术属于语音处理领域,具体涉及一种音频生成方法及装置。


背景技术:

2.当前,用手机、平板电脑听有声小说、有声新闻等音频内容已经成为许多人的生活习惯,这些音频内容通常需要人工通篇录制,但由于其耗时长、成本高,目前也会采用将文本内容自动转换为音频的方式,来得到对应的音频内容。
3.但是,这种方式得到的音频内容的声音是机械和单调的,用户在听取音频内容的过程中,会难以让用户代入音频内容,体验较差。


技术实现要素:

4.本技术实施例的目的是提供一种音频生成方法及装置,能够解决将文本内容直接转换为音频内容时,声音机械和单调,用户体验较差。
5.第一方面,本技术实施例提供了一种音频生成方法,该方法包括:
6.获取文档中的目标内容,其中,所述目标内容包括:人物信息和所述人物信息对应的对话文本的语句信息;
7.分析所述目标内容,得到所述目标内容对应的情绪信息;
8.基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频。
9.第二方面,本技术实施例提供了一种音频生成装置,包括:
10.获取模块,用于获取文档中的目标内容,其中,所述目标内容包括:人物信息和所述人物信息对应的对话文本的语句信息;
11.分析模块,用于分析所述目标内容,得到所述目标内容对应的情绪信息;
12.转换模块,用于基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频。
13.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
14.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
15.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
16.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
17.在本技术实施例中,通过获取文档中的目标内容,可以保证将包含有人物信息和对应的对话文本的语句准确地选取出来,进而准确地确定符合人物特征的声音特质;分析目标内容,得到的情绪信息,可以有效确定目标内容中对话文本对应的情绪,从而将对话文本转换成对话音频时,可以结合情绪信息和人物信息,得到富有人物特征和人物情感的对话音频,使得听者能够在聆听音频的过程中,更好的代入到音频文件的内容中,提高用户体验。
附图说明
18.图1是本技术实施例提供的音频生成方法流程示意图之一;
19.图2是本技术实施例提供的情感轴结构示意图;
20.图3是本技术实施例提供的情绪向量结构示意图;
21.图4是本技术实施例提供的音频采集界面示意图;
22.图5是本技术实施例提供的音频导入界面示意图;
23.图6是本技术实施例提供的音频播放界面示意图;
24.图7是本技术实施例提供的音频生成方法流程示意图之二;
25.图8是本技术实施例提供的音频生成装置结构示意图;
26.图9是本技术实施例提供的电子设备结构示意图;
27.图10是实现本技术实施例的一种电子设备的硬件结构示意图。
具体实施方式
28.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
29.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
30.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的音频生成方法及装置进行详细地说明。
31.图1是本技术实施例提供的音频生成方法流程示意图之一,如图1所示,包括:
32.步骤110,获取文档中的目标内容,其中,所述目标内容包括:人物信息和所述人物信息对应的对话文本的语句信息;
33.本技术实施例中所描述的文档具体可以是小说、新闻、传记、童话或杂志等任何具有文本的文档。
34.本技术实施例中所描述的人物信息可以是指小说角色、新闻角色或传记角色等任意人物角色的信息,具体可以包含人物姓名、人物代称和人物关键特征等任意一项信息,例如,人物角色a的姓名为“张三”,可以通过文档中的“张三”确定对应的人物信息为a;又例
如,人物角色b的代称为“庄堂主”,可以通过文档中的“庄堂主”确定对应的人物信息为b;再例如,人物角色c的人物关键特征为“脸上有道深深的刀疤印子的男人”,此时可以通过文档中的“脸上有道深深的刀疤印子的男人”,确定对应的人物信息为c。
35.本技术实施例中所描述的对话文本具体可以是人物对话文本,也可以是人物心理活动文本,或者还可以是人物自我陈述文本等。
36.在一个可选的实施例中,人物对话文本具体可以是两个人或多个人之间的口头交流,其表现形式可以是书面或口头语言,例如“最近在忙什么呢?”,“唉,在准备考试呀。”等交流性语言。
37.在一个可选的实施例中,人物心理活动文本描写人物内心想法、情感、态度或感受等心理活动的文本。人物心理活动文本不一定出现在对话中,通常可能以叙述的形式呈现,常常带有描述内心想法的词语,例如思考、想象、猜测或怀疑等,例如“他心理默默想着,这个决定是否正确,还是自己太冲动了?”。
38.在一个可选的实施例中,人物自我陈述文本具体可以是人物表达自己的想法或感受的文本,其主语常常可能是第一人称,常用的语言模式可能有反问句、感叹句或疑问句等,例如“难道这就是我的命运吗?”、“刚刚那一幕真可怕!”。
39.在一个可选的实施例中,可以利用正则表达式匹配,正则表达式由各种字符及元字符组成,用于表示字符串中的特定模式,例如日期、时间或网址等,正则表达式匹配可以是设定规则来判断对话文本,具体可以是根据文本的排版格式、标点符号或语言模式等来判断,比如,以语句文本前会有冒号及双引号共同出现为判断依据,或者以语句文本末尾出现问号或感叹号等为判断依据,再或者以语句文本中包含感叹词、口语词等为判断依据,又或者以语句文本中出现心理描写词语为判断依据。例如,可以从“最近在忙什么呢?”中的问号来判断该语句文本为对话文本,也可以从“唉,在准备考试呀”中的感叹词来判断该语句文本为对话文本,或者也可以从“他心理默默想着,这个决定是否正确,还是自己太冲动了?”中的心理描写词语“想着”来判断该语句文本为对话文本,等等。
40.本技术实施例中所描述的目标内容中至少需要包含人物信息,以及和对应人物信息的对话文本。目标内容可以为一个完整的语句,也可以是多个语句。
41.在一个可选的实施例中,当人物信息及其对应的对话文本均在一句话中时,可以判断该句话为目标内容。例如,小说中存在“那位脸上有道深深的刀疤印子的男子哈哈大笑道:

你们也不过如此嘛!
’”
,该句中存在人物信息“脸上有道深深的刀疤印子的男子”,以及到对应的人物信息的对话文本“你们也不过如此嘛!”,则可以将该句判定为目标内容。
42.在另一个可选的实施例中,当一整段语句文本中,人物信息及其对应的对话文本之间还有其它文本或文本段落时,则以该整段语句文本均作为目标内容。例如,小说中存在整段语句文本“那位脸上有道深深的刀疤印子的男子环顾四周,仿佛在寻找什么。突然,他看到了一个身穿黑衣的人,眼神突变锐利,紧紧盯着那个黑衣男人,说道:

你真的来了。
’”
,整段语句文本中存在人物信息“脸上有道深深的刀疤印子的男子”,以及该人物信息对应的对话文本“你真的来了。”,则可以将整段的多个语句文本判定为目标内容。
43.在一个可选的实施例中,从文档中获取目标内容,具体可以通过利用分词、命名实体识别、句子边界检测等自然语言处理算法,将文档中的文本划分为句子或文本段落,识别出人物信息以及该人物信息对应的对话文本的语句或文本段落,并将包含人物信息和该人
物信息对应的对话文本的语句作为目标内容。
44.步骤120,分析所述目标内容,得到所述目标内容对应的情绪信息;
45.在一个可选的实施例中,分析目标内容,具体可以对目标内容中的表达情绪的情绪词进行情绪分析,也可以根据目标内容中的对话文本的语句进行情绪分析。
46.本技术实施例中所描述的情绪信息具体可以分类成正向情绪、中性情绪、和负向情绪三种,正向情绪可以细分为喜爱、愉快或感谢等,中性情绪中可以细分为平静、困惑或惊讶等,负向情绪可以细分为抱怨、愤怒、厌恶、恐惧或悲伤等。
47.在另一个可选的实施例中,情绪信息具体还可以利用情感轴进行分类,情感轴中预设包含两个轴,分别是高-低轴和愉快-不愉快轴,情感轴上的象限对应四种情感:高愉、低愉、高不愉、低不愉,将情绪表示为情感轴坐标系的位置坐标。
48.图2是本技术实施例提供的情感轴结构示意图,如图2所示,情感轴中纵轴从上到下是高到低,横轴从左到右是不愉快到愉快,其中,坐标系的第一象限为高愉象限,第二象限为高不愉象限,第三象限为低不愉象限,第四象限为低愉象限。在另一个可选的实施例中,情绪信息具体还可以通过情绪向量来表示情绪,其中每个维度表示一种情绪状态,例如,可以使用一个二维向量表示高兴和悲伤情绪,其中向量的每个维度分别对应这些情绪的程度。
49.图3是本技术实施例提供的情绪向量结构示意图,如图3所示,包括x轴、y轴和对角线,其中,x轴表示高兴的情绪,从左到右的方向表示高兴的程度从低到高,y轴表示悲伤的情绪,从下至上的方向表示悲伤的程度从低到高,对角线表示中性的情绪,如果坐标点在对角线上则表明为中性情绪。在一个可选的实施例中,目标内容对应的情绪信息,具体可以表示目标内容中的对话文本对应的情绪信息,从而方便后续将对话文本转换成对话音频时,可以结合情绪信息,生成有情感的对话音频。
50.步骤130,基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频。
51.在一个可选的实施例中,可以预先生成一个存储有多个预设人物信息的预设信息库,该预设信息库中的每个预设人物信息均可以关联存储有一个音色信息。本技术实施例中可以通过人物信息,与预设信息库中预设人物信息相匹配,通过匹配到的预设人物信息,找到与预设人物信息关联存储的音色信息,从而确定音色信息与人物信息之间的对应关系。
52.在一个可选的实施例中,音色信息具体可以包括声音的音色、音调、音高、响度或语速等信息。
53.在一个可选的实施例中,例如,名为“李四”的人物,其特征为粗狂尚武的男性,则与该人物信息对应的音色信息具体可以是:音色在低频段100-500hz处较强,形成粗狂、低沉的感觉;音调数值在80-150hz范围,较为平稳;音高数值在70-120hz范围,在低音区域;响度在70-90db范围,音量较大;语速在120-150字每分钟,速度较快。本技术实施例中所描述的,基于情绪信息和人物信息,将目标内容中的对话文本转换成对话音频,具体可以是根据情绪信息,调整人物信息对应的音色信息,根据调整后的音色信息,将对话文本转换成对话音频;还可以是根据人物信息对应的音色信息,将对话文本转换成对话音频,再结合情绪信息进一步调整对话音频。
54.在一个可选的实施例中,将目标内容中的对话文本转换成对话音频,具体可以通过tacotron(towards end-to-end speech synthesis,面向端到端的语音合成)、wavenet(波形网络)等基于深度学习的语音合成算法来实现。
55.在一个可选的实施例中,可以预设不对应任何人物信息的旁白音色,对于目标内容中非对话文本的部分,可以不需要结合情绪信息,仅基于旁白音色将非对话文本转换成音频即可。用户也可以根据其喜好,对旁白音色进行调整。
56.在一个可选的实施例中,由对话音频和非对话文本音频共同构成文档音频。
57.在本技术实施例中,通过获取文档中的目标内容,可以保证将包含有人物信息和对应的对话文本的语句信息准确地选取出来,进而准确地确定符合人物特征的声音特质;分析目标内容,得到的情绪信息,可以有效确定目标内容中对话文本对应的情绪,从而将对话文本转换成对话音频时,可以结合情绪信息和人物信息,得到富有人物特征和人物情感的对话音频,使得听者能够在聆听音频的过程中,更好的代入到音频文件的内容中,提高用户体验人物特征。
58.可选地,分析所述目标内容,得到所述目标内容对应的情绪信息,包括:
59.将所述目标内容与预设情绪词库中的情绪词进行匹配,确定所述目标内容中包括的所述情绪词,其中,所述预设情绪词库中包括至少一个预设的所述情绪词;
60.基于所述目标内容中的所述情绪词,确定所述目标内容对应的情绪信息。
61.在本技术实施例中所描述的预设情绪词库具体可以是包含大量预设的情绪词的词汇库,例如表示快乐情绪的欢快、愉悦或兴高采烈等情绪词,表示愤怒情绪的愤慨、愤愤不平、怒气冲冲或暴跳如雷等情绪词,表示悲伤情绪的悲哀、哀怨或惆怅等情绪词,表示恐惧情绪的惊恐、害怕、惊慌或胆怯等情绪词。
62.在本技术实施例中所描述的,目标内容与预设情绪词库中的情绪词进行匹配,具体可以通过文本精准匹配算法,例如kmp算法(knuth-morris-pratt algorithm,克努斯-莫里斯-普拉特算法)、暴力匹配算法来实现,逐一比较目标内容中的词语与预设情绪词库中的情绪词是否相同,如果相同则认为匹配成功,否则认为匹配失败。匹配成功则意味着,目标内容中存在可以较为明显地表示情绪信息的情绪词。
63.在一个可选的实施例中,基于所述目标内容中的情绪词,确定目标内容对应的情绪信息,具体可以是利用tf-idf(term frequency-inverse document frequency,词频-逆文档频率)算法、word2vec(word to vector,词向量)算法等将目标内容中的情绪词转化为向量表示,继而利用训练好的词袋模型算法,或训练好的情感词典算法等对情绪词进行情感分析,确定情绪词的分类和强度,从而确定目标内容中的情绪词的情绪信息,最终确定目标内容对应的情绪信息。
64.在一个可选的实施例中,目标内容中可能包含多个情绪词,可能对应多个情绪信息,当存在多个情绪信息时,需要进一步结合上下文语境进行后续处理,例如,人物由悲转喜后开口说话,则可以选择喜悦情绪为标准进行后续处理。
65.本技术实施例中,通过预设情绪词库中预设的情绪词,可以将目标内容与预设情绪词库中的情绪词进行匹配,从而有效确定目标内容中的情绪词,情绪词可以明显地表征情绪含义,并且通过对目标内容中的情绪词进行分析,可以有效保证得到准确的对话文本对应的情绪信息,从而保证了对话文本转换为对话音频时,可以表现出准确的情感,使得听
者能够在聆听音频的过程中,更好的代入到音频文件的内容中,提高用户体验。
66.可选地,在将所述目标内容与预设情绪词库中的情绪词进行匹配之后,还包括:
67.在所述目标内容与所述预设情绪词库匹配失败的情况下,对所述目标内容中的对话文本进行分析,得到所述目标内容对应的情绪信息。
68.在一个可选的实施例中,目标内容与预设情绪词库匹配,具体可以通过文本精准匹配算法,例如kmp算法(knuth-morris-pratt algorithm,克努斯-莫里斯-普拉特算法)、暴力匹配算法来实现,逐一比较目标内容中的词语与预设情绪词库中的情绪词是否相同。
69.在本技术实施例中所描述的,目标内容与预设情绪词库匹配失败的情况,具体可以是目标内容中没有预设情绪词库中的任一项情绪词,要确定目标内容对应的情绪信息,则可以对目标内容中的对话文本或者结合对话文本的上下文进行分析,因为通常对话文本或对话文本上下文中隐含了可以表示情绪的信息,例如,
“‘
你再动他一下试试。’她说,咬紧了牙齿,双手紧握成拳”,可以看出紧接着对话文本的话语中尽管没有情绪词,但“咬紧牙齿”和“紧握成拳”的描述同样可以表示情绪信息。
70.在一个可选的实施例中,对目标内容中的对话文本进行分析,可以是对对话文本进行文本情绪分析,具体可以是利用训练好的lstm(long short-term memory,长短时记忆网络)算法,学习目标内容中对话文本的上下文信息,也可以是利用训练好的循环神经网络算法,学习对话文本的特征,同时,可以利用例如数据增强、正则化等手法提高模型的泛化能力。然后使用softmax分类器进行情感分类,从而得到目标内容对应的情绪信息。
71.本技术实施例中,通过对目标内容中的对话文本进行分析,可以有效应对目标内容与预设情绪词库匹配失败的情况,在目标内容中不存在可以明确表示情绪信息的情绪词时,通过对对话文本进行分析,可以有效保证情绪信息的准确性,从而保证了对话文本转换为对话音频时,可以表现出准确的情感,提高用户体验。
72.可选地,基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频,包括:
73.在所述人物信息与预设信息库中的预设人物信息匹配成功的情况下,基于与所述人物信息匹配的预设人物信息,获取第一音色信息;其中,所述预设信息库中存储有至少一个音色信息,每个所述音色信息对应一个预设人物信息;
74.基于所述情绪信息对所述人物信息对应的第一音色信息进行音色调整,得到第二音色信息;
75.基于所述第二音色信息对所述对话文本进行文本音频转换,得到对话音频。
76.本技术实施例中所描述的预设信息库,具体可以存储多个预设人物信息及各个预设人物信息对应的音色信息,并且,还可以存储旁白音色信息,与旁白对应,而不对应于预设人物信息。
77.在一个可选的实施例中,可以预设旁白的性别,可以预设旁白音色信息的音色、音调、音高、响度或语速均在中间值,也可以由用户修改旁白的性别以及旁白音色信息。
78.本技术实施例中所描述的预设人物信息,具体可以是根据文档中出现的人物,预先存储在预设信息库中的预设人物信息,具体可以包含人物姓名、人物代称或人物关键特征等信息。
79.在一个可选的实施例中,预设信息库中的音色信息与预设人物信息一一对应,表示对应的预设人物信息的声音特征,具体可以包括声音的音色、音调、音高、响度或语速等信息。具体可以根据对应的预设人物信息的人物信息特征进行预先设置。例如,名为“白五”的人物,其特征为温柔的女性,则可以将其对应的音色信息设置成如下:音色在低频段100-200hz之间,形成平稳温和的感觉;音调数值在180-220hz范围,较为平稳;音高数值在400-500hz范围,较为柔和;响度在50-60db范围,音量不大;语速在90-100字每分钟,速度相对较慢。
80.在一个可选的实施例中,将人物信息与预设信息库中的预设人物信息进行匹配,具体可以是通过文本精准匹配算法,例如kmp算法、暴力匹配算法,逐一比较人物信息与预设信息库中的预设人物信息是否相同,当人物信息中包含人物姓名或人物代称时,优先匹配预设人物信息中的人物姓名或人物代称,在二者的人物姓名或人物代称完全匹配时,则认为匹配成功。
81.在另一个可选的实施例中,如果人物信息中没有包含人物姓名或人物代称,仅包含人物关键特征或部分关键特征的情况下,则与预设人物信息中的人物关键特征进行匹配,可以预设一个关键度比例阈值,例如90%或85%,若二者匹配度超过关键度比例阈值,则认为匹配成功。
82.在另一个可选的实施例中,如果人物信息中仅是人称代词,例如“他”、“她”,则需要结合目标内容的上下文语境进行分析,进一步补充人物信息,在补充的人物信息满足上述两个实施例的情况时,也可认为匹配成功。
83.在一个可选的实施例中,人物信息与预设信息库中的预设人物信息匹配成功,表示在众多预设人物信息中,存在一个预设人物信息与人物信息相匹配。
84.在一个可选的实施例中,基于与所述人物信息匹配的预设人物信息,获取第一音色信息,具体可以是将与预设人物信息匹配的人物信息,与预设信息库中与预设人物信息关联存储的音色信息之间建立起对应关系,并将与人物信息建立对应关系的音色信息作为第一音色信息。
85.本技术实施例中所描述的第一音色信息具体可以表示符合人物信息特征的声音特质,可以包括声音的音色、音调、音高、响度或语速等信息。
86.在一个可选的实施例中,用户可以根据自己的喜好,调整第一音色信息。在一个可选的实施例中,对人物信息对应的第一音色信息进行音色调整,具体可以是根据情绪信息的类别和强度,确定第一音色信息所要调整的方向以及变化幅度。例如,情绪信息为“愤怒”类别的情况下,可以将第一音色信息中的音色向增加低音分量、减少高音分量的方向调整,音调、音高、响度以及语速均向提高的方向进行调整,而情绪信息越偏向极度愤怒,第一音色信息的整体变化幅度可以越大。调整后的第一音色信息,就是第二音色信息。
87.本技术实施例中所描述的基于第二音色信息对对话文本进行文本音频转换,具体可以是利用训练好的tacotron模型或训练好的wavenet模型来得到对话音频。
88.在一个可选的实施例中,tacotron模型是一种基于循环神经网络的语音合成算法,将对话文本和第二音色信息输入到训练好的tacotron模型中,首先对输入的对话文本进行词性标注、转音标等处理,将对话文本转化成连续的向量空间,接着,采用基于循环神经网络的解码器,结合文本特征向量和第二音色信息,生成下一个时间步的音频序列,最终
生成流畅自然且富有情感的语音;对生成的语音作进一步处理,例如去噪、音频增强、音频均衡等,最后将语音导成音频,最终得到对话音频。
89.在另一个可选的实施例中,wavenet模型是一种基于神经网络的语音合成算法,将对话文本和第二音色信息输入到训练好的wavenet模型中,将对话文本转化为对应的语音特征序列,通过one-hot编码将语音特征序列转化为离散的特征序列,并利用卷积神经网络,根据第二音色信息,将离散的特征序列转化为与第二音色信息相匹配的连续的音频波形,最终生成对话音频。
90.在另一个可选的实施例中,可以根据第一音色信息对对话文本进行文本音频转换,得到未调整的对话音频,并基于情绪信息对未调整的对话音频进行音色调整。进行音色调整的方式,具体可以是通过声音滤波器调整音频的声音色调,实现对音色的调整;通过调整音频的频率,实现对音调的调整;通过改变音频的采样率,实现对音高的调整;通过音量调节器调整音频的响度,实现对响度的调整;通过改变音频的播放速度,实现对语速的调整,最终得到对话音频。
91.本技术实施例中,通过人物信息与预设人物信息匹配成功,则人物信息对应的第一音色信息已经被存储在预设信息库中,此时可以基于与人物信息匹配的预设人物信息,获取预设信息库中,与该预设人物信息对应的第一音色信息,从而有效获取人物信息对应的声音特质;基于情绪信息可以确定情绪信息的类别和强度,继而根据情绪信息的类别和强度,可以有效确定第一音色信息中各项信息的调整方向和调整强度,从而对第一音色信息进行音色调整,可以使得调整后的第一音色信息,也就是第二音色信息可以有效表现出带有该情绪感情的声音特质,从而使得基于第二音色信息得到的对话音频,可以有丰富情感的声音表现,使得听者能够在聆听音频的过程中,更好的代入到音频文件的内容中,提高用户体验。
92.可选地,基于所述情绪信息对所述人物信息对应的第一音色信息进行音色调整,得到第二音色信息的步骤之前,还包括:
93.在所述人物信息与所述预设信息库中的预设人物信息均不匹配的情况下,接收用户用于导入目标音频的第一输入;
94.响应于所述第一输入,基于所述目标音频的音频特征,生成所述人物信息对应的第一音色信息,并将所述人物信息对应的第一音色信息存储到所述预设信息库中。
95.在一个可选的实施例中,将人物信息与预设信息库中的预设人物信息进行匹配,具体可以是通过文本精准匹配算法,例如kmp算法、暴力匹配算法,逐一比较人物信息与预设信息库中的预设人物信息是否相同。
96.在本技术实施例中所描述的,人物信息与预设信息库中的预设人物信息均不匹配的情况,具体可以是预设信息库中所有的预设人物信息,均没有一项与人物信息相匹配。
97.在另一个可选的实施例中,如果人物信息中仅是人称代词,例如“他”、“她”,则需要结合目标内容的上下文语境进行分析,进一步补充人物信息,补充后的人物信息,经过上述文本精准匹配算法的步骤,人物信息也无法与预设信息库中任意一项预设人物信息相匹配的话,则也可认为人物信息与预设人物信息不匹配。
98.在一个可选的实施例中,人物信息与预设人物信息均不匹配,则意味着人物信息之前没有存储在预设信息库中,此时可以将该人物信息添加到预设信息库。
99.在一个可选的实施例中,具体可以由用户导入音频,根据用户导入的音频来确定新添加进预设信息库中的人物信息对应的音色信息。
100.在本技术实施例中所描述的,目标音频具体可以是用户想要导入的音频,音频中的声音可以表示用户希望人物呈现的声音特质。在一个可选的实施例中,用户一方面可以选取设备上的本地音频文件作为目标音频,另一方面可以录制音频,将录制好的音频作为目标音频。
101.在一个可选的实施例中,第一输入用于导入目标音频,第一输入可以为导入存储的目标音频的操作,也可以是录制目标音频的操作,示例性地,上述第一输入包括但不限于:用户通过手指或者手写笔等触控装置对录音标识的点击输入,或者为用户对音频录入标识的点击输入,或者为用户输入的语音指令,或者为用户输入的特定手势,或者为其他可行性输入,具体的可以根据实际使用需求确定,本发明实施例不作限定。本技术实施例中的特定手势可以为单击手势、滑动手势、拖动手势、压力识别手势、长按手势、面积变化手势、双按手势、双击手势中的任意一种;本技术实施例中的点击输入可以为单击输入、双击输入或任意次数的点击输入等,还可以为长按输入或短按输入。
102.在一个可选的实施例中,例如,图4是本技术实施例提供的音频采集界面示意图,如图4所示,包括:音频采集界面400,音频采集界面400中包括录音标识401,上述第一输入可以是用户长按录音标识401,进行目标音频录制的操作。在另一个可选的实施例中,例如,图5是本技术实施例提供的音频导入界面示意图,如图5所示,包括:音频导入界面500,音频导入界面500中包括音频导入标识501,上述第一输入还可以是选中存储在本地的目标音频,点击音频导入标识501,进行目标音频导入的操作。
103.在一个可选的实施例中,在接收第一输入,获取到目标音频后,对目标音频进行音频特征分析,提取目标音频的音频特征。
104.在一个可选的实施例中,提取目标音频的音频特征,具体可以是通过提取目标音频的音频特征中的音色、音调、音高、响度或语速提取目标音频的音频特征中的音色,具体可以是通过频谱分析方法或倒谱分析方法来实现;提取目标音频的音频特征中的音调和音高,具体可以是通过自相关方法或基频检测方法来实现;提取目标音频的音频特征中的响度,具体可以是通过能量分析方法或短时能量分析方法来实现;提取目标音频的音频特征中的语速,具体可以是通过基于时域和频域的方法来实现。
105.在一个可选的实施例中,目标音频的音频特征具体可以包括音色、音调、音高、响度或语速等信息。
106.在一个可选的实施例中,将提取到的目标音频的音频特征作为第一音色信息,与新添加进预设信息库中的人物信息关联存储,实现将人物信息对应的第一音色信息存储到预设信息库中。
107.本技术实施例中,通过接收用户导入目标音频的第一输入,并根据目标音频的音频特征,生成第一音色信息,与预设信息库中的人物信息关联存储,来应对人物信息与预设信息库中的预设人物信息均不匹配的情况,可以有效应对预设信息库中缺失人物信息,及缺失人物信息对应的第一音色信息的情况,有效保证了每个人物信息都有对应的第一音色信息。
108.图6是本技术实施例提供的音频播放界面示意图,如图6所示,包括:音频播放界面
600,音频播放界面600中包括播放标识601,用户点击播放标识601,就可以播放由文档转换的音频内容。
109.图7是本技术实施例提供的音频生成方法流程示意图之二,如图7所示,包括:
110.步骤701,获取包含对话文本的语句,包含对话文本的语句具体可以是指包含对话文本的一句话,也可以是指包含对话文本的一个自然段,也可以是指包含对话文本的几个自然段。
111.步骤702,判断是否识别到人物信息,具体可以是对包含对话文本的语句进行判断识别,判断是否可以识别出人物信息。如果能够识别到人物信息,则将识别出的人物信息作为语句对应的人物信息,继续进行步骤704。如果识别不出人物信息,则继续进行步骤703。
112.步骤703,设定为默认的旁白人物信息,具体可以是将语句对应的人物信息设定为默认的旁白人物信息,继续进行步骤706。
113.步骤704,判断人物信息是否在预设信息库中,具体可以是将语句对应的人物信息与预设信息库中的预设人物信息进行匹配,如果匹配成功,则继续进行步骤706,如果匹配不成功,则继续进行步骤705。
114.步骤705,创建人物信息对应的第一音色信息,并存入预设信息库中,具体可以是在预设信息库中新添加人物信息,由用户导入目标音频进而将目标音频的音频特征提取出来,根据目标音频的音频特征确定第一音色信息,并将第一音色信息与预设信息库中新添加的人物信息之间关联存储。继续步骤706。
115.步骤706,判断是否识别到情绪信息,具体可以是将包含对话文本的语句中的情绪词提取出来,根据情绪词识别情绪词对应的情绪信息,如果检测不到情绪词,则对对话文本进行情绪分析,识别情绪信息。如果能够识别情绪信息,则认为识别到情绪信息,继续进行步骤708。如果不能识别到情绪信息,则继续步骤707。
116.步骤707,使用旁白音色信息,具体可以是预设一个不同于所有人物信息对应的第一音色信息的旁白音色信息,旁白音色信息对应默认的中性情绪,可以是冷静、平稳的。
117.步骤708,使用对话文本对应的情绪信息生成对话音频,并播放对话音频。具体可以是结合情绪信息,将对话文本转换成对话音频,对话音频可以将富有情感的声音有效地表现出来。
118.本技术实施例提供的音频生成方法,执行主体可以为音频生成装置。本技术实施例中以音频生成装置执行音频生成方法为例,说明本技术实施例提供的音频生成装置。图8是本技术实施例提供的音频生成装置结构示意图,如图8所示,包括:
119.获取模块810,用于获取文档中的目标内容,其中,所述目标内容包括:人物信息和所述人物信息对应的对话文本的语句信息;
120.分析模块820,用于分析所述目标内容,得到所述目标内容对应的情绪信息;
121.转换模块830,用于基于所述情绪信息和所述人物信息,将所述目标内容中的对话文本转换成对话音频。
122.可选地,所述分析模块,具体用于:
123.将所述目标内容与预设情绪词库中的情绪词进行匹配,确定所述目标内容中包括的所述情绪词,其中,所述预设情绪词库中包括至少一个预设的所述情绪词;
124.基于所述目标内容中的所述情绪词,确定所述目标内容对应的情绪信息。
125.可选地,所述分析模块,具体还用于:
126.在所述目标内容与所述预设情绪词库匹配失败的情况下,对所述目标内容中的对话文本进行分析,得到所述目标内容对应的情绪信息。
127.可选地,所述转换模块,具体用于:
128.在所述人物信息与预设信息库中的预设人物信息匹配成功的情况下,基于与所述人物信息匹配的预设人物信息,获取第一音色信息;其中,所述预设信息库中存储有至少一个音色信息,每个所述音色信息对应一个预设人物信息;
129.基于所述情绪信息对所述人物信息对应的第一音色信息进行音色调整,得到第二音色信息;
130.基于所述第二音色信息对所述对话文本进行文本音频转换,得到对话音频。
131.可选地,所述转换模块,具体还用于:
132.在所述人物信息与所述预设信息库中的预设人物信息均不匹配的情况下,接收用户用于导入目标音频的第一输入;
133.响应于所述第一输入,基于所述目标音频的音频特征,生成所述人物信息对应的第一音色信息,并将所述人物信息对应的第一音色信息存储到所述预设信息库中。
134.在本技术实施例中,通过获取文档中的目标内容,可以保证将包含有人物信息和对应的对话文本的语句信息准确地选取出来,进而准确地确定符合人物特征的声音特质;分析目标内容,得到的情绪信息,可以有效确定目标内容中对话文本对应的情绪,从而将对话文本转换成对话音频时,可以结合情绪信息和人物信息,得到富有人物特征和人物情感的对话音频,使得听者能够在聆听音频的过程中,更好的代入到音频文件的内容中,提高用户体验。
135.本技术实施例中的音频生成装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
136.本技术实施例中的音频生成装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
137.本技术实施例提供的音频生成装置能够实现图1至图7的方法实施例实现的各个过程,为避免重复,这里不再赘述。
138.可选地,图9是本技术实施例提供的电子设备结构示意图,如图9所示,本技术实施例还提供一种电子设备900,包括处理器901和存储器902,存储器902上存储有可在所述处理器901上运行的程序或指令,该程序或指令被处理器901执行时实现上述音频生成方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
processing unit,gpu)10041和麦克风10042,图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071,也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
156.存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1009可以包括易失性存储器或非易失性存储器,或者,存储器x09可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。
157.处理器1010可包括一个或多个处理单元;可选的,处理器1010集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
158.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
159.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
160.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述音频生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
161.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
162.本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述音频生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
163.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排
他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
164.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
165.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1  
相关技术
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图