一种信息化合成语音的识别方法与流程-j9九游会真人

文档序号:35580543发布日期:2023-09-27 03:06阅读:42来源:国知局


1.本发明涉及智能语音技术领域,具体涉及一种信息化合成语音的识别方法。


背景技术:

2.信息化合成语音是一种将文字或其他形式的信息转化为声音的技术,它可以将书籍、文档、电子邮件等文字信息转化为声音,为视障人士提供听觉上的辅助,同时提供可访问性,对于那些有阅读困难或无法阅读的人群,信息化合成语音可以将文字内容转化为语音,为他们提供更容易理解和获取信息的方式,具体包括老年人、残疾人、学习困难者等。
3.参考公开号为cn113921012a提出的一种合成语音的识别方法、系统、智能设备和存储介质,根据目标待识别语音获取目标待识别文字数据,获取目标待识别语音数据中每个发音音素的语音情感数据和所述目标待识别文字数据中每个单词的文字情感数据,判断所述语音情感数据和所述文字情感数据是否匹配,若语音情感数据和所述文字情感数据匹配,则判定目标待识别语音数据为非合成语音数据,可以从情感方面判断语音是否是合成的,能够提升判断的准确性和可靠性。
4.结合上述方案与现有技术提出以下需要处理的地方:
5.1.但随着智能化ai的普及,信息化合成语音的情感逐渐趋向于与真人相似,单依靠情感判定无法识别信息化合成语音的特性,从而导致采用音调进行情感判定的方式过于局限;
6.2.现有技术中对语音的信息化合成语音的识别随着科技的鉴定难度逐渐增大,以往的对信息化合成语音的识别判定的精准性较低。
7.为解决上述所提及的问题,提出了一种信息化合成语音的识别方法。


技术实现要素:

8.本发明的目的是提供一种信息化合成语音的识别方法,以解决背景技术中不足。
9.为了实现上述目的,本发明提供如下技术方案:
10.所述信息化合成语音的识别方法包括以下步骤:
11.步骤s100,采集样本语音并进行预处理,获取处理语音;
12.步骤s200,通过语音内容分析模型对处理语音进行音频特征提取,并对处理语音进行文本转化,生成处理语音文本;
13.步骤s300,对处理语音文本进行文本内容特征的提取,并公式化分析生成兴奋系数;
14.步骤s400,设置兴奋系数比对阈值,将兴奋系数比对阈值与兴奋系数进行比对处理,生成情绪标识;
15.步骤s500,对音频特征进行分析,生成音文差异值,对音文差异值进行阈值比对,进而生成音文符合程度标识;
16.步骤s600,将情绪标识和音文符合程度标识进行整合处理,生成识别目标,并对对
应样本语音进行标记。
17.在一个优选的实施方式中,所述文本内容特征包括情绪表达词和情绪符号,对文本内容分析过程为;
18.将处理语音文本分为n个分析区间,其中一句话表示一个分析区间,将n个分析区间的情绪表达词和符号进行提取并整合分析,将情感表达词依据情感兴奋程度进行分类,将高兴、兴奋、愤怒等情绪设置为一级情绪词,将悲伤、害怕、厌恶和焦虑等情绪分为二级情绪词,将平静情绪分为三级情绪词,其中一级情绪词相比于二级情绪词的情绪反映更大,以此类推;
19.将“,”和“。”分为一级情绪符号,将
“……”
和“~”分为二级情绪符号,将“?”和“!”分为三级情绪符号,其中一级情绪符号相比于二级情绪符号的情绪反映程度更低,依次类推;
20.将n个分析区间内的情感表达词与情绪符号进行匹配分析,当单个分析区间内同时拥有一级情绪词和三级情绪符号时,对该分析区间标记为高度情绪对象,当单个分析区间内同时拥有二级情绪词和二级情绪符号、一级情绪词和二级情绪符号或二级情绪词和三级情绪符号时,对该分析区间标记为中度情绪对象,当单个分析区间内同时拥有二级情绪词和一级情绪符号、一级情绪词和二级情绪符号或一级情绪词和一级情绪符号时,对该分析区间标记为低度情绪对象,其他的情感表达词和情绪符号之间匹配分析则不进行情绪对象程度的标记,高度情绪对象相较于中度情绪对象的情绪表现程度更大,即文本中分析出的情感更为强烈。
21.在一个优选的实施方式中,所述兴奋系数的生成逻辑为:
22.设标记为高度情绪对象的分析区间数量为a1,标记为中度情绪对象的分析区间数量为a2,标记为低度情绪对象的分析区间数量为a3,已知处理语音文本的总分析区间数值为n,进行公式化分析得出兴奋系数β:
23.(其中a1、a2和a3皆大于等于0,n为大于1的整数);
24.通过公式处理可知,当存有高度情绪对象的分析区间数量a1占比越大时,中度情绪对象的分析区间数量a2和低度情绪对象的分析区间数量a3的占比之和越小,兴奋系数β则越大,兴奋系数β越大,表明处理语音文本中的情绪表达程度越大,反之越小。
25.在一个优选的实施方式中,所述情绪标识包括浅层情绪标识、均衡情绪标识和深层情绪标识,所述情绪标识生成步骤为:
26.设置兴奋系数比对阈值为qx1和qx2,其中qx1<qx2,qx1和qx2皆大于0,将处理语音文本中的兴奋系数β代入兴奋系数比对阈值qx1和qx2中进行比对分析,若兴奋系数β小于兴奋系数比对阈值qx1,对该处理语音文本对应的样本语音生成浅层情绪标识;若兴奋系数β大于兴奋系数比对阈值qx1且小于兴奋系数比对阈值qx2,对该处理语音文本对应的样本语音生成均衡情绪标识;若兴奋系数β大于兴奋系数比对阈值qx2,对该处理语音文本对应的样本语音生成深层情绪标识;
27.其中处理语音文本具有深层情绪标识,表示该处理语音文本内的情感表达程度较高,而处理语音文本中的情绪标识由深层情绪标识到浅层情绪标识的情绪表达程度依次递减,而相比于信息化合成语音,人声语音其变化程度更为明显,即具有深层情绪标识的信息
化合成程度越低,以此类推。
28.在一个优选的实施方式中,所述音频特征包括音频语速和音调强度,所述音频特征的分析步骤为:
29.将样本语音分为m个检测区间,将语音中的每一句话表示为单个区间,由此可知,在样本语音的m个检测区间与处理语音文本的n个分析区间中,检测区间数量m与分析区间数量n的数值相同;
30.将样本语音中的单个检测区间的音频语速和音调强度进行提取,其中,音调高低程度分为高速节奏、中速节奏和低速节奏,而音调强度可分为高强度音调、中强度音调和低强度音调;
31.将m个检测区间内的音频语速和音调强度进行匹配分析,当单个检测区间内同时拥有高速节奏和高强度音调时,对该检测区间标记为高幅激动对象,当单个检测区间内同时拥有高速节奏和中强度音调、中速节奏和高强度音调或中速节奏和中强度音调时,对该检测区间标记为中幅激动对象,当单个检测区间内同时拥有低速节奏和中强度音调、低速节奏和低强度音调或中速节奏和低强度音调时,对该检测区间标记为低幅激动对象,其他的音频语速和音调强度之间匹配分析则不进行激动对象幅度的标记,高幅激动对象相较于中幅激动对象的情绪表现激动程度更大,即音频中分析出的情感更为强烈。
32.在一个优选的实施方式中,音文差异值的生成步骤为:
33.设音文差异值为δ,将样本语音的m个检测区间中的高幅激动对象与处理语音文本中的n个分析区间内的高度情绪对象数量进行公式化差异分析,具体的,设高幅激动对象的标记的检测区间数量为b,已知标记为高度情绪对象的分析区间数量为a1,通过公司求出音文差异值δ;
34.其中j为音文差异修正常数,a1,b大于等于0,m和n皆大于1;
35.通过公式处理可知,其中,若高幅激动对象的标记的检测区间数量b与标记为高度情绪对象的分析区间数量a1的差值越大,则表示整个样本语音的音频和处理语音文本之间判定误差越大,即音文差异值δ越大,样本语音的真实程度越低。
36.在一个优选的实施方式中,所述音文符合程度标识生成流程为:
37.设差异阈值为l,l为大于0的整数,将样本语音差异值δ代入差异阈值l中进行比较,当l>δ≥0时,将该样本语音生成音文符合标记,当δ≥l时,将该样本语音生成音文不符标记;
38.样本语音中的音文不符标记表示整个样本语音的音频和处理语音文本之间判定误差越大,而音文相符标记表示整个样本语音的音频和处理语音文本之间判定误差较小;。
39.在一个优选的实施方式中,所述识别目标包括伪造语音目标、真实语音目标和深度检测目标,所述识别目标的生成步骤为:
40.若同一样本语音中同时存有音文不符标记和浅层情绪标识或音文不符标识和均衡情绪标识时,将该样本语音标记为伪造语音目标;若同一样本语音中同时存有音文相符标记和深层情绪标识或音文相符标识和均衡情绪标识时,将该样本语音标记为真实语音目标;若同一样本语音中同时存有音文不符标记和深层情绪标识或音文相符标识和浅层情绪标识时,将该样本语音标记为深度检测目标;
41.所述深度检测目标即样本音频存有识别阻碍,需通过其他系统进行后续鉴定,本发明中不对其进行重复识别。
42.在上述技术方案中,本发明提供的技术效果和优点:
43.在本实施例中,通过情绪词和情绪符号的匹配分析,对每句话进行逐句的情绪对象生成,从而初步判定样本语音内中的内容情绪表达情况,并通过兴奋系数β的生成,在情绪词和情绪符号的匹配分析的基础上加强分析,从而达到对样本语音的文本端的深度情感分析,此外,进一步通过音频端与文本端的双端分析,实现了对信息化合成语音的精准识别功能。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
45.图1为本发明的一种信息化合成语音的识别方法的流程图。
具体实施方式
46.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.请参阅图1所示,本实施例所述一种信息化合成语音的识别方法,所述信息化合成语音的识别方法包括以下步骤:
48.步骤s100,采集样本语音并进行预处理,获取处理语音;
49.步骤s200,通过语音内容分析模型对处理语音进行音频特征提取,并对处理语音进行文本转化,生成处理语音文本;
50.步骤s300,对处理语音文本进行文本内容特征的提取,并公式化分析生成兴奋系数;
51.步骤s400,设置兴奋系数比对阈值,将兴奋系数比对阈值与兴奋系数进行比对处理,生成情绪标识;
52.步骤s500,对音频特征进行分析,生成音文差异值,对音文差异值进行阈值比对,进而生成音文符合程度标识;
53.步骤s600,将情绪标识和音文符合程度标识进行整合处理,生成识别目标,并对对应样本语音进行标记。
54.实施例一
55.需要说明的是,预处理为降噪、杂音消除和音频增益调整等,通过adobe audition:adobe audition进行多向降噪和音频增益调整的工具,可以通过其内置的降噪算法和音频增益调整功能来优化音频质量,涉及的具体降噪算法为自适应降噪算,此算法通过分析音频中的噪声特征并自动调整降噪参数,以有效地减少噪声并保留原始音频的清晰度。
56.文本内容特征包括情绪表达词和情绪符号,对文本内容分析过程为;
57.将处理语音文本分为n个分析区间,其中一句话表示一个分析区间,将n个分析区间的情绪表达词和符号进行提取并整合分析,将情感表达词依据情感兴奋程度进行分类,将高兴、兴奋、愤怒等情绪设置为一级情绪词,将悲伤、害怕、厌恶和焦虑等情绪分为二级情绪词,将平静情绪分为三级情绪词,其中一级情绪词相比于二级情绪词的情绪反映更大,以此类推;
58.将“,”和“。”分为一级情绪符号,将
“……”
和“~”分为二级情绪符号,将“?”和“!”分为三级情绪符号,其中一级情绪符号相比于二级情绪符号的情绪反映程度更低,依次类推;
59.将n个分析区间内的情感表达词与情绪符号进行匹配分析,当单个分析区间内同时拥有一级情绪词和三级情绪符号时,对该分析区间标记为高度情绪对象,当单个分析区间内同时拥有二级情绪词和二级情绪符号、一级情绪词和二级情绪符号或二级情绪词和三级情绪符号时,对该分析区间标记为中度情绪对象,当单个分析区间内同时拥有二级情绪词和一级情绪符号、一级情绪词和二级情绪符号或一级情绪词和一级情绪符号时,对该分析区间标记为低度情绪对象,其他的情感表达词和情绪符号之间匹配分析则不进行情绪对象程度的标记,高度情绪对象相较于中度情绪对象的情绪表现程度更大,即文本中分析出的情感更为强烈;
60.需要说明的是,情绪表达词具体为:
61.高兴:快乐、喜悦、兴奋、幸福、愉快、满足、欢乐、欣喜、舒畅、喜上眉梢等。
62.悲伤:伤心、难过、忧郁、悲痛、失望、沮丧、痛苦、哀愁、悲惨、落泪等;
63.愤怒:生气、愤怒、恼火、愤慨、气愤、暴怒、愤恨、怒火中烧、怒不可遏等;
64.害怕:恐惧、害怕、惊恐、恐慌、惊吓、战栗、胆怯、惊慌失措等;
65.厌恶:讨厌、厌烦、反感、嫌恶、恶心、厌弃、蔑视、憎恶、不耐烦等;
66.兴奋:兴奋、激动、热衷、振奋、激情、激烈、亢奋、狂喜等;
67.平静:平静、冷静、镇定、沉着、淡定、宁静、安详、从容等;
68.焦虑:焦虑、紧张、不安、忧虑、担心、烦躁、不安宁等。
69.在进行相关情绪表达词分析时,采用情感分析模型进行情绪匹配,情感分析模型具体采用机器学习模型中的朴素贝叶斯,此外,采用情感识别模型进行分类,该模型可以根据文本中的情感词汇、语气、语法结构等特征进行分类,将文本划分为不同的情绪类别,如高兴、悲伤、愤怒、害怕等,常见的情绪识别模型也包括基于机器学习和深度学习的方法,这两种模型的训练数据通常是标注有情感或情绪标签的文本数据集,通过对大量已标注数据的学习和训练,可以学习到识别情感和情绪的模式和规律,从而能够对新的文本进行情感或情绪的分类和分析。
70.兴奋系数的生成逻辑为:
71.设标记为高度情绪对象的分析区间数量为a1,标记为中度情绪对象的分析区间数量为a2,标记为低度情绪对象的分析区间数量为a3,已知处理语音文本的总分析区间数值为n,进行公式化分析得出兴奋系数β:
72.(其中a1、a2和a3皆大于等于0,n为大于1的整数);
73.通过公式处理可知,当存有高度情绪对象的分析区间数量a1占比越大时,中度情绪对象的分析区间数量a2和低度情绪对象的分析区间数量a3的占比之和越小,兴奋系数β则越大,兴奋系数β越大,表明处理语音文本中的情绪表达程度越大,反之越小。
74.情绪标识包括浅层情绪标识、均衡情绪标识和深层情绪标识,情绪标识生成步骤为:
75.设置兴奋系数比对阈值为qx1和qx2,其中qx1<qx2,qx1和qx2皆大于0,将处理语音文本中的兴奋系数β代入兴奋系数比对阈值qx1和qx2中进行比对分析,若兴奋系数β小于兴奋系数比对阈值qx1,对该处理语音文本对应的样本语音生成浅层情绪标识;若兴奋系数β大于兴奋系数比对阈值qx1且小于兴奋系数比对阈值qx2,对该处理语音文本对应的样本语音生成均衡情绪标识;若兴奋系数β大于兴奋系数比对阈值qx2,对该处理语音文本对应的样本语音生成深层情绪标识;
76.其中处理语音文本具有深层情绪标识,表示该处理语音文本内的情感表达程度较高,而处理语音文本中的情绪标识由深层情绪标识到浅层情绪标识的情绪表达程度依次递减,而相比于信息化合成语音,人声语音其变化程度更为明显,即具有深层情绪标识的信息化合成程度越低,以此类推。
77.通过情绪词和情绪符号的匹配分析,对每句话进行逐句的情绪对象生成,从而初步判定样本语音内中的内容情绪表达情况,此外,进一步通过兴奋系数β的生成,在情绪词和情绪符号的匹配分析的基础上加强分析,从而达到对样本语音的文本端的深度情感分析。
78.实施例二
79.基于实施例一,本发明中仅通过样本语音转化的处理语音文本进行分析,即为对样本语音的文本端进行分析,存有分析对象的单一性,基于上述情况,进一步对样本语音的音频端进行分析。
80.音频特征包括音频语速和音调强度,音频特征的分析步骤为:
81.将样本语音分为m个检测区间,将语音中的每一句话表示为单个区间,由此可知,在样本语音的m个检测区间与处理语音文本的n个分析区间中,检测区间数量m与分析区间数量n的数值相同;
82.将样本语音中的单个检测区间的音频语速和音调强度进行提取,其中,音调高低程度分为高速节奏、中速节奏和低速节奏,而音调强度可分为高强度音调、中强度音调和低强度音调;
83.将m个检测区间内的音频语速和音调强度进行匹配分析,当单个检测区间内同时拥有高速节奏和高强度音调时,对该检测区间标记为高幅激动对象,当单个检测区间内同时拥有高速节奏和中强度音调、中速节奏和高强度音调或中速节奏和中强度音调时,对该检测区间标记为中幅激动对象,当单个检测区间内同时拥有低速节奏和中强度音调、低速节奏和低强度音调或中速节奏和低强度音调时,对该检测区间标记为低幅激动对象,其他的音频语速和音调强度之间匹配分析则不进行激动对象幅度的标记,高幅激动对象相较于中幅激动对象的情绪表现激动程度更大,即音频中分析出的情感更为强烈。
84.需要说明的是:参数的选取意义;
85.音频语速:节奏和速度可以影响情绪的感知。快速和强烈的节奏可能与兴奋、紧张
或愤怒等情绪相关,而缓慢和平静的节奏可能与平静、悲伤或放松等情绪相关;
86.音调强度:音调强度可以影响情绪的表达,较高的音调强度可能与激动、愤怒或紧张等情绪相关,而较低的音调强度可能与平静、柔和或安静等情绪相关。
87.音文差异值的生成步骤为:
88.设音文差异值为δ,将样本语音的m个检测区间中的高幅激动对象与处理语音文本中的n个分析区间内的高度情绪对象数量进行公式化差异分析,具体的,设高幅激动对象的标记的检测区间数量为b,已知标记为高度情绪对象的分析区间数量为a1,通过公司求出音文差异值δ;
89.其中j为音文差异修正常数,a1,b大于等于0,m和n皆大于1;
90.通过公式处理可知,其中,若高幅激动对象的标记的检测区间数量b与标记为高度情绪对象的分析区间数量a1的差值越大,则表示整个样本语音的音频和处理语音文本之间判定误差越大,即音文差异值δ越大,样本语音的真实程度越低。
91.音文符合程度标识生成流程为:
92.设差异阈值为l,l为大于0的整数,将样本语音差异值δ代入差异阈值l中进行比较,当l>δ≥0时,将该样本语音生成音文符合标记,当δ≥l时,将该样本语音生成音文不符标记;
93.样本语音中的音文不符标记表示整个样本语音的音频和处理语音文本之间判定误差越大,而音文相符标记表示整个样本语音的音频和处理语音文本之间判定误差较小;
94.识别目标包括伪造语音目标、真实语音目标和深度检测目标,识别目标的生成步骤为:
95.若同一样本语音中同时存有音文不符标记和浅层情绪标识或音文不符标识和均衡情绪标识时,将该样本语音标记为伪造语音目标;若同一样本语音中同时存有音文相符标记和深层情绪标识或音文相符标识和均衡情绪标识时,将该样本语音标记为真实语音目标;若同一样本语音中同时存有音文不符标记和深层情绪标识或音文相符标识和浅层情绪标识时,将该样本语音标记为深度检测目标;
96.深度检测目标即样本音频存有识别阻碍,需通过其他系统进行后续鉴定,本发明中不对其进行重复识别,从而降低无效识别时长;
97.在本实施例中,进一步通过音频端与文本端的双端分析,实现了对信息化合成语音的精准识别功能。
98.上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
99.应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,其中a,b可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
100.本技术中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,
b,c可以是单个,也可以是多个。
101.应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
102.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
103.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
104.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
105.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图