1.本技术涉及语音识别技术领域,特别是涉及一种目标语音模型选择方法及装置。
背景技术:
2.随着语音识别技术的发展,语音识别技术开始广泛应用于车载场景中。当前业界使用频率最高的语音识别技术方案基于声学模型和语言模型融合的体系进行构建。在面对不同的使用场景时,声学模型能够大致通用,而语言模型却不行。因为在大部分的场景中,虽然发音体系基本一致,但是相同发音对应的文本信息可能会因为场景的不同而不同。例如同样一个发音“qinhailu”在应用场景为通讯录时,会被识别为“秦海璐”,而在应用场景为导航时,便有可能会被识别为“秦海路”。一般情况下,能够通过手动切换场景的方式来使用不同的语言模型以解决此问题,但是此方式往往会带来更多的操作,在车载的场景下,过多的操作会带来安全隐患,对驾驶员的安全造成威胁。
3.因此,如何提升在不同的应用场景下语音识别的准确性,并自动完成目标语言模型的确定成为本领域人员急需解决的技术问题。
技术实现要素:
4.基于上述问题,为了提升在不同应用场景下语音识别的准确性,并自动完成目标语言模型的确定。本技术提供了一种目标语言模型确定方法及装置。
5.本技术实施例公开了如下技术方案:
6.第一方面,本技术公开了一种目标语言模型确定方法,包括:
7.在用户发起语音识别请求时,获取多类先验信息,所述多类先验信息为在多种应用场景下不同类型的先验信息;
8.根据所述多类先验信息,对多个不同的语言模型进行赋权,以获得所述多个不同的语言模型分别对应的权重,所述多个不同的语言模型分别对应所述多种应用场景;
9.将所述多个不同的语言模型分别对应的权重进行权重比较,获得至少两个权重最大的语言模型;
10.计算所述至少两个权重最大的语言模型的语言分,根据所述语言分确定目标语言模型。
11.可选的,所述根据所述多类先验信息,对多个不同的语言模型进行赋权,以获得所述多个不同的语言模型分别对应的权重,包括:
12.获取所述多类先验信息的一级权重;
13.根据所述多类先验信息中的信息内容,获取所述多类先验信息在所述多种应用场景下的二级权重;
14.将所述多类先验信息的一级权重与所述多类先验信息在多种应用场景下的二级权重的乘积做累加运算,获得所述多个不同的语言模型分别对应的权重。
15.可选的,所述根据所述多类先验信息中的信息内容,获取所述多类先验信息在所
述多种应用场景下的二级权重,包括:
16.提取所述多类先验信息中信息内容的关键词;
17.根据所述多类先验信息中信息内容的关键词进行关键词建模,获取所述多类先验信息在所述多种应用场景下的二级权重。
18.可选的,所述计算所述至少两个权重最大的语言模型的语言分,根据所述语言分确定目标语言模型,包括:
19.利用所述至少两个权重最大的语言模型对所述语音识别请求进行解码,获得所述至少两个权重最大的语言模型的得分,所述得分表示所述至少两个权重最大的语言模型分别与所述语音识别请求的匹配程度;
20.将所述至少两个权重最大的语言模型的得分与各自的权重作乘积运算,得到所述语言分。
21.可选的,所述计算所述至少两个权重最大的语言模型的语言分之后,还包括:
22.根据所述语言分,结合声学得分,获得所述至少两个权重最大的语言模型的总得分;
23.将总得分最高的语言模型确定为目标语言模型。
24.第二方面,本技术公开了一种目标语言模型确定装置,包括:
25.获取模块,用于在用户发起语音识别请求时,获取多类先验信息,所述多类先验信息为在多种应用场景下不同类型的先验信息;
26.赋权模块,用于根据所述多类先验信息,对多个不同的语言模型进行赋权,以获得所述多个不同的语言模型分别对应的权重,所述多个不同的语言模型分别对应所述多种应用场景;
27.比较模块,用于将所述多个不同的语言模型分别对应的权重进行权重比较,获得至少两个权重最大的语言模型;
28.计算模块,用于计算所述至少两个权重最大的语言模型的语言分,根据所述语言分确定目标语言模型。
29.可选的,所述赋权模块,具体用于:
30.获取所述多类先验信息的一级权重;
31.根据所述多类先验信息中的信息内容,获取所述多类先验信息在所述多种应用场景下的二级权重;
32.将所述多类先验信息的一级权重与所述多类先验信息在多种应用场景下的二级权重的乘积做累加运算,获得所述多个不同的语言模型分别对应的权重。
33.可选的,所述赋权模块,具体用于
34.提取所述多类先验信息中信息内容的关键词;
35.根据所述多类先验信息中信息内容的关键词进行关键词建模,获取所述多类先验信息在所述多种应用场景下的二级权重。
36.可选的,所述计算模块,具体用于:
37.利用所述至少两个权重最大的语言模型对所述语音识别请求进行解码,获得所述至少两个权重最大的语言模型的得分,所述得分表示所述至少两个权重最大的语言模型分别与所述语音识别请求的匹配程度;
38.将所述至少两个权重最大的语言模型的得分与各自的权重作乘积运算,得到所述语言分。
39.可选的,所述计算模块,还用于:
40.根据所述语言分,结合声学得分,获得所述至少两个权重最大的语言模型的总得分;
41.将总得分最高的语言模型确定为目标语言模型。
42.相较于现有技术,本技术具有以下有益效果:
43.在用户发起语音识别请求时,利用多种应用场景下多种不同类型的先验信息,对多种应用场景中所对应的语言模型进行赋权,以获得所述多个不同语言模型分别对应的权重。将所述多个不同的语言模型的权重进行比较,获得至少两个权重最大的语言模型,并对其进行语言分计算,将语言分最高的语言模型确定为目标语言模型。通过此方法,在用户发起语音识别请求时,能够在不同的应用场景下,利用多类先验信息自动去选择正确的语言模型以获得准确的语音识别结果,使得不同场景下的语音识别结果更为准确,不再需要手动切换应用场景来使用不同的语言模型,保障了驾驶员的行车安全。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的一种目标语言模型确定方法的流程图;
46.图2为本技术实施例提供的一种目标语言模型确定方法的框架示意图;
47.图3为本技术实施例提供的一种目标语言模型确定装置的结构图。
具体实施方式
48.正如前文描述,在大部分的场景中发音体系基本一致,但是相同发音对应的文本信息可能会因为场景的不同而不同。例如同样一个发音“qinhailu”在应用场景为通讯录时,会被语音识别为“秦海璐”,而在应用场景为导航时,便有可能被识别为“青海路”。现有技术中,能够通过手动切换场景的方式来使用不同的语言模型以解决此问题,但是手动切换场景的方式往往会带来更多操作,在车载的环境下,过多的操作会带来安全隐患,对驾驶员的安全造成威胁。
49.发明人经过研究,提供了一种目标语言模型的自动选择方法,利用多个应用场景下多种不同类型的先验信息,对多个应用场景中所对应的语言模型进行赋权之后,将多个不同语言模型之间的权重进行比较,获得至少两个权重最大的语言模型并对其进行得分计算,将最终得分最高的语言模型确定为目标语言模型。使得在不同的应用场景下均能够自动准确地获取用户在进行语音交互时所需要的语音模型,不再需要手动切换场景的方式来使用不同的语音模型,保障了驾驶员的行车安全
50.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本
申请一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.方法实施例
52.参见图1,该图为本技术实施例提供的一种目标语言模型确定方法的流程图。
53.s101:在用户发起语音识别请求时,获取多类先验信息,所述多类先验信息为在多种应用场景下不同类型的先验信息。
54.所谓先验信息,即我们在进行试验之前,实际上已经对代估的参数有一定了解的信息。比如我们调查某厂的不合格率时,过去关于该厂不合格率的历史资料,这种在调查前就已经存在的有关统计推断的历史资料,称为先验信息。
55.当用户发起语音识别请求时,会获取过往历史信息中的多类先验信息。在本技术中,先验信息基本来源可以包括:交互内容、交互提示音、应用信息、用户位置信息等等。其中交互内容主要是指人与系统的每一次交互时所反馈的内容,例如在音乐场景下的点歌,在导航环境下对目的地的说明等,交互内容反映了用户在不同的应用场景下每一种发音在不同应用场景中所具体指定的概念,例如在通讯录的应用场景中发音“qinhailu”会被识别为“秦海璐”,而在地图导航场景中“qinhailu”会被识别为“秦海路”;交互提示音是指语音识别系统对当前交互信息进行内容反馈时,所产生的具有指示性的提示音,同时也可以包括导航语音,播放的歌曲声音等;应用信息是指当前交互信息所处系统中,系统应用的一些信息,如应用的名称、类别等;用户位置信息即用户当前所处的位置信息,例如确定用户所处位置为高速公路或闹市区等等。
56.通过获取各种类型的先验信息,能够得知用户在不同的应用场景下不同发音所对应的反馈内容,同时结合实际的用户位置信息、应用信息、交互提示音等,在后续利用先验信息对不同的语言模型进行赋权时,可以更为准确的考虑每种先验信息对各个场景的影响程度,使得先验信息对语言模型的赋权更为精确。
57.s102:根据所述多类先验信息,对多个不同的语言模型进行赋权,以获得所述多个不同的语言模型分别对应的权重,所述多个不同的语言模型分别对应所述多种应用场景。
58.因为每一个不同的应用场景都有一个其自身对应的语言模型,因此本技术在利用多类先验信息对不同的语言模型进行赋权操作时,会先考虑每一种先验信息对各个场景的影响程度,即各类先验信息对各个场景的初始权重,将其记为一级权重。例如,在音乐场景中,因为音乐场景下用户想听的音乐以及对应歌曲的歌名是重点需要识别的内容,因而交互提示音、交互信息和应用信息类的先验信息对音乐场景的影响程度较大,即权重也就较大。
59.相对的,在音乐场景中,用户的位置信息对于用户的语音识别并不重要,因而用户位置信息对音乐场景的权重也就较小。而在导航场景中,相较于交互提示音,用户的位置信息则会对应用该场景有着更大的影响力。因此,在利用多类先验信息对不同语言模型进行赋权操作时,会先计算每种先验信息对不同应用场景的影响程度,即多类先验信息对不同应用场景的初始权重,将此权重记为一级权重,具体可以通过专家打分法来计算此一级权重,本实施例对此计算一级权重的方式不做具体限定。
60.在得到每种先验信息对不同应用场景的一级权重后,提取每一类先验信息中的信息内容,例如交互信息内容可以是:当前语音中的关键词,具体的歌名、人名和地名等等,而
交互提示音的内容也可以是当前语音识别过程中产生的各种交互提示音等。在获取先验信息的内容信息后,通过自然语言处理法进行关键词建模,获取不同类别的先验信息在各个应用场景中的二级权重,最后将各个场景中的一级权重和二级权重进行乘积运算,得到最终的语言模型的权重。
61.通过上述双重赋权的方式对不同应用场景各自对应的语言模型进行赋权,能够提高利用先验信息对语言模型的赋权准确率,进而提高了后续语音识别的准确率。
62.s103:将所述多个不同的语言模型分别对应的权重进行权重比较,获得至少两个权重最大的语言模型。
63.在得到各语言模型的权重后,将各语言模型的权重进行权重大小比较,最后选出至少两个权重最大的语言模型。在选择权重最大的语言模型时,也可以选择多个权重最大的语言模型,将其中的多个语言模型的权重作为一个超参数进行设置,并记录各自的权重。本实施例中,将多个语言模型的权重作为一个超参数进行设置为一种可选的实施方式,本实施例对权重的设置方式不做具体限定。
64.s104:计算所述至少两个权重最大的语言模型的语言分,根据所述语言分确定目标语言模型。
65.在得到至少两个权重最大的语言模型后,对两个语言模型进行最终得分的pk,通过解码的方式计算其语言模型的得分,并利用此得分与各自的权重相乘,获取最终语言模型的语言分,将语言分最高的语言模型确定为目标语言模型。其中,各语言模型的得分表示自身语言模型与用户的语音识别请求的匹配程度。
66.在一种可选的实施方式中,在步骤“计算所述至少两个权重最大的语言模型的语言分”之后,还包括:
67.根据计算得到的语言分,结合声学得分,获得所述至少两个权重最大的语言模型的总得分。
68.将总得分最高的语言模型确定为目标语言模型。
69.在本实施例中,将计算所得到的语言模型的语言分与其声学得分相结合,得到语言模型的总得分,将语言模型的语言分和声学得分进行综合运算得到总得分,从而完成目标语言模型的确定,能够提高目标语言模型确定的准确性。
70.在本实施例中,利用多个应用场景下多种不同类型的先验信息,结合双重赋权的方式对不同应用场景各自所对应的语言模型进行赋权,以获得多个不同语言模型分别所具有的权重。将所述多个不同的语言模型的权重进行比较,获得至少两个权重最大的语言模型,并对其进行得分计算,最后将得分最高的语言模型确定为目标语言模型。通过此方法,在不同的应用场景下均能够自动且准确地获取用户在不同应用场景下进行语音交互时所需要的语言模型,使得语音识别结果更为准确,不再需要手动切换应用场景来使用不同的语言模型,保障了驾驶员的行车安全。
71.需要说明的是,图2为本技术实施例提供的一种目标语言模型确定方法的框架示意图,具体可以参照图2所提供的框架示意图对本技术实施例提供的一种目标语言模型确定方法进行进一步理解。
72.下面对本技术实施例提供的一种目标语言模型确定装置进行介绍,下文描述的一种基于目标语言模型确定装置与上文描述的一种目标语言模型确定方法可相互对应参照。
73.参见图3,该图为本技术实施例提供的一种目标语言模型确定装置的结构示意图,如图3所示,该装置包括:
74.获取模块100,用于在用户发起语音识别请求时,获取多类先验信息,所述多类先验信息为在多种应用场景下不同类型的先验信息。
75.赋权模块200,用于根据所述多类先验信息,对多个不同的语言模型进行赋权,以获得所述多个不同的语言模型分别对应的权重,所述多个不同的语言模型分别对应所述多种应用场景。
76.比较模块300,用于将所述多个不同的语言模型分别对应的权重进行权重比较,获得至少两个权重最大的语言模型。
77.计算模块400,用于计算所述至少两个权重最大的语言模型的语言分,根据所述语言分确定目标语言模型。
78.可选的,所述赋权模块200,具体用于:
79.获取所述多类先验信息的一级权重;
80.根据所述多类先验信息中的信息内容,获取所述多类先验信息在所述多种应用场景下的二级权重;
81.将所述多类先验信息的一级权重与所述多类先验信息在多种应用场景下的二级权重的乘积做累加运算,获得所述多个不同的语言模型分别对应的权重。
82.可选的,所述赋权模块,具体用于
83.提取所述多类先验信息中信息内容的关键词;
84.根据所述多类先验信息中信息内容的关键词进行关键词建模,获取所述多类先验信息在所述多种应用场景下的二级权重。
85.可选的,所述计算模块300,具体用于:
86.利用所述至少两个权重最大的语言模型对所述语音识别请求进行解码,获得所述至少两个权重最大的语言模型的得分,所述得分表示所述至少两个权重最大的语言模型分别与所述语音识别请求的匹配程度;
87.将所述至少两个权重最大的语言模型的得分与各自的权重作乘积运算,得到所述语言分。
88.可选的,所述计算模块300,还用于:
89.根据所述语言分,结合声学得分,获得所述至少两个权重最大的语言模型的总得分;
90.将总得分最高的语言模型确定为目标语言模型。
91.本技术实施例提供了一种目标语言语言模型确认装置。在用户发起语音识别请求时,利用多种应用场景下多种不同类型的先验信息,对多种应用场景中所对应的语言模型进行赋权,以获得所述多个不同语言模型分别对应的权重。将所述多个不同的语言模型的权重进行比较,获得至少两个权重最大的语言模型,并对其进行语言分计算,将语言分最高的语言模型确定为目标语言模型。通过此方法,在用户发起语音识别请求时,能够在不同的应用场景下,利用多类先验信息自动去选择正确的语言模型以获得准确的语音识别结果,使得不同场景下的语音识别结果更为准确,不再需要手动切换应用场景来使用不同的语言模型,保障了驾驶员的行车安全。
92.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法及装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法及装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
93.以上所述,仅为本技术的一种具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。