1.本发明涉及智能决策技术领域,尤其涉及一种文本纠正模型训练方法、装置、计算机设备及存储介质。
背景技术:
2.随着科技的快速发展,语音识别技术被广泛应用。语音识别过程可以简单概括为:通过自动语音识别技术将输入的语音数据转换为内容文本。在语音识别过程中,输入的语音数据因发音的影响,可能会导致语音识别错误。例如在银行、证券、保险等金融机构的业务量持续扩大,产生大量的语音识别需求,但是识别结果的准确率不高,需要对识别文本进行纠正。
3.现有技术中,在保险或金融等行业中针对语音识别出来的文本语句结果进行修改或者纠正的方法大都是基于纠错模型。但现有的纠错模型通常采用定长的纠正方式,即将一个错误的词修正为正确的词,很少考虑变长纠正,即一对多或多对一的纠正。且现有的纠错模型只是将语音特征作为辅助特征对识别文本进行修正,未对语音特征中的声调进行有效利用,导致保险或金融等行业中纠错模型的准确率较低。
技术实现要素:
4.本发明实施例提供一种文本纠正模型训练方法、装置、计算机设备及存储介质,以解决现有技术中因采用定长修改和语音特征作为辅助特征导致纠正准确率较低的问题。
5.一种文本纠正模型训练方法,包括:
6.获取样本数据集,所述样本数据集包括至少一个待纠正文本和与所述待纠正文本对应的初始拼音声调文本,以及与所述待纠正文本对应的目标内容文本和与所述初始拼音声调文本对应的目标拼音声调文本;
7.通过预设训练模型中的编码模块对所述待纠正文本和所述初始拼音声调文本进行编码处理,得到待纠正向量和初始拼音声调向量;
8.通过预设训练模型中的检测模块对所述待纠正向量进行错误标注,得到错误标注向量;
9.通过预设训练模型中的纠正模块的中文拼写纠正和汉语发音预测分别对所述错误标注向量和所述初始拼音声调向量进行错误变长纠正,得到预测内容文本和预测拼音声调文本;
10.根据所述预测内容文本、所述目标内容文本、所述目标拼音声调文本和所述预测拼音声调文本,确定预设训练模型的预测损失值;
11.在预测损失值达到预设收敛条件时,将收敛之后的预设训练模型确定为文本纠正模型。
12.一种文本纠正方法,包括:
13.获取语音识别文本,所述语音识别文本包括内容识别文本和拼音声调识别文本;
14.调用文本纠正模型,所述文本纠正模型为根据上述文本纠正模型训练方法训练得到的文本纠正模型;
15.基于所述文本纠正模型对所述语音识别文本中的内容识别文本和拼音声调识别文本进行错误纠正,得到目标纠正文本。
16.一种文本纠正模型训练装置,包括:
17.数据获取模块,用于获取样本数据集,所述样本数据集包括至少一个待纠正文本和与所述待纠正文本对应的初始拼音声调文本,以及与所述待纠正文本对应的目标内容文本和与所述初始拼音声调文本对应的目标拼音声调文本;
18.文本编码模块,用于通过预设训练模型中的编码模块对所述待纠正文本和所述初始拼音声调文本进行编码处理,得到待纠正向量和初始拼音声调向量;
19.错误标注模块,用于通过预设训练模型中的检测模块对所述待纠正向量进行错误标注,得到错误标注向量;
20.错误纠正模块,用于通过预设训练模型中的纠正模块的中文拼写纠正和汉语发音预测分别对所述错误标注向量和所述初始拼音声调向量进行错误变长纠正,得到预测内容文本和预测拼音声调文本;
21.损失预测模块,用于根据所述预测内容文本、所述目标内容文本、所述目标拼音声调文本和所述预测拼音声调文本,确定预设训练模型的预测损失值;
22.模型收敛模块,用于在预测损失值达到预设收敛条件时,将收敛之后的预设训练模型确定为文本纠正模型。
23.一种文本纠正装置,包括:
24.获取模块,用于获取语音识别文本,所述语音识别文本包括内容识别文本和拼音声调识别文本;
25.调用模块,用于调用文本纠正模型,所述文本纠正模型为根据上述文本纠正模型训练方法训练得到的文本纠正模型;
26.纠正模块,用于基于所述文本纠正模型对所述语音识别文本中的内容识别文本和拼音声调识别文本进行错误纠正,得到目标纠正文本。
27.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本纠正模型训练方法,或所述处理器执行所述计算机程序时实现上述文本纠正方法。
28.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本纠正模型训练方法,或所述处理器执行所述计算机程序时实现上述文本纠正方法。
29.本发明提供一种文本纠正模型训练方法、装置、计算机设备及存储介质,该方法通过大量的样本数据对预设训练模型进行端到端的迭代训练,实现了对文本纠正模型的确定,确保文本纠正模型有较高的准确率。通过预设训练模型中的编码模块对待纠正文本和初始拼音声调文本进行编码,实现了对待纠正向量和初始拼音声调向量的编码。通过检测模块对待纠正向量中的错误位置和错位类型进行标注,实现了对错误标注向量的确定。通过纠正模块的中文拼写纠正对错误标注向量进行错误变长纠正,实现了通过掩码预测对预测内容文本的确定。通过纠正模块的汉语发音预测对初始拼音声调向量进行错误变长纠
正,实现了通过掩码预测对预测拼音声调文本的确定。通过预测内容及预测拼音声调和预设目标内容及预设目标拼音声调进行比较,实现了对预设训练模型的预测损失值的确定。进一步地,通过错误标注,实现了对待纠正向量的变长修改,实现了保险或金融等行业中文本不定长错误纠正,进而提高了保险或金融等行业中文本纠正不定长错误的准确率。通过增加汉语发音预测,提高了保险或金融等行业中文本纠正的准确率。
附图说明
30.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
31.图1是本发明一实施例中文本纠正模型训练方法的应用环境示意图;
32.图2是本发明一实施例中文本纠正模型训练方法的流程图;
33.图3是本发明一实施例中文本纠正方法流程图;
34.图4是本发明一实施例中文本纠正模型训练装置的原理框图;
35.图5是本发明一实施例中文本纠正装置的原理框图;
36.图6是本发明一实施例中计算机设备的示意图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.本发明实施例提供的文本纠正模型训练方法,该文本纠正模型训练方法可应用如图1所示的应用环境中。具体地,该文本纠正模型训练方法应用在文本纠正模型训练装置中,该文本纠正模型训练装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中因采用定长修改和语音特征作为辅助特征导致纠正准确率较低的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
39.在一实施例中,如图2所示,提供一种文本纠正模型训练方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
40.s10:获取样本数据集,所述样本数据集包括至少一个待纠正文本和与所述待纠正文本对应的初始拼音声调文本,以及与所述待纠正文本对应的目标内容文本和与所述初始拼音声调文本对应的目标拼音声调文本。
41.可理解地,待纠正文本为通过自动语音识别技术(asr)对语音数据进行识别得到
的内容。初始拼音声调文本为对待纠正文本进行拼音和声调的识别得到的,也即初始拼音声调文本包括待纠正文本中每个字符的拼音和声调,例如,表,biao3,其中,biao代表拼音,3即代表声调,即1代表声调一声,2代表声调二声,3代表声调三声,4代表声调四声。示例性地,在保险场景中,待纠正文本为您向要的保险价格为3000元。初始拼音声调文本为nin3,xiang4,yao4,de1,bao3,xian3,jia4,ge2,wei2,3000,yuan2。目标内容文本为通过人工或其他方式得到的正确内容。目标拼音声调文本为通过人工或其他方式得到正确拼音和正确声调。示例性地,在保险场景中,目标内容文本为您想要的保险价格为3000元。目标拼音声调文本为nin3,xiang3,yao4,de1,bao3,xian3,jia4,ge2,wei2,3000,yuan2。待纠正文本和初始拼音声调文本可以是从不同数据库中采集得到的,也可以是从客户端发送到数据库中的。进而根据所有获取到的待纠正文本、目标内容文本、目标拼音声调文本和初始拼音声调文本构建待纠正数据集。例如,在人工客服场景中,需要将客服和用户的语音转换为文本,再对文本进行质检,因此,识别文本内容越准确,质检正确率越高。
42.s20:通过预设训练模型中的编码模块对所述待纠正文本和所述初始拼音声调文本进行编码处理,得到待纠正向量和初始拼音声调向量。
43.可理解地,预设训练模型包括编码模块、检测模块、纠正模块和损失模块,其中,编码模块包括字符编码器和拼音声调编码器,且字符编码器和拼音声调编码器均采用bert模型进行编码。
44.具体地,在得到待纠正文本和初始拼音声调文本之后,从数据库中调取预设训练模型,并将待纠正文本和初始拼音声调文本输入到预设训练模型中,通过预设训练模型中的编码模块中的两个编码器分别对纠正文本和初始拼音声调文本进行编码,也即通过输入层对纠正文本和初始拼音声调文本进行预处理,即可得到内容输入向量和拼音声调输入向量。然后,通过注意力层对内容输入向量和拼音声调输入向量进行注意力处理,即可得到内容文本向量和拼音声调向量。最后,通过预测层对内容文本向量和拼音声调向量进行概率预测,并重复预设数量个(如12或24)上述过程,即可得到待纠正向量和初始拼音声调向量。
45.s30,通过预设训练模型中的检测模块对所述待纠正向量进行错误标注,得到错误标注向量。
46.可理解地,错误标注包括删除标注、不变标注、替换标注和插入标注,其中,删除标注用-1表示,不变标注用0表示,替换标注用1表示,插入标注用2表示。错误标注向量为对待纠正向量中的错误位置和错误类型标注后的表示向量。
47.具体地,通过预设训练模型中的检测模块对待纠正向量进行错误标注,即通过bi-lstm检测器对待纠正向量进行掩码预测,也即通过一个前向lstm和反向lstm对待纠正向量中的字符进行拼音声调及其音似混淆字的掩码处理,也即先对错误内容的位置进行掩码预测,得到错误内容位置,再通过删除标注、不变标注、替换标注和插入标注对错误内容位置的类型进行确定,即可得到与错误字符对应的错误内容类型。进而根据错误内容位置和错误内容类型对待纠正向量进行掩码错误标注,即可得到错误标注向量。
48.s40:通过预设训练模型中的纠正模块的中文拼写纠正和汉语发音预测分别对所述错误标注向量和所述初始拼音声调向量进行错误变长纠正,得到预测内容文本和预测拼音声调文本。
49.可理解地,预测内容文本是通过语义特征和语音特征得到的。预测拼音声调文本
是通过汉语发音预测任务对初始拼音声调向量进行纠正得到的。
50.具体地,在得到错误标注向量和标注拼音声调向量之后,将与同一待纠正文本对应的错误标注向量和初始拼音声调向量以检测模块中错误预测值为权重进行融合,也即通过线性组合表达式将同一字符的错误标注向量和拼音声调向量进行融合,如此,即可得到融合向量。进而通过bert模型的掩码功能对融合向量对应的正确字符或正确拼音声调进行预测,也即通过中文拼写纠正对融合向量进行内容纠正,即可得到预测内容文本。以及通过汉语发音预测对融合向量进行拼音声调纠正,即可得到预测拼音声调文本。例如,在保险理赔场景中,你表难过,我们会会赔付的。ni3,biao3,nan2,guo4,wo3,men1,hui4,hui4,pei2,fu4,de1。中文拼写纠正对融合向量进行内容纠正,预测内容文本为你不要难过,我们会赔付的。汉语发音预测对融合向量进行拼音声调纠正,预测拼音声调文本为ni3,2,bu2,yao4,nan2,guo4,wo3,men1,hui4,-1,pei2,fu4,de1。
51.s50:根据所述预测内容文本、所述目标内容文本、所述目标拼音声调文本和所述预测拼音声调文本,确定预设训练模型的预测损失值。
52.可理解地,预测损失值为对待纠正文本的预测答案进行预测的过程中生成的。
53.具体地,在得到预测内容文本和预测拼音声调文本之后,将与同一待纠正文本对应的目标内容文本和预测内容文本进行损失计算,得到该待纠正文本的损失值,进而对每个待纠正文本的损失值进行计算,并将所有待纠正文本的损失值进行加权求和,得到第一损失值。进一步地,将与同一初始拼音声调文本对应的目标拼音声调文本和预测拼音声调文本进行损失计算,得到该初始拼音声调文本的损失值,进而对每个初始拼音声调文本的损失值进行计算,并将所有初始拼音声调文本的损失值进行加权求和,得到第二损失值。根据第一损失值和第二损失值计算出预设训练模型的预测损失值。
54.s60:在预测损失值达到预设收敛条件时,将收敛之后的预设训练模型确定为文本纠正模型。
55.可理解地,该收敛条件可以为预测损失值小于设定阈值的条件,还可以为预测损失值经过了500次计算后值为很小且不会再下降的条件,停止训练。
56.具体地,在预测损失值未达到预设的收敛条件时,根据该预测损失值调整预设训练模型的初始参数,并将所有待纠正文本和所有初始拼音声调文本重新输入至调整初始参数后的预设训练模型中,对预设训练模型中的检测模块和纠正模块进行优化,即可得到与调整初始参数的预设训练模型相对应的预测损失值。进而在该预测损失值未达到预设的收敛条件时,根据该预测损失值再次调整预设训练模型的初始参数,使得再次调整初始参数的预设训练模型的预测损失值达到收敛条件。如此,使得预设训练模型输出的结果可以不断向准确地结果靠拢,让预测准确率越来越高,直至所有待纠正文本和所有预测内容文本的预测损失值均达到预设的收敛条件时,将收敛后的预设训练模型记录为文本纠正模型。
57.在本发明实施例中的一种文本纠正模型训练方法,该方法通过大量的样本数据对预设训练模型进行端到端的迭代训练,实现了对文本纠正模型的确定,确保文本纠正模型有较高的准确率。通过预设训练模型中的编码模块对待纠正文本和初始拼音声调文本进行编码,实现了对待纠正向量和初始拼音声调向量的编码。通过检测模块对待纠正向量中的错误位置和错位类型进行标注,实现了对错误标注向量的确定。通过纠正模块的中文拼写纠正对错误标注向量进行错误变长纠正,实现了通过掩码预测对预测内容文本的确定。通
过纠正模块的汉语发音预测对初始拼音声调向量进行错误变长纠正,实现了通过掩码预测对预测拼音声调文本的确定。通过预测内容及预测拼音声调和预设目标内容及预设目标拼音声调进行比较,实现了对预设训练模型的预测损失值的确定。进一步地,通过错误标注,实现了对待纠正向量的变长修改,实现了保险或金融等行业中文本不定长错误纠正,进而提高了保险或金融等行业中文本纠正不定长错误的准确率。通过增加汉语发音预测,提高了保险或金融等行业中文本纠正的准确率。
58.在一实施例中,步骤s20中,也即根据通过预设训练模型中的编码模块对所述待纠正文本进行编码处理,得到与所述待纠正文本对应的待纠正向量,包括:
59.s201,通过所述编码模块的输入层对所述待纠正文本进行预处理,得到内容输入向量。
60.可理解地,内容输入向量为对待纠正内容文本向量嵌入得到的。
61.具体地,将待纠正文本输入到预设训练模型中,通过预设训练模型中的编码模块的输入层对待纠正文本进行预处理,即先确定待纠正文本的词向量,也即将两个特殊的标志位即cls和sep添加到待纠正文本的开头和结尾。然后,对词向量进行加权融合,也即将一个句子的语义向量添加到每个词向量上,即可得到句向量。最后,通过预设训练模型中的编码模块学习到的位置功能,对词向量和句向量的位置向量进行确定。再将与同一待纠正文本对应的词向量、句向量和位置向量进行相加,即可得到内容输入向量。例如,在保险领域中,这份保险多少钱?大概3000元。词向量为ecls、e这、e份、e保、e险、e多、e少、e钱、esep、e大、e概、e3000、e元、esep;句向量为ea、ea、ea、ea、ea、ea、ea、ea、ea、eb、eb、eb、eb、eb;位置向量为e0、e1、e2、e3、e4、e5、e6、e7、e8、e9、e10;将三个向量相加即可得到内容输入向量。
62.s202,通过所述编码模块的注意力层对所述内容输入向量进行注意力处理,得到内容文本向量。
63.可理解地,注意力向量为对内容输入向量中重要内容进行注意力处理得到的。
64.具体地,通过预测模型中注意力层的注意力机制对所有内容输入向量进行注意力处理,即通过多组注意力机制对内容输入向量中的q向量,k向量,v向量进行计算,也即使用点积法计算内容输入向量中的q向量和k向量之间的相关性得分,即用q中每一个输入向量与k中每一个输入向量计算点积,并对q向量和k向量之间的相关性得分进行归一化。然后通过softmax函数,将输入向量之间的得分向量转换成[0,1]之间的概率分布,并根据输入向量之间的概率分布,然后乘上对应的values向量,即可得到注意力结果。将多组注意力结果拼接,并残差求和以及归一化处理,即可得到内容文本向量。
[0065]
s203,通过所述编码模块的预测层对所述内容文本向量进行预测,得到待纠正向量。
[0066]
可理解地,待纠正向量为待纠正文本编码处理得到的表示向量。
[0067]
进一步地,通过预设训练模型中的编码模块的预测层对注意力向量进行向量预测,即通过预测层中的前馈神经网络对注意力向量进行预测,也即通过多层隐藏单元以不同的权重对注意力向量进行预测计算,即可得到预测结果,并残差求和以及归一化处理,即可得到待纠正向量。
[0068]
本发明实施例通过编码模块对待纠正文本进行预处理,实现了对内容输入向量的编码。通过注意力机制对内容输入向量中的重要内容进行注意力处理,实现了对内容文本
向量的计算。通过预测层对内容文本向量进行向量计算,从而实现了对待纠正向量的确定。
[0069]
在一实施例中,如图3所示,步骤s30中,也即通过预设训练模型中的检测模块对所述待纠正向量进行错误标注,得到错误标注向量,包括:
[0070]
s301,通过所述检测模块的掩码单元对所述待纠正向量进行错误预测,得到错误内容位置。
[0071]
可理解地,错误内容位置为错误字符在待纠正向量中位置,例如,你表难过,第二个字符错误。
[0072]
具体地,在得到待纠正向量之后,通过预设训练模型的检测模块对待纠正向量进行错误预测,也即采用bi-lstm模型对待纠正向量进行掩码错误预测,先通过双向lstm利用上下文信息进行预测处理,再根据拼音声调及其音似混淆字进行掩码预测,确定待纠正向量中所有错误字符的位置,如此,即可得到与待纠正向量对应的至少一个错误内容位置。例如,在保险场景中,前向的lstm
l
依次输入“平安”,“保险”,“就是好”得到三个向量{h
l0
,h
l1
,h
l2
}。后向的lstmr依次输入“就是好”,“保险”,“平安”得到三个向量{h
r0
,h
r1
,h
r2
}。最后将前向和后向的隐向量进行拼接得到{[h
l0
,h
r2
],[h
l1
,h
r1
],[h
l2
,h
r2
]},即{h0,h1,h2}。从左到右的理解这句话,每个时刻都能得到h
li
隐层输出,从右到左的理解这句话,每个时刻都能得到h
ri
隐层输出,而bi-lstm将每个时刻的正向和反向隐层输出进行了拼接[h
li
,h
ri
],来表示当前时刻特征的隐层输出。
[0073]
s302,通过所述删除标注、所述不变标注、所述替换标注和所述插入标注对所述待纠正向量进行错误类型预测,得到错误内容类型。
[0074]
s303,根据所述错误内容类型和所述错误内容位置,确定错误标注向量。
[0075]
可理解地,错误内容类型为删除标注、不变标注、替换标注和插入标注四种类型。错误标注向量为对错误位置和错误类型编码后的表示向量,例如,在保险场景中,你表难过,我们会会赔付的。0200,000-1000。
[0076]
具体地,根据预设的四种字符错误类型对待纠正向量进行错误类型预测,也即通过双向lstm和删除标注、不变标注、替换标注以及插入标注对待纠正向量进行错误类型预测,并将预测概率值最大的错误类型确定为错误内容类型。其中,错误内容位置和错误内容类型是同时进行的,每确定一个位置就确定错误类型,如此,即可得到与各错误内容位置对应的错误内容类型。进一步地,根据所有错误内容类型和所有错误内容位置对待纠正向量进行掩码错误标注,即可得到与待纠正向量对应的错误标注向量。
[0077]
本发明实施例通过检测模块的掩码预测功能对待纠正文本进行错误标注,实现了对错误字符位置的标注,实现了对错误字符的错误类型的标注。通过所有的错误位置和所有错误类型对待纠正向量进行标注,实现了对错误标注向量的确定,进而实现了对错误文本的变长标注。
[0078]
在一实施例中,如图4所示,步骤s40中,也即通过预设训练模型中的纠正模块的中文拼写纠正和汉语发音预测分别对所述错误标注向量和所述初始拼音声调向量进行错误变长纠正,得到预测内容文本和预测拼音声调文本,包括:
[0079]
s401,将与同一所述待纠正文本对应的所述错误标注向量和所述初始拼音声调向量进行融合,得到融合向量。
[0080]
s402,通过所述纠正模块中的中文拼写纠正对所述融合向量进行内容纠正,得到
预测内容文本。
[0081]
可理解地,融合向量为以检测模块的错误预测值为权重将。预测内容文本为根据错误内容类型对错误字符进行纠正后的内容。融合向量表达式为em=(1-p
err
)ew p
errep
,其中,p
err
为错误预测值,θd为检测模块的参数,xw为字符向量。
[0082]
具体地,在得到错误标注向量之后,通过预设训练模型的纠正模块对与同一待纠正文本对应的错误标注向量和初始拼音声调向量进行融合,也即以检测模块的错误预测值为权重将错误标注向量和初始拼音声调向量进行向量融合,即可得到与待纠正文本对应的融合向量。进一步地,通过纠正模块中的中文拼写纠正任务对融合向量进行内容纠正,即采用bert模型的掩码功能对融合向量错误标注的正确内容进行预测,也即将一部分(百分之十五)字符掩码并对融合向量进行中文拼写纠正,将概率值最大的预测字词按照错误类型标注进行删除、不变、替换和插入,从而得到预测内容文本。例如,在保险理赔场景中,你表难过,我们会会赔付的。中文拼写纠正对融合向量进行内容纠正,预测内容文本为你不要难过,我们会赔付的。
[0083]
s403,通过所述纠正模块中的汉语发音预测对所述融合向量进行拼音声调纠正,得到预测拼音声调文本。
[0084]
可理解地,预测拼音声调文本为对根据错误内容类型对错误拼音声调进行纠正后的拼音声调。
[0085]
具体地,通过纠正模块中的汉语发音预测对融合向量进行拼音声调纠正,也即根据发音错误的字符是与正确字符的发音具有一定的相似性,根据错误发音字符中的声母和韵母通过不断替换其它拼音声调字符,直至通过全连接层预测得到概率值最大的拼音声调,即可得到与预测内容文本对应的预测拼音声调,如此,对待纠正向量中所有错误内容位置和所有错误内容类型的拼音声调及声调预测完成,即可得到预测拼音声调文本。例如,在保险理赔场景中,ni3,biao3,nan2,guo4,wo3,men1,hui4,hui4,pei2,fu4,de1。通过汉语发音预测对融合向量进行拼音声调纠正,预测拼音声调文本为ni3,2,bu2,yao4,nan2,guo4,wo3,men1,hui4,-1,pei2,fu4,de1。
[0086]
本发明实施例通过以检测模块中错误预测值为权重将错误标注向量和标注拼音声调向量,实现了对融合向量的确定。通过拼音声调加声调更细粒度精确的纠正,不仅预测目标字的字符,也预测目标字的拼音声调,改善了bert模型纠错中不注重声调特征的问题,提高了asr错误纠正的准确率。
[0087]
在一实施例中,步骤s50中,也即根据所述预测内容文本、所述目标内容文本、所述目标拼音声调文本和所述预测拼音声调文本,确定预设训练模型的预测损失值,包括:
[0088]
s501,根据所述目标内容文本和所述预测内容文本,确定第一损失值。
[0089]
可理解地,第一损失值为对待纠正文本进行内容纠正的过程中生成的。目标内容文本为通过人工或其它方式对识别内容文本进行纠正得到的。
[0090]
具体地,在得到预测内容文本之后,将与同一待纠正文本对应的所有预测内容文本按照待纠正文本集中待纠正文本的顺序进行排列,进而将目标内容文本,与序列相同的预测内容文本进行比较;也即按照待纠正文本排序,将位于第一的目标内容文本,与位于第一的待纠正文本对应的预测内容文本进行比较,通过损失函数确定目标内容文本与预测内
容文本之间的损失值;进而将位于第二的目标内容文本,与位于第二的待纠正文本对应的预测内容文本进行比较,直至所有目标内容文本和所有预测内容文本均比较完成,即可得到所有待纠正文本的第一损失值。例如,在保险理赔场景中,预测内容文本中为你表难过,我们会会赔付的。目标内容文本你不要难过,我们会赔付的。通过计算两个文本之间差距确定第一损失值。
[0091]
s502,根据所述预测拼音声调文本和所述目标拼音声调文本,确定第二损失值。
[0092]
可理解地,第二损失值为对初始拼音声调文本进行拼音声调及声调纠正的过程中生成的。目标拼音声调文本为通过人工或其它方式对识别拼音声调文本纠正得到的。
[0093]
具体地,在得到预测拼音声调文本之后,将与同一待纠正文本对应的所有预测拼音声调文本按照待纠正文本集中待纠正文本的顺序进行排列,进而将目标拼音声调文本,与序列相同的预测拼音声调文本进行比较;也即按照待纠正文本排序,将位于第一的目标拼音声调文本,与位于第一的待纠正文本对应的预测拼音声调文本进行比较,通过损失函数确定目标拼音声调文本与预测拼音声调文本之间的损失值;进而将位于第二的目标拼音声调文本,与位于第二的待纠正文本对应的预测拼音声调文本进行比较,直至所有目标拼音声调文本和所有预测拼音声调文本均比较完成,即可得到所有初始拼音声调文本的第二损失值。例如,在保险理赔场景中,目标拼音声调文本为ni3,bu2,yao4,nan2,guo4,wo3,men1,hui4,pei2,fu4,de1。预测拼音声调文本ni3,biao3,nan2,guo4,wo3,men1,hui4,hui4,pei2,fu4,de1。通过计算两个文本之间差距确定第二损失值。
[0094]
s503,根据所述第一损失值和所述第二损失值,确定所述预设训练模型的预测损失值。
[0095]
具体地,通过每个分支预设的权重值对模型的整体损失值进行计算,即将每个分支的权重值与分支的损失值进行相乘,也即将中文拼写纠正分支的第一损失值和内容纠正的权重值相乘,将汉语发音预测分支的第二损失值和拼音声调纠正分支的权重值相乘,如此,再将每个分支的损失计算结果相加,即可得到预设训练模型的预测损失值。其中,本实施例中的汉语发音预测分支的权重值采用检测模块预测的错误概率值作为权重,中文拼写纠正分支的权重值采用检测模块预测的一减去错误概率值的结果作为权重值。损失函数表达式为l=(1-p
err
)lw p
err
l
p
,其中,lw为中文拼写纠正损失值,l
p
为汉语发音预测损失值。
[0096]
本发明实施例通过同一待纠正文本和初始拼音声调文本对应的真实标签和预测标签计算每个分支的损失值,实现了对每个分支的损失值的确定。通过每个分支在预设训练模型中的不同权重值对预设训练模型的整体损失值进行计算,实现了预测损失值的确定,进而提高了文本纠正模型的准确性。
[0097]
在一实施例中,如图3所示,提供一种文本纠正方法,包括如下步骤:
[0098]
s11,获取语音识别文本,所述语音识别文本包括内容识别文本和拼音声调识别文本。
[0099]
s12,调用文本纠正模型,所述文本纠正模型为根据权利要求1-5中任意一项所述文本纠正模型训练方法训练得到的文本纠正模型。
[0100]
可理解地,语音识别文本可以为从不同的数据库中爬取得到,也可以为通过客户端发送到服务器中。也即获取至少一个语音识别文本,语音识别文本包括内容识别文本和拼音声调识别文本。例如,在保险领域中,业务员和客户的对话的识别文本,或者在金融领
域中,用户向工作人员的询问对话的识别文本,内容识别文本为音频数据的识别的字符文本,拼音声调识别文本为字符文本对应的拼音声调和声调的文本。进一步地,从数据库中调取根据上述文本纠正模型训练方法训练得到的文本纠正模型。
[0101]
s13,基于所述文本纠正模型对所述语音识别文本中的内容识别文本和拼音声调识别文本进行错误纠正,得到目标纠正文本。
[0102]
可理解地,目标纠正文本为对内容识别文本和拼音声调识别文本错误纠正后的文本。
[0103]
具体的,在调取文本纠正模型之后,将语音识别文本输入到文本纠正模型中,通过文本纠正模型对语音识别文本中的内容识别文本和拼音声调识别文本进行编码,也即通过字符编码器和拼音声调编码器分别对内容识别文本和拼音声调识别文本进行编码,得到字符编码向量和拼音声调编码向量。然后,通过检测模块的错误序列标注模型对字符编码向量进行错误标注,也即将错误位置的错误类型用训练过程中的数字表示,即可得到文本标注向量。最后,通过纠正模块对文本标注向量和拼音声调编码向量进行文本纠正,也即采用bert模型的掩码功能对文本标注向量和拼音声调编码向量进行预测纠正,即可得到目标纠正文本。具体过程与上述训练过程相同,在此不再赘述。
[0104]
本发明实施例通过训练完成后的文本纠正模型对语音识别文本进行编码,实现了对语音识别文本的编码,实现了对编码向量的确定。通过对编码向量进行错误标注,实现了对错误的定位和类型预测。通过掩码功能对所有错误类型进行字符及拼音声调纠正,实现了对语音识别文本的纠正,进而实现了不定长错误的纠正。
[0105]
应理解,上述实施例中各步骤的序号的大小并不意味着执的行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0106]
在一实施例中,提供一种文本纠正装置,该文本纠正装置与上述实施例中文本纠正方法一一对应。如图5所示,该文本纠正装置包括获取模块11、调用模块12和纠正模块13。各功能模块详细说明如下:
[0107]
获取模块11,用于获取语音识别文本,所述语音识别文本包括内容识别文本和拼音声调识别文本;
[0108]
调用模块12,用于调用文本纠正模型,所述文本纠正模型为根据权利要求1-5中任意一项所述文本纠正模型训练方法训练得到的文本纠正模型;
[0109]
识别模块13,用于基于所述文本纠正模型对所述语音识别文本中的内容识别文本和拼音声调识别文本进行错误纠正,得到目标纠正文本。
[0110]
在一实施例中,提供一种文本纠正模型训练装置,该文本纠正模型训练装置与上述实施例中文本纠正模型训练方法一一对应。如图4所示,该文本纠正模型训练装置包括数据获取模块10、文本编码模块20、错误标注模块30、错误纠正模块40、损失预测模块50和模型收敛模块60。各功能模块详细说明如下:
[0111]
数据获取模块10,用于获取样本数据集,所述样本数据集包括至少一个待纠正文本和与所述待纠正文本对应的初始拼音声调文本,以及与所述待纠正文本对应的目标内容文本和与所述初始拼音声调文本对应的目标拼音声调文本;
[0112]
文本编码模块20,用于通过预设训练模型中的编码模块对所述待纠正文本和所述
初始拼音声调文本进行编码处理,得到待纠正向量和初始拼音声调向量;
[0113]
错误标注模块30,用于通过预设训练模型中的检测模块对所述待纠正向量进行错误标注,得到错误标注向量;
[0114]
错误纠正模块40,用于通过预设训练模型中的纠正模块的中文拼写纠正和汉语发音预测分别对所述错误标注向量和所述初始拼音声调向量进行错误变长纠正,得到预测内容文本和预测拼音声调文本;
[0115]
损失预测模块50,用于根据所述预测内容文本、所述目标内容文本、所述目标拼音声调文本和所述预测拼音声调文本,确定预设训练模型的预测损失值;
[0116]
模型收敛模块60,用于在预测损失值达到预设收敛条件时,将收敛之后的预设训练模型确定为文本纠正模型。
[0117]
关于文本纠正模型训练装置的具体限定可以参见上文中对于文本纠正模型训练方法的限定,在此不再赘述。上述文本纠正模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0118]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中文本纠正模型训练方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本纠正模型训练方法,或所述处理器执行所述计算机程序时实现上述文本纠正方法。
[0119]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本纠正模型训练方法,或所述处理器执行所述计算机程序时实现上述文本纠正方法。
[0120]
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本纠正模型训练方法,或所述处理器执行所述计算机程序时实现上述文本纠正方法。
[0121]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0122]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0123]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围内。