1.本技术涉及人工智能领域,具体而言,涉及一种语音的识别方法、装置、处理器以及电子设备。
背景技术:
2.随着人工智能的发展,越来越多的智能家电安装有远场语音识别技术,通过该技术识别使用者发出的指令,进而在使用者不进行手动操作电器的情况下就可以执行相应的操作。
3.远场语音识别技术是融合了ai语音搜素的一项改变用户体验的功能,通过将远场语音识别模型进行不同场景的训练,可实现不同场景的语音识别体验。训练远场语音识别模型的方法通常几何处理方法以及图像源模型方法,其中,几何处理具有成本低的优势,但为了便于数据模拟,几何处理需要对空间数据进行几何化处理,由于空间环境的复杂程度不同,可能会导致该方法的使用精度相对较差且效率低下;利用图像源模型进行模型的训练得到的模型精度较高,但由于该方法需要考虑如空间复杂度、能量衰减等因素,进而导致成本相对较高模拟过程时间较长。
4.针对相关技术中难以降低语音识别模型的训练样本成本的问题,目前尚未提出有效的j9九游会真人的解决方案。
技术实现要素:
5.本技术的主要目的在于提供一种语音的识别方法、装置、处理器以及电子设备,以解决相关技术中难以降低语音识别模型的训练样本成本的问题。
6.为了实现上述目的,根据本技术的一个方面,提供了一种语音的识别方法。该方法包括:获取目标场景的语音信息,并确定目标场景的场景类型;确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成,模拟语音信息由噪声信息以及场景类型下的原始语音信息生成。
7.可选地,目标远场语音识别模型通过以下方式训练得到:从语音数据库中获取场景类型下的z个原始语音信息,并识别每个原始语音信息的对话信息,其中,z为正整数;对于每个原始语音信息,由原始语音信息以及原始语音信息的对话信息构成第一样本数据,得到z个第一样本数据;对于每个原始语音信息,将原始语音信息以及噪声数据库中的噪声信息进行混合,得到模拟语音信息,由模拟语音信息以及原始语音信息的对话信息构成第二样本数据,得到z个第二样本数据;由z个第一样本数据以及z个第二样本数据构成样本数据集;由样本数据集训练预设远场语音识别模型,得到目标远场语音识别模型。
8.可选地,由样本数据集训练预设远场语音识别模型,得到目标远场语音识别模型包括:将样本数据集中的样本语音信息输入到预设远场语音识别模型中,处理得到预测对话信息以及训练后的远场语音识别模型,其中,样本语音信息包括第一样本数据中的原始语音信息以及第二样本数据中的模拟语音信息;根据预测对话信息以及样本语音信息关联的对话信息计算得到模型评价参数,在模型评价参数不满足预设识别要求的情况下,调整训练后的远场语音识别模型,直至调整后的远场语音识别模型的模型评价参数满足预设识别要求,并将调整后的远场语音识别模型确定为目标远场语音识别模型,其中,模型评价参数包括准确率以及语音错误率。
9.可选地,在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,方法还包括:获取原始语音信息关联的标注表,其中,标注表用于标注原始语音信息中发生对话的的对话时间段信息,对话时间段信息包括对话的时间间隔以及对话的对话文本;从标注表中获取发生对话的对话时间段信息,得到m个对话时间段信息,并按照时间信息将m个对话时间段信息进行排序,得到m个排序后的对话时间段信息,其中,m为正整数;根据m个排序后的对话时间段信息对原始语音信息进行切割,得到m个对话片段,将原始语音信息中m个对话片段以外的非对话片段添加至预设噪声数据库中,得到噪声数据库。
10.可选地,对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息包括:从噪声数据库中获取n个非对话片段,对n个非对话片段进行排列组合,得到x个非对话组合片段,其中,n,x为正整数;选取x个非对话组合片段中的任意一个非对话组合片段,并将选取的非对话组合片段添加至原始语音信息中,得到模拟语音信息。
11.可选地,在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,方法还包括:获取原始语音信息的第一音素错误率以及模拟语音信息的第二音素错误率;判断第二音素错误率是否小于第一音素错误率;在第二音素错误率小于第一音素错误率的情况下,由模拟语音信息和原始语音信息的对话信息构成第二样本数据;在第二音素错误率大于等于第一音素错误率的情况下,丢弃模拟语音信息。
12.可选地,在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,方法还包括:获取原始语音信息的第一仿真信号波形以及模拟语音信息的第二仿真信号波形;判断第二仿真信号波形的音频幅度是否小于第一仿真信号波形的音频幅度;在第二仿真信号波形的音频幅度小于第一仿真信号波形的音频幅度,由模拟语音信息和原始语音信息的对话信息构成第二样本数据;在第二仿真信号波形的音频幅度大于等于第一仿真信号波形的音频幅度,丢弃模拟语音信息。
13.为了实现上述目的,根据本技术的另一方面,提供了一种语音的识别装置。该装置包括:第一获取单元,用于获取目标场景的语音信息,并确定目标场景的场景类型;确定单元,用于确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样
本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成,模拟语音信息由噪声信息以及场景类型下的原始语音信息生成。
14.根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种语音的识别方法。
15.根据本发明实施例的另一方面,还提供了一种电子设备,包含一个或多个处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种语音的识别方法。
16.通过本技术,采用以下步骤:获取目标场景的语音信息,并确定目标场景的场景类型;确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成,模拟语音信息由噪声信息以及场景类型下的原始语音信息生成,解决了相关技术中难以降低语音识别模型的训练样本成本的问题,通过对原始语音数据叠加不同的噪声信息,建立多个基于原始语音数据的样本数据,进而达到了降低模型的样本数据的获取成本的效果。
附图说明
17.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
18.图1是根据本技术实施例提供的语音的识别方法的流程图;
19.图2是根据本技术实施例提供的语音的识别方法中数据模拟的示意图;
20.图3是根据本技术实施例提供的仿真信号波形的音频幅度的示意图一;
21.图4是根据本技术实施例提供的仿真信号波形的音频幅度的示意图二;
22.图5是根据本技术实施例提供的可选的数据模拟方法的示意图;
23.图6是根据本技术实施例提供的语音的识别装置的示意图;
24.图7是根据本技术实施例提供的电子设备的示意图。
具体实施方式
25.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
26.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
27.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具
有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
29.下面结合优选的实施步骤对本发明进行说明,图1是根据本技术实施例提供的语音的识别方法的流程图,如图1所示,该方法包括如下步骤:
30.步骤s101,获取目标场景的语音信息,并确定目标场景的场景类型。
31.具体的,目标场景是指需要进行语音识别的环境,场景类型可以包括室内以及室外环境,例如,目标场景的场景类型可以为客厅、厨房、室内场馆等环境,语音信息是指在目标场景中收集的录音信息,包括对话以及无对话发生时的背景音,例如,目标场景的场景类型为客厅,收集的语音信息中包括两个人的对话信息以及客厅中电视机发出的背景声音。
32.步骤s102,确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成,模拟语音信息由噪声信息以及场景类型下的原始语音信息生成。
33.具体的,远场语音识别模型是指利用识别远距离语音技术识别使用者对话的模型,每一目标场景的场景类型可以匹配一种类型的远场语音识别模型,通过利用该远场语音识别模型获取语音信息,可以识别输出该语音信息中包含的对话信息,第一样本数据可以为客厅场景下获取的包含对话信息的原始语音信息,第二样本数据可以为在该原始语音信息中叠加了多种噪声信息的模拟语音信息。
34.需要说明的是,目标远场语音识别模型是利用多个样本数据训练预设远场语音识别模型得到的,由于现有环境中不同目标场景的样本数据的采集较为困难,因此需要对输入到模型中的样本数据进行模拟,可以极大的降低训练模型的难度。
35.例如,目标场景为客厅,所需要训练的远场语音识别模型为客厅的识别模型,获取的原始语音信息为使用者在客厅的对话信息以及伴随的背景声音,利用训练后的模型识别语音信息,可以输出使用者发出的如控制智能设备执行某项功能等语音信息。本技术实施例提供的语音的识别方法,通过获取目标场景的语音信息,并确定目标场景的场景类型;确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成,模拟语音信息由噪声信息以及场景类型下的原始语音信息生成,解决了相关技术中难以降低语音识别模型的训练样本成本的问题,通过对原始语音数据叠加不同的噪声信息,建立多个基于原始语音数据的样本数据,进而达到了降低模型的样本数据的获取成本的效果。
36.目标远场语音识别模型需要利用多个样本数据训练得到,可选地,在本技术实施例提供的语音的识别方法中,目标远场语音识别模型通过以下方式训练得到:从语音数据库中获取场景类型下的z个原始语音信息,并识别每个原始语音信息的对话信息,其中,z为正整数;对于每个原始语音信息,由原始语音信息以及原始语音信息的对话信息构成第一样本数据,得到z个第一样本数据;对于每个原始语音信息,将原始语音信息以及噪声数据库中的噪声信息进行混合,得到模拟语音信息,由模拟语音信息以及原始语音信息的对话信息构成第二样本数据,得到z个第二样本数据;由z个第一样本数据以及z个第二样本数据构成样本数据集;由样本数据集训练预设远场语音识别模型,得到目标远场语音识别模型。
37.具体的,语音数据库可以为来自chime-5的数据,原始语音信息是指没有进行加工处理的语音信息,在训练目标远场语音识别模型时,首先需要确定目标场景的场景类型,并根据该场景类型从语音数据库中获取对应的多个原始语音信息,例如,目标场景为客厅,则从语音数据库中获取的原始语音信息则为客厅场景的原始语音信息,在获得多个原始语音信息后,对多个原始语音信息进行切割得到噪声信息,并将噪声信息与原始语音信息进行混合可以多个模拟语音信息,将模拟语音信息与原始语音信息共同作为样本数据集输入到预设远场语音识别模型中,通过模型输出的的对话信息计算得到的模型评价参数对模型进行调整,直至符合预设要求后完成远场语音识别模型的训练。
38.需要说明的是,模拟语音信息用于增加训练模型的样本数据集,模拟语音信息是通过将噪声数据库中的不同数量、不同响度的噪声信息添加至原始语音信息中得到的,可以通过使用软件中的librosa库实现,模型的样本数据集是由原始语音信息以及模拟语音信息生成得到,而模拟语音信息则是基于原始语音信息得到,在扩充了了样本数据的情况下,减少了获取样本数据的工作量。
39.可选地,在本技术实施例提供的语音的识别方法中,由样本数据集训练预设远场语音识别模型,得到目标远场语音识别模型包括:将样本数据集中的样本语音信息输入到预设远场语音识别模型中,处理得到预测对话信息以及训练后的远场语音识别模型,其中,样本语音信息包括第一样本数据中的原始语音信息以及第二样本数据中的模拟语音信息;根据预测对话信息以及样本语音信息关联的对话信息计算得到模型评价参数,在模型评价参数不满足预设识别要求的情况下,调整训练后的远场语音识别模型,直至调整后的远场语音识别模型的模型评价参数满足预设识别要求,并将调整后的远场语音识别模型确定为目标远场语音识别模型,其中,模型评价参数包括准确率以及语音错误率。
40.在训练远场语音识别模型时,需要利用模型评价参数对模型进行评估,具体的,利用训练后的远场语音识别模型输出的预测对话信息与样本语音信息关联的对话信息进行对话准确率以及语音错误率的计算,再对计算出的对话准确率以及语音错误率与预设识别要求中的预设对话准确率以及预设语音错误率进行对比,在对话准确率低于预设对话准确率时或在语音错误率大于预设语音错误率时,表明训练后的远场语音识别模型不符合要求,需要对模型中的参数进行调整,直至调整后的远场语音识别模型得到的对话准确率大于预设对话准确率的同时满足语音错误率小于预设语音错误率,此时将该模型作为目标远场识别模型,通过计算模型评价参数,可以较好的利用数据量化的方式判断模型训练的效果。
41.噪声信息是通过原始语音信息分割得到的,可选地,在本技术实施例提供的语音
的识别方法中,在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,方法还包括:获取原始语音信息关联的标注表,其中,标注表用于标注原始语音信息中发生对话的的对话时间段信息,对话时间段信息包括对话的时间间隔以及对话的对话文本;从标注表中获取发生对话的对话时间段信息,得到m个对话时间段信息,并按照时间信息将m个对话时间段信息进行排序,得到m个排序后的对话时间段信息,其中,m为正整数;根据m个排序后的对话时间段信息对原始语音信息进行切割,得到m个对话片段,将原始语音信息中m个对话片段以外的非对话片段添加至预设噪声数据库中,得到噪声数据库。
42.为了获取噪声信息,需要将原始语音信息进行分割,具体的,非对话片段也即噪声信息,在获取与原始语音信息关联的包含对话时间段信息的标注表,识别标注表中包含的多个对话的时间间隔以及对话文本,利用不同对话的时间段信息的先后时间顺序对原始语音信息进行切割,以此得到多个对话片段以及多个非对话片段。
43.进一步的,将非对话片段添加至预设噪声数据库中,例如,当目标场景为客厅时,在获取该场景的一段3分钟的原始语音信息后,识别除其中包含对话的对话时间段信息共有两段,每段30秒,分别为30秒到1分以及2分到2分30秒,根据识别到的信息进行切割,以此得到0到30秒、1到2分以及2分30秒到3分的噪声信息,并将其添加至噪声数据库中。
44.对原始语音信息进行噪声混合得到模拟语音信息,可选地,在本技术实施例提供的语音的识别方法中,对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息包括:从噪声数据库中获取n个非对话片段,对n个非对话片段进行排列组合,得到x个非对话组合片段,其中,n,x为正整数;选取x个非对话组合片段中的任意一个非对话组合片段,并将选取的非对话组合片段添加至原始语音信息中,得到模拟语音信息。
45.具体的,图2是根据本技术实施例提供的语音的识别方法中数据模拟的示意图,如图2所示,非对话片段是指原始语音信息中除对话信息以外的信息,在将切割后的非对话片段添加至噪声数据库后,为了更好的训练远场语音识别模型,可以对模拟语音信息添加不同组合的噪声信息,例如,若从噪声数据库中共获取了4个非对话片段:a、b、c、d,将该非对话片段进行排列组合,排列组合的结果可以为四个单独的噪声片段作为非对话组合片段、两个非对话片段的组合作为非对话组合片段(例如:ab、ac、ba、ca等)、三个非对话片段的组合作为非对话组合片段(例如:abc、bac、abd等)等,选取排列组合结果中的任意一组添加至原始语音信息中进行混合,以此得到模拟语音信息,通过构成的多个组合,可以生成多个模拟数据,进而极大地增强了样本的数量,提高了样本的丰富性。
46.音素错误率,也即per((phone error rate),是一项用于评价预测文本与标准文本之间错误率,因此音素错误率需要越小越好,判断模拟语音信息是否可以作为训练远场语音识别模型的样本数据可以通过音素错误率进行分析,可选地,在本技术实施例提供的语音的识别方法中,在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,方法还包括:获取原始语音信息的第一音素错误率以及模拟语音信息的第二音素错误率;判断第二音素错误率是否小于第一音素错误率;在第二音素错误率小于第一音素错误率的情况下,由模拟语音信息和原始语音信息的对话信息构成第二样本数据;在第二音素错误率大于等于第一音素错误率的情况下,丢弃模拟语音
信息。
47.在获得混合后的模拟语音信息后,为了判断模拟语音信息是否可以作为训练远场语音识别模型的样本数据,可以对模拟语音信息的音素错误率进行分析。具体的,在利用语音识别工具(例如,语音识别工具可以为kaldi)分别获取原始语音信息以及混合后的模拟语音信息的语素错误率后,将两个语素错误率进行对比,在原始语音信息音素错误率大于模拟语音信息的音素错误率时,表明该模拟语音信息可以利用于远场语音识别模型的训练;反之,则将该模拟语音信息删除,重新利用噪声数据库中不同的噪声信息与原始语音信息进行混合得到新的模拟语音信息。通过以音素错误率作为样本数据的判断标准,可以得到更多的模拟语音信息,进而利用该模拟语音信息训练预设远场语音识别模型,得到符合要求的远场识别语音模型。
48.判断模拟语音信息是否可以作为训练远场语音识别模型的样本数据可以通过仿真波形进行分析,可选地,在本技术实施例提供的语音的识别方法中,在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,方法还包括:获取原始语音信息的第一仿真信号波形以及模拟语音信息的第二仿真信号波形;判断第二仿真信号波形的音频幅度是否小于第一仿真信号波形的音频幅度;在第二仿真信号波形的音频幅度小于第一仿真信号波形的音频幅度,由模拟语音信息和原始语音信息的对话信息构成第二样本数据;在第二仿真信号波形的音频幅度大于等于第一仿真信号波形的音频幅度,丢弃模拟语音信息。
49.在获得混合后的模拟语音信息后,为了判断模拟语音信息是否可以作为训练远场语音识别模型的样本数据,可以对模拟语音信息的仿真波形进行分析,具体的,将原始语音信息和混合后的模拟语音信息输入到仿真软件中,利用仿真软件对两种语音信息的声音信号波形进行展示,判断两个语音信息是否满足原始语音信息的波形幅度大于模拟语音信息的波形幅度,当原始语音信息的波形幅度大于模拟语音信息的波形幅度时,则将该模拟语音信息与原始语音信息的对话信息构成第二样本数据后添加至样本数据集中,反之则删除该模拟语音信息,重新混合模拟语音信息。
50.具体的,图3是根据本技术实施例提供的仿真信号波形的音频幅度的示意图一,如图3所示,该图为原始语音信息的音频幅度波形,横坐标为原始语音信息的时间,纵坐标为音频幅值,图4是根据本技术实施例提供的仿真信号波形的音频幅度的示意图二,如图4所示,该图为模拟语音信息的音频幅度波形,横坐标为模拟语音信息的时间,纵坐标为音频幅值,第一个波形的幅度大于第二个波形的幅度,也即原始语音信息的强度强于模拟语音信息的强度,表明模拟语音信息中的背景噪声大于原始语音中的噪声,该信息的复杂度高,可以较好地训练远场语音识别模型。
51.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
52.本技术实施例还提供了一种可选的语音的识别方法,图5是根据本技术实施例提供的可选的数据模拟方法的示意图,如图5所示,方法包括:
53.在获取模型的训练数据前,利用语音识别工具对操作环境进行参数配置,进一步的,利用该语音识别工具从chime-5网站中获取目标场景的原始语音信息,并获取该原始语
音信息的语素错误率,以便对混合后的信息进行识别判断。
54.进一步的,利用原始语音信息关联的标注表中的对话时间段信息以及编程软件,对原始语音信息进行语音片段与非语音片段的切割,得到多个语音片段以及多个非语音片段,并将非语音片段作为噪音信息存储至噪音数据库中。
55.然后利用软件中的处理工具从噪音数据库中随机获取不同的噪音信息,并将其生成不同的噪音文件,再将噪音文件与原始语音信息进行随机混合,得到混合语音信息,并将其添加至训练数据中。
56.需要说明的是,为了对混合语音信息进行状态的判断,利用语音识别工具获取该混合语音信息的语素错误率,并将该语素错误率与原始语音信息的语素错误率进行对比,在语素错误率小于原始语音信息的语素错误率时,表明混合语音信息符合要求。
57.本实施例通过利用原始语音信息获取多个噪声信息,实现了降低模拟数据成本的效果,同时由于模拟语音信息的场景类型与原始语音信息的场景类型相同,利用模拟语音信息进行模型的训练时,可以达到提高模型识别精度的效果。
58.本技术实施例还提供了一种语音的识别装置,需要说明的是,本技术实施例的语音的识别装置可以用于执行本技术实施例所提供的用于语音的识别方法。以下对本技术实施例提供的语音的识别装置进行介绍。
59.图6是根据本技术实施例提供的语音的识别装置的示意图,如图6所示,该装置包括:第一获取单元60、确定单元61。
60.第一获取单元60,用于获取目标场景的语音信息,并确定目标场景的场景类型。
61.确定单元61,用于确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成,模拟语音信息由噪声信息以及场景类型下的原始语音信息生成。
62.可选地,在本技术实施例提供的语音的识别装置中,目标远场语音识别模型通过以下方式训练得到:第一获取模块,用于从语音数据库中获取场景类型下的z个原始语音信息,并识别每个原始语音信息的对话信息,其中,z为正整数;第一构成模块,用于对于每个原始语音信息,由原始语音信息以及原始语音信息的对话信息构成第一样本数据,得到z个第一样本数据;混合模块,用于对于每个原始语音信息,将原始语音信息以及噪声数据库中的噪声信息进行混合,得到模拟语音信息,由模拟语音信息以及原始语音信息的对话信息构成第二样本数据,得到z个第二样本数据;第二构成模块,用于由z个第一样本数据以及z个第二样本数据构成样本数据集;训练模块,用于由样本数据集训练预设远场语音识别模型,得到目标远场语音识别模型。
63.可选地,在本技术实施例提供的语音的识别装置中,确定单元61包括:输入模块,用于将样本数据集中的样本语音信息输入到预设远场语音识别模型中,处理得到预测对话信息以及训练后的远场语音识别模型,其中,样本语音信息包括第一样本数据中的原始语音信息以及第二样本数据中的模拟语音信息;计算模块,用于根据预测对话信息以及样本语音信息关联的对话信息计算得到模型评价参数,在模型评价参数不满足预设识别要求的
情况下,调整训练后的远场语音识别模型,直至调整后的远场语音识别模型的模型评价参数满足预设识别要求,并将调整后的远场语音识别模型确定为目标远场语音识别模型,其中,模型评价参数包括准确率以及语音错误率。
64.可选地,在本技术实施例提供的语音的识别装置中,装置还包括:第二获取单元,用于在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,获取原始语音信息关联的标注表,其中,标注表用于标注原始语音信息中发生对话的的对话时间段信息,对话时间段信息包括对话的时间间隔以及对话的对话文本;第三获取单元,用于从标注表中获取发生对话的对话时间段信息,得到m个对话时间段信息,并按照时间信息将m个对话时间段信息进行排序,得到m个排序后的对话时间段信息,其中,m为正整数;切割单元,用于根据m个排序后的对话时间段信息对原始语音信息进行切割,得到m个对话片段,将原始语音信息中m个对话片段以外的非对话片段添加至预设噪声数据库中,得到噪声数据库。
65.可选地,在本技术实施例提供的语音的识别装置中,确定单元61包括:第二获取模块,用于从噪声数据库中获取n个非对话片段,对n个非对话片段进行排列组合,得到x个非对话组合片段,其中,n,x为正整数;选取模块,用于选取x个非对话组合片段中的任意一个非对话组合片段,并将选取的非对话组合片段添加至原始语音信息中,得到模拟语音信息。
66.可选地,在本技术实施例提供的语音的识别装置中,方法还包括:第四获取单元,用于在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,获取原始语音信息的第一音素错误率以及模拟语音信息的第二音素错误率;第一判断单元,用于判断第二音素错误率是否小于第一音素错误率;第一构成单元,用于在第二音素错误率小于第一音素错误率的情况下,由模拟语音信息和原始语音信息的对话信息构成第二样本数据;第一丢弃单元,用于在第二音素错误率大于等于第一音素错误率的情况下,丢弃模拟语音信息。
67.可选地,在本技术实施例提供的语音的识别装置中,装置还包括:第五获取单元,用于在对于每个原始语音信息,将原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,获取原始语音信息的第一仿真信号波形以及模拟语音信息的第二仿真信号波形;第二判断单元,用于判断第二仿真信号波形的音频幅度是否小于第一仿真信号波形的音频幅度;第二构成单元,用于在第二仿真信号波形的音频幅度小于第一仿真信号波形的音频幅度,由模拟语音信息和原始语音信息的对话信息构成第二样本数据;第二丢弃单元,用于在第二仿真信号波形的音频幅度大于等于第一仿真信号波形的音频幅度,丢弃模拟语音信息。
68.本技术实施例提供的语音的识别装置,通过第一获取单元60,用于获取目标场景的语音信息,并确定目标场景的场景类型;确定单元61,用于确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成,模拟语音信息由噪声信息以及场景类型下的原始语音信息生成,解决了相关技术中难以降低语音识别模型的训练样本成本的问题,通过对原始语
音数据叠加不同的噪声信息,建立多个基于原始语音数据的样本数据,进而达到了降低模型的样本数据的获取成本的效果。
69.所述语音的识别装置包括处理器和存储器,上述第一获取单元60、确定单元61等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
70.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中难以降低语音识别模型的训练样本成本的问题。
71.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
72.本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述语音的识别方法。
73.本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述语音的识别方法。
74.图7是根据本技术实施例提供的电子设备的示意图,如图7所示,本发明实施例提供了一种电子设备,电子设备70包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种语音的识别方法。本文中的设备可以是服务器、pc、pad、手机等。
75.本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行一种语音的识别方法。
76.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
77.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
78.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
79.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
80.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
81.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
82.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
83.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
84.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
85.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。