技术特征:
1.一种语音的识别方法,其特征在于,包括:获取目标场景的语音信息,并确定所述目标场景的场景类型;确定所述场景类型匹配的目标远场语音识别模型,并将所述语音信息输入到所述目标远场语音识别模型,处理得到所述语音信息的对话信息,其中,所述目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,所述样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由所述场景类型下的原始语音信息以及所述原始语音信息的对话信息构成,每个第二样本数据由所述场景类型下的模拟语音信息以及所述模拟语音信息的对话信息构成,所述模拟语音信息由噪声信息以及所述场景类型下的所述原始语音信息生成。2.根据权利要求1所述的方法,其特征在于,所述目标远场语音识别模型通过以下方式训练得到:从语音数据库中获取所述场景类型下的z个原始语音信息,并识别每个原始语音信息的对话信息,其中,z为正整数;对于每个原始语音信息,由所述原始语音信息以及所述原始语音信息的对话信息构成所述第一样本数据,得到z个第一样本数据;对于每个原始语音信息,将所述原始语音信息以及噪声数据库中的噪声信息进行混合,得到模拟语音信息,由所述模拟语音信息以及所述原始语音信息的对话信息构成所述第二样本数据,得到z个第二样本数据;由所述z个第一样本数据以及所述z个第二样本数据构成所述样本数据集;由所述样本数据集训练所述预设远场语音识别模型,得到所述目标远场语音识别模型。3.根据权利要求2所述的方法,其特征在于,由所述样本数据集训练所述预设远场语音识别模型,得到所述目标远场语音识别模型包括:将所述样本数据集中的样本语音信息输入到所述预设远场语音识别模型中,处理得到预测对话信息以及训练后的远场语音识别模型,其中,所述样本语音信息包括所述第一样本数据中的原始语音信息以及所述第二样本数据中的模拟语音信息;根据所述预测对话信息以及所述样本语音信息关联的对话信息计算得到模型评价参数,在所述模型评价参数不满足预设识别要求的情况下,调整所述训练后的远场语音识别模型,直至调整后的远场语音识别模型的所述模型评价参数满足所述预设识别要求,并将所述调整后的远场语音识别模型确定为所述目标远场语音识别模型,其中,所述模型评价参数包括准确率以及语音错误率。4.根据权利要求2所述的方法,其特征在于,在对于每个原始语音信息,将所述原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,所述方法还包括:获取所述原始语音信息关联的标注表,其中,所述标注表用于标注所述原始语音信息中发生对话的的对话时间段信息,所述对话时间段信息包括所述对话的时间间隔以及所述对话的对话文本;从所述标注表中获取发生对话的对话时间段信息,得到m个对话时间段信息,并按照时间信息将所述m个对话时间段信息进行排序,得到m个排序后的对话时间段信息,其中,m为正整数;
根据所述m个排序后的对话时间段信息对所述原始语音信息进行切割,得到m个对话片段,将所述原始语音信息中所述m个对话片段以外的非对话片段添加至预设噪声数据库中,得到所述噪声数据库。5.根据权利要求2所述的方法,其特征在于,对于每个原始语音信息,将所述原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息包括:从所述噪声数据库中获取n个非对话片段,对所述n个非对话片段进行排列组合,得到x个非对话组合片段,其中,n,x为正整数;选取所述x个非对话组合片段中的任意一个非对话组合片段,并将选取的非对话组合片段添加至所述原始语音信息中,得到所述模拟语音信息。6.根据权利要求2至5中任意一项所述的方法,其特征在于,在对于每个原始语音信息,将所述原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,所述方法还包括:获取所述原始语音信息的第一音素错误率以及所述模拟语音信息的第二音素错误率;判断所述第二音素错误率是否小于所述第一音素错误率;在所述第二音素错误率小于所述第一音素错误率的情况下,由所述模拟语音信息和所述原始语音信息的对话信息构成所述第二样本数据;在所述第二音素错误率大于等于所述第一音素错误率的情况下,丢弃所述模拟语音信息。7.根据权利要求2至5中任意一项所述的方法,其特征在于,在对于每个原始语音信息,将所述原始语音信息和噪声数据库中的噪声信息进行混合,得到模拟语音信息之前,所述方法还包括:获取所述原始语音信息的第一仿真信号波形以及所述模拟语音信息的第二仿真信号波形;判断所述第二仿真信号波形的音频幅度是否小于所述第一仿真信号波形的音频幅度;在所述第二仿真信号波形的音频幅度小于所述第一仿真信号波形的音频幅度,由所述模拟语音信息和所述原始语音信息的对话信息构成所述第二样本数据;在所述第二仿真信号波形的音频幅度大于等于所述第一仿真信号波形的音频幅度,丢弃所述模拟语音信息。8.一种语音的识别装置,其特征在于,包括:第一获取单元,用于获取目标场景的语音信息,并确定所述目标场景的场景类型;确定单元,用于确定所述场景类型匹配的目标远场语音识别模型,并将所述语音信息输入到所述目标远场语音识别模型,处理得到所述语音信息的对话信息,其中,所述目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,所述样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由所述场景类型下的原始语音信息以及所述原始语音信息的对话信息构成,每个第二样本数据由所述场景类型下的模拟语音信息以及所述模拟语音信息的对话信息构成,所述模拟语音信息由噪声信息以及所述场景类型下的所述原始语音信息生成。9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的语音的识别方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的语音的识别方法。
技术总结
本申请公开了一种语音的识别方法、装置、处理器以及电子设备。涉及人工智能领域,该方法包括:获取目标场景的语音信息,并确定目标场景的场景类型;确定场景类型匹配的目标远场语音识别模型,并将语音信息输入到目标远场语音识别模型,处理得到语音信息的对话信息,其中,目标远场语音识别模型是由样本数据集训练预设远场语音识别模型得到,样本数据集包括第一样本数据以及第二样本数据,每个第一样本数据由场景类型下的原始语音信息以及原始语音信息的对话信息构成,每个第二样本数据由场景类型下的模拟语音信息以及模拟语音信息的对话信息构成。通过本申请,解决了相关技术中难以降低语音识别模型的训练样本成本的问题。以降低语音识别模型的训练样本成本的问题。以降低语音识别模型的训练样本成本的问题。
技术研发人员:吴建波
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.04.25
技术公布日:2023/7/28