1.本技术涉及人工智能技术领域,尤其涉及多语言模型的训练方法、装置、计算机设备及存储介质。
背景技术:
2.现有的语音识别模型通常只能识别一种语言,若想要识别多种语言,则要同时部署多个模型。这种方式极大增加模型的部署难度,花费很多资源,而且训练过程也比较繁琐。随着技术的发展,使用一个模型识别多种语言成为可能。多语言模型可以极大的方便部署、上线、维护等过程,且模型训练更加方便。现有的多语言模型训练,通常是直接照搬了单语言模型训练方法,直接使用多个语种数据混合进行训练。这种训练方式需要花费较长的训练时间,从而导致模型的训练成本高,模型训练生成的效率较低。
技术实现要素:
3.本技术实施例的目的在于提出一种多语言模型的训练方法、装置、计算机设备及存储介质,以解决现有的多语言模型训练,通常是直接照搬了单语言模型训练方法,直接使用多个语种数据混合进行训练。这种训练方式需要花费较长的训练时间,从而导致模型的训练成本高,模型训练生成的效率较低的技术问题。
4.为了解决上述技术问题,本技术实施例提供一种多语言模型的训练方法,采用了如下所述的技术方案:
5.获取预设的单语言预训练模型;
6.基于所述单语言预训练模型构建第一初始多语言模型;
7.基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
8.获取预先采集的训练数据;
9.使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
10.进一步的,所述基于所述单语言预训练模型构建第一初始多语言模型的步骤,具体包括:
11.获取所述单语言预训练模型的第一编码器的大小;以及,
12.获取所述第一编码器的层数;
13.构建与所述第一编码器的大小以及所述第一编码器的层数均相同的初始模型;
14.对所述初始模型进行预设的随机初始化处理,得到所述第一初始多语言模型。
15.进一步的,所述基于所述单语言预训练模型内的编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型的步骤,具体包括:
16.获取所述单语言预训练模型的第一模型参数,并从所述第一模型参数中获取所述第一编码器的第一参数;以及,
17.获取所述第一初始多语言模型的第二模型参数,并从所述第二模型参数中获取所
述第一初始多语言模型内的第二编码器的第二参数;
18.将所述第一初始多语言模型内的所述第二参数替换为所述第一参数;
19.保持所述第一初始多语言模型内的第一解码器的第三参数不变,得到所述第二初始多语言模型。
20.进一步的,所述使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型的步骤,具体包括:
21.冻结所述第二初始多语言模型内的第三编码器的第四参数;
22.使用所述训练数据对所述第二初始多语言模型内的第二解码器的第五参数进行训练;
23.在确定使用所述训练数据对所述第五参数进行训练的第一训练任务对应的第一损失函数收敛时,解除对于所述第二初始多语言模型内的所述第四参数的冻结;
24.使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练;
25.在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
26.进一步的,在所述使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练的步骤之后,还包括:
27.获取使用所述训练数据对所述第三编码器的第四参数进行训练的过程中得到所述第三编码器内的特征数据;
28.基于预设的全连接层与所述特征数据构建语种识别任务;
29.基于所述语种识别任务对所述第四参数进行优化处理;
30.所述在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型的步骤,包括:
31.在完成了基于所述语种识别任务对于所述第四参数的优化处理,且确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
32.进一步的,所述获取预先采集的训练数据的步骤,具体包括:
33.获取预先采集的初始语音数据;
34.基于预设的语种采样算法对所述初始语音数据进行处理,以确保所述初始语音数据内包含的各种语言的语音条数均等于预设数值,得到处理后的初始语音数据;
35.将所述处理后的初始语音数据作为所述训练数据。
36.进一步的,在所述使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型的步骤之后,还包括:
37.接收待识别语音;
38.将所述待识别语音输入至所述目标多语言模型内,通过所述目标多语言模型输出与所述待识别语音对应的语音识别结果;
39.接收所述目标多语言模型返回的所述语音识别结果;
40.展示所述语音识别结果。
41.为了解决上述技术问题,本技术实施例还提供一种多语言模型的训练装置,采用了如下所述的技术方案:
42.第一获取模块,用于获取预设的单语言预训练模型;
43.构建模块,用于基于所述单语言预训练模型构建第一初始多语言模型;
44.处理模块,用于基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
45.第二获取模块,用于获取预先采集的训练数据;
46.训练模块,用于使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
47.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
48.获取预设的单语言预训练模型;
49.基于所述单语言预训练模型构建第一初始多语言模型;
50.基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
51.获取预先采集的训练数据;
52.使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
53.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
54.获取预设的单语言预训练模型;
55.基于所述单语言预训练模型构建第一初始多语言模型;
56.基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
57.获取预先采集的训练数据;
58.使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
59.与现有技术相比,本技术实施例主要有以下有益效果:
60.本技术实施例通过获取预设的单语言预训练模型,然后基于所述单语言预训练模型构建第一初始多语言模型,之后基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型,后续获取预先采集的训练数据,最后使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。本技术实施例通过使用单语言预训练模型与训练数据来训练生成目标多语言模型,由于单语言预训练模型内已经有了初始值,因此能够加快多语言模型的训练速度,降低多语言模型的训练成本,有效地提高了多语言模型的训练生成速率。
附图说明
61.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
62.图1是本技术可以应用于其中的示例性系统架构图;
63.图2根据本技术的多语言模型的训练方法的一个实施例的流程图;
64.图3是根据本技术的多语言模型的训练装置的一个实施例的结构示意图;
65.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
66.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
67.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
68.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
69.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
70.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
71.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
72.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
73.需要说明的是,本技术实施例所提供的多语言模型的训练方法一般由服务器/终端设备执行,相应地,多语言模型的训练装置一般设置于服务器/终端设备中。
74.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
75.继续参考图2,示出了根据本技术的多语言模型的训练方法的一个实施例的流程图。所述的多语言模型的训练方法,包括以下步骤:
76.步骤s201,获取预设的单语言预训练模型。
77.在本实施例中,多语言模型的训练方法运行于其上的电子设备(例如图1所示的服务器/终端设备),可以通过有线连接方式或者无线连接方式获取单语言预训练模型。需要指出的是,上述无线连接方式可以包括但不限于3g/4g/5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。其中,可以通过使用预先采集的初始语音数据对现有的单语言模型,即老师模型进行再训练,微调模型,用老师模型指导学生模型进行训练。学生模型在训练过程中,尽量使其逼近老师模型的后验概率分布,从而生成单语言模型的预训练模型,即上述单语言预训练模型。
78.步骤s202,基于所述单语言预训练模型构建第一初始多语言模型。
79.在本实施例中,可通过构建与上述单语言预训练模型的编码器的大小、层数相同,随机初始化的模型作为上述第一初始多语言模型。第一初始多语言模型内还包括解码器。其中,编码器也可使用encoder表示,解码器也可使用decoder表示。
80.步骤s203,基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型。
81.在本实施例中,可以基于单语言预训练模型内的第一编码器的第一参数,对第一初始多语言模型内的第二编码器的第二参数进行替换处理,从而得到上述第二初始多语言模型。
82.步骤s204,获取预先采集的训练数据。
83.在本实施例中,可先获取预先采集的初始语音数据,然后基于预设的语种采样算法对初始语音数据进行处理,以确保初始语音数据内包含的各种语言的语音条数均等于预设数值,从而得到上述训练数据。
84.步骤s205,使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
85.在本实施例中,上述第二初始多语言模型为基于单语言预训练模型生成的,使用单语言预训练模型可以有效加快了多语言模型的训练速度,提高了多语言模型的识别效果。与直接初始化模型进行训练的方式相比,预训练模型已经有了相对不错的初始值,因此能够加快模型训练速度,降低训练成本。另外,预训练模型也能在一定程度上提高模型效果。上述使用训练数据对第二初始多语言模型进行训练,得到目标多语言模型的具体实施过程,本技术将在后续的具体实施例中对此进行进一步的细节描述,在此不作过多阐述。
86.本技术通过获取预设的单语言预训练模型,然后基于所述单语言预训练模型构建第一初始多语言模型,之后基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型,后续获取预先采集的训练数据,最后使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。本技术通过使用单语言预训练模型与训练数据来训练生成目标多语言模型,由于单语言预训练模型内已经有了初始值,因此能够加快多语言模型的训练速度,降低多语言模型的训练成本,有效地提高了多语言模型的训练生成速率。
87.在一些可选的实现方式中,步骤s202包括以下步骤:
88.获取所述单语言预训练模型的第一编码器的大小。以及,
89.在本实施例中,可通过查询单语言预训练模型的模型信息,以从该模型信息中获
取单语言预训练模型的第一编码器的大小。
90.获取所述第一编码器的层数。
91.在本实施例中,可通过查询单语言预训练模型的模型信息,以从该模型信息中获取单语言预训练模型的第一编码器的层数。
92.构建与所述第一编码器的大小以及所述第一编码器的层数均相同的初始模型。
93.在本实施例中,初始模型内还包括解码器,该解码器的输出可根据预设的训练数据内的多语言text文本确定。
94.对所述初始模型进行预设的随机初始化处理,得到所述第一初始多语言模型。
95.在本实施例中,上述随机初始化处理是指随机初始化上述初始模型的参数。随机初始化可指:假设在一个多层感知机中,输出层只有一个元素(简化处理)。如果将每个隐藏单元的参数都初始化为相同的值,那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值,并传递至输出层。在反向传递中,每个隐藏单元的参数梯度值相等。所以,这些参数在使用梯度优化算法后梯度值依然相等。之后的迭代也是如此。在这种情况下,无论隐藏层=单元有多少,隐藏层的本质只有一个隐藏单元在发挥作用。因此,我们通常对神经网络的模型参数,特别是权重参数进行随机初始化。随机初始化是保证在进行优化前打破对称性的关键。
96.本技术通过直接使用单语言预训练模型内的编码器的相关信息来构建出第一初始多语言模型,使得后续可以基于得到的第一初始多语言模型来快速的构建出最终的目标多语言模型,提高了多语言模型的构建效率。
97.在本实施例的一些可选的实现方式中,步骤s203包括以下步骤:
98.获取所述单语言预训练模型的第一模型参数,并从所述第一模型参数中获取所述第一编码器的第一参数。以及,
99.在本实施例中,上述单语言预训练模型的第一模型参数至少可包括单语言预训练模型内部的编码器的参数,以及内部的解码器的参数。
100.获取所述第一初始多语言模型的第二模型参数,并从所述第二模型参数中获取所述第一初始多语言模型内的第二编码器的第二参数。
101.在本实施例中,上述第一初始多语言模型的第二模型参数至少可包括第一初始多语言模型内部的编码器的参数,以及内部的解码器的参数。
102.将所述第一初始多语言模型内的所述第二参数替换为所述第一参数。
103.保持所述第一初始多语言模型内的第一解码器的第三参数不变,得到所述第二初始多语言模型。
104.本技术在得到了第一初始多语言模型后,通过基于单语言预训练模型的第一模型参数,对所述第一初始多语言模型内的编码器的参数进行调整处理,以构建得到第二初始多语言模型,使得后续可以基于得到的第二初始多语言模型来快速的构建出最终的目标多语言模型,提高了多语言模型的构建效率。
105.在一些可选的实现方式中,步骤s205包括以下步骤:
106.冻结所述第二初始多语言模型内的第三编码器的第四参数。
107.在本实施例中,冻结第二初始多语言模型内的第三编码器的第四参数是指先不对第二初始多语言模型内的第三编码器的第四参数进行训练。
108.使用所述训练数据对所述第二初始多语言模型内的第二解码器的第五参数进行训练。
109.在本实施例中,使用所述训练数据对所述第二初始多语言模型进行训练的过程包括两步,第一步通过冻结第二初始多语言模型内的第三编码器的第四参数,再使用训练数据对第二初始多语言模型内的第二解码器的第五参数进行训练,可以保证,第二初始多语言模型内的第三编码器与解码器的参数的匹配。
110.在确定使用所述训练数据对所述第五参数进行训练的第一训练任务对应的第一损失函数收敛时,解除对于所述第二初始多语言模型内的所述第四参数的冻结。
111.在本实施例中,上述第一损失函数具体可为交叉熵损失函数。
112.使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练。
113.在本实施例中,使用训练数据对第二初始多语言模型进行训练的第二步,通过使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练,是为了得到更匹配数据的多语言模型。
114.在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
115.在本实施例中,上述第二损失函数具体可为交叉熵损失函数。在将训练数据输入至第二初始多语言模型后,第二初始多语言模型内的编码器通过将由训练数据中输入的音频特征序列x=(x1,
…
,x
t
)映射到中间特征序列h=(h1,
…
,hk),再由第二初始多语言模型内的解码器将中间特征序列h映射到输出序列y=(y1,
…
,y
l
)。即h
t
=encoder(x
1:
),yu=decoder(h
t
,y
1:
),在得到yu之后与其标注的y
′u计算交叉熵之后反向传播更新网络参数,从而对第二初始多语言模型进行训练。上述y
′u可从训练数据中获得。
116.本技术在基于单语言预训练模型构建得到第二初始多语言模型后,可以基于预先采集的训练数据对第二初始多语言模型进行训练,从而快速地得到所需的目标多语言模型,有效地提高了多语言模型的构建效率。
117.在一些可选的实现方式中,步骤s205还包括以下步骤:
118.获取使用所述训练数据对所述第三编码器的第四参数进行训练的过程中得到所述第三编码器内的特征数据。
119.在本实施例中,通常情况下,语音识别端到端模型由多个编码器与多个解码器组成。其中,编码器将声学特征进行处理,再通过解码器得到识别结果。现有技术中,多语言之间的语种存在互相干扰问题,多语言之间部分词发音非常相似,模型学习比较困难。
120.基于预设的全连接层与所述特征数据构建语种识别任务。
121.在本实施例中,上述语种识别任务是指,在使用训练数据对第三编码器的第四参数进行训练的过程中得到第三编码器内的特征数据后,通过上述全连接层将该特征数据映射到语言种类上所对应的任务。
122.基于所述语种识别任务对所述第四参数进行优化处理。
123.在本实施例中,通过在第二初始多语言模型的训练过程中增加语种识别任务,以对第二初始多语言模型内的第三编码器的第四参数进行参数优化,可以解决多语言之间语
种的互相干扰问题。
124.所述在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型的步骤,包括:
125.在完成了基于所述语种识别任务对于所述第四参数的优化处理,且确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
126.本技术在使用训练数据对第二初始多语言模型进行训练的过程增加了语种识别任务,由于语种识别能够在一定程度上放大语种之间的差异,减小混淆,从而提升模型对语种的区分度,有利于提高多语言模型的识别效果。
127.在本实施例的一些可选的实现方式中,步骤s204包括以下步骤:
128.获取预先采集的初始语音数据。
129.在本实施例中,上述初始语音数据可以包括不同语种的语音数据。语种由于使用人数、使用范围等差异,会导致不同语种数据的采集、标注等难度不一。像中文、英文这种使用范围广、人数多的语种,可以很方便的收集大量的数据,标注等难度也比较小;而像不同地方的方言等其他使用范围小的语言,收集数据与标注难度较大。因此,在训练多语言模型时,由于收集到的多个语种之间数据量通常存在较大差异,数据量的差异会导致模型识别结果偏向数据量大的语种。
130.基于预设的语种采样算法对所述初始语音数据进行处理,以确保所述初始语音数据内包含的各种语言的语音条数均等于预设数值,得到处理后的初始语音数据。
131.在本实施例中,对于上述预设数值的取值不作具体限定,可根据实际的使用需求进行设置。上述语种采样算法包括:每种语言的语音条数分别为l1…
lk,其中l
max
={l1…
lk},对任一种语音i,若li《l
max
,则将li上采样到l
max
,保证每个语种条数均为l
max
。在训练时,对每个语种平均采样,则单个batch中每种语言占比为1/k。
132.将所述处理后的初始语音数据作为所述训练数据。
133.本技术通过在训练多语言模型的过程中增加了数据采样,即基于预设的语种采样算法对预先采集的初始语音数据进行处理以得到训练数据,数据采样保证了不同语种数据量的相对平衡,保证了多语言模型在小语种上的识别效果。
134.在本实施例的一些可选的实现方式中,在步骤s205之后,上述电子设备还可以执行以下步骤:
135.接收待识别语音。
136.在本实施例中,上述待识别语音可为相关用户输入的需要进行识别处理的语音数据。
137.将所述待识别语音输入至所述目标多语言模型内,通过所述目标多语言模型输出与所述待识别语音对应的语音识别结果。
138.接收所述目标多语言模型返回的所述语音识别结果。
139.展示所述语音识别结果。
140.在本实施例中,对于上述语音识别结果的展示方式不作限定,可根据实际的使用
需求进行确定,例如可以以文本形式展示在当前界面,或者以语音形式进行播放,等等。
141.本技术在基于单语言预训练模型训练生成了目标多语言模型后,后续可以基于该目标多语言模型对用户输入不同语种的语音进行精确快速的语音识别处理,提高了语音识别处理的准确性与效率,提高了用户的使用体验。
142.需要强调的是,为进一步保证上述目标多语言模型的私密和安全性,上述目标多语言模型还可以存储于一区块链的节点中。
143.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
144.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
145.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
146.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
147.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
148.进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种多语言模型的训练装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
149.如图3所示,本实施例所述的多语言模型的训练装置300包括:第一获取模块301、构建模块302、处理模块303、第二获取模块304以及训练模块305。其中:
150.第一获取模块301,用于获取预设的单语言预训练模型;
151.构建模块302,用于基于所述单语言预训练模型构建第一初始多语言模型;
152.处理模块303,用于基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型;
153.第二获取模块304,用于获取预先采集的训练数据;
154.训练模块305,用于使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。
155.在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的多语言模型的训练方法的步骤一一对应,在此不再赘述。
156.在本实施例的一些可选的实现方式中,构建模块302包括:
157.第一获取子模块,用于获取所述单语言预训练模型的第一编码器的大小;以及,
158.第二获取子模块,用于获取所述第一编码器的层数;
159.第一构建子模块,用于构建与所述第一编码器的大小以及所述第一编码器的层数均相同的初始模型;
160.第一生成子模块,用于对所述初始模型进行预设的随机初始化处理,得到所述第一初始多语言模型。
161.在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的多语言模型的训练方法的步骤一一对应,在此不再赘述。
162.在本实施例的一些可选的实现方式中,处理模块303包括:
163.第三获取子模块,用于获取所述单语言预训练模型的第一模型参数,并从所述第一模型参数中获取所述第一编码器的第一参数;以及,
164.第四获取子模块,用于获取所述第一初始多语言模型的第二模型参数,并从所述第二模型参数中获取所述第一初始多语言模型内的第二编码器的第二参数;
165.替换子模块,用于将所述第一初始多语言模型内的所述第二参数替换为所述第一参数;
166.第二生成子模块,用于保持所述第一初始多语言模型内的第一解码器的第三参数不变,得到所述第二初始多语言模型。
167.本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的多语言模型的训练方法的步骤一一对应,在此不再赘述。
168.在本实施例的一些可选的实现方式中,训练模块305包括:
169.第一处理子模块,用于冻结所述第二初始多语言模型内的第三编码器的第四参数;
170.第一训练子模块,用于使用所述训练数据对所述第二初始多语言模型内的第二解码器的第五参数进行训练;
171.第二处理子模块,用于在确定使用所述训练数据对所述第五参数进行训练的第一训练任务对应的第一损失函数收敛时,解除对于所述第二初始多语言模型内的所述第四参数的冻结;
172.第二训练子模块,用于使用所述训练数据对所述第三编码器内的所述第四参数与所述第二解码器内的所述第五参数进行共同训练;
173.第一确定子模块,用于在确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
174.在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的多语言模
型的训练方法的步骤一一对应,在此不再赘述。
175.在本实施例的一些可选的实现方式中,训练模块305包括:
176.第五获取子模块,用于获取使用所述训练数据对所述第三编码器的第四参数进行训练的过程中得到所述第三编码器内的特征数据;
177.第二构建子模块,用于基于预设的全连接层与所述特征数据构建语种识别任务;
178.第三处理子模块,用于基于所述语种识别任务对所述第四参数进行优化处理;
179.所述第三生成子模块包括:
180.在完成了基于所述语种识别任务对于所述第四参数的优化处理,且确定使用所述训练数据对所述第四参数与所述第五参数进行训练的第二训练任务对应的第二损失函数收敛时,完成对于所述第二初始多语言模型的训练,并将训练好的第二初始多语言模型作为所述目标多语言模型。
181.在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的多语言模型的训练方法的步骤一一对应,在此不再赘述。
182.在本实施例的一些可选的实现方式中,第二获取模块304包括:
183.第六获取子模块,用于获取预先采集的初始语音数据;
184.第四处理子模块,用于基于预设的语种采样算法对所述初始语音数据进行处理,以确保所述初始语音数据内包含的各种语言的语音条数均等于预设数值,得到处理后的初始语音数据;
185.第二确定子模块,用于将所述处理后的初始语音数据作为所述训练数据。
186.在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的多语言模型的训练方法的步骤一一对应,在此不再赘述。
187.在本实施例的一些可选的实现方式中,多语言模型的训练装置还包括:
188.第一接收模块,用于接收待识别语音;
189.输出模块,用于将所述待识别语音输入至所述目标多语言模型内,通过所述目标多语言模型输出与所述待识别语音对应的语音识别结果;
190.第二接收模块,用于接收所述目标多语言模型返回的所述语音识别结果;
191.展示模块,用于展示所述语音识别结果。
192.在本实施例中,上述模块或单元分别用于执行的操作与前述实施方式的多语言模型的训练方法的步骤一一对应,在此不再赘述。
193.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
194.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
195.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设
备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
196.所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如多语言模型的训练方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
197.所述处理器42在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述多语言模型的训练方法的计算机可读指令。
198.所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
199.与现有技术相比,本技术实施例主要有以下有益效果:
200.本技术实施例中,通过获取预设的单语言预训练模型,然后基于所述单语言预训练模型构建第一初始多语言模型,之后基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型,后续获取预先采集的训练数据,最后使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。本技术实施例通过使用单语言预训练模型与训练数据来训练生成目标多语言模型,由于单语言预训练模型内已经有了初始值,因此能够加快多语言模型的训练速度,降低多语言模型的训练成本,有效地提高了多语言模型的训练生成速率。
201.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的多语言模型的训练方法的步骤。
202.与现有技术相比,本技术实施例主要有以下有益效果:
203.本技术实施例中,通过获取预设的单语言预训练模型,然后基于所述单语言预训练模型构建第一初始多语言模型,之后基于所述单语言预训练模型内的第一编码器的第一参数,对所述第一初始多语言模型进行调整处理,得到第二初始多语言模型,后续获取预先采集的训练数据,最后使用所述训练数据对所述第二初始多语言模型进行训练,得到目标多语言模型。本技术实施例通过使用单语言预训练模型与训练数据来训练生成目标多语言模型,由于单语言预训练模型内已经有了初始值,因此能够加快多语言模型的训练速度,降低多语言模型的训练成本,有效地提高了多语言模型的训练生成速率。
204.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方
法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
205.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。