1.本发明涉及发音偏误检测技术领域,尤其涉及一种基于大语言模型的发音偏误检测及动作反馈方法及系统。
背景技术:
2.在计算机辅助二语教学系统中,系统如何反馈二语学习者带有一些发音动作的反馈信息一直是研究界和工业界难点和重点。[harrison a m, lo w k, qian x, et al. implementation of an extended recognition network for mispronunciation detection and diagnosis in computer-assisted pronunciation training[c]//international workshop on speech and language technology in education. 2009]提出了使用有限状态自动机建模跟读文本中的正确语音和可能出现错误的语音的路径,根据识别路径的可能情况,人为提前写好每条路径的反馈信息,可以给予学习者一些带有发音动作的反馈信息。目前工业界的普遍做法是通过偏误检测系统,得到二语学习者的实际音素,与跟读文本的音素进行对比,其中不同的音素被认为是可能出错的地方,得到可能出错的语音位置,再通过一些统计的方法,输出该位置可能出错的原因。
[0003]
基于有限状态自动机的方法可以给予二语学习者一些带有发音动作的反馈信息,然而该方法首先需要通过提前设计或者通过统计的方法得到可能的语音路径,以及需要人为提前写好反馈信息,这两项工作都需要有语音相关的从业者来完成,目前工业界都普遍无法接受该方法所消耗的人力资源。其次该方法只能对给定文本范围内的跟读文本进行反馈,这也是目前工业界应用困难的原因。目前工业界所普遍采用的是基于统计方法返回该位置最可能错误原因的反馈信息,然而由于造成该位置出错的原因可能有无数种,大部分二语学习者看到的反馈信息并不是针对真实情况的反馈信息,最后获得的有效信息还是比较有限,并且得不到发音动作修正的反馈信息。
技术实现要素:
[0004]
本发明提供了一种基于大语言模型的发音偏误检测及动作反馈方法及系统,解决现有技术中二语学习者看到的反馈信息并不是针对真实情况的反馈信息,最后获得的有效信息还是比较有限,并且得不到发音动作修正的反馈信息的问题。
[0005]
为解决上述发明目的,本发明提供的技术方案如下:一种基于大语言模型的发音偏误检测及动作反馈方法,其特征在于,步骤包括:s1、获取跟读文本,基于所述跟读文本获得二语发音偏误数据集,对所述二语发音偏误数据集进行音素标注;s2、将标注后的二语发音偏误数据集以及跟读文本对应的音素发送至gtp4,通过所述gpt4进行发音修正训练;s3、基于所述发音修正训练,调用所述gtp4的api获得任意数量的跟读文本的发音动作反馈数据集,通过所述发音动作反馈数据集对错误发音进行属性反馈;
s4、基于所述发音动作反馈数据集,获得发音动作反馈微调大语言模型;s5、输入任意跟读文本至所述发音动作反馈微调大语言模型,完成基于大语言模型的发音偏误检测及动作反馈。
[0006]
优选地,步骤s1中,对所述二语发音偏误数据集进行音素标注,包括:将所述跟读文本的二语发音偏误数据集中的真实音素进行标注。
[0007]
优选地,步骤s2中,将标注后的二语发音偏误数据集以及跟读文本对应的音素发送至gtp4,通过所述gpt4进行发音修正训练,包括:将标注后的二语发音偏误数据集,以及跟读文本对应音素发送至gtp4,通过所述gpt4进行分词,获得分词后的实际音素;将预设的正确音素和发音属性的对应关系输入至所述gtp4;基于所述正确音素和发音属性的对应关系,通过所述gtp4将所述实际音素和正确音素具有差异的部分转换为发音属性,获取发音动作的修正信息。
[0008]
优选地,将预设的正确音素和发音属性的对应关系输入至所述gtp4,包括:预设正确音素,将所述正确音素和发音属性之间的对应关系,以及每一个维度的发音属性含义输入至所述gtp4。
[0009]
优选地,基于所述正确音素和发音属性的对应关系,通过所述gtp4将所述实际音素和正确音素具有差异的部分转换为发音属性,获取发音动作的修正信息,包括:基于所述音素和发音属性的对应关系,通过所述gtp4将所述实际音素和正确音素具有差异的部分转换为发音属性;通过查看每一个维度的发音属性含义,判断存在错误发音的维度,获得发音动作的修正信息。
[0010]
优选地,步骤s3中,基于所述发音修正训练,调用所述gtp4的api获得任意数量的跟读文本的发音动作反馈数据集,通过所述发音动作反馈数据集对错误发音进行属性反馈,包括:基于所述发音修正训练,调用所述gtp4的api,在提示语中加入发音属性先验知识;获得任意数量的跟读文本的发音动作反馈数据集,其中,所述发音动作反馈数据集中的数据聚焦发音动作反馈;通过所述发音动作反馈数据集对错误发音进行属性反馈。
[0011]
优选地,步骤s4中,基于所述发音动作反馈数据集,获得发音动作反馈微调大语言模型,包括:基于所述发音动作反馈数据集,使用ptuning对大语言模型进行微调,获得发音动作反馈微调大语言模型;其中,所述大语言模型包括:chatglm6b或chatglm130b。
[0012]
优选地,对大语言模型进行微调,包括:预设问题数据集,以及答案数据集;通过所述问题数据集限制所述跟读文本的上下文长度;根据所述问题数据集对跟读文本对应的音素和真实音素进行分词,判断是否存在插入,删除替换错误;所述答案数据集包括:问题数据集的答案,以及模型通过发音属性给出发音动作
修正的反馈信息;通过所述问题数据集以及所述答案数据集,划定所述跟读文本的错误部分,根据所述错误的部分对所述大语言模型进行微调。
[0013]
优选地,步骤s5中,输入任意跟读文本至所述发音动作反馈微调大语言模型,完成基于大语言模型的发音偏误检测及动作反馈,包括:输入任意跟读文本至所述发音动作反馈微调大语言模型;判断所述跟读文本中存在的插入、删除或替换错误;针对所述插入、删除或替换错误,生成发音动作反馈信息,完成基于大语言模型的发音偏误检测及动作反馈。
[0014]
一种基于大语言模型的发音偏误检测及动作反馈系统,系统用于上述的基于大语言模型的发音偏误检测及动作反馈方法,系统包括:数据采集标注模块,用于获取跟读文本,基于所述跟读文本获得二语发音偏误数据集,对所述二语发音偏误数据集进行音素标注;训练模块,用于将所述标注后的数据集以及跟读文本对应音素发送至gtp4,通过所述gpt4进行发音修正训练;初步反馈模块,用于基于所述发音修正训练,调用所述gtp4的api获得任意数量的跟读文本的发音动作反馈数据集,对错误发音进行属性反馈;模型构建模块,用于基于所述发音动作反馈数据集,获得发音动作反馈微调大语言模型;偏误检测反馈模块,用于输入任意跟读文本至所述发音动作反馈微调大语言模型,完成基于大语言模型的发音偏误检测及动作反馈。
[0015]
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于大语言模型的发音偏误检测及动作反馈方法。
[0016]
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于大语言模型的发音偏误检测及动作反馈方法。
[0017]
上述技术方案,与现有技术相比至少具有如下有益效果:上述方案,本发明以能够让计算机二语教学系统能够反馈带发音动作的反馈信息为目的,提出了一种基于大语言模型的发音偏误检测及动作反馈方法,该方法可以实现对任意跟读文本的发音动作反馈,用于微调大语言模型的数据集可以自动获得,解决了现有技术中人力成本高,且只能针对限定跟读文本的不足之处,并且由于反馈结果都是基于真实音素的反馈,比基于统计的方法得到的反馈信息更加有效。
附图说明
[0018]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]
图1是本发明实施例提供的基于大语言模型的发音偏误检测及动作反馈方法流程示意图;图2是本发明实施例提供的gpt4生成发音动作反馈流程图;图3是本发明实施例提供的ptuning 微调图;图4是本发明实施例提供的流利说学习反馈;图5是本发明实施例提供的使用有限状态自动机反馈图;图6是本发明实施例提供的chatgpt反馈图;图7是本发明实施例提供的加入发音属性的chatgpt反馈图;图8是本发明实施例提供的基于大语言模型的发音偏误检测及动作反馈系统框图;图9是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
[0020]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021]
本发明针对现有技术中二语学习者看到的反馈信息并不是针对真实情况的反馈信息,最后获得的有效信息还是比较有限,并且得不到发音动作修正的反馈信息的问题,提供了一种基于大语言模型的发音偏误检测及动作反馈方法和系统。
[0022]
如图1所示,本发明实施例提供了一种基于大语言模型的发音偏误检测及动作反馈方法,该方法可以由电子设备实现。如图1所示的基于大语言模型的发音偏误检测及动作反馈方法流程图,该方法的处理流程可以包括如下的步骤:s101、获取跟读文本,基于跟读文本获得二语发音偏误数据集,对二语发音偏误数据集进行音素标注;一种可行的实施方式中,对二语发音偏误数据集进行音素标注,包括:将跟读文本的二语发音偏误数据集中的真实音素进行标注。
[0023]
s102、将标注后的二语发音偏误数据集以及跟读文本对应的音素发送至gtp4,通过gpt4进行发音修正训练;一种可行的实施方式中,将标注后的数据集发送至gtp4,通过gpt4进行发音修正训练,包括:将标注后的数据集以及跟读文本对应音素发送至gtp4,通过gpt4进行分词;获得分词后的实际音素;将预设的音素和发音属性的对应关系输入至gtp4;gtp4基于音素和发音属性的对应关系,将实际音素和正确音素具有差异的部分转换为发音属性,获取发音动作的修正信息。
[0024]
一种可行的实施方式中,将预设的音素和发音属性的对应关系输入至gtp4,包括:将音素和发音属性之间的对应关系,以及每一个维度的发音属性含义输入至gtp4。
[0025]
一种可行的实施方式中,gtp4基于音素和发音属性的对应关系,将实际音素和正确音素具有差异的部分转换为发音属性,获取发音动作的修正信息,包括:gtp4基于音素和发音属性的对应关系,将实际音素和正确音素具有差异的部分转换为发音属性;通过查看发音属性每一维度的含义,判断存在错误发音的维度,获得发音动作的修正信息。
[0026]
一种可行的实施方式中,将跟读文本、跟读文本对应的音素和真实音素先发送给tgpt4,让chatgpt4对跟读文本对应的音素和真实音素进行分词。例如:跟读文本:she was his now forever。正确音素:sil sh iy w ah z sil hh ih z n aw f er eh v er sil。实际音素:sil sh iy w ah s ih n hh ih z n aw f ao eh v er sil。分词得到的结果为:she: [sh iy]
ꢀ‑ꢀ
she: [sh iy] ,was [w ah z]-was: [w ah s] ,his: [hh ih z]
ꢀ‑ꢀ
his: [ih n hh ih z],now: [n aw]
ꢀ‑ꢀ
now: [n aw] ,forever: [f er eh v er]
ꢀ‑ꢀ
forever: [f ao eh v er]。然后告诉gpt4音素和发音属性之间的对应关系和每一个维度的发音属性含义,发音属性每一维度的含义见表1。如第一维度,表示下巴的位置,0表示几乎是关闭的,1表示下巴处于正常位置,2表示下巴轻微下降,3表示下巴下降。
[0027]
表1.发音属性每一维度的含义
[0028]
接着让gpt4通过音素转发音属性关系把正确音素和实际音素不同的部分转成发音属性,通过查看发音属性每一维度的含义,可以得到发音动作的修正信息。例如s的发音属性为[1,2,2,3,3,3,0,0], z的发音属性为[1,2,2,3,3,3,0,1]。通过对比发音属性,可以
发现这两个发音属性只在第8维度有差异,而第8维度反应的是声带是否震动。如果某个单词,s被错误发成了z, 我们通过对比发音属性就可以得到一些发音动作的反馈信息。在读这个单词时候,z需要增加声带震动。这只是其中一个很简单的例子,实际语音中存在的错误千变万化,通过对比发音属性,可以得到很多真实有用的发音动作反馈信息。如图2是该跟读文本gpt4分析的过程流程图。
[0029]
s103、基于所述发音修正训练,调用所述gtp4的api获得任意数量的跟读文本的发音动作反馈数据集,通过所述发音动作反馈数据集对错误发音进行属性反馈;一种可行的实施方式中,基于发音修正训练,调用gtp4的api获得任意数量的跟读文本的发音动作反馈数据集,包括:基于gtp4的发音修正训练,调用gtp4的api,在提示语中加入发音属性先验知识,获得聚焦发音动作反馈的任意数量的跟读文本的发音动作反馈数据集,对错误发音进行属性反馈。
[0030]
一种可行的实施方式中,通过s101-s102的几条指令,教会了gpt4怎么通过发音属性反馈带有发音动作修正的反馈信息;将这几条聊天记录放到chatgpt4的api,然后调用api获得任意数量的跟读文本的发音动作反馈信息。
[0031]
s104、基于所述发音动作反馈数据集,获得发音动作反馈微调大语言模型;一种可行的实施方式中,基于发音动作反馈数据集,获得发音动作反馈微调大语言模型,包括:基于发音动作反馈数据集,使用ptuning对大语言模型进行微调;其中,大语言模型包括:chatglm6b或chatglm130b。
[0032]
一种可行的实施方式中,对大语言模型进行微调,包括:预设问题数据集,以及答案数据集;通过所述问题数据集限制所述跟读文本的上下文长度;根据所述问题数据集对跟读文本对应的音素和真实音素进行分词,判断是否存在插入,删除替换错误;对问题数据集中的问题数据进行回复,这里回复是对跟读文本对应的音素和真实音素进行分词,然后只判断每个单词中是否存在插入,删除,替换错误;答案数据集包括:问题数据集的答案,以及模型通过发音属性给出发音动作修正的反馈信息;通过所述问题数据集以及所述答案数据集,划定所述跟读文本的错误部分,根据所述错误的部分对所述大语言模型进行微调。
[0033]
一种可行的实施方式中,使用gpt4 api得到的发音动作反馈数据集微调大语言模型,实现了对任意跟读文本反馈发音动作反馈信息。本技术调用api的方法,区别于现有的调用api的方法,现有的方法都是在寻找更优的提示语,完成特定的下游任务。而本技术提出在提示语中还另外加入了发音属性的先验知识,使得回复中会更加聚焦发音动作的反馈。微调可以使用ptuning,大语言模型可以选择chatglm6b或者chatglm130b。图3为ptuning微调的流程图,ptuning通过在提示语中加入可学习向量,适配各种下游任务,图中表示在跟读文本加入可学习向量,适配发音动作偏误反馈的任务。
[0034]
s105、输入任意跟读文本至所述发音动作反馈微调大语言模型,完成基于大语言模型的发音偏误检测及动作反馈。
[0035]
一种可行的实施方式中,输入任意跟读文本至发音动作反馈微调大语言模型,完成基于大语言模型的发音偏误检测及动作反馈,包括:输入任意跟读文本至发音动作反馈微调大语言模型;判断跟读文本中存在的插入、删除或替换错误;针对错误生成发音动作反馈信息,完成基于大语言模型的发音偏误检测及动作反馈。
[0036]
一种可行的实施方式中,本发明主要针对的是chatglm6b这种相对参数量没有那么大的语言模型,最终目的是想让微调过的大语言模型能在发音动作反馈任务上像chatgpt4一样进行分析和思考。本技术在微调chatglm时候,使用了两个数据集,第一个数据集的问题是对跟读文本,跟读文本对应的音素和真实音素进行分词,判断是否存在插入,删除替换错误。回复是对跟读文本对应的音素和真实音素进行分词,然后只判断每个单词中是否存在插入,删除,替换错误。第二个数据集的问题是第一个数据集的答案,并要求模型通过发音属性给出发音动作修正的反馈信息。第一个数据集的目的是为了让chatglm学会生成回复时候,逐个生成每个单词的反馈,而不是直接生成一句话的全部反馈。这种方式特别适合参数量没有那么大的语言模型(大于6b小于10b)。因为这种方法限制了大语言模型生成反馈时候只看这一个单词的上下文语义信息,这对于逻辑能力和捕获上下文能力较弱的大语言模型至关重要。第二个数据集是为了让chatglm学会通过发音属性,生成发音动作反馈信息,虽然第二个数据集问题很长,但是由于问题里面已经给出了哪些是有错误,哪些是没有错误,其实也限制了模型每次只看错误部分上下文信息。最后chatglm微调后,生成反馈信息时候也是需要两步生成,第一步生成判断哪些存在插入,删除和替换错误,然后第二步生成时候生成发音动作反馈的信息。
[0037]
本发明主要的优势在于可以对任意跟读文本进行偏误反馈,图4是流利说app界面图片,可以看到该反馈只能告诉学习者可能出错的位置以及总体的打分,学习者并不能知道自己到底是哪里出了问题,并且该反馈还只能对给定的文本进行反馈。图5是使用有限状态自动机建模正确读音和可能错误的发音路径,但由于该方法得到的反馈信息需要人工提前写好,耗费的人力资源巨大,并且只能针对给定的文本进行反馈,该方法一直没有被工业界采用。图6是利用chatgpt进行反馈的界面,可以看到该反馈比流利说app多了语言上的反馈, 但是该反馈信息并没有告诉二语学习者应该怎么做出动作上的纠正,对于英语基础较差的二语学习者,依然没有得到有效的反馈信息。图7是使用本技术的方法,在chatgpt的提示语加入了发音属性的信息,可以看到反馈信息中有很多具体的发音动作的反馈信息,并且同样是针对同一句跟读文本:but there came no promise from the bow of the canoe,图6和图7的对比说明了本技术方法的有效性。
[0038]
图8是本发明的一种基于大语言模型的发音偏误检测及动作反馈系统示意图,所述系统200用于上述的基于大语言模型的发音偏误检测及动作反馈方法,所述系统200包括:数据采集标注模块210,用于获取跟读文本,基于所述跟读文本获得二语发音偏误数据集,对所述二语发音偏误数据集进行音素标注;训练模块220,用于将标注后的二语发音偏误数据集以及跟读文本对应的音素发送至gtp4,通过所述gpt4进行发音修正训练;
初步反馈模块230,用于基于所述发音修正训练,调用所述gtp4的api获得任意数量的跟读文本的发音动作反馈数据集,通过所述发音动作反馈数据集对错误发音进行属性反馈;模型构建模块240,用于基于所述发音动作反馈数据集,获得发音动作反馈微调大语言模型;偏误检测反馈模块250,用于输入任意跟读文本至所述发音动作反馈微调大语言模型,完成基于大语言模型的发音偏误检测及动作反馈。
[0039]
优选地,数据采集标注模块210,用于将跟读文本的二语发音偏误数据集中的真实音素进行标注。
[0040]
优选地,训练模块220,用于将标注后的二语发音偏误数据集,以及跟读文本对应音素发送至gtp4,通过所述gpt4进行分词,获得分词后的实际音素;将预设的正确音素和发音属性的对应关系输入至所述gtp4;基于所述正确音素和发音属性的对应关系,通过所述gtp4将所述实际音素和正确音素具有差异的部分转换为发音属性,获取发音动作的修正信息。
[0041]
优选地,训练模块220,用于预设正确音素,将所述正确音素和发音属性之间的对应关系,以及每一个维度的发音属性含义输入至所述gtp4。
[0042]
优选地训练模块220,用于基于所述音素和发音属性的对应关系,通过所述gtp4将所述实际音素和正确音素具有差异的部分转换为发音属性;通过查看每一个维度的发音属性含义,判断存在错误发音的维度,获得发音动作的修正信息。
[0043]
优选地,初步反馈模块230,用于基于所述发音修正训练,调用所述gtp4的api,在提示语中加入发音属性先验知识;获得任意数量的跟读文本的发音动作反馈数据集,其中,所述发音动作反馈数据集中的数据聚焦发音动作反馈;通过所述发音动作反馈数据集对错误发音进行属性反馈。
[0044]
优选地,模型构建模块240,用于基于发音动作反馈数据集,使用ptuning对大语言模型进行微调,获得发音动作反馈微调大语言模型;其中,大语言模型包括:chatglm6b或chatglm130b。
[0045]
优选地,模型构建模块240,用于预设问题数据集,以及答案数据集;通过所述问题数据集限制所述跟读文本的上下文长度;根据所述问题数据集对跟读文本对应的音素和真实音素进行分词,判断是否存在插入,删除替换错误;所述答案数据集包括:问题数据集的答案,以及模型通过发音属性给出发音动作修正的反馈信息;通过所述问题数据集以及所述答案数据集,划定所述跟读文本的错误部分,根据所述错误的部分对所述大语言模型进行微调。
[0046]
优选地,偏误检测反馈模块250,用于输入任意跟读文本至发音动作反馈微调大语言模型;输入任意跟读文本至所述发音动作反馈微调大语言模型;判断所述跟读文本中存在的插入、删除或替换错误;
针对所述插入、删除或替换错误,生成发音动作反馈信息,完成基于大语言模型的发音偏误检测及动作反馈。
[0047]
本发明实施例中,提供了对任意跟读文本都能给予反馈的方案。比起现有工业界的方案,如流利说app, 本发明适用性更广。本发明可以反馈带有发音动作反馈的信息,比现有的技术得到的反馈信息都更加有效。图五和图六的对比,可以发现使用本发明,可以得到具体发音动作的反馈信息,这是之前技术都没有解决的。第三,本发明给出了微调参数量较小的语言模型方法,提出了在使用api获取数据集时候,先获取分词层级的反馈,再获取句子层级的反馈,使得参数量较小的语言模型可以在更短的上下文长度下进行推理,使得参数量较小的语言模型反馈发音动作信息成为可能。
[0048]
图9是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现下述基于大语言模型的发音偏误检测及动作反馈方法的步骤:s1、获取跟读文本,基于所述跟读文本获得二语发音偏误数据集,对所述二语发音偏误数据集进行音素标注;s2、将标注后的二语发音偏误数据集以及跟读文本对应的音素发送至gtp4,通过所述gpt4进行发音修正训练;s3、基于所述发音修正训练,调用所述gtp4的api获得任意数量的跟读文本的发音动作反馈数据集,通过所述发音动作反馈数据集对错误发音进行属性反馈;s4、基于所述发音动作反馈数据集,获得发音动作反馈微调大语言模型;s5、输入任意跟读文本至所述发音动作反馈微调大语言模型,完成基于大语言模型的发音偏误检测及动作反馈。
[0049]
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于大语言模型的发音偏误检测及动作反馈方法。例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0050]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。