1.本发明涉及一种基于语音分析的课堂教学模式识别方法,具体地,是一种基于说话人日志技术的语音分析的课堂教学模式识别方法。
背景技术:
2.教学模式是在一定教学思想指导下和丰富教学经验的基础上,为完成特定的教学目标和内容,围绕某一主题形成的稳定、简明的教学结构理论模型及其具体操作的实践活动方式。对课堂教学模式进行分析可以帮助教师优化课堂教学结构、提高课堂教学效率、提高教育教学质量。教师在不同课堂以及对待不同学生而采取不同的课堂教学模式会取得更好的效果。
3.传统的教学模式评价中,往往会通过学生评课、同行评课、专家评课等环节共同评估教师课堂教学情况。这些评价一般通过评分表的方式执行,所得数据结果大多需要人工整理和分析,耗时耗力。
4.随着人工智能技术的快速发展及课堂教学环境的改变,课堂的音视频信息的采集逐渐实现自动化。因此,利用深度学习技术对采集到的课堂信息进行教学模式智能分析成为可能。而声音是重要且易获取的信息来源。相较于占用大量存储空间的视频来说,音频占用的存储资源少,读取处理更加方便。因此,对音频进行智能识别可以作为分析课堂教学模式的可靠技术路径。
5.有鉴于此,特提出此发明。
技术实现要素:
6.本发明要解决的技术问题在于弥补传统评价模式的不足,提供一种自动化、智能化的基于语音分析的课堂教学模式识别方法。
7.为解决上述技术问题,本发明采用技术方案的基本构思是:一种基于语音分析的课堂教学模式识别方法,所述方法包括以下步骤:采集课堂教学音频;利用说话人日志技术对所述课堂教学音频进行语音分析;根据数据分析,判断课堂教学模式;在上述任一方案中优选的实施例,在所述采集课堂教学音频之前,还包括:在教学平台注册专属账号,其中,每个用户均对应一个专属账号;根据所述专属账号,登录教学平台;在教学平台的云数据库中选择需要处理的课堂教学音频进行数据推送。
8.在上述任一方案中优选的实施例,从所述在教学平台的云数据库中选择需要处理的课堂教学音频进行数据推送,包括:从所述教学平台的云数据库录制的教学视频中提取音频信息;将所述教学音频转换为适合语音分析的格式;
发送所述专属账号对应用户的语音分析任务id;发送所述需要处理的课堂教学音频的音频地址。
9.在上述任一方案中优选的实施例,从所述的利用说话人日志技术对所述课堂教学音频进行语音分析,包括:读取所述专属账户对应用户的任务id,若任务id为语音分析任务,则开启语音分析程序进行处理;读取所述专属账户对应用户的任务id,若任务id不是语音分析任务,则等待;读取所述需要处理的课堂教学音频地址,如果获取的课堂教学音频读取失败,则判定音频数据格式错误;对所获取的格式正确的课堂教学音频,利用说话人日志技术进行语音分析,得到原始的教学课堂发言信息,包括发言人的数量、各发言人对应的发言区间。
10.在上述任一方案中优选的实施例,从所述的所述语音分析得到的数据进行处理,判断课堂教学模式,包括:对原始的教学课堂发言信息进行数据优化;根据优化后的教学课堂发言数据判断课堂教学模式。
11.在上述任一方案中优选的实施例,从所述的对原始的教学课堂发言信息进行数据优化,包括:去除课堂准备时间即课堂前t秒的发言信息;去除课堂发言信息中各发言人发言时间小于a秒的发言区间;若同一发言人两相邻发言区间的间隔小于b秒,且该间隔区间不包含其他发言人的说话区间,则合并该发言人的相邻发言区间。新的发言区间也包含所述相邻发言区间的间隔时间,其中t=60,a=1,b=10。
12.将发言总时长最长的发言人设为主发言人,去除其他发言人对应的各说话区间中和主发言人的说话区间重合的部分。
13.在上述任一方案中优选的实施例,从所述的根据优化后的教学课堂发言数据判断课堂教学模式,包括:若发言人的数量大于n时,则课堂教学模式为讨论型课堂;若发言人的数量小于等于m时,则课堂教学模式为教学型课堂;当发言人的数量大于m且小于n时或者数量等于n时:若出现主说话人的发言时长占比大于p或各说话人说话时长占比方差大于等于s时,则课堂教学模式为教学型课堂;若出现其他情况,课堂教学模式判断为讨论型课堂,其中n=4,m=3,p=85%,s=40。
14.一种基于语音分析的课堂教学模式识别装置,所述课堂教学模式识别装置,包括:采集模块,用于采集课堂教学音频;分析模块,用于利用说话人日志技术对所述课堂教学音频进行语音分析;判断模块,对语音分析得到的数据进行处理,判断课堂教学模式。
15.本发明的有益效果在于:本发明利用语音分析技术对课堂教学音频进行处理,并根据优化后的处理结果判断课堂教学模式。课堂教学音频较易获取,相较于教学视频来说,所需要处理的数据更加轻量化。利用语音分析技术对音频数据进行智能分析,大大减轻了传统模式下人工标注教学模式消耗的时间和人力成本,有效提高了课堂教学模式识别的效
率,实现了课堂教学模式判断的自动化和智能化。
附图说明
16.下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
17.图1为本发明基于语音分析的课堂教学模式识别方法流程示意图。
18.图2为本发明基于语音分析的课堂教学模式识别装置示意图。
19.图3为本发明使用的说话人日志技术的算法流程示意图。
20.图4为本发明使用的说话人日志技术的概念示意图。
具体实施方式
21.下面结合附图和实施例对本发明作进一步的说明。
22.如图1所示,本发明提供了一种基于语音分析的课堂教学模式识别方法,所述方法包括以下步骤:步骤1:在教学平台注册专属账号,其中,每个用户均对应一个专属账号;步骤2:根据所述专属账号,登录教学平台;步骤3:在教学平台的云数据库中选择需要处理的课堂教学音频进行数据推送;在本发明实施例所述的基于语音分析的课堂教学模式识别方法,所述的教学平台云数据库用于存储课堂教学数据。当开启教学模式识别任务时,用户需要登陆其已注册好的账户,进入教学平台,从云数据库中选择需要处理的课堂教学音频进行数据推送。需要处理的课堂教学音频需要先从录制的课堂教学视频中提取音频流,并转换为wav、mp3 等适合语音分析模型处理的音频数据格式。任务开启的时候,用户通过rabbit mq推送消息队列给已部署好课堂教学模式识别程序的本地服务器。消息队列包括数据语音分析任务id和需要处理的课堂教学音频的音频地址。
23.步骤4:利用说话人日志技术对所述课堂教学音频进行语音分析;步骤5:对语音分析得到的数据进行处理,判断课堂教学模式。
24.在本发明实施例所述的基于语音分析的课堂教学模式识别方法中,本地服务器通过rabbit mq接收用户发送的消息队列数据。在开启课堂教学模式识别程序之前,需要先确认接收到的消息队列中的语音分析任务id是否有效以及通过音频地址下载得到的音频是否符合程序处理格式。如果消息队列包含的消息确认无效,需要返回错误信息。接受新的消息队列,直到本地服务器确认语音分析任务id有效以及音频地址有效为止。然后,本地服务器开启课堂教学模式识别程序。
25.如图1所示,在教学平台的云数据库中选择需处理的课堂教学音频进行数据推送,包括:步骤31 :从所述教学平台的云数据库录制的教学视频中提取音频信息;步骤32:将所述教学音频转换为适合语音分析的格式;步骤33 :发送所述专属账号对应用户的语音分析任务id;步骤34 :发送所述需要处理的课堂教学音频的音频地址;在本发明实施例所述的基于语音分析的课堂教学模式识别方法中,课堂教学音频
的提取可以使用专门的收音设备对课堂进行录音。但这样会大大增加设备成本。为了降低成本,直接从云服务器已经摄制好的课堂教学视频中提取音频流,不增设额外的设备。这些课堂教学视频是从教学平台现有的课堂教学视频中选择的,对其音频的提取,增加了课堂信息来源,提高了对现有课程资源的利用率。
26.如图1所示,利用说话人日志技术对所述课堂教学音频进行语音分析,包括:步骤41 : 读取所述专属账户对应用户的任务id,若任务id为语音分析任务,则开启语音分析程序;步骤42 : 读取所述专属账户对应用户的任务id,若任务id不是语音分析任务,则等待;步骤43 : 读取所述需要处理的课堂教学音频地址,如果获取的课堂教学音频读取失败,则判定音频数据格式错误;步骤44 : 对所获取的格式正确的课堂教学音频,利用说话人日志技术进行语音分析,得到原始的教学课堂发言信息,包括发言人的数量、各发言人对应的发言区间。
27.在本发明实施例所述的基于语音分析的课堂教学模式识别方法中,本地服务器在对所述课堂教学音频进行语音分析之前需要先判断所接收的消息队列中的任务id和教学音频地址是否有效。当判断消息队列中的数据有效后,根据输入的单节课堂音频,课堂教学模式识别算法自动将该节课中教师的教学模式进行分类。
28.说话人日志技术对音频中的说话人进行聚类,并识别每个说话人的说话区间。如图 所示,说话人日志技术能识别出音频中每个说话人发声的起止时间戳,解决“谁在什么时候说话”的问题。所以,说话人日志技术可以用于对所获取的格式正确的课堂教学音频进行语音分析,从而得到原始的教学课堂发言信息,包括发言人的数量、各发言人对应的发言区间。
29.如图 3所示,对所获取的格式正确的课堂教学音频,利用说话人日志技术进行语音分析。说话人日志技术使用深度神经网络实现,主要由5个模块组成,包括:步骤441 :语音检测模块。检测课堂音频中的的语音区域。
30.步骤442 :语音分割模块。去除课堂音频中的非语音部分,将输入的语音分割为小段。
31.步骤443 :特征提取模块。从分割好的小段语音中提取出课堂发言人的特征向量。
32.步骤444 :聚类分析模块。通过计算发言人特征向量间的相似度,确定发言人数量,并对不同片段分配发言人身份。
33.步骤445 :重新分割模块。对课堂音频的分类结果进行细化。
34.在本发明实施例所述的基于语音分析的课堂教学模式识别方法中,说话人日志算法运行时,给定一节课的音频,深度网络对音频进行处理分析,输出该节课堂中老师的和同学的发言情况。说话人日志算法可使用 s4d、kaldi、alize、pyannote.audio、pyaudioanalysis 等开源工具包构建端到端的深度神经网络。根据说话人日志算法的输出结果,可以得到说话人的数量、各说话人说话区间等数据,用于判断课程教学模式。
35.说话人日志算法得到的初步结果还需要进一步优化。课堂教学模式的判断基于优化后的算法。一共有两类教学模式:讲授型和讨论型。讲授型的课堂以教师发言为主,学生回答问题为辅;讨论型的课堂中,学生自由讨论居多。
36.如图1所示,所述的对语音分析得到的数据进行处理,判断课堂教学模式,包括:步骤51: 对原始的教学课堂发言信息进行数据优化;步骤52: 根据优化后的教学课堂发言数据判断课堂教学模式。
37.在本发明实施例所述的基于语音分析的课堂教学模式识别方法中,原始的教学课堂发言信息是说话人日志算法对课堂音频的初步聚类结果,较粗糙,容易将一些噪声包含在聚类结果中,影响检测结果。所以对原始的教学课堂发言信息进行数据优化是必要的,可以获得更精确的课堂教学模式识别结果。
38.对原始的教学课堂发言信息进行数据优化,第一步是去除课堂准备时间即课堂前t秒的发言信息。录制的课堂音频通常包含上课准备时间t秒的音频。前t秒的发言信息包含较多噪声,如上课铃声、学生讨论声。将这部分的发言结果去掉,提高了有效音频的占比。
39.第二步,去除课堂发言信息中各发言人发言时间小于a秒的发言区间。各发言人发言区间长度过短的情况通常是噪声导致的,如话筒收音时的杂声、粉笔摩擦黑板的声音。将长度过短的发言区间去掉,可以有效减少噪声对识别结果的干扰。因此,选取阈值a,若各发言人的发言区间长度小于a时,则去除该发言区间。
40.第三步,若同一发言人两相邻发言区间的间隔小于b秒,且该间隔区间不包含其他发言人的说话区间,则合并该发言人的相邻发言区间。新的发言区间也包含所述相邻发言区间的间隔时间,其中t=60,a=1,b=10。如图 4所示,算法聚类得到的单个发言区间往往较短,这样得到的聚类结果较为冗杂。因此,将同一个发言人相邻的发言区间合并可以使得到的发言区间更加紧凑。
41.第四步,将发言总时长最长的发言人设为主发言人,去除其他发言人对应的各说话区间中和主发言人的说话区间重合的部分。各发言人之间并不是严格按照时间先后顺序进行发言,可能也会出现两个或多个发言人同时发言的情况。而且,有时候,一个发言人发言区间内的噪声也会被识别为另一个说话人。以上两种情况下,不同说话人的说话区间会有重合的部分。重合的说话时间不会被剔除,会影响总的有效说话时长,从而对教学模式的识别进行干扰。算法通过剔除其他发言人和主发言人重合的说话区间来简单剔除干扰的重合发言区间。
42.表一 课堂教学模式识别结果
43.根据优化后的教学课堂发言数据判断课堂教学模式,需要先在获得优化的发言数据的基础上计算一些统计量。假设优化后的语音分析结果发言人的数量为n 将这n个发言人的各发言区间的时长分别累加起来,得到这n个发言人的发言时长。那么第j个发言人的说话时长占比pj为: 选择说话时长占比最大的发言人为主发言人m。第j个说话时长占比方差sj为:判断课堂教学模式时,若发言人的数量n》n时,则课堂教学模式为讨论型课堂;若发言人的数量n≤m时,则课堂教学模式为教学型课堂;而当发言人的数量n处于区间[ m,n)时,需要根据其他条件进行判断:若出现主说话人的发言时长占比p
m 》p或各说话人说话时长占比方差sj≥ s时,则课堂教学模式为教学型课堂;若出现其他情况,课堂教学模式判断为讨论型课堂,其中n,m为自然数,其中n=4,m=3,p=85%,s=40。
[0044]
从教学平台的数据集中选取15个教学课程的音频进行课堂教学模式的自动化识别。如表1所示,选取n=4,m=3,s=40,p=85%时,程序预测的教学模式完全正确,验证了本发明基于语音分析的课堂教学模式识别模式识别方法的有效性。
[0045]
如图2所示,一种基于语音分析的课堂教学模式识别装置,所述教学装置,包括模块:采集模块,用于采集课堂教学音频;分析模块,用于利用说话人日志技术对所述课堂教学音频进行语音分析;判断模块,对语音分析得到的数据进行处理,判断课堂教学模式。
[0046]
本发明提供了一种基于语音分析的课堂教学模式识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。