1.本公开涉及人工智能领域,更具体地,涉及处理音频数据的方法以及装置、音频数据处理设备和存储介质。
背景技术:2.语音交互技术在现代社会中扮演着越来越重要的角色。随着诸如智能手机、智能音箱和语音助手等的语音交互设备的普及,人们越来越多地使用语音交互来完成各种任务,诸如发送短信、查询信息和控制智能家居设备等。
技术实现要素:3.本公开的至少一实施例提供了一种处理音频数据的方法,所述方法包括:从由语音交互设备获取的音频数据中提取语音特征;对所述音频数据进行语音识别,以获得与所述音频数据相对应的语音文本;基于所述语音特征和所述语音文本,确定对所述音频数据的拒识概率;基于所述语音特征,确定所述音频数据所属的场景类别;以及基于所确定的拒识概率和场景类别,确定对所述音频数据的拒识结果,所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。
4.本公开的至少一实施例提供了一种音频数据处理装置,包括:语音特征提取模块,被配置为从由语音交互设备获取的音频数据中提取语音特征;语音文本生成模块,被配置为对所述音频数据进行语音识别,以获得与所述音频数据相对应的语音文本;拒识概率确定模块,被配置为基于所述语音特征和所述语音文本,确定对所述音频数据的拒识概率;场景类别确定模块,被配置为基于所述语音特征,确定所述音频数据所属的场景类别;以及拒识结果确定模块,被配置为基于所确定的拒识概率和场景类别,确定对所述音频数据的拒识结果,所述拒识结果指示所述语音交互设备是否对所述音频数据进行拒识。
5.本公开的至少一实施例提供了一种音频数据处理设备,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的处理音频数据的方法。
6.本公开的至少一实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的处理音频数据的方法。
7.本公开的至少一实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的至少一实施例的处理音频数据的方法。
附图说明
8.为了更清楚地说明本公开的至少一实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示
language processing,nlp)的。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
16.本公开的至少一实施例的处理音频数据的方法可以基于自动语音识别(automatic speech recognition,asr)技术。自动语音识别的原理是通过分析语音信号的频率、声强和时长等特征,来识别出语音中的各个音素或单词。这需要使用大量的训练数据和复杂的算法来实现。随着计算机技术的发展和机器学习算法的不断改进,自动语音识别的准确度和性能也得到了显著提高。自动语音识别在很多领域都有着广泛的应用,例如,在语音助手和智能家居设备中,它可以帮助用户通过语音指令来控制设备或获取信息,在电话客服和语音导航系统中,它可以自动识别用户的语音输入并提供相应的服务,在语音转写和翻译领域,它可以将语音内容转化为文本,方便人们阅读和理解。在本公开的至少一实施例中,可以利用自动语音识别技术来从音频数据中获取文本特征,以用于执行语音交互拒识判断。
17.本公开的至少一实施例的处理音频数据的方法可以基于语音交互拒识技术。语音交互拒识领域的背景技术涵盖了语音识别、自然语言处理和机器学习等多个领域。语音交互拒识是指通过语音交互技术对非特定目标进行拒识的方法。在语音交互系统中,用户通过语音与系统进行交互,系统需要能够识别用户的意图并做出相应的回应。然而,有时候系统可能会遇到一些无法识别的语音输入、或者并非真正的用户交互指令,这时就需要对这些输入进行拒识,即对这些语音输入进行过滤。常见的语音交互拒识方法可以包括但不限于基于声学特征的拒识方法、基于语义特征的拒识方法、基于上下文的拒识方法等。例如,基于声学特征的拒识方法通过提取语音信号的声学特征(诸如频谱特征、梅尔频率倒谱系数(mfcc)、过零率等),使用机器学习算法(如支持向量机、随机森林等)对这些特征进行分类,从而判断是否为特定目标,并且当无法识别的语音输入与已有的特定目标差异较大时,可以判断为拒识。基于语义特征的拒识方法可以通过将语音输入转换为文本,然后提取文本的语义特征,诸如词向量表示、主题模型等,然后使用机器学习或深度学习算法进行分类,从而判断是否为特定目标,并且当无法识别的语音输入与已有的特定目标不符合语义上的一致性时,可以判断为拒识。基于上下文的拒识方法可以通过分析语音输入的上下文信息来进行拒识,例如,可以利用对话历史、用户行为模式等信息,对无法识别的语音输入进行上下文分析,从而判断是否为特定目标。语音交互拒识是语音交互系统中的一个重要问题,可以通过声学特征、语义特征以及上下文等信息来进行拒识,从而提高语音交互系统的鲁棒性和用户体验。
18.综上所述,本公开的至少一实施例提供的方案涉及人工智能、自然语言处理、语音交互拒识等技术中的一项或多项,下面将结合附图对本公开的至少一实施例进行进一步地描述。
19.在语音交互过程中,一般需要先唤醒设备再下达指令,但是频繁的唤醒动作可能带来不好的用户体验,如果不唤醒直接交互,又存在用户的非交互指令被误认为是语音交互指令的情况。
20.在发明人所知的技术中,可以在语音交互系统中部署一个语音交互拒识模块,用于过滤掉非交互语句,以筛选出真正的用户交互指令。
21.语音交互拒识方法可以是基于自然语言文本的,将用户的语音指令或问题转化为文本表示,然后使用自然语言处理技术进行分析和理解。基于自然语言文本的语音交互拒识方法在一定程度上提高了语音交互系统的准确性和智能化程度。
22.图1是示出根据本公开的至少一实施例的基于语音交互设备采集的音频数据进行拒识处理的场景示意图。
23.如图1所示,语音交互设备可以对其所在的环境进行实时音频采集,并且可以通过网络将所采集的音频数据发送到服务器,以供服务器对该输入音频数据进行拒识判断处理。随后,服务器可将所生成的拒识结果通过网络返回到用户终端。当然,上述音频采集和实时拒识判断处理同样可以在语音交互设备本地完成,而无需另一设备或服务器的参与,本公开对此不作限制。
24.可选地,上述语音交互设备可以是一种通过语音指令与用户进行交互的智能设备。例如,它可以通过语音识别技术将用户的语音指令转化为文字,并通过自然语言处理技术理解用户的意图,然后通过语音合成技术将回答或执行结果以语音的形式反馈给用户。语音交互设备可以具备多种功能,诸如智能助理、智能家居控制、音乐播放、天气查询、新闻播报、电子商务等。用户可以通过简单的语音交互指令实现这些功能,而无需使用键盘、鼠标或触摸屏等传统的输入设备。作为示例,上述语音交互设备具体可以包括智能手机、平板电脑、膝上型便携计算机、车载终端、可穿戴设备(诸如智能眼镜、智能手表等)等,但并不局限于此。可选地,网络可以是基于互联网和/或电信网的物联网(internet of things),其可以是有线网也可以是无线网,例如,其可以是局域网(lan)、城域网(man)、广域网(wan)、蜂窝数据通信网络等能实现信息交换功能的电子网络,用户终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
25.如上所述,在实际的语音交互过程中,由于语音交互设备的麦克风在经用户的交互许可而在使用期间保持开启状态,对背景噪音(诸如周围人的说话声)的录入难以避免,因此可能存在将用户的非交互指令误认为是语音交互指令的情况。为了为用户提供更好的语音交互体验,需要利用语音交互拒识处理来对无效的语音进行过滤。
26.图2是示出基于自然语言文本进行拒识处理的示意性流程框图。如图2所示,基于自然语言文本的拒识方法可以基于输入的指令文本200,通过拒识神经网络生成拒识结果210,其中,该拒识神经网络可以包括但不限于输入层201、字嵌入层202、卷积层203、池化层204、全连接层205和输出层206。具体地,输入层201可以将用户输入的指令文本转换为包括多个元素的数组(例如,利用独热(one-hot)编码等方法),其中,元素的个数对应于指令文本的字数(并且可能地,具有数量限制),数组中的每个元素的值是整型数值,其代表对应的字的索引。例如,考虑到用户的单次语音输入一般少于70个字,可以约定指令文本的字数限制为最长70个字,超过部分被截断丢弃,因此对应地,输入层的输出可以是包括至多70个元素的数组。字嵌入层202用于从输入的数组生成字向量,其中将每个字映射为一个向量表
示,因此输入层201输出的字索引数组经过字嵌入层202可以生成一个矩阵。接下来,卷积层203可以用于从字嵌入层202的输出矩阵中提取感兴趣的特征,并经由池化层204从卷积层203提取出来的特征中忽略不重要的特性。通过这样获得的指令文本中的语义特征可以经由全连接层205输出对拒识概率的判断,该判断结果通过输出层206输出对该指令文本200的拒识结果210。
27.例如,输出层206可以通过归一化转换为0~1之间的概率值,该概率值的大小表示拒识的概率,例如,越接近1的概率值表示越不应该拒识,而越接近0的概率值表示越应该被拒识。
28.例如,输出层206可以通过实例与分类决策边界之间的向量距离,并将输出结果中的最大者对应的类别作为对该指令文本200的拒识结果210。
29.可以有多种方式实现输出层206的功能,例如softmax、svm(支持向量机)等。
30.在上述基于自然语言文本的拒识方法中,仅利用了文本所带的语义信息来进行拒识判断。然而,在现实生活中,声音和文本往往同时存在于许多场景中,并且在用户向语音交互设备发起的语音指令中,除了文本特征还包括诸如语音、语调、语气等的语音特征,这些特征可以携带从字面意义无法获得的信息,并且这些信息可以用于判断用户是否在与语音交互设备进行交互。上述拒识方法依赖于单一的信息源,容易受到噪音、干扰等的影响而产生误判。
31.此外,在语音交互设备实际所处的环境中,并不总是只存在来自用户的语音输入,这样的场景可能更复杂的拒识判断处理。如图1所示,语音交互设备可以处于非交互场景,例如,场景101所示的多人对话场景、场景102所示的影音播放场景以及场景103所示的音乐播放场景等,在这些场景中,也可能会出现与交互指令类似的语句,甚至包括与交互场景下的语句相似的语调、语气等,因此,还需要对这样的场景下的语音输入进行拒识判断,以优化这些场景下的语音交互拒识性能。
32.本公开的至少一实施例基于此,提供了一种处理音频数据的方法,通过在语音交互拒识中利用包括声音和文本的多模态信息进行拒识判断,并且从音频数据中提取场景信息用于场景分类,以基于拒识判断结果和场景分类结果联合确定拒识结果,从而提升了语音交互设备的拒识准确度。
33.本公开的上述实施例所提供的方法能够将多模态信息应用于拒识判断中,并且从音频数据中提取场景信息用于判断当前状态的场景类别,通过联合两方面的判断结果共同确定最终的交互拒识判定结果,从而实现更准确的拒识判断。
34.本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据,分别从中提取语音特征和语音文本,继而基于语音特征和语音文本确定对音频数据的拒识概率,并且基于语音特征对该音频数据所属的场景进行分类,以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。通过本公开的至少一实施例的方法能够利用包括声音和文本的多模态信息进行拒识概率确定,并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景,从而基于两类结果的融合实现更准确的语音交互拒识判断。
35.图3a是示出根据本公开的至少一实施例的处理音频数据的方法300的流程图。图3b是示出根据本公开的至少一实施例的处理音频数据的方法的示意性流程框图。图4是示
出根据本公开的至少一实施例的处理音频数据的方法的示例流程框图。
36.如图3b所示,本公开的处理音频数据的方法可以包括场景分类处理和拒识分类处理两部分,其中,可以在场景分类处理中确定音频数据所属的场景类别,并且可以在拒识分类处理中确定对音频数据的拒识概率,进而联合这两部分处理的结果进行拒识判断以确定最终的拒识结果。
37.下面将参考图3a中的步骤301-305对本公开的处理音频数据的方法进行详细描述。
38.如图3a所示,在步骤301中,可以从由语音交互设备获取的音频数据中提取语音特征。
39.可选地,在步骤301中所提取的语音特征可以对应于图3b中的特征提取311。根据本公开的至少一实施例,音频数据可以是由语音交互设备在一时间段内获取的。可选地,语音交互设备对音频数据的采集可以是连续的,并且为了处理的实时性,所采集的连续音频数据可以以分段的形式进行处理,在如图3b以及下文中的图4和图5中所涉及的音频数据处理均可以被理解为对由语音交互设备获取的特定时间段内的音频数据的处理,例如,上述音频数据的长度可以为10 ms,即以10 ms为一帧对音频数据进行逐帧处理。
40.可选地,为了防止频谱泄漏,在音频数据处理中还可以采取前后帧部分重叠的方式,即每次处理的音频数据的帧长包括部分历史信息以及部分新的音频数据。例如,在每次处理的音频数据的帧长为25 ms的情况下,其中可以包括15 ms的历史信息和10 ms的新数据,即,存在15 ms的前后帧重叠。
41.可选地,音频数据由语音交互设备在一时间段内获取,可以是直接获取,例如,语音交互设备具有麦克风、扬声器等音频收发组件;可以是间接获取,例如语音交互设备从其他设备获取音频并进行本公开的处理音频数据的方法。
42.可选地,考虑到音频数据在时间上的相关性,并且由于较短的时间段内的音频数据能够提供的信息有限,这些音频数据可能不足以提供对拒识结果的可靠判断,在本公开的至少一实施例中,还可以将历史音频数据用于当前的拒识判断。
43.根据本公开的至少一实施例,从由语音交互设备获取的音频数据中提取语音特征可以包括:提取音频数据的频谱特征,频谱特征可以包括语气特征、语调特征、语速特征中的至少一种;以及基于音频数据以及语音交互设备在时间段前序的若干连续时间段内采集的历史音频数据,获得音频数据的语音特征,语音特征可以包括音频数据的频谱特征与历史音频数据的频谱特征的融合。
44.可选地,对于音频数据的语音特征提取可以包括如图4所示的特征提取401中的针对当前音频数据的频谱特征提取以及lstm(long short-term memory,长短期记忆网络)402中的当前频谱特征与历史频谱特征的融合两部分。其中,对音频数据的频谱特征提取是指从音频信号中提取出其频谱信息的过程。作为示例,对音频数据的频谱特征提取方法可以包括诸如短时傅里叶变换(short-time fourier transform,stft)、梅尔频谱倒谱系数(mel-frequency cepstral coefficients,mfcc)、fbank(filter bank,滤波器组)等。
45.可选地,在所提取的频谱特征中,可以包括音频数据中的语气特征、语调特征、语速特征等特征。具体地,语气特征可以指音频数据中表达情感、语气和语义的声音特征,频谱特征可以通过观察音频数据中的声音的强度、频率分布和能量变化等来反映语气特征。
例如,高频能量较高的声音通常会给人一种尖锐、激动的语气感觉,而低频能量较高的声音则会给人一种低沉、平静的语气感觉。语调特征可以指音频数据中表达语句的语调轮廓和语调变化的声音特征。频谱特征可以通过观察声音的基频和谐波结构来反映语调特征。例如,高基频和频谱中较多的谐波成分通常会给人一种上升的语调感觉,而低基频和谐波成分较少的声音则会给人一种下降的语调感觉。语速特征可以指音频数据中表达语句的快慢程度的声音特征。频谱特征可以通过观察声音的短时能量、过零率和谐波结构等来反映语速特征。例如,语速较快的声音通常会表现为短时能量较高、过零率较高和谐波结构较紧凑的频谱特征,而语速较慢的声音则会表现为短时能量较低、过零率较低和谐波结构较分散的频谱特征。当然,除了上述三种特征外,所提取的频谱特征还可以包括反映音频数据的其他声音特性的信息,诸如但不限于音色、声音强度、噪声成分等。因此,上述三种特征在本公开中仅用作示例而非限制。
46.在本公开的至少一实施例中,可以采用fbank算法来对音频数据进行频谱特征提取。图5是示出根据本公开的至少一实施例的语音特征提取中的频谱特征提取的示意性流程框图。
47.如图5所示,首先可以对输入的音频数据500进行预处理501,包括预加重、分帧和加窗等。其中,对音频数据500进行预加重以对音频数据500中的高频信号进行增强,继而通过分帧将音频信号分成若干个时间窗口,并对每个窗口进行加窗操作以防止频谱泄漏,常用的窗函数包括诸如汉宁窗、矩形窗等。接下来,可以通过傅里叶变换502对每个窗口内的信号进行傅里叶变换,将时域信号转换为频域信号,以得到频谱信息。经过梅尔滤波器组503把频率映射到梅尔频率标度,通过滤波器响应计算504将频谱信息通过梅尔滤波器组进行滤波,得到每个滤波器的能量响应,并通过对数压缩505对每个滤波器的能量响应取对数,以增强低频部分的细节,最后对取对数后的能量响应进行离散余弦变换506,可以得到fbank特征,作为本公开中从音频数据中提取的频谱特征。
48.当然,应当理解,对音频数据的频谱特征提取方法可以根据具体的应用需求进行选择使用,也可以结合使用以提取更丰富的频谱特征,本公开对于所采用的频谱特征提取方法不作限制。
49.如图4所示,通过特征提取401针对当前音频数据提取到其频谱特征后,可以通过lstm网络402从当前音频数据的频谱特征以及与当前音频数据具有时间相关性的多个历史时间段的音频数据的频谱特征中提取出感兴趣的特征,使得所生成的语音特征包括对当前音频数据的频谱特征与历史音频数据的频谱特征的融合。lstm网络作为一种递归神经网络,可以通过使用门控机制来选择性地记忆和遗忘输入序列的不同部分,从而有效地捕捉序列数据中的长期依赖关系。因此,在本公开的至少一实施例中,可以采用lstm网络402来同时考虑当前音频数据和历史音频数据的特征,从而更好地捕捉序列数据中的上下文信息和长期依赖关系,以生成融合了当前信息和历史信息的语音特征。
50.除了从音频数据中提取语音特征外,如图3b所示,还可以对音频数据进行语音识别312,以获得用于拒识分类的多模态信息。
51.在步骤302中,可以对音频数据进行语音识别,以获得与音频数据相对应的语音文本。
52.根据本公开的至少一实施例,对音频数据进行语音识别,以获得与音频数据相对
应的语音文本可以包括:对音频数据进行语音识别,并通过字嵌入处理生成与音频数据相对应的语音文本,其中,语音文本中的每个字可以以多维字向量表示。
53.可选地,对音频数据进行语音识别可以使用各种深度学习模型来构建语音识别模型,诸如卡尔迪(kaldi)、微耳(wenet)或者其他的神经网络模型,本公开对此不作限制。
54.可选地,对音频数据进行语音识别的结果可以是语音识别结果文本,该语音识别结果文本可以通过字嵌入(word embedding)处理而被转化为便于特征提取和拒识判断的高维向量形式。其中,字嵌入处理作为自然语言处理中一种常用的技术,用于将字形信息转化为向量表示。通过将语音文本中的每个字转化为多维字向量表示,可以提取语音文本中的字之间的相关信息,从而提高模型的性能。
55.如图4所示,经语音识别410输出的语音识别结果文本可以通过输入层411和字嵌入层412进行编码,例如,one-hot编码,其中,在输入层411可以与图2中的输入层201类似地将语音识别结果文本转换为数组形式,进而在字嵌入层412中将数组中的每个元素(即每个字)表示为多维字向量,以形成语音文本。
56.当然,应当理解,对语音识别结果文本的字嵌入处理除了上述one-hot编码外还可以采用其他的字嵌入方式,上述one-hot编码在本公开中仅用作示例而非限制。此外,还应当理解,本公开并不对音频数据的特征提取311与语音识别312的先后执行顺序进行限制,同样地,不对场景分类314和拒识分类313的先后执行顺序进行限制,在本公开中关于上述操作给出的执行顺序仅用作示例而非限制,但是应当明确的是,拒识分类313应当在特征提取311与语音识别312之后执行,并且拒识判断315应当在场景分类314和拒识分类313之后执行。
57.可选地,在对音频数据进行语音识别后,如果语音识别无结果输出,即当前音频数据中不存在语音或该语音不足以被识别,则可以认为当前音频数据中不存在针对语音交互设备的交互指令,因此可以不执行后续的诸如拒识分类和拒识判断等操作,但是在这种情况下仍然可以执行场景分类,以用于针对场景类别的长时判断。
58.因此,在从音频数据中获得了语音特征和语音文本之后,可以分别执行场景分类和拒识分类。
59.对于拒识分类,在步骤303中,可以基于语音特征和语音文本,确定对音频数据的拒识概率。
60.根据本公开的至少一实施例,基于语音特征和语音文本,确定对音频数据的拒识概率可以包括:对语音特征和语音文本进行拼接,并通过第一卷积神经网络确定对音频数据的拒识概率,拒识概率可以指示语音交互设备对音频数据进行拒识的概率。
61.可选地,如图4所示,可以在融合层413对语音特征和语音文本进行融合。具体地,可以将语音文本和所提取的语音特征进行拼接,作为后续第一卷积神经网络的输入特征。该第一卷积神经网络可以基于输入的语音文本和所提取的语音特征的拼接特征,输出对音频数据进行拒识的概率。
62.可选地,该第一卷积神经网络可以包括如图4所示的卷积层414、池化层415、全连接层416和激活层417。其中,卷积层414可以用于提取局部特征和捕捉语音信号的时序关系。
63.图6是示出根据本公开的至少一实施例的卷积处理的示意图。如图6所示,卷积层
414可以包括一组卷积核(例如,图6中为五个),每个卷积核作为一个小的滤波器,用于在输入特征上进行卷积操作,卷积核的大小通常可以是例如正方形窗口。通过用卷积核对输入数据进行特征提取,在输入特征上进行局部滑动窗口,每次计算得到一个卷积输出。因此,通过多个卷积核,可以对应地生成原始输入数据的多个特征图,其中每个特征图都是一个二维矩阵,其中每个元素可以表示特定位置的特征值。
64.图7是示出根据本公开的至少一实施例的卷积计算的示意图。如图7所示,卷积计算可以被理解为一个乘累加(如图7中的计算等式所示)的过程,通过将卷积核与输入特征进行逐元素相乘,并对结果进行求和(这个过程可以看作是在输入特征上进行局部滑动窗口的操作),每次计算得到一个卷积输出,即,输入数据中的一部分可以通过卷积核映射为输出的特征图中的对应位置的特征值。
65.接下来,为了减小特征的维度并提取更高级别的特征,可以在池化层415对所生成的特征图进行池化操作,例如最大池化或平均池化,从特征图生成特征向量以将原始的二维特征转换为一维特征向量,以用于减小特征的维度并提取特征的局部不变性。例如,可以将每个特征图分割为固定大小的区域,并提取该区域内的最大值或平均值作为池化后的值。因此,通过将特征图的所有元素按顺序排列,可以将池化后的特征图展平为一维特征向量。通过卷积层414和池化层415的处理,可以从输入的多模态特征中捕捉到音频数据的局部和时序信息,提高后续拒识判断的准确性和鲁棒性。
66.可选地,由池化层415输出的特征向量可以作为输入传递给后续的全连接层416,用于进行进一步的处理和预测。全连接层416的输出维度可以为标签维度,例如,对于本公开的拒识分类,针对对于是否拒识的判断,可以使用一维的值来输出结果,该值可以指示对拒识的分类。激活层417通过激活函数(例如,relu(修正线性单元)函数)对全连接层416的输出进行非线性变换,以将全连接层416的输出转化为0~1之间的概率值,即拒识概率,从而增强模型的表达能力。其中,该拒识概率的值的大小表示语音交互模型对音频数据的拒识概率,例如,越接近1可以表示越不应该拒识,而越接近0表示越需要被拒识。
67.图8是示出根据本公开的至少一实施例的激活函数的示意图。如图8所示,作为示例,可以在激活层采用relu激活函数,其中,图8的坐标系中的横轴表示激活函数的输入,而纵轴表示激活函数的输出。激活函数可以为卷积神经网络带来非线性特性,增强模型的表达能力。
68.如上所描述,为简化起见,在卷积阶段仅示意了一个卷积层414,在实际应用中,可以根据需要设置一个或多个卷积层。
69.如上所述,通过参考步骤303以及图3b中的312和313描述了对拒识概率的确定。接下来,将对场景类别的确定进行介绍。
70.在步骤304中,可以基于语音特征,确定音频数据所属的场景类别。
71.根据本公开的至少一实施例,基于语音特征,确定音频数据所属的场景类别可以包括:基于语音特征,通过第二卷积神经网络确定音频数据属于多个场景类别中的每个场景类别的概率;以及基于概率确定音频数据在时间段内所属的场景类别;其中,多个场景类别可以包括交互场景和非交互场景,非交互场景可以包括多人聊天场景、打电话场景、影音播放场景中的一个或多个。
72.可选地,音频数据的场景类别可以基于其是否是对语音交互设备的交互指令来进
行设计,例如,交互场景和非交互场景,其中,交互场景的分类对应于该音频数据是对语音交互设备的交互指令,而非交互场景的分类对应于该音频数据不是对语音交互设备的交互指令。
73.可选地,可以进一步地对非交互场景进行分类,以对场景分类任务进行细化,从而提高场景分类的准确度。例如,非交互场景可以包括但不限于多人聊天场景、打电话场景、影音播放场景、音乐播放场景等。
74.可选地,可以通过与上述第一卷积神经网络不同的第二卷积神经网络来从语音特征中确定音频数据所处的场景类别。其中,该第二卷积神经网络可以包括例如如图4所示的网络结构,其包括全连接层403、卷积层404、批归一化层(batch normalization)405、激活层406、全连接层407和激活层408。这些层结构可以与上述参考第一卷积神经网络的描述类似,其中卷积层404、批归一化层405和激活层406可以构成为一个单元结构用于拟合更强的网络模型,并且在模型部署时也可以优化成一个融合算子,以加快计算速度。全连接层403可以用于将lstm网络402输出的语音特征投影至特征维度,而全连接层407与其相似,单其输出维度与场景类别的数量相同,即,全连接层407可以输出对交互场景和非交互场景中的每个场景类别的预测结果。接下来,可选地,可以通过激活层408使用激活函数将全连接层407对所有场景类别的预测结果进行输出。
75.如上所述,为简化起见,仅示意了一层卷积,在实际应用中,可以根据需要设置一个或多个卷积层(以及批归一化层等)。
76.如前所述,在激活层408可以采用softmax、svm等激活函数。取决于所用的激活函数的差异,输出的结果可以是以概率值表达的分类,或者可以是以向量距离表达的分类。当采用softmax时,预测结果对应概率值的综合为1,最大的概率值对应的预测结果作为分类结果;当采用svm时,输出的结果中的最大值对应的预测结果作为分类结果。
77.此外,如图4所示,与语音文本进行融合的语音特征可以是从全连接层403输出的特征,也可以是从全连接层407输出的特征,本公开对此不作限制。
78.因此,可选地,通过激活层408的输出可以确定当前音频数据在当前时间段内所属的场景类别。
79.根据本公开的至少一实施例,基于语音特征,确定音频数据所属的场景类别还可以包括:基于音频数据在一时间段内所属的场景类别、以及语音交互设备在时间段前序的若干连续时间段内采集的历史音频数据在相应时间段内所属的场景类别,确定音频数据所属的场景类别。
80.如上所述,考虑到音频数据在时间上的连续性和与其先前的历史音频数据在时间上的相关性,对场景类别的确定同样可以基于当前场景分类结果和历史场景分类结果进行长时判断。根据本公开的至少一实施例,基于音频数据在时间段内所属的场景类别、以及语音交互设备在时间段前序的若干连续时间段内采集的历史音频数据在相应时间段内所属的场景类别,确定音频数据所属的场景类别可以包括:将音频数据在时间段内所属的场景类别和历史音频数据在相应时间段内所属的场景类别中满足预定条件的场景类别作为音频数据所属的场景类别。其中,根据本公开的至少一实施例,预定条件可以包括:在音频数据在时间段内所属的场景类别和历史音频数据在相应时间段内所属的场景类别中出现概率最大、并且出现概率达到预定阈值。
81.可选地,为了实现更稳定的场景类别判断,可以对一较长的时间段内的场景分类结果进行解码409处理,例如,可以联合当前音频数据所对应的当前时间段以及该当前时间段前序的若干时间段各自的场景分类结果进行场景类别解码。作为示例,在当前时间段为10 ms的情况下,可以利用包括当前时间段及其之前若干时间段的连续10 s中的场景分类结果进行解码,并且可以取其中占比最高且满足阈值条件的场景类别作为最终的场景分类结果。
82.例如,对于该连续10 s内的m个场景分类结果,假设其中出现次数最多的场景为多人聊天场景且其出现次数为n次,并且满足以下条件: 100 * n/m ≥ 预定阈值(例如m为10,n是8,预定阈值为80%),则可以将该多人聊天场景作为最终的场景分类结果。
83.此外,作为示例而非限制,在确定不存在满足上述阈值条件的情况下,还可以将当前音频数据在当前时间段所属的场景类别作为最终的场景分类结果,以保证后续处理的正常执行。
84.当然,上述场景分类方式在本公开中仅用作示例而非限制,其他可以实现类似效果的方法同样可以适用于本公开的方法。
85.因此,接下来,在步骤305中,可以基于所确定的拒识概率和场景类别,确定对音频数据的拒识结果,拒识结果可以指示语音交互设备是否对音频数据进行拒识。如图4所示,所确定的场景类别450和拒识概率440可以共同作为拒识判断418的输入,以输出最终的拒识结果460。
86.根据本公开的至少一实施例,基于所确定的拒识概率和场景类别,确定对音频数据的拒识结果可以包括:在所确定的拒识概率不满足预定拒识条件的情况下,基于所确定的场景类别确定对音频数据的拒识结果;以及在所确定的拒识概率满足预定拒识条件的情况下,确定对音频数据的拒识结果为拒识。
87.可选地,可以首先对拒识概率是否满足预定拒识条件进行判断,因为在拒识概率满足拒识条件的情况下,无论场景分类的结果如何,都可以对音频数据直接执行拒识操作。
88.根据本公开的至少一实施例,预定拒识条件可以包括:所确定的拒识概率小于预定拒识概率。可选地,考虑到上述拒识分类输出的拒识概率的值越大(例如,越接近1)可以表示越不应该对该音频数据进行拒识,而该值越小(例如,越接近0)可以表示越应该对该音频数据进行拒识,可以对小于预定拒识概率的拒识概率所对应的音频数据进行拒识处理,而大于或等于该预定拒识概率的拒识概率所对应的音频数据可以进一步基于音频数据所处的场景类别进行拒识判断。也就是说,当仅通过语音识别和语义理解就能确定档期的音频数据不是对语音交互设备的交互指令,则可以直接对该音频数据进行拒识处理,而无需对场景类别的进一步验证。
89.根据本公开的至少一实施例,在所确定的拒识概率不满足预定拒识条件的情况下,基于所确定的场景类别确定对音频数据的拒识结果可以包括:在所确定的拒识概率不满足预定拒识条件的情况下,基于所确定的场景类别为交互场景,确定对音频数据的拒识结果为不拒识;以及在所确定的拒识概率不满足预定拒识条件的情况下,基于所确定的场景类别为非交互场景,确定对音频数据的拒识结果为拒识。
90.可选地,在确定拒识概率不满足直接拒识的条件的情况下,可以结合场景分类的结果来确定最终的拒识结果。例如,在所确定的场景类别为非交互场景的情况下,可以确定
需要对该音频数据进行拒识,而在所确定的场景类别为交互场景的情况下,可以确定当前音频数据是对语音交互设备的交互指令,因此确定不对该音频数据进行拒识。
91.如上所述,本公开至少一实施例的处理音频数据的方法通过针对由语音交互设备获取的音频数据,分别从中提取语音特征和语音文本,继而基于语音特征和语音文本确定对音频数据的拒识概率,并且基于语音特征对该音频数据所属的场景进行分类,以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。通过能够利用包括声音和文本的多模态信息进行拒识概率确定,并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景,可以基于两类结果的融合实现更准确的语音交互拒识判断,从而实现人机自然交互,提高用户体验,为用户提供便捷的语音交互服务。相比于传统的语音交互拒识方法,通过将多模态信息应用于拒识判断中,并且从音频数据中提取场景信息用于判断当前状态的场景类别,联合两方面的判断结果共同确定最终的交互拒识判定结果,实现了更准确的拒识判断,提高了语音交互的准确性和流畅性。
92.图9是示出根据本公开的至少一实施例的音频数据处理装置900的示意图。
93.根据本公开的至少一实施例,音频数据处理装置900可以包括语音特征提取模块901、语音文本生成模块902、拒识概率确定模块903、场景类别确定模块904和拒识结果确定模块905。
94.语音特征提取模块901可以被配置为从由语音交互设备获取的音频数据中提取语音特征。可选地,语音特征提取模块901可以执行如上参考步骤301所描述的操作。
95.可选地,考虑到音频数据在时间上的相关性,并且由于较短的时间段内的音频数据能够提供的信息有限,这些音频数据可能不足以提供对拒识结果的可靠判断,在本公开的至少一实施例中,可以将历史音频数据用于当前的拒识判断。例如,对于音频数据的语音特征提取可以包括针对当前音频数据的频谱特征提取以及当前频谱特征与历史频谱特征的融合两部分。其中,对音频数据的频谱特征提取是指从音频信号中提取出其频谱信息的过程。作为示例,对音频数据的频谱特征提取方法可以包括诸如短时傅里叶变换(short-time fourier transform,stft)、梅尔频谱倒谱系数(mel-frequency cepstral coefficients,mfcc)、fbank(filter bank,滤波器组)等。在所提取的频谱特征中,可以包括音频数据中的语气特征、语调特征、语速特征等特征。在针对当前音频数据提取到其频谱特征后,可以从当前音频数据的频谱特征以及与当前音频数据具有时间相关性的多个历史时间段的音频数据的频谱特征中提取出感兴趣的特征,使得所生成的语音特征包括对当前音频数据的频谱特征与历史音频数据的频谱特征的融合。
96.语音文本生成模块902可以被配置为对音频数据进行语音识别,以获得与音频数据相对应的语音文本。可选地,语音文本生成模块902可以执行如上参考步骤302所描述的操作。
97.可选地,对音频数据进行语音识别可以使用各种深度学习模型来构建语音识别模型,诸如卡尔迪、微耳或者其他的神经网络模型,本公开对此不作限制。
98.可选地,对音频数据进行语音识别的结果可以是语音识别结果文本,该语音识别结果文本可以通过字嵌入处理而被转化为便于特征提取和拒识判断的高维向量形式。其中,字嵌入处理作为自然语言处理中一种常用的技术,用于将字形信息转化为向量表示。通
过将语音文本中的每个字转化为多维字向量表示,可以提取语音文本中的字之间的相关信息,从而提高模型的性能。
99.可选地,在对音频数据进行语音识别后,如果语音识别无结果输出,即当前音频数据中不存在语音或该语音不足以被识别,则可以认为当前音频数据中不存在针对语音交互设备的交互指令,因此可以不执行后续的诸如拒识分类和拒识判断等操作,但是在这种情况下仍然可以执行场景分类,以用于针对场景类别的长时判断。
100.在从音频数据中获得了语音特征和语音文本之后,可以在拒识概率确定模块903和场景类别确定模块904中分别执行场景分类和拒识分类。
101.拒识概率确定模块903可以被配置为基于语音特征和语音文本,确定对音频数据的拒识概率。可选地,拒识概率确定模块903可以执行如上参考步骤303所描述的操作。
102.可选地,可以对语音特征和语音文本进行融合。具体地,可以将语音文本和所提取的语音特征进行拼接,作为后续第一卷积神经网络的输入特征。该第一卷积神经网络可以基于输入的语音文本和所提取的语音特征的拼接特征,输出对音频数据进行拒识的概率。
103.场景类别确定模块904可以被配置为基于语音特征,确定音频数据所属的场景类别。可选地,场景类别确定模块904可以执行如上参考步骤304所描述的操作。
104.可选地,音频数据的场景类别可以基于其是否是对语音交互设备的交互指令来进行设计,例如,交互场景和非交互场景,其中,交互场景的分类对应于该音频数据是对语音交互设备的交互指令,而非交互场景的分类对应于该音频数据不是对语音交互设备的交互指令。作为示例,可以进一步地对非交互场景进行分类,以对场景分类任务进行细化,从而提高场景分类的准确度。例如,非交互场景可以包括但不限于多人聊天场景、打电话场景、影音播放场景、音乐播放场景等。
105.可选地,可以通过与上述第一卷积神经网络不同的第二卷积神经网络来从语音特征中确定音频数据所处的场景类别。
106.此外,考虑到音频数据在时间上的连续性和与其先前的历史音频数据在时间上的相关性,对场景类别的确定同样可以基于当前场景分类结果和历史场景分类结果进行长时判断。例如,为了实现更稳定的场景类别判断,可以对一较长的时间段内的场景分类结果进行解码处理,例如,可以联合当前音频数据所对应的当前时间段以及该当前时间段前序的若干时间段各自的场景分类结果进行场景类别解码。作为示例,可以利用包括当前时间段及其之前若干时间段的较长的时间段中的场景分类结果进行解码,并且可以取其中占比最高且满足阈值条件的场景类别作为最终的场景分类结果。
107.拒识结果确定模块905可以被配置为基于所确定的拒识概率和场景类别,确定对音频数据的拒识结果,拒识结果可以指示语音交互设备是否对音频数据进行拒识。可选地,拒识结果确定模块905可以执行如上参考步骤305所描述的操作。
108.可选地,可以首先对拒识概率是否满足预定拒识条件进行判断,因为在拒识概率满足拒识条件的情况下,无论场景分类的结果如何,都可以对音频数据直接执行拒识操作。
109.可选地,考虑到上述拒识分类输出的拒识概率的值越大(例如,越接近1)可以表示越不应该对该音频数据进行拒识,而该值越小(例如,越接近0)可以表示越应该对该音频数据进行拒识,可以对小于预定拒识概率的拒识概率所对应的音频数据进行拒识处理,而大于或等于该预定拒识概率的拒识概率所对应的音频数据可以进一步基于音频数据所处的
场景类别进行拒识判断。也就是说,当仅通过语音识别和语义理解就能确定档期的音频数据不是对语音交互设备的交互指令,则可以直接对该音频数据进行拒识处理,而无需对场景类别的进一步验证。
110.可选地,在确定拒识概率不满足直接拒识的条件的情况下,可以结合场景分类的结果来确定最终的拒识结果。例如,在所确定的场景类别为非交互场景的情况下,可以确定需要对该音频数据进行拒识,而在所确定的场景类别为交互场景的情况下,可以确定当前音频数据是对语音交互设备的交互指令,因此确定不对该音频数据进行拒识。
111.根据本公开的又一方面,至少一实施例还提供了一种音频数据处理设备。图10示出了根据本公开的至少一实施例的音频数据处理设备2000的示意图。
112.如图10所示,音频数据处理设备2000可以包括一个或多个处理器2010,和一个或多个存储器2020。其中,存储器2020中存储有计算机可读代码,计算机可读代码当由一个或多个处理器2010运行时,可以执行如上所述的处理音频数据的方法。
113.本公开的至少一实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开的实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是x86架构或arm架构的。
114.一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的至少一实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
115.例如,根据本公开的至少一实施例的方法或装置也可以借助于图11所示的计算设备3000的架构来实现。如图11所示,计算设备3000可以包括总线3010、一个或多个cpu 3020、只读存储器(rom)3030、随机存取存储器(ram)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备,例如rom 3030或硬盘3070可以存储本公开提供的处理音频数据的方法的处理和/或通信使用的各种数据或文件以及cpu所执行的程序指令。计算设备3000还可以包括用户界面3080。当然,图11所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图11示出的计算设备中的一个或多个组件。
116.根据本公开的又一方面,至少一实施例还提供了一种计算机可读存储介质。图12示出了根据本公开的存储介质的示意图4000。
117.如图12所示,计算机存储介质4020上存储有计算机可读指令4010。当计算机可读指令4010由处理器运行时,可以执行参照以上附图描述的根据本公开的至少一实施例的处理音频数据的方法。本公开的至少一实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高
速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(sdram)、双倍数据速率同步动态随机存取存储器(ddrsdram)、增强型同步动态随机存取存储器(esdram)、同步连接动态随机存取存储器(sldram)和直接内存总线随机存取存储器(dr ram)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
118.本公开的至少一实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的至少一实施例的处理音频数据的方法。
119.本公开的至少一实施例提供了一种处理音频数据的方法、装置、设备和计算机可读存储介质。
120.本公开的至少一实施例所提供的方法能够将多模态信息应用于拒识判断中,并且从音频数据中提取场景信息用于判断当前状态的场景类别,通过联合两方面的判断结果共同确定最终的交互拒识判定结果,从而实现更准确的拒识判断。
121.本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据,分别从中提取语音特征和语音文本,继而基于语音特征和语音文本确定对音频数据的拒识概率,并且基于语音特征对该音频数据所属的场景进行分类,以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。通过本公开的上述实施例的方法能够利用包括声音和文本的多模态信息进行拒识概率确定,并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景,从而基于两类结果的融合实现更准确的语音交互拒识判断。
122.需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
123.一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的至少一实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
124.在上面详细描述的本公开的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本公开的原理和精神的情况下,可对这些实施例或其特征
进行各种修改和组合,这样的修改应落入本公开的范围内。