技术特征:
1.一种应用于沉浸式音频系统中的自适应音频对象编码方法,其特征在于,包括以下步骤:步骤a1,输入独立的多音频对象,将多通道时域音频信号转换为频域信号;步骤a2,对音频信号频谱进行活跃性检测,计算合并因子;步骤a3,基于合并因子,对音频信号进行自适应子带分组;步骤a4,基于子带分组,抽取音频对象的边信息;步骤a5,对边信息进行压缩,得到边信息的低维特征表达;步骤a6,对边信息的低维特征表达进行量化,得到边信息码流;步骤a7,将音频频域信号下混得到下混信号,并利用单声道编码,得到下混信号码流;步骤a8,对边信息码流和下混信号码流进行合成,得到编码码流。2.如权利要求1所述的一种应用于沉浸式音频系统中的自适应音频对象编码方法,其特征在于:步骤a1中基于预设采样频率采集多个音频对象信号,形成多通道音频信号,对音频信号进行分帧处理,并基于预设重叠率的窗函数对分帧后的信号加窗处理,通过改进离散余弦变换mdct对多通道音频信号进行时域到频域变换,得到音频信号频谱。3.如权利要求1所述的一种应用于沉浸式音频系统中的自适应音频对象编码方法,其特征在于:步骤a2中对输入的音频频域信号采用预设能量阈值算法获取音频对象每帧信号的单个频点的活跃状态,具体计算方式如下:式中,i为帧序号,m为频点序号,j为音频对象序号,tf
j
(i,m)为频点活跃状态标志,ethh
j
()为设定的阈值,p
j
(,m)为频点能量;根据活跃状态,得到二元值的合并因子,具体计算方式如下:式中,mf(i,m)为二元值的合并因子,j为对象数量。4.如权利要求1所述的一种应用于沉浸式音频系统中的自适应音频对象编码方法,其特征在于:步骤a3中当频点的合并因子为0时,将该频点和下一频点合并为一个子带,当频点的合并因子为1时,将该频点单独作为一个子带。5.如权利要求1所述的一种应用于沉浸式音频系统中的自适应音频对象编码方法,其特征在于:步骤a6中采用预设的量化表量化边信息的低维特征表达,获得边信息码流。6.一种应用于沉浸式音频系统中的自适应音频对象解码方法,其特征在于:用于对权利要求1-5任意一项所述方法生成的编码进行解码,具体实现包括以下步骤:步骤b1,对编码码流分解,得到边信息码流和下混信号码流;步骤b2,对边信息码流进行解量化,得到边信息解码信号;步骤b3,对边信息解码信号进行解压缩,得到重构的边信息;步骤b4,对下混信号码流进行解码,得到重构的下混信号;步骤b5,对重构的边信息和下混信号进行合成,得到多音频对象;步骤b6,将多音频对象转换为时域音频信号;
步骤b7,基于渲染矩阵或者增益矩阵或者hrtf函数,对多音频对象进行渲染,输出个性化的多音频对象信号。7.如权利要求6所述的一种应用于沉浸式音频系统中的自适应音频对象解码方法,其特征在于:步骤b2中采用预设的量化表查找边信息量化值对应的数据,得到边信息解码信号。8.如权利要求6所述的一种应用于沉浸式音频系统中的自适应音频对象解码方法,其特征在于:步骤b3中采用反卷积解码器从低维的边信息表达中恢复出高维边信息,得到重构的边信息。9.如权利要求6所述的一种应用于沉浸式音频系统中的自适应音频对象解码方法,其特征在于:步骤b7中若采用多音箱多频对象进行回放,则采用渲染矩阵或者增益矩阵对解码后的单个对象时域信号进行渲染,得到个性化的多音频对象信号;若采用耳机对多音频对象进行回放,则采用hrtf函数对解码后的单个对象时域信号进行渲染,得到个性化的多音频对象信号。10.一种应用于沉浸式音频系统中的自适应音频对象编解码装置,其特征在于:包括转换模块、检测模块、分组模块、提取模块、编码模块、解码模块、合成模块和渲染模块;转换模块用于采集多通道音频信号,将多通道音频信号转换为音频频域信号;检测模块用于检测每个对象的活跃性,计算合并因子;分组模块用于根据合并因子对每帧信号进行自适应子带分组;提取模块用于根据子带分组提取边信息;编码模块用于编码边信息和下混信号,得到边信息和下混信号码流;解码模块用于解码边信息和下混信号,得到解码的边信息和下混信号;合成模块用于将解码的边信息和下混信号重构出音频对象信号;渲染模块用于基于渲染矩阵或者增益矩阵或者hrtf函数,对多音频对象进行渲染,输出个性化的多音频对象信号。
技术总结
本发明公开了一种应用于沉浸式音频系统中的自适应音频对象编解码方法及装置。编码方法首先对音频信号频谱进行活跃性检测,计算合并因子,根据合并因子自适应划分子带,抽取边信息,并对边信息压缩、量化后,与下混信号码流合成为编码码流。解码方法首先对输入码流进行分解,获得边信息码流和下混信号码流,并对二者进行合成得到音频对象信号,通过后处理器将其转换为时域信号,渲染并输出个性化的多音频对象。装置包括转换模块、检测模块、分组模块、提取模块、编码模块、解码模块、合成模块和渲染模块。本发明通过对音频信号活跃性进行自适应子带分组,降低了音频对象的混叠失真,提升了解码的音频对象质量,满足了用户的沉浸感听音需求。需求。需求。
技术研发人员:胡瑞敏 吴玉林 王晓晨
受保护的技术使用者:武汉大学
技术研发日:2023.04.11
技术公布日:2023/7/28