声学场景和视觉场景的一致性的制作方法-j9九游会真人

文档序号：34948488发布日期：2023-07-29 07:54阅读：来源：国知局

技术特征：
1.一种在媒体处理设备处进行媒体处理的方法，其特征在于，包括：接收对象的媒体内容数据，所述媒体内容数据包括所述声学场景中对象的第一描述和所述视觉场景中对象的第二描述，所述声学场景由音频引擎生成，所述视觉场景由视觉引擎生成；确定由所述声学场景中所述对象的第一描述指示的第一参数与由所述视觉场景中所述对象的第二描述指示的第二参数是否不一致；响应于由所述声学场景中所述对象的第一描述指示的所述第一参数与由所述视觉场景中所述对象的第二描述指示的所述第二参数不一致，修改所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的一者，所述修改基于所述第一描述和所述第二描述中未被修改的另一者，其中所述修改后的第一描述和所述第二描述中的一者与所述第一描述和所述第二描述中未被修改的另一者一致；以及将所述对象的所述媒体内容数据提供给接收器，所述接收器为媒体应用渲染所述对象的所述媒体内容数据。2.根据权利要求1所述的方法，其特征在于，所述第一参数和所述第二参数均与所述对象的对象尺寸、对象形状、对象位置、对象方向和对象纹理中的一者相关联。3.根据权利要求2所述的方法，其特征在于，所述修改包括：基于所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的所述另一者来修改所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的所述一者，使得由所述声学场景中所述对象的第一描述指示的所述第一参数与由所述视觉场景中所述对象的第二描述指示的所述第二参数一致。4.根据权利要求2所述的方法，其特征在于，进一步包括：基于所述声学场景中所述对象的第一描述或所述视觉场景中所述对象的第二描述中的至少一者来确定所述对象在统一场景中的第三描述；响应于由所述声学场景中所述对象的第一描述指示的所述第一参数不同于由所述统一场景中所述对象的第三描述指示的第三参数，基于由所述统一场景中所述对象的第三描述指示的所述第三参数来修改由所述声学场景中所述对象的第一描述指示的所述第一参数；以及响应于由所述视觉场景中所述对象的第二描述指示的所述第二参数不同于由所述统一场景中所述对象的第三描述指示的所述第三参数，基于由所述统一场景中所述对象的第三描述指示的所述第三参数来修改由所述视觉场景中所述对象的第二描述指示的所述第二参数。5.根据权利要求4所述的方法，其特征在于，所述确定进一步包括以下各项中的至少一者：基于所述声学场景中所述对象的第一描述中的对象尺寸来确定所述统一场景中所述对象的第三描述中的对象尺寸；基于所述视觉场景中所述对象的第二描述中的对象尺寸来确定所述统一场景中所述对象的第三描述中的所述对象尺寸；基于所述声学场景中所述对象的第一描述中的对象与所述视觉场景中所述对象的第二描述中的对象之间的交集的交集尺寸来确定所述统一场景中所述对象的第三描述中的
对象尺寸；以及基于所述声学场景中所述对象的第一描述中的所述对象尺寸与所述视觉场景中所述对象的第二描述中的所述对象尺寸之间的尺寸差异来确定所述统一场景中所述对象的第三描述中的对象尺寸。6.根据权利要求4所述的方法，其特征在于，所述确定进一步包括以下各项中的至少一者：基于所述声学场景中所述对象的第一描述中的对象形状来确定所述统一场景中所述对象的第三描述中的对象形状；基于所述视觉场景中所述对象的第二描述中的对象形状来确定所述统一场景中所述对象的第三描述中的对象形状；基于所述声学场景中所述对象的第一描述中的对象与所述视觉场景中所述对象的第二描述中的对象之间的交集的交集形状来确定所述统一场景中所述对象的第三描述中的对象形状；以及基于所述声学场景中所述对象的第一描述中的所述对象形状与所述视觉场景中所述对象的第二描述中的所述对象形状之间的形状差异来确定所述统一场景中所述对象的第三描述中的对象形状。7.根据权利要求4所述的方法，其特征在于，所述确定进一步包括以下各项中的至少一者：基于所述声学场景中所述对象的第一描述中的对象位置来确定所述统一场景中所述对象的第三描述中的对象位置；基于所述视觉场景中所述对象的第二描述中的对象位置来确定所述统一场景中所述对象的第三描述中的对象位置；以及基于所述声学场景中所述对象的第一描述中的所述对象位置与所述视觉场景中所述对象的第二描述中的所述对象位置之间的位置差异来确定所述统一场景中所述对象的第三描述中的对象位置。8.根据权利要求4所述的方法，其特征在于，所述确定进一步包括以下各项中的至少一者：基于所述声学场景中所述对象的第一描述中的对象方向来确定所述统一场景中所述对象的第三描述中的对象方向；基于所述视觉场景中所述对象的第二描述中的对象方向来确定所述统一场景中所述对象的第三描述中的对象方向；以及基于所述声学场景中所述对象的第一描述中的所述对象方向与所述视觉场景中所述对象的第二描述中的所述对象方向之间的方向差异来确定所述统一场景中所述对象的第三描述中的对象方向。9.根据权利要求4所述的方法，其特征在于，所述确定进一步包括以下各项中的至少一者：基于所述声学场景中所述对象的第一描述中的对象纹理来确定所述统一场景中所述对象的第三描述中的对象纹理；基于所述视觉场景中所述对象的第二描述中的对象纹理来确定所述统一场景中所述
对象的第三描述中的对象纹理；以及基于所述声学场景中所述对象的第一描述中的所述对象纹理与所述视觉场景中所述对象的第二描述中的所述对象纹理之间的纹理差异来确定所述统一场景中所述对象的第三描述中的对象纹理。10.根据权利要求1所述的方法，其特征在于，进一步包括：基于所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的一者来确定所述媒体内容数据的锚场景中所述对象的描述；响应于基于所述声学场景中所述对象的第一描述来确定所述锚场景中所述对象的描述，基于所述声学场景中所述对象的第一描述来修改所述视觉场景中所述对象的第二描述；响应于基于所述视觉场景中所述对象的第二描述来确定所述锚场景中所述对象的描述，基于所述视觉场景中所述对象的第二描述来修改所述声学场景中所述对象的第一描述；以及生成信令信息，所述信令信息指示选择所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的哪一者来确定所述锚场景的所述描述。11.根据权利要求4所述的方法，其特征在于，进一步包括：生成信令信息，所述信令信息指示选择所述声学场景中所述对象的第一描述中的所述第一参数和所述视觉场景中所述对象的第二描述中的所述第二参数中的哪一者来确定所述统一场景中所述对象的第三描述中的所述第三参数。12.一种用于媒体处理的装置，其特征在于，包括：处理电路，所述处理电路被配置为：接收对象的媒体内容数据，所述媒体内容数据包括由音频引擎生成的声学场景中的所述对象的第一描述和由视觉引擎生成的视觉场景中的所述对象的第二描述；确定由所述声学场景中所述对象的第一描述指示的第一参数与由所述视觉场景中所述对象的第二描述指示的第二参数是否不一致；响应于由所述声学场景中所述对象的第一描述指示的所述第一参数与由所述视觉场景中所述对象的第二描述指示的所述第二参数不一致，基于所述第一描述和所述第二描述中未被修改的另一者来修改所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的一者，其中修改后的所述第一描述和所述第二描述中的一者与所述第一描述和所述第二描述中未被修改的另一者一致；以及将所述对象的所述媒体内容数据提供给接收器，所述接收器为媒体应用渲染所述对象的所述媒体内容数据。13.根据权利要求12所述的装置，其特征在于，所述第一参数和所述第二参数均与所述对象的对象尺寸、对象形状、对象位置、对象方向和对象纹理中的一者相关联。14.根据权利要求13所述的装置，其特征在于，所述处理电路被配置为：基于所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的所述另一者来修改所述声学场景中所述对象的第一描述和所述视觉场景中所述对象的第二描述中的所述一者，使得由所述声学场景中所述对象的第一描述指示的所述第一参数与由所述视觉场景中所述对象的第二描述指示的所述第二参数一致。
15.根据权利要求13所述的装置，其特征在于，所述处理电路被配置为：基于所述声学场景中所述对象的第一描述或所述视觉场景中所述对象的第二描述中的至少一者来确定所述对象在所述统一场景中的第三描述；响应于由所述声学场景中所述对象的第一描述指示的所述第一参数不同于由所述统一场景中所述对象的第三描述指示的第三参数，基于由所述统一场景中所述对象的第三描述指示的所述第三参数来修改由所述声学场景中所述对象的第一描述指示的所述第一参数；以及响应于由所述视觉场景中所述对象的第二描述指示的所述第二参数不同于由所述统一场景中所述对象的第三描述指示的所述第三参数，基于由所述统一场景中所述对象的第三描述指示的所述第三参数来修改由所述视觉场景中所述对象的第二描述指示的所述第二参数。16.根据权利要求15所述的装置，其特征在于，所述处理电路被配置为执行以下各项中的一者：基于所述声学场景中所述对象的第一描述中的对象尺寸来确定所述统一场景中所述对象的第三描述中的对象尺寸；基于所述视觉场景中所述对象的第二描述中的对象尺寸来确定所述统一场景中所述对象的第三描述中的所述对象尺寸；基于所述声学场景中所述对象的第一描述中的所述对象与所述视觉场景中所述对象的第二描述中的所述对象之间的交集的交集尺寸来确定所述统一场景中所述对象的第三描述中的所述对象尺寸；以及基于所述声学场景中所述对象的第一描述中的所述对象尺寸与所述视觉场景中所述对象的第二描述中的所述对象尺寸之间的尺寸差异来确定所述统一场景中所述对象的第三描述中的所述对象尺寸。17.根据权利要求15所述的装置，其特征在于，所述处理电路被配置为执行以下各项中的一者：基于所述声学场景中所述对象的第一描述中的对象形状来确定所述统一场景中所述对象的第三描述中的对象形状；基于所述视觉场景中所述对象的第二描述中的对象形状来确定所述统一场景中所述对象的第三描述中的所述对象形状；基于所述声学场景中所述对象的第一描述中的所述对象与所述视觉场景中所述对象的第二描述中的所述对象之间的交集的交集形状来确定所述统一场景中所述对象的第三描述中的所述对象形状；以及基于所述声学场景中所述对象的第一描述中的所述对象形状与所述视觉场景中所述对象的第二描述中的所述对象形状之间的形状差异来确定所述统一场景中所述对象的第三描述中的所述对象形状。18.根据权利要求15所述的装置，其特征在于，所述处理电路被配置为执行以下各项中的一者：基于所述声学场景中所述对象的第一描述中的对象位置来确定所述统一场景中所述对象的第三描述中的对象位置；
基于所述视觉场景中所述对象的第二描述中的对象位置来确定所述统一场景中所述对象的第三描述中的所述对象位置；以及基于所述声学场景中所述对象的第一描述中的所述对象位置与所述视觉场景中所述对象的第二描述中的所述对象位置之间的位置差异来确定所述统一场景中所述对象的第三描述中的所述对象位置。19.根据权利要求15所述的装置，其特征在于，所述处理电路被配置为执行以下各项中的一者：基于所述声学场景中所述对象的第一描述中的对象方向来确定所述统一场景中所述对象的第三描述中的对象方向；基于所述视觉场景中所述对象的第二描述中的对象方向来确定所述统一场景中所述对象的第三描述中的所述对象方向；以及基于所述声学场景中所述对象的第一描述中的所述对象方向与所述视觉场景中所述对象的第二描述中的所述对象方向之间的方向差异来确定所述统一场景中所述对象的第三描述中的所述对象方向。20.根据权利要求15所述的装置，其特征在于，所述处理电路被配置为执行以下各项中的一者：基于所述声学场景中所述对象的第一描述中的对象纹理来确定所述统一场景中所述对象的第三描述中的对象纹理；基于所述视觉场景中所述对象的第二描述中的对象纹理来确定所述统一场景中所述对象的第三描述中的所述对象纹理；以及基于所述声学场景中所述对象的第一描述中的所述对象纹理与所述视觉场景中所述对象的第二描述中的所述对象纹理之间的纹理差异来确定所述统一场景中所述对象的第三描述中的所述对象纹理。

技术总结
接收对象的媒体内容数据。确定由声学场景中对象的第一描述指示的第一参数与由视觉场景中对象的第二描述指示的第二参数是否不一致。基于由声学场景中对象的第一描述指示的第一参数与由视觉场景中对象的第二描述指示的第二参数不一致，声学场景中对象的第一描述和视觉场景中对象的第二描述中的一者基于第一描述和第二描述中未被修改的另一者而被修改，其中修改后的第一描述和第二描述中的一者与第一描述和第二描述中未被修改的另一者一致。第一描述和第二描述中未被修改的另一者一致。第一描述和第二描述中未被修改的另一者一致。

技术研发人员：田军许晓中刘杉
受保护的技术使用者：腾讯美国有限责任公司
技术研发日：2022.09.16
技术公布日：2023/7/28

完整全部详细技术资料下载

当前第2页1 2