全景视频导出方法、装置、终端设备以及存储介质与流程-j9九游会真人

文档序号：35695419发布日期：2023-10-11 18:30阅读：5来源：国知局

全景视频导出方法、装置、终端设备以及存储介质【
技术领域：
：】1.本发明实施例涉及视频处理
技术领域：
：，尤其涉及一种全景视频导出方法、装置、终端设备以及存储介质。
背景技术：
：：2.为解决常规摄像装置的局限性：录制视频的视角极其狭小，无法记录许多重要的细节，全景视频记录了相机所在360度球面的所有视觉信息，用户在拍摄时无需运镜取景，只需在拍摄完后手动选定特定视角的视频内容进行导出，可以获得任意视觉目标的视频。但目前往往需要人工查看全景视频的所有画面，选择精彩的画面进行内容导出，并且导出过程需要用户在每个时间戳上选定视角目标进行导出，操作繁琐且低效。技术实现要素：3.本发明实施例提供了一种全景视频导出方法、装置、终端设备以及存储介质，能够自动评价全景视频中视角物体的精彩程度，选择精彩的视角物体进行跟踪导出2d视频。4.第一方面，本发明实施例提供一种全景视频导出方法，应用于电子终端设备，所述方法包括：5.获得全景视频的关键帧；所述关键帧为所述全景视频中的任意图像帧；基于本发明第一方面构建的视觉目标检测模型对所述关键帧提取第一高维度特征图；基于所述视觉目标检测模型根据所述第一高维度特征图，对所述关键帧显示的所有视觉目标进行精彩程度评估；根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列；其中，所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化；对所述运动轨迹序列进行平面投影，获得所述跟踪视觉目标的运动视频。6.上述全景视频导出方法，采用构建的视觉目标检测模型对全景视频的关键帧提取高维度特征图，根据高维度特征图计算关键帧显示的视觉目标的精彩程度评分，在关键帧显示的所有视觉目标中选取精彩程度高于预设阈值的至少一个跟踪视觉目标，例如罕见的物体、运动的物体等吸引用户眼球的视觉目标；同时预设视觉目标检测模型生成跟踪视觉目标的追踪框；根据追踪框，追踪跟踪视觉目标分别在所述全景视频中每帧画面占据的图像区域，获得所述跟踪视觉目标的运动视频，无需人工查看全景视频，操作简便。7.其中一种可能的实现方式中，所述方法还包括：8.基于视觉目标检测模型，输出所述至少一个跟踪视觉目标的位置坐标；9.追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列，包括：10.根据所述位置坐标，追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列。11.其中一种可能的实现方式中，所述方法还包括：12.响应用户指定的剪辑指令，获得待显示物体和视频时间长度；13.获得与待显示物体匹配的多跟踪视觉目标；14.按照所述多个跟踪视觉目标的运动视频各自对应的精彩程度评分大小，顺序选取对应目标运动视频作为待剪辑视频；15.从所述待剪辑视频截取符合所述视频时间长度的片段，获得用户指定的显示物体的运动视频。16.其中一种可能的实现方式中，所述视觉目标检测模型包括第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络；17.基于视觉目标检测模型对所述关键帧提取高维度特征图，包括：18.将所述关键帧输入所述视觉目标检测模型的第一多层卷积神经网络，输出所述高维度特征图；19.对所述高维度特征图进行roialign操作，得到池化后的高维度特征图；20.基于所述视觉目标检测模型根据所述高维度特征图，对所述关键帧显示的所有视觉目标进行精彩程度评分，包括：21.将所述池化后的高维度特征图输入所述评分子网络，输出所述关键帧中所有视觉目标的精彩程度评分。22.其中一种可能的实现方式中，在所述全景视频的目标帧图像追踪到所述跟踪视觉目标后，所述方法还包括：23.基于视觉目标检测模型对所述目标帧图像提取第二高维度特征图；24.基于所述视觉目标检测模型根据所述第二高维度特征图，对所述目标帧图像显示的所有视觉目标进行精彩程度评分；25.当所述目标帧图像中任意视觉目标的精彩程度评分大于所述跟踪视觉目标的精彩程度评分，在所述全景视频的每帧图像追踪该任意视觉目标。26.其中一种可能的实现方式中，根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标，包括27.将所述关键帧的所有视觉目标中精彩程度评分最高的视觉目标确定为跟踪视觉目标。28.其中一种可能的实现方式中，根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标，包括29.按照精彩程度评分从大到小顺序选取对应视觉目标作为所述跟踪视觉目标，直至所述跟踪视觉目标的数量满足预设数量。30.第二方面，本发明实施例提供一种全景视频导出装置，设置在电子终端设备中，所述装置包括：31.图像帧获得模块，用于获得全景视频的关键帧；所述关键帧为所述全景视频中的任意图像帧；第一特征提取模块，用于基于如权利要求1或2构建的视觉目标检测模型对所述关键帧提取第一高维度特征图；32.第一评分模块，用于基于所述视觉目标检测模型根据所述第一高维度特征图，对所述关键帧显示的所有视觉目标进行精彩程度评估；33.选择模块，用于根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标；34.第一追踪模块，用于追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列；其中，所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化；35.投影模块，用于对所述运动轨迹序列进行平面投影，获得所述跟踪视觉目标的运动视频。36.其中一种可能的实现方式中，所述装置还包括：37.位置输出模块，用于基于视觉目标检测模型，输出所述至少一个跟踪视觉目标的位置坐标；38.所述第一追踪模块具体用于根据所述位置坐标，追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列。39.其中一种可能的实现方式中，所述装置还包括：40.响应模块，用于响应用户指定的剪辑指令，获得待显示物体和视频时间长度；41.获得模块，用于获得与待显示物体匹配的多个跟踪视觉目标；42.选取模块，用于按照所述多个跟踪视觉目标的运动视频各自对应的精彩程度评分大小，顺序选取对应目标运动视频作为待剪辑视频；43.截取模块，用于从所述待剪辑视频截取符合所述视频时间长度的片段，获得用户指定的显示物体的运动视频。44.其中一种可能的实现方式中，所述视觉目标检测模型包括第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络；45.所述第一特征提取模块包括：46.图像输入子模块，用于将所述关键帧输入所述视觉目标检测模型的第一多层卷积神经网络，输出所述高维度特征图；47.操作子模块，用于对所述高维度特征图进行roialign操作，得到池化后的高维度特征图；48.所述第一评分模块包括：49.特征输入子模块，用于将所述池化后的高维度特征图输入所述评分子网络，输出所述关键帧中所有视觉目标的精彩程度评分。50.其中一种可能的实现方式中，所述装置还包括：51.第二特征提取模块，用于基于视觉目标检测模型对所述目标帧图像提取第二高维度特征图；52.第二评分模块，用于基于所述视觉目标检测模型根据所述第二高维度特征图，对所述目标帧图像显示的所有视觉目标进行精彩程度评分；53.第二追踪模块，用于当所述目标帧图像中任意视觉目标的精彩程度评分大于所述跟踪视觉目标的精彩程度评分，在所述全景视频的每帧图像追踪该任意视觉目标。54.其中一种可能的实现方式中，所述第一评分模块具体用于将所述关键帧的所有视觉目标中精彩程度评分最高的视觉目标确定为跟踪视觉目标。55.其中一种可能的实现方式中，所述第一评分模块具体用于按照精彩程度评分从大到小顺序选取对应视觉目标作为所述跟踪视觉目标，直至所述跟踪视觉目标的数量满足预设数量。第三方面，本发明实施例提供一种视觉目标检测模型构建方法，所述方法包括：56.构建包含多个全景图像的样本集；57.根据多个维度对精彩程度的评价标准，对所述样本集中的各全景图像中具有精彩特性的物体标注综合得分；所述多个维度包括：目标类别、运动状态、人物属性、显著性；58.利用携带标注的全景图像多次训练预先构建的多层神经网络，直至所述多层神经网络针对物体输出的跟踪视觉目标与所述目标物体一致，并且精彩程度评分与对应标注综合得分相差程度小于预设阈值，将经过多次训练多层神经网络作为所述视觉目标检测模型。59.其中一种可能的实现方式中，所述预先构建的多层神经网络包括：第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络；其中，第二多层卷积神经网络和评分子网络分别连接所述第一多层卷积神经网络。60.第四方面，本发明实施例提供一种终端设备，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面提供的方法。61.第五方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面提供的方法。62.应当理解的是，本发明实施例的第二～五方面与本发明实施例的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。【附图说明】63.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。64.图1是本发明实施例训练多层神经网络的步骤流程图；65.图2是本发明实施例提出的全景视频导出方法的步骤流程图；66.图3是本发明实施例执行全景视频导出方法基于的模型结构图；67.图4是本发明实施例预设视觉目标检测模型(proposalsranking模型)的结构示意图；68.图5是本发明一种示例motracker模型输出的运动轨迹序列示意图；69.图6是本发明实施例执行另一种全景视频导出方法基于的另一种模型结构图；70.图7是本发明实施例执行另一种全景视频导出方法基于的另一种模型结构图；71.图8是本发明实施例提出的另一种全景视频导出方法的步骤流程图；72.图9本发明实施例提出的全景视频导出装置的功能模块图；73.图10为本发明实施例提供的一种电子终端设备的结构示意图；74.图11为本说明书一个实施例提供的终端设备的结构示意图。【具体实施方式】75.为了更好的理解本说明书的技术方案，下面结合附图对本发明实施例进行详细描述。76.应当明确，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本说明书保护的范围。77.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。78.为了自动评价全景视频中视角物体的精彩程度，选择精彩的视角物体进行跟踪导出2d视频，发明人提出，以携带精彩程度评分的全景图像，对搭建的多层神经网络进行训练，得到能够从视觉目标类别、运动状态、人物属性、显著性等多个方面评价视觉目标的精彩程度的神经网络模型。申请人预先训练得到视觉目标检测模型，能够从全景图像显示的物体中选择精彩程度高于预设阈值的跟踪视觉目标。79.图1是本发明实施例训练多层神经网络的步骤流程图，如图1所示本发明实施例训练多层神经网络，获得能够从视觉目标类别、运动状态、人物属性、显著性等多个方面评价视觉目标的重要性，从全景图像显示的物体中选择精彩程度高于预设阈值的跟踪视觉目标的神经网络模型的步骤包括：80.s101：构建包含多个全景图像的样本集。81.可以针对某区域采集全景视频，也可以直接拍摄全景图像，或从数据库获取全景图像。选择全景图像显示的物体中具有精彩特性的目标物体，以构建包含多个全景图像的样本集。82.例如，在全景图像选择具有精彩特性的物体预标注bbox框。83.针对同一物体的预标注bbox框未完全重合的情况，对于iou》0.7的同一类别的bbox框，则合并为同一个目标，选择所有bbox的平均坐标作为其真实bbox坐标；否则则视为2个目标，分别进行统计。84.s102：根据多个维度对精彩程度的评价标准，对所述全景图像中具有精彩特性的物体标注综合得分；所述多个维度包括：目标类别、运动状态、人物属性、显著性。85.在预标注bbox的全景图片上，对每个视觉目标(proposal)从目标类别、运动状态、人物属性、显著性等多个方面进行综合判断，获得全景图像中每个物体标注综合得分。对于全景图片中的某个视觉目标，从多个角度：是否完整无遮挡，是否独立鲜明，目标是否具有精彩性，是否具有美感，是否稀缺性等角度等，对其进行多维度的评分。86.本发明一种示例中，为了便于标注人员进行评价，将重要性离散划分为4个等级：87.1.日常普通目标。88.2.较为精彩目标。89.3.非常精彩目标。90.4.无聊目标。91.这4个等级分别对应到具体的量化分数，例如1-4等级分别得分为-5，0，3，5分。每张全景图片将由多人进行标注，并对目前的得分进行加权平均。例如，对于同一个目标，将由5人进行评分，若评分结果为92.普通，比较精彩，比较精彩，普通，比较精彩93.则对应的得分分别为[0,3,3,0,3]，目标的加权得分为1.8分。[0094]s103：利用携带标注的全景图像训练多层神经网络，直至所述多层神经网络针对物体输出的跟踪视觉目标与所述目标物体一致，并且精彩程度评分与对应标注综合得分相差程度小于预设阈值，将经过多次训练多层神经网络作为所述视觉目标检测模型。[0095]在训练过程中，将针对全景图像显示物体标注的综合得分和预标注跟踪框bbox作为监督条件，对多层神经网络进行监督训练，检测出多个候选视觉目标的bbox，多层神经网络通过roialign操作对全景图像在高维度特征图上面进行池化，针对不同bbox得到相同大小的高维特征，基于卷积神经网络计算不同bbox的精彩程度评分。计算精彩程度评分与标注的综合得分的损失值，根据损失值，调整多层神经网络的参数，直至模型收敛，获得视觉目标检测模型(proposalsranking模型)。[0096]预先构建的多层神经网络包括：第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络；其中，第二多层卷积神经网络和评分子网络分别连接所述第一多层卷积神经网络。[0097]图2是本发明实施例预先构建的多层神经网络结构示意图，如图2所示第一多层卷积神经网络由多层conv2d组成，评分子网络scorehead连接池化层，池化层连接卷积神经网络conv2d，第二多层卷积神经网络的输入层为一个卷积神经网络conv2d，输出层为两个卷积神经网络，分别输出目标框类型和位置坐标。[0098]基于上述预先训练得到的视觉目标检测模型，申请人进一步提出技术方案：同时检测出多个候选视角目标，对候选视角目标标注bbox、类型和坐标位置，并通过roialign操作对bbox在高维度特征图上面进行pooling，得到相同大小的高维特征，然后送入卷积神经网络来获得精彩程度评分。将所有的bbox按照精彩程度评分进行排序，从而获得当前帧上多个较为重要的视觉目标。每个视觉目标通过跟踪框bbox方式表示，产生的视觉目标利用单目标跟踪器进行后续的视频帧的跟踪，直至对视觉目标跟踪结束。选择合适的fov参数来渲染视觉目标的跟踪轨迹，产生视觉目标跟踪序列的2d视频，fov参数可以根据视觉目标的位置和大小进行自适应调整，例如对于高/宽较大的视觉目标，可以采用较大的fov进行渲染；对于较小的高/宽视觉目标，可以选择较小的fov参数。[0099]图3是本发明实施例提出的全景视频导出方法的步骤流程图，图4是本发明实施例执行全景视频导出方法基于的模型结构图；如图4所示本发明实施例执行全景视频导出方法基于的模型包括：proposalsranking模型、motracker模型。[0100]如图3和图4所示，执行全景视频导出方法的过程包括：[0101]s301：获得全景视频的关键帧；所述关键帧为所述全景视频中的任意图像帧。[0102]s302：基于本发明其他实施例构建的视觉目标检测模型对所述关键帧提取第一高维度特征图。[0103]s303：基于所述视觉目标检测模型根据所述第一高维度特征图，对所述关键帧显示的所有视觉目标进行精彩程度评估。[0104]s304：根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目。[0105]根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标的实施方式包括：[0106]将所述关键帧的所有视觉目标中精彩程度评分最高的视觉目标确定为跟踪视觉目标。[0107]根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标的实施方式还包括：[0108]按照精彩程度评分从大到小顺序选取对应视觉目标作为所述跟踪视觉目标，直至所述跟踪视觉目标的数量满足预设数量。[0109]根据用户需求设置预设数量m，按照视觉目标的彩程度评分，排列视觉目标，输出精彩程度评分最大的m视觉目标，作为跟踪视觉目标。[0110]图5是本发明实施例预设视觉目标检测模型(proposalsranking模型)的结构示意图。如图5所示，将全景视频的关键帧(全景图像)输入预设视觉目标检测模型，预设视觉目标检测模型的第一多层卷积神经网络conv2d提取特征图，检测得到精彩程度高于预设阈值至少一个跟踪视觉目标，标记追踪框；其中一个分支，至少一个跟踪视觉目标追踪框输入二层卷积神经网络conv2d，输出跟踪视觉目标的类型和位置坐标；其中一个分支，通过roialign操作对跟踪视觉目标在高维度特征图上面进行pooling，得到相同大小的高维特征，然后高维特征输入scorehead子网络来获得精彩程度评分score。所有的视觉目标按照精彩程度评分进行排序，获得最高的top-k个目标输入motracker模块。[0111]s305：追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列；其中，所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化。[0112]s306：对所述运动轨迹序列进行平面投影，获得所述跟踪视觉目标的运动视频。[0113]motracker模型对top-k个视觉目标进行追踪，导出所述跟踪视觉目标分别在所述全景视频中每帧画面占据的图像区域，获得所述跟踪视觉目标的运动视频的过程包括：[0114]motracker模型接受ranking模型输出的top-k个目标对象bbox，利用开源的深度跟踪模型或者传统跟踪算法进行跟踪，例如可采用多个基于staple、lighttrack等开源单目标跟踪算法实现多目标跟踪的目的，也可利用单个fairmot等多目标跟踪算法实现。跟踪每个bbox生成视角的运动轨迹序列，并保存到离线文件中，例如可以保存json文件中，结构化全景视频数据。[0115]获得视觉目标bbox的运动轨迹序列，可以利用全景投影算法实现任意轨迹的投影，生成每个视角的2d运动轨迹视频，从而实现了全景视频自动剪辑的目的。[0116]图6是本发明一种示例motracker模型输出的运动轨迹序列示意图。[0117]追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列的实施方式包括：基于预设视觉目标检测模型，输出所述至少一个跟踪视觉目标的位置坐标；根据所述位置坐标，追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列。[0118]motracker模型根据所述跟踪视觉目标的位置坐标，在所述全景视频追踪所述跟踪视觉目标，得到完整显示所述跟踪视觉目标的多个目标帧画面；连接所述跟踪视觉目标在所述多个目标帧画面中的位置，得到所述跟踪视觉目标的运动轨迹序列；根据所述运动轨迹序列，将所述跟踪视觉目标在所述全景视频的每帧画面占据的图像区域投影到与用户视线垂直的平面，获得所述跟踪视觉目标的运动视频。[0119]图7是本发明实施例执行另一种全景视频导出方法基于的另一种模型结构图，如图7所示，本发明实施例执行全景视频导出方法基于的模型包括：proposalsranking模型、motracker模型以及autoeditor模型。[0120]剪辑模型(autoeditor模型)分析多个全景视频的跟踪序列，根据精彩程度评分对每个跟踪序列进行排序，并选取得分较高的top-p个序列作为待剪辑的目标序列。对于每个目标序列，时长不一，可以根据用户的模板时长或者设定的时长进行剪辑。[0121]在本发明一种示例中，对于某个时长为10s的跟踪序列，如果此模板的需要时长为3s，则通过启发式搜索算法搜索得分最高的3s片段，进行剪辑。前top-p个序列经过剪辑后获得p个时长满足条件的视频片段，通过拼接可获得最终的视频合辑。[0122]图8是本发明实施例提出的另一种全景视频导出方法的步骤流程图，如图7和图8所示，另一种全景视频导出方法的步骤包括：[0123]s801：获得全景视频的关键帧。[0124]s802：基于本发明其他实施例构建的视觉目标检测模型对所述关键帧提取第一高维度特征图。[0125]s803：基于所述视觉目标检测模型根据所述第一高维度特征图，对所述关键帧显示的所有视觉目标进行精彩程度评分。[0126]s804：按照精彩程度评分从大到小顺序获取对应视觉目标作为所述跟踪视觉目标，直至所述跟踪视觉目标的数量满足预设数量，输出多个跟踪视觉目标的追踪框。s805：追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列；其中，所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化。[0127]s806：对所述运动轨迹序列进行平面投影，获得所述跟踪视觉目标的运动视频。[0128]s807：响应用户指定的剪辑指令，获得待显示物体和视频时间长度。[0129]s808：获得与待显示物体匹配的多个跟踪视觉目标。[0130]s809：按照所述多个跟踪视觉目标的运动视频各自对应的精彩程度评分大小，顺序选取对应目标运动视频作为待剪辑视频。[0131]s810：从所述待剪辑视频截取符合所述视频时间长度的片段，获得用户指定的显示物体的运动视频。[0132]在所述全景视频的目标帧图像追踪到所述跟踪视觉目标后，所述方法还包括：基于视觉目标检测模型对所述目标帧图像提取第二高维度特征图；基于所述视觉目标检测模型根据所述第二高维度特征图，对所述目标帧图像显示的所有视觉目标进行精彩程度评分；当所述目标帧图像中任意视觉目标的精彩程度评分大于所述跟踪视觉目标的精彩程度评分，在所述全景视频的每帧图像追踪该任意视觉目标。[0133]本发明一种示例提出全景视频导出方法的一种实现方式，获取全景视频的第一帧全景图像作为关键帧，将第一帧全景图像输入视觉目标检测模型，视觉目标检测模型检测出的精彩程度评分最高的两个跟踪视觉目标：动物a和人类b，在全景视频的第二帧全景图像追踪到动物a和人类b，第二帧全景图像输入视觉目标检测模型，视觉目标检测模型检测第二帧全景图像，输出精彩程度评分最高的两个跟踪视觉目标为：动物a和动物c，在全景视频追踪动物a、人类b以及动物c。[0134]图9是本发明实施例提出的全景视频导出装置的功能模块图，上述全景视频导出装置设置在终端设备中，如图9所示，所述装置包括：图像帧获得模块91，用于获得全景视频的关键帧；所述关键帧为所述全景视频中的任意图像帧；第一特征提取模块，用于基于如权利要求1或2构建的视觉目标检测模型对所述关键帧提取第一高维度特征图；[0135]第一评分模块92，用于基于所述视觉目标检测模型根据所述第一高维度特征图，对所述关键帧显示的所有视觉目标进行精彩程度评估；[0136]选择模块93，用于根据精彩程度评估结果选择至少一个视觉目标作为跟踪视觉目标；[0137]第一追踪模块94，用于追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列；其中，所述运动轨迹序列表示所述至少一个跟踪视觉目标在所述全景视频中的位置变化；[0138]投影模块95，用于对所述运动轨迹序列进行平面投影，获得所述跟踪视觉目标的运动视频。[0139]图9所示实施例提供的全景视频导出装置可用于执行本说明书图1至图8所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。[0140]可选地，所述装置还包括：[0141]位置输出模块，用于基于视觉目标检测模型，输出所述至少一个跟踪视觉目标的位置坐标；[0142]所述第一追踪模块具体用于根据所述位置坐标，追踪根据所述至少一个跟踪视觉目标生成的追踪框，生成运动轨迹序列。[0143]可选地，所述装置还包括：[0144]响应模块，用于响应用户指定的剪辑指令，获得待显示物体和视频时间长度；[0145]获得模块，用于获得与待显示物体匹配的多个跟踪视觉目标；[0146]选取模块，用于按照所述多个跟踪视觉目标的运动视频各自对应的精彩程度评分大小，顺序选取对应目标运动视频作为待剪辑视频；[0147]截取模块，用于从所述待剪辑视频截取符合所述视频时间长度的片段，获得用户指定的显示物体的运动视频。[0148]可选地，所述视觉目标检测模型包括第一多层卷积神经网络、第二多层卷积神经网络以及评分子网络；[0149]所述第一特征提取模块包括：[0150]图像输入子模块，用于将所述关键帧输入所述视觉目标检测模型的第一多层卷积神经网络，输出所述高维度特征图；[0151]操作子模块，用于对所述高维度特征图进行roialign操作，得到池化后的高维度特征图；[0152]所述第一评分模块包括：[0153]特征输入子模块，用于将所述池化后的高维度特征图输入所述评分子网络，输出所述关键帧中所有视觉目标的精彩程度评分。[0154]可选地，所述装置还包括：[0155]第二特征提取模块，用于基于视觉目标检测模型对所述目标帧图像提取第二高维度特征图；[0156]第二评分模块，用于基于所述视觉目标检测模型根据所述第二高维度特征图，对所述目标帧图像显示的所有视觉目标进行精彩程度评分；[0157]第二追踪模块，用于当所述目标帧图像中任意视觉目标的精彩程度评分大于所述跟踪视觉目标的精彩程度评分，在所述全景视频的每帧图像追踪该任意视觉目标。[0158]可选地，所述第一评分模块具体用于将所述关键帧的所有视觉目标中精彩程度评分最高的视觉目标确定为跟踪视觉目标。[0159]可选地，所述第一评分模块具体用于按照精彩程度评分从大到小顺序选取对应视觉目标作为所述跟踪视觉目标，直至所述跟踪视觉目标的数量满足预设数量。[0160]上述所示实施例提供的装置用于执行上述所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，在此不再赘述。[0161]上述所示实施例提供的装置例如可以是：芯片或者芯片模组。上述所示实施例提供的装置用于执行上述所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，在此不再赘述。[0162]关于上述实施例中描述的各个装置包含的各个模块/单元，其可以是软件模块/单元，也可以是硬件模块/单元，或者也可以部分是软件模块/单元，部分是硬件模块/单元。例如，对于应用于或集成于芯片的各个装置，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于电子终端设备的各个装置，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于电子终端设备内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于电子终端设备内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。[0163]图10为本发明实施例提供的一种电子终端设备的结构示意图，该电子终端设备1000包括处理器1010，存储器1011，存储在存储器1011上并可在所述处理器1010上运行的计算机程序，所述处理器1010执行所述程序时实现前述方法实施例中的步骤，实施例提供的电子终端设备可用于执行本上述所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，在此不再赘述。[0164]图11为本说明书一个实施例提供的终端设备的结构示意图，如图11所示，上述终端设备可以包括至少一个处理器；以及与上述处理器通信连接的至少一个存储器，其中：存储器存储有可被处理器执行的程序指令，上述处理器调用上述程序指令能够执行本说明书图1～图8所示实施例提供的全景视频导出方法。[0165]可以理解的是，本发明实施例示意的结构并不构成对终端设备100的具体限定。在本发明另一些实施例中，终端设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。[0166]如图11所示，终端设备100可以包括处理器110，外部存储器接口120，内部存储器121，移动通信模块150，无线通信模块160，指示器192，摄像头193，显示屏194等。[0167]处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(applicationprocessor，ap)，调制解调处理器，图形处理器(graphicsprocessingunit，gpu)，图像信号处理器(imagesignalprocessor，isp)，控制器，视频编解码器，数字信号处理器(digitalsignalprocessor，dsp)，基带处理器，和/或神经网络处理器(neural-networkprocessingunit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。[0168]控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。[0169]处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。[0170]处理器110通过运行存储在内部存储器121中的程序，从而执行各种功能应用以及数据处理，例如实现本发明图1～图8所示实施例提供的全景视频导出方法。[0171]终端设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。[0172]天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。[0173]终端设备100通过gpu，显示屏194，以及应用处理器等实现显示功能。gpu为图像处理的微处理器，连接显示屏194和应用处理器。gpu用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个gpu，其执行程序指令以生成或改变显示信息。[0174]显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquidcrystaldisplay，lcd)，有机发光二极管(organiclight‑ꢀemittingdiode，oled)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganiclightemittingdiode的，amoled)，柔性发光二极管(flexlight-emittingdiode，fled)，miniled，microled，micro-oled，量子点发光二极管(quantumdotlightemittingdiodes，qled)等。在一些实施例中，终端设备100可以包括1个或n个显示屏194，n为大于1的正整数。[0175]终端设备100可以通过isp，摄像头193，视频编解码器，gpu，显示屏194以及应用处理器等实现拍摄功能。[0176]isp用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给isp处理，转化为肉眼可见的图像。isp还可以对图像的噪点，亮度，肤色进行算法优化。isp还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，isp可以设置在摄像头193中。[0177]摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(chargecoupleddevice，ccd)或互补金属氧化物半导体(complementarymetal-oxide-semiconductor，cmos)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb，yuv等格式的图像信号。在一些实施例中，终端设备100可以包括1个或n个摄像头193，n为大于1的正整数。[0178]数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。[0179]视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样，终端设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(movingpictureexpertsgroup，mpeg)1，mpeg2，mpeg3，mpeg4等。[0180]内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflashstorage，ufs)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端设备100的各种功能应用以及数据处理。[0181]本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本说明书图1～图8所示实施例提供的全景视频导出方法。非暂态计算机可读存储介质可以指非易失性计算机存储介质。[0182]上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(readonlymemory，rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory，eprom)或闪存、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0183]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。[0184]计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、射频(radiofrequency，rf)等等，或者上述的任意合适的组合。[0185]可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(localareanetwork，lan)或广域网(wideareanetwork，wan)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。[0186]上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。[0187]在本发明实施例的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。[0188]此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。[0189]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本说明书的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本说明书的实施例所属
技术领域：
：的技术人员所理解。[0190]取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。[0191]需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(personalcomputer，pc)、个人数字助理(personaldigitalassistant，pda)、无线手持设备、平板电脑(tabletcomputer)、手机、mp3播放器、mp4播放器等。[0192]在本说明书所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。[0193]另外，在本说明书各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。[0194]上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom)、随机存取存储器(ram)、磁碟或者光盘等各种可以存储程序代码的介质。[0195]以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。当前第1页12当前第1页12

当前第1页1