1.本发明属于计算机视觉领域,尤其针对深度传感系统,具体涉及一种基于深度先验的深度估计空间划分优化方法及系统。
背景技术:
2.从智能手机摄像头和增强现实(ar)/虚拟现实(vr)应用到自动驾驶,甚至更复杂的机器人任务,许多不同的计算机视觉算法在我们的日常生活中变得越来越常见。为了有效地解决这些问题,获取精确可靠的三维场景信息是至关重要的。考虑到最近大多数移动设备都有一个以上的摄像头,甚至一个lidar传感器,人们普遍认为通过集成多个传感器输入来进行3d重建是一种更有效和实用的方法。因此,使用深度传感器来获得更准确的初始深度信息也是首选。然而,商业化的深度传感器(如3d lidar、kinect相机)的主要缺点之一是测量深度的稀疏性。为了解决这个问题,出现了各种方法,试图将稀疏深度测量“补全”为密集深度图,即“深度补全”。
3.目前已经有许多主流的方法将深度估计任务公式化为逐像素回归。逐像素回归方法可以精确地预测像素深度,因此成为一个普遍的范式。尽管证明了它们的巨大成功,但这些方法仍然面临收敛速度慢和结果不满意的问题。另一些方法将连续的深度值离散化,并通过深度网络学习将其作为逐像素分类问题。虽然这种方法显著提高了模型性能,但是深度值的离散化将导致视觉质量较差,具有明显的不连续现象。为了解决这个问题,一些方法将深度估计任务重新定义为逐像素的分类-回归任务,学习每个像素上的概率表示,并将最终深度值预测为与每个离散区间中心的线性组合。区间中心在uniform/log-uniform空间(ud/sid)或训练过的空间(针对每个数据集)中预先定义。他们将两项任务的优点结合起来,从而取得更好的表现。但如何有效的进行离散空间划分来帮助提升深度估计效果仍有巨大的开发空间。
技术实现要素:
4.针对现有技术中存在的不足,本发明提供一种基于深度先验的深度估计空间划分优化方法及系统。
5.本发明主要针对将深度估计视为分类-回归任务相结合的一类方法。此类方法主要有两个主要子任务即空间划分(离散深度区间划分)和逐像素概率预测。由于最后生成的深度图是由这两个任务的结果结合得出,所以提升其中任意一个子任务的效果都会提升整体深度估计的效果。其中,空间划分子任务主要是需要将给定场景的深度区间进行离散划分,而该任务每次普遍只有一张rgb图作为输入,即我们需要根据这张rgb图提供的有限信息来进行空间划分,这是一项非常具有挑战的任务。
6.为了缓解只有rgb图导致的空间信息缺失,本发明首先引入了一张稀疏深度图来作为深度先验知识来帮助离散深度区间的划分,之后利用目前先进的transformer技术设计了一个针对性的轻量化特征提取模块来对其进行特征提取,充分利用引入的稀疏深度图
中的有效信息。通过这种方法来提升空间划分的合理性,从而使得最后深度估计得效果得到提升。
7.一种基于深度先验的深度估计空间划分优化方法,包括步骤如下:
8.步骤1、获取rgb图及对应的稀疏深度图;
9.通过相机获取给定场景的rgb图,并使用深度传感器获取对应的稀疏深度图。
10.步骤2、通过轻量化特征提取模块处理稀疏深度图,获得空间划分结果;
11.步骤3、通过深度估计网络进行概率预测;
12.步骤4、将得到的空间划分结果和概率结合起来得到最终的深度图;
13.进一步的,步骤2具体方法如下;
14.轻量化特征提取模块首先提取稀疏深度图中有效的深度点的坐标组成初始空间特征,该特征维度为n
×
3,其中n为有效的深度点的个数,3指的是每个点的横坐标,纵坐标及其深度这3个值;之后通过成组的全连接神经网络层来将其第2个维度变换为dim-3,再将其与最开始的n
×
3维特征拼接在一起,即特征维度变为n
×
dim,在实际实施过程中dim=256;然后再通过一个一维卷积层将空间特征的第一维度变为m,即特征维度变为m
×
dim,在实际实施过程中m=128。至此就得到一个维度为m
×
dim的空间特征,其中包含了稀疏深度图中的空间信息,将这个m
×
dim维的空间特征作为初始的空间划分;最后再通过一个transformer模块对其进行进一步特征处理,获得最终的空间划分特征。transformer模块不会改变特征的尺寸,但会增强特征內部各部分的关联。
15.进一步的,步骤3具体方法如下;
16.采用经过和轻量化特征提取模块联合训练后的u-net结构的深度估计网络对步骤1得到的rgb图及对应的稀疏深度图进行处理,输出一张能够表示rgb图及稀疏深度图中每个像素对应于步骤2中空间划分特征的概率图p。
17.进一步的,步骤4具体方法如下;
18.首先将步骤2得到的空间划分特征通过一个全连接层得到最终的空间划分向量b,该向量由m个数值组成,依次代表了每个划分出来的小深度区间的宽度,通过这个代表区间宽度的向量b得出每个深度区间的中心深度值:
[0019][0020]
其中bi表示第i个深度区间的宽度;d
min
和d
max
分别表示整个深度区间的最小深度值和最大深度值;bj表示第i个区间之前的一个深度区间的宽度。计算得到深度区间向量c(b):={c(b1),c(b2),
…
,c(bn)}。再结合步骤3得到的概率图p计算每个像素的深度值
[0021][0022]
其中为得到的深度值,c(bk)为第k个深度区间中心的深度值,pk为该像素属于第k个深度区间的概率。计算得到所有像素的深度值后即获得最终的深度图。
[0023]
进一步的,训练阶段通过在数据集中的深度标签上进行随机采样来模拟真实场景
下通过深度传感器得到的稀疏深度图,采用在深度标签上固定采样500个深度点来作为稀疏深度图;所述的数据集采用现有的nyuv2和kitti数据集。
[0024]
一种基于深度先验的深度估计空间划分优化系统,包括数据获取模块、轻量化特征提取模块、深度估计模块和最终深度图获取模块。
[0025]
所述的数据获取模块用于获取rgb图及对应的稀疏深度图;通过相机获取给定场景的rgb图,并使用深度传感器获取对应的稀疏深度图。
[0026]
所述的轻量化特征提取模块用于处理稀疏深度图,获得空间划分结果;
[0027]
轻量化特征提取模块首先提取稀疏深度图中有效的深度点的坐标组成初始空间特征,该特征维度为n
×
3,其中n为有效的深度点的个数,3指的是每个点的横坐标,纵坐标及其深度这3个值;之后通过成组的全连接神经网络层来将其第2个维度变换为dim-3,再将其与最开始的n
×
3维特征拼接在一起,即特征维度变为n
×
dim,在实际实施过程中dim=256;然后再通过一个一维卷积层将空间特征的第一维度变为m,即特征维度变为m
×
dim,在实际实施过程中m=128。至此就得到一个维度为m
×
dim的空间特征,其中包含了稀疏深度图中的空间信息,将这个m
×
dim维的空间特征作为初始的空间划分;最后再通过一个transformer模块对其进行进一步特征处理,获得最终的空间划分特征。transformer模块不会改变特征的尺寸,但会增强特征內部各部分的关联。
[0028]
所述的深度估计模块用于进行概率预测;
[0029]
所述的深度估计模块采用经过和轻量化特征提取模块联合训练后的现有的u-net结构的深度估计网络对数据获取模块得到的rgb图及对应的稀疏深度图进行处理,输出一张能够表示rgb图及稀疏深度图中每个像素对应于轻量化特征提取模块中空间划分特征的概率图p。
[0030]
所述的最终深度图获取模块将得到的空间划分结果和概率结合起来得到最终的深度图;
[0031]
首先将轻量化特征提取模块得到的空间划分特征通过一个全连接层得到最终的空间划分向量b,该向量由m个数值组成,依次代表了每个划分出来的小深度区间的宽度,通过这个代表区间宽度的向量b得出每个深度区间的中心深度值:
[0032][0033]
其中bi表示第i个深度区间的宽度;d
min
和d
max
分别表示整个深度区间的最小深度值和最大深度值;bj表示第i个区间之前的一个深度区间的宽度。计算得到深度区间向量c(b):={c(b1),c(b2),
…
,c(bn)}。再结合深度估计模块得到的概率图p计算每个像素的深度值
[0034][0035]
其中为得到的深度值,c(bk)为第k个深度区间中心的深度值,pk为该像素属于第k个深度区间的概率。计算得到所有像素的深度值后即获得最终的深度图。
[0036]
本发明有益效果如下:
[0037]
本发明相较于传统的分类-回归类单目深度估计方法增加了基于稀疏深度图的引导,在一定程度上提升了深度空间划分的质量,达到使深度估计结果更加准确的效果。
附图说明
[0038]
图1为本发明实施例的整体网络模型图;
[0039]
图2为本发明实施例轻量化特征提取模块示意图;
具体实施方式
[0040]
下面结合具体实施方式对本发明进行详细的说明。
[0041]
如图1所示,本发明提出的一种基于深度先验的深度估计空间划分优化方法,包括步骤如下:
[0042]
步骤1、获取rgb图及对应的稀疏深度图;
[0043]
通过相机获取给定场景的rgb图,并使用深度传感器获取对应的稀疏深度图。
[0044]
步骤2、通过轻量化特征提取模块处理稀疏深度图,获得空间划分结果;
[0045]
由于稀疏深度图中有效的深度点只有有限个,例如训练阶段的500个点。所以没有必要采用冗余繁杂的大型神经网络来进行特征提取。于是本发明设计了一种针对稀疏深度图的轻量化特征提取模块。如图2所示,轻量化特征提取模块首先提取稀疏深度图中有效的深度点的坐标组成初始空间特征,该特征维度为n
×
3,其中n为有效的深度点的个数,3指的是每个点的横坐标,纵坐标及其深度这3个值;之后通过成组的全连接神经网络层来将其第2个维度变换为dim-3,再将其与最开始的n
×
3维特征拼接在一起,即特征维度变为n
×
dim,在实际实施过程中dim=256;然后再通过一个一维卷积层将空间特征的第一维度变为m,即特征维度变为m
×
dim,在实际实施过程中m=128。至此就得到一个维度为m
×
dim的空间特征,其中包含了稀疏深度图中的空间信息,将这个m
×
dim维的空间特征作为初始的空间划分;最后再通过一个transformer模块对其进行进一步特征处理,获得最终的空间划分特征。transformer模块不会改变特征的尺寸,但会增强特征內部各部分的关联。
[0046]
步骤3、通过深度估计网络进行概率预测;
[0047]
由于本发明重点在于提升空间划分的质量而非概率预测的准确性,于是概率预测部分就采用经过和轻量化特征提取模块联合训练后的u-net结构的深度估计网络对步骤1得到的rgb图及对应的稀疏深度图进行处理,输出一张能够表示rgb图及稀疏深度图中每个像素对应于步骤2中空间划分特征的概率图p。
[0048]
步骤4、将得到的空间划分结果和概率结合起来得到最终的深度图;
[0049]
首先将步骤2得到的空间划分特征通过一个全连接层得到最终的空间划分向量b,该向量由m个数值组成,依次代表了每个划分出来的小深度区间的宽度,通过这个代表区间宽度的向量b得出每个深度区间的中心深度值:
[0050]
[0051]
其中bi表示第i个深度区间的宽度;d
min
和d
max
分别表示整个深度区间的最小深度值和最大深度值;bj表示第i个区间之前的一个深度区间的宽度。计算得到深度区间向量c(b):={c(b1),c(b2),
…
,c(bn)}。再结合步骤3得到的概率图p计算每个像素的深度值
[0052][0053]
其中为得到的深度值,c(bk)为第k个深度区间中心的深度值,pk为该像素属于第k个深度区间的概率。计算得到所有像素的深度值后即获得最终的深度图。
[0054]
训练阶段通过在数据集中的深度标签上进行随机采样来模拟真实场景下通过lidar等深度传感器得到的稀疏深度图,采用在深度标签上固定采样500个深度点来作为稀疏深度图;数据集采用现有的nyuv2和kitti数据集。
[0055]
一种基于深度先验的深度估计空间划分优化系统,包括数据获取模块、轻量化特征提取模块、深度估计模块和最终深度图获取模块。
[0056]
数据获取模块用于获取rgb图及对应的稀疏深度图;通过相机获取给定场景的rgb图,并使用深度传感器获取对应的稀疏深度图。
[0057]
轻量化特征提取模块用于处理稀疏深度图,获得空间划分结果;
[0058]
轻量化特征提取模块首先提取稀疏深度图中有效的深度点的坐标组成初始空间特征,该特征维度为n
×
3,其中n为有效的深度点的个数,3指的是每个点的横坐标,纵坐标及其深度这3个值;之后通过成组的全连接神经网络层来将其第2个维度变换为dim-3,再将其与最开始的n
×
3维特征拼接在一起,即特征维度变为n
×
dim,在实际实施过程中dim=256;然后再通过一个一维卷积层将空间特征的第一维度变为m,即特征维度变为m
×
dim,在实际实施过程中m=128。至此就得到一个维度为m
×
dim的空间特征,其中包含了稀疏深度图中的空间信息,将这个m
×
dim维的空间特征作为初始的空间划分;最后再通过一个transformer模块对其进行进一步特征处理,获得最终的空间划分特征。transformer模块不会改变特征的尺寸,但会增强特征內部各部分的关联。
[0059]
深度估计模块用于进行概率预测;
[0060]
深度估计模块采用经过和轻量化特征提取模块联合训练后的现有的u-net结构的深度估计网络对数据获取模块得到的rgb图及对应的稀疏深度图进行处理,输出一张能够表示rgb图及稀疏深度图中每个像素对应于轻量化特征提取模块中空间划分特征的概率图p。
[0061]
最终深度图获取模块将得到的空间划分结果和概率结合起来得到最终的深度图;
[0062]
首先将轻量化特征提取模块得到的空间划分特征通过一个全连接层得到最终的空间划分向量b,该向量由m个数值组成,依次代表了每个划分出来的小深度区间的宽度,通过这个代表区间宽度的向量b得出每个深度区间的中心深度值:
[0063][0064]
其中bi表示第i个深度区间的宽度;d
min
和d
max
分别表示整个深度区间的最小深度
值和最大深度值;bj表示第i个区间之前的一个深度区间的宽度。计算得到深度区间向量c(b):={c(b1),c(b2),
…
,c(bn)}。再结合深度估计模块得到的概率图p计算每个像素的深度值
[0065][0066]
其中为得到的深度值,c(bk)为第k个深度区间中心的深度值,pk为该像素属于第k个深度区间的概率。计算得到所有像素的深度值后即获得最终的深度图。
[0067]
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。
[0068]
本发明未详细说明部分属于本领域技术人员公知技术。