一种全球遥感图文检索样本构建方法及系统-j9九游会真人

文档序号:35696277发布日期:2023-10-11 19:17阅读:9来源:国知局


1.本发明涉及一种全球土地利用图文检索样本构建方法及系统,旨在为遥感图像检索分类等任务提供可靠的数据样本采点。


背景技术:

2.近年来,随着遥感技术的不断发展,遥感数据的获取和应用越来越广泛。在许多遥感应用中,如地表覆盖分类、城市化监测、水资源管理等,数据集构建是非常关键的一步。特别是利用深度学习进行遥感地物分类、目标检测、场景检索、变化监测等任务,其需要足够数量和质量的训练样本来训练模型。而样本采样是数据集构建中的重要环节,样本采样的质量直接影响到数据集的质量和应用效果,进而影响遥感影像解译效果。
3.尽管现在遥感影像数据获取十分方便,且遥感数据集种类繁多,但是现有的数据集大多依托于生产单位或者科研项目在局部区域进行采样,导致样本空间分布不均,对于大范围下(全球)不同区域地理特点表现不足。而在全球范围内,由于不同地区地形地貌复杂多样、城市建设风格存在差异,从中获得可靠的样本难度较大。
4.目前对于遥感领域数据集采样构建方法主要分为两种,一是选取采样点,获取对应区域的遥感卫星影像,然后通过人工标注等方式制作成数据集,这类传统的采样方法包括随机采样、均匀采样、样本均衡采样等。这些方法可以快速直接的生成采样区域,但是这种方法获得的数据依赖大量人工进行标注。另外,一些基于先验信息的采样方式、如基于地物覆盖分类的采样和基于景观指数的采样可以提供一些图像的类别信息,减少人工标注的工作量。但是在全球范围内,基于这些先验信息直接确定大量采样点所需要的数据量和计算量很大。二是基于深度学习模型的采样,根据已经训练好的深度学习模型获取或生成遥感图像。这类方法典型的有基于生成式的方法、基于迁移学习的方法等。这些方法可以基于一个训练好的深度学习模型,自动化地对遥感影像进行标注或者直接生成影像。但是本身深度学习模型的训练就需要大量的可靠的数据。同时,通过深度学习生成的遥感影像存在缺失了地理坐标信息、生成质图像质量等问题;通过迁移学习的给图像进行标注则受限于训练数据集的样本类别。目前还未能有一个可实用的深度学习模型,可以针对全球范围进行图像的采样。


技术实现要素:

5.本发明为了克服上述问题,提出一种全球土地利用图文检索样本构建方法及系统。
6.本发明提出的一种全球土地利用图文检索样本构建方法,包括如下步骤:
7.步骤1,获取的全球范围内夜光遥感数据,根据全球行政区夜光遥感指数进行空间自相关性分析,划分具有显著发展水平的行政区域,得到具有显著聚类或者离散的地区;
8.步骤2,根据全球土地地表覆盖,首先计算景观指数lsi,然后在选中的显著区域分别计算区域景观指数rlsi、区域的地表覆盖类别景观指数clsi、每个地理取样单元景观指
数ulsi,分别得到每个区域的采样点数量、每个区域中每种地物的采样数量和每个采样点的位置,得到样本点最终的采样分布;
9.步骤3,基于选取的样本点,裁剪出与样本点地理位置匹配的影像数据生成样本数据,利用对应区域的open street map标签作为文本构建图文检索样本数据集。
10.进一步的,根据全局莫兰指数得到全球范围内城市发展存在空间聚类或离散的区域,当全球区域夜光遥感数据的全局莫兰指数i》0,且通过z统计量检验,说明存在显著聚类趋势;然后计算每个区域的局部莫兰指数和z统计量检验,通过z统计量检验的区域为具有显著聚类或者离散的地区;
11.所述全局莫兰指数的公式如下,
[0012][0013]
其中,zi是区域i的夜光遥感值xi与其平均值的偏差,n为区域总数,w
i,j
是区域i和j之间空间权重,所述空间权重根据邻接关系生成,当区域i和j相邻则w
i,j
=1,反之w
i,j
=0;s0是所有空间权重的聚合,公式如下,
[0014][0015]
进一步的,局部莫兰指数ii的计算公式如下,
[0016][0017]
其中,xi是区域i的夜光遥感值,为全区域夜光遥感的平均值,w
i,j
是区域i和j之间空间权重,n为区域总数,并且有,
[0018][0019]
通过z统计量检验局部莫兰指数的显著性,所述z统计量计算公式如下,
[0020][0021]
其中,e(ii)表示ii的期望,var(ii)表示ii的方差,为了判断零假设是否成立,计算zi统计量的pi值并与显著性水平进行比较,取pi值计算公式如下,
[0022][0023]
其中,为标准正态分布函数,如果则表示区域存在一定的聚类或者离散趋势;
[0024]
对于通过显著性检验的区域i,根据zi和空间滞后值si可以将区域i划分为四种模式,分别是高高聚类、高低聚类、低高聚类和低低聚类,所述空间滞后值si计算公式如下,
[0025][0026]
其中,zj为区域j的z值,w
i,j
是区域i和j之间空间权重。
[0027]
当zi》0且si》0,区域i为高高聚类;zi《0且si》0,区域i为低高聚类;zi》0且si《0,区域i为高低聚类;zi《0且si《0,区域i为低低聚类。
[0028]
进一步的,所述景观指数lsi是某一范围内景观周长与面积之比,定量化表示该区域的景观异质性,公式如下,
[0029][0030]
其中,q为像素个数,bj为像素j的边数,图像是栅格数据,像素点等效看成一个小正方形,像素点i和像素点j相邻且类型不同,两个像素点间有一条边;像素点i和像素点j相邻但类别相同,则像素点之间没有边。
[0031]
进一步的,将某一区域的景观指数记为rlsi,区域采样点数量ni与所述区域景观指数rlsi有关,计算公式如下:
[0032][0033]
其中,si和sj分别表示区域i和j的面积,n为样本总量,n为区域总数。
[0034]
进一步的,将某一区域中某一地表覆盖类型景观指数记为cksi,根据地表覆盖类别景观指数clsi确定各样本采样数量,对于区域i中类别k的采样数量,其计算公式如下,
[0035][0036]
其中,cn
i,k
为区域i中类别k的采样数量,ni为区域采样点数量,w
i,k
为类别k在区域i的面积占比,m为类别总数。
[0037]
进一步的,地理采样单元ulsi自适应选择样本点位置,假设区域i由a
×
b个地理单元组成,在每个地理单元中可以计算各个地物覆盖类别景观指数第k类在第a行、b列的ulsi公式如下,
[0038][0039]
计算每个单元的ulsi,再根据ulsi对地理单元进行排序,得到一个分布曲线x轴为地理单元坐标,y轴为对于区域i中类别k,将分布曲线值为0的区域去除,再在x轴上划分cn
i,k
等分,在每一个区间中随机选择一个采样点,以此构成类别k在区域i的采样点。
[0040]
本发明还提供一种全球遥感图文检索样本构建系统,包括如下模块:
[0041]
数据获取模块,用于获取的全球范围内夜光遥感数据,根据全球行政区夜光遥感指数进行空间自相关性分析,划分具有显著发展水平的行政区域,得到具有显著聚类或者离散的地区;
[0042]
样本点确定模块,用于根据全球土地地表覆盖,首先计算景观指数lsi,然后在选中的显著区域分别计算区域景观指数rlsi、区域的地表覆盖类别景观指数clsi、每个地理取样单元景观指数ulsi,分别得到每个区域的采样点数量、每个区域中每种地物的采样数量和每个采样点的位置,得到样本点最终的采样分布;
[0043]
数据集构建模块,用于基于选取的样本点,裁剪出与样本点地理位置匹配的影像
数据生成样本数据,利用对应区域的open street map标签作为文本构建图文检索样本数据集。
[0044]
进一步的,将某一区域的景观指数记为rlsi,区域采样点数量ni与所述区域景观指数rlsi有关,计算公式如下:
[0045][0046]
其中,li和sj分别表示区域i和j的面积,n为样本总量,n为区域总数。
[0047]
进一步的,将某一区域中某一地表覆盖类型景观指数记为clsi,根据地表覆盖类别景观指数clsi确定各样本采样数量,对于区域i中类别k的采样数量,其计算公式如下,
[0048][0049]
其中,cn
i,k
为区域i中类别k的采样数量,ni为区域采样点数量,w
i,k
为类别k在区域i的面积占比,m为类别总数。
[0050]
与现有技术相比,本发明的优点和有益效果如下:
[0051]
1、在全球范围内,依照夜光遥感数据以及全球地表覆盖等先验信息,利用空间自相关分析更好地划分不同发展模式的区域,为全球范围采样区域的选取提供可靠依据。
[0052]
2、利用三种景观指数为样本点的选取提供依据,避免采取的样本种类不均匀且可以获得更复杂的空间特征,便于深度学习模型的训练。
[0053]
3、结合open street map(osm)作为图像标签,减轻了人工标注巨大的动作量,为遥感图文多模态研究提供可行的数据集构建模式。
附图说明
[0054]
图1为本发明实施例生成的全局莫兰指数检验报表;
[0055]
图2为本发明实施例中区域i被划分成a
×
b个地理单元的示意图(a)和在每个地理单元中计算得到的各个地物覆盖类别景观指数
[0056]
图3为本发明实施例采样点随机采样示意图;
[0057]
图4为本发明实施例中构成类别k在区域i的采样位置(a)和采样点(b)示意图。
具体实施方式
[0058]
为了更好的理解本发明的技术方案,下面将结合附图和实施例对本发明技术方案做详细说明。
[0059]
本发明提供的一种全球土地利用图文检索样本构建方法,包括如下步骤:
[0060]
步骤1,将获取的全球范围内夜光遥感数据,根据全球行政区边界进行区域划分。夜光遥感数据一般与区域发展水平成正比关系,因此可以针对全球行政区夜光遥感指数进行空间自相关性分析,划分具有显著发展水平的行政区域。所述空间自相关性分析为全局莫兰指数和局部莫兰指数。根据全局莫兰指数得到全球范围内城市发展存在空间聚类或离散现象。为获取具体哪些行政区域是显著聚集或离散,计算每个区域的局部莫兰指数和z统计量检验。通过z统计量检验的区域为具有显著聚类或者离散的地区。
[0061]
所述全局莫兰指数的公式如下,
[0062][0063]
其中,zi是区域i的夜光遥感值xi与其平均值的偏差,n为区域总数,w
i,j
是区域i和j之间空间权重。所述空间权重根据邻接关系生成,当区域i和j相邻则w
i,j
=1,反之w
i,j
=0。s0是所有空间权重的聚合,公式如下,
[0064][0065]
一般莫兰指数的显著性通过z统计量进行检验,所述z统计量计算公式如下,
[0066][0067]
其中,e(i)表示i的期望,var(i)表示i的方差。为了判断零假设是否成立,需要计算z统计量的p值并与显著性水平进行比较。一般取p值计算公式如下,
[0068][0069]
其中,为标准正态分布函数。如果则表示空间存在一定的聚类或者离散趋势。根据计算,全球区域夜光遥感数据的全局莫兰指数i》0,且通过了z统计量检验,说明存在显著聚类趋势。在此基础上为了进一步确定具有显著聚类区域,需要进行局部莫兰指数计算。
[0070]
所述局部莫兰指数计算公式如下,
[0071][0072]
其中,xi是区域i的夜光遥感值,为全区域夜光遥感的平均值,w
i,j
是区域i和j之间空间权重,n为区域总数,并且有,
[0073][0074]
通过z统计量检验局部莫兰指数的显著性,所述z统计量计算公式如下,
[0075][0076]
其中,e(ii)表示ii的期望,var(ii)表示ii的方差。为了判断零假设是否成立,需要计算zi统计量的pi值并与显著性水平进行比较。一般取pi值计算公式如下,
[0077][0078]
其中,为标准正态分布函数。如果则表示区域存在一定的聚类或者离散趋势。
[0079]
对于局部莫兰指数,若zi是一个正值,则表示周围的要素拥有相似值(高值或低
值)。若zi是一个负值,则表示有一个具有统计显著性的异常值(高值环绕低值或者低值环绕高值)。
[0080]
局部莫兰指数可以更明确地给出每个区域具体的聚集类型。对于通过显著性检验的区域i,根据zi和空间滞后值si可以将区域i划分为四种模式,分别是高高聚类、高低聚类、低高聚类和低低聚类。所述空间滞后值si计算公式如下,
[0081][0082]
其中,zj为区域j的z值,w
i,j
是区域i和j之间空间权重。
[0083]
当zi》0且i》0,区域i为高高聚类;zi《0且i》0,区域i为低高聚类;zi》0且i《0,区域i为高低聚类;zi《0且i《0,区域i为低低聚类。
[0084]
步骤2,根据全球土地地表覆盖,在选中的显著区域分别计算区域景观指数rlsi、区域的地表覆盖类别景观指数clsi、每个地理取样单元景观指数ulsi,分别得到每个区域的采样点数量、每个区域中每种地物的采样数量和每个采样点的位置,得到样本最终的采样分布。
[0085]
所述景观指数lsi是某一范围内景观周长与面积之比,定量化表示该区域的景观异质性,公式如下,
[0086][0087]
其中,q为像素个数,bj为像素j的边数,图像是栅格数据,像素点可以等效看成一个小正方形。像素点i和像素点j相邻且类型不同,两个像素点间有一条边;像素点i和像素点j相邻但类别相同,则像素点之间没有边。
[0088]
将某一区域的景观指数记为rlsi,区域采样点数量ni与所述区域景观指数rlsi有关,计算公式如下:
[0089][0090]
其中,si和sj分别表示区域i和j的面积,n为样本总量。
[0091]
将某一区域中某一地表覆盖类型景观指数记为clsi,根据地表覆盖类别景观指数clsi确定各样本采样数量,对于区域i中类别k的采样数量,其计算公式如下,
[0092][0093]
其中,cn
i,k
为区域i中类别k的采样数量,ni为区域采样点数量,w
i,k
为类别k在区域i的面积占比,m为类别总数。
[0094]
所述地理采样单元景观指数ulsi自适应选择样本点位置,假设区域i由a
×
b个地理单元组成,在每个地理单元中可以计算各个地物覆盖类别景观指数第k类在第a行、b列的ulsi公式如下,
[0095]
[0096]
计算每个单元的ulsi,再根据ulsi对地理单元进行排序,得到一个分布曲线x轴为地理单元坐标,y轴为对于区域i中类别k,将分布曲线值为0的区域去除,再在x轴上划分cn
i,k
等分,在每一个区间中随机选择一个采样点,以此构成类别k在区域i的采样点。
[0097]
步骤3,基于选取的采样点,裁剪出与样本点地理位置匹配的影像数据生成样本数据,利用对应区域的open street map(osm)标签作为文本构建图文检索样本数据集。
[0098]
下面通过一个具体的例子说明本发明的具体实施步骤:
[0099]
步骤1.确定全球发展显著的地区
[0100]
首先需要准备好全球范围夜光遥感数据,如viirs夜光遥感数据,和全球城市行政区域边界矢量数据,如databse of global administrative areas(gadm)数据。将夜光遥感栅格数据v和全球城市行政区域边界矢量数据b导入到arcgis pro中,经过转整形、栅格转面操作将栅格数据转为面矢量数据,再与行政边界数据进行相交操作得到i,可以获得每个行政区域的夜光遥感数值。选择arcgis pro工具箱中的空间自相关分析(global moran’s i)工具,对输入要素类i的夜光遥感数值字段进行全局莫兰指数检验,生成报表如附图1,可知全球范围的夜光遥感数据成显著聚类模式,因此可以进行局部莫兰指数计算。利用arcgis pro工具箱中的聚类和异常值分析(anselin local moran’s i)工具,对输入要素类i进行局部莫兰指数分析,输出得到局部区域的zi、pi和ii。以zi为x轴,为y轴,将平面区域划分为四个象限,对应四种空间结构。当且zi》0时,对应区域i为高高聚集区域;当且zi《0时,对应区域i为低高聚集区域;当且zi》0时,对应区域i为高低聚集区域;当且zi《0时,对应区域i为低低聚集区域;因此每个行政区域根据输出的zi、pi和ii,可以得到各区域发展上的空间结构。选取具有显著空间结构的区域作为代表的采样区域。
[0101]
步骤2.采样点的确定
[0102]
根据步骤1中确定的采样区域,准备好对应区域的土地利用覆盖数据,如from-glc 10m(2017年)全球10m土地利用覆盖数据集。假设一共需要获取n个采样点,先计算各区域的区域景观指数rlsii,确定各个区域的采样数ni。在每一个区域内,计算地表覆盖类别景观指数clsii,确定区域i中类别k的样本数量cn
i,k
。假设区域i可以被划分成a
×
b个地理单元如图2(a)所示。在每个地理单元中可以计算各个地物覆盖类别景观指数如图2(b)所示。按从大到小对区域i中类别k的进行排序,可以得到一个分布曲线x轴为地理单元坐标,y轴为对于区域i中类别k,将分布曲线值为0的区域去除,再在x轴上划分cn
i,k
等分,在每一个区间中随机选择一个采样点,如图3所示。以此构成类别k在区域i的采样位置和采样点,如图4(a)(b)所示。
[0103]
步骤3.图文检索样本构建
[0104]
根据获取的采样点,选取对应区域范围的遥感影像和对应区域的open street map(osm)标签作为样本数据构成全球范围的图文检索遥感数据集。
[0105]
具体实施时,本发明可采用计算机软件技术实现自动运行流程,运行本发明流程
的装置也应当在保护范围内。
[0106]
本发明还提供一种全球遥感图文检索样本构建系统,包括如下模块:
[0107]
数据获取模块,用于获取的全球范围内夜光遥感数据,根据全球行政区夜光遥感指数进行空间自相关性分析,划分具有显著发展水平的行政区域,得到具有显著聚类或者离散的地区;
[0108]
样本点确定模块,用于根据全球土地地表覆盖,首先计算景观指数lsi,然后在选中的显著区域分别计算区域景观指数rlsi、区域的地表覆盖类别景观指数clsi、每个地理取样单元景观指数ulsi,分别得到每个区域的采样点数量、每个区域中每种地物的采样数量和每个采样点的位置,得到样本点最终的采样分布;
[0109]
数据集构建模块,用于基于选取的样本点,裁剪出与样本点地理位置匹配的影像数据生成样本数据,利用对应区域的open street map标签作为文本构建图文检索样本数据集。
[0110]
各模块的具体实现方式与各步骤相同,本发明不予撰述。
[0111]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图