基于人类交互感知的目标检测方法、装置及存储介质-j9九游会真人

文档序号：35752892发布日期：2023-10-16 18:03阅读：14来源：国知局

1.本发明涉及目标检测技术领域，特别是一种基于人类交互感知的目标检测方法、装置及存储介质。

背景技术：

2.目标检测的主要思想为从图像中找出特定目标并对其进行定位和分类。随着计算机智能技术的不断发展，目标检测技术在无人驾驶、视频监控、疫情防控等众多领域的应用日趋普遍。目前，目标检测算法多是基于深度学习的，基于深度学习的目标检测方法在检测速度和精度上具有显著优势，在复杂场景下性能表现较好。redom j等人提出的yolo算法
[1,2]
是目前目标检测领域最常用的算法之一，它主要通过单一的神经网络来预测边界框的位置和框内物体的类别，具有检测速度快、背景误检率低、泛化能力强等优点。ren等人提出了faster r-cnn算法
[3,4]
，该算法采用区域建议网络（rpn）来生成区域建议，实现端到端结构的目标检测模型。但是这类目标检测算法是对所有目标对象进行检测，该策略并不符合人们认知和观察现实世界的规律，在实际应用中容易识别到大量的无效目标，无法准确检测人类和与人类交互物体的空间对应关系，从而造成目标检测效率的下降。
[0003]
目前，人们对目标检测算法提出了更高的要求。如疫情防控领域，需要在复杂场景中将行人从众多目标中识别出来，并判断行人是否佩戴口罩。在这类检测场景中，需要准确检测人类和与人类交互物体的空间对应关系，极易造成具有相似空间布局的不同动作的歧义（例如“手中持有口罩”与“正确佩戴口罩”）。事实上人的外观信息在现实世界中的确暗示了发生交互物体的位置。在这种情况下，就需要基于人类动作进行相关目标的定位。gkioxari提出一种以人为中心的方法驱动交互识别
[5]
。面对纷繁复杂的图像，通过图像中人物的外观，揭示其相关联的动作和姿态，对于推断交互的目标对象可能位于何处也非常有用的。因此，通过估计条件减少目标对象搜索空间。但该方法提供的空间信息十分粗糙，导致特征难以精确的预测动作。
[0004]
为此，如何通过视觉特征理解目标之间是如何发生交互，并分析视觉依存关系，是亟需解决的技术问题。

技术实现要素：

[0005]
本发明所要解决的技术问题是，针对现有技术不足，提供一种基于人类交互感知的目标检测方法、装置及存储介质，精确地预测人的动作。
[0006]
为解决上述技术问题，本发明所采用的技术方案是：一种基于人类交互感知的目标检测方法，包括以下步骤：s1、获取图像数据集，利用所述图像数据集训练cnn网络，得到预训练的cnn模型，利用所述预训练的cnn模型提取图像的特征，得到卷积特征图；s2、将所述卷积特征图作为rpn网络的输入，得到物体边界框和对应的类别标签，以及人体边界框和对应的类别标签；
s3、提取所述物体边界框和人体边界框的特征，分别得到第一特征向量和第二特征向量；s4、将所述第一特征向量和第二特征向量作为神经网络的输入，获得动作概率和行为分类概率；，a表示动作总数；s5、利用下式计算最终动作预测的得分：；其中，为人类行为分类概率，为人体检测的目标置信度，为物体检测的目标置信度；s6、选取得分最高的动作作为当前人的预测动作。
[0007]
上述方案包括了三个主要分支，即人类分支、物体检测分支和交互分支，目标是检测和识别三元组的形式（人类，动词，对象）。人类分支和物体检测分支可准确定位人和物体边界框和其对应的行为概率，交互分支通过建模人和物体的空间关系来准确预测动作。本发明以人作为中心来建立基于人类交互感知的网络，相较于其他通用的检测任务，更加精细化和多样化，可以更加精确地预测人的动作。
[0008]
所述第一特征向量和第二特征向量的获取过程相同；所述第一特征向量由、以及上下文特征叠加得到；其中，；；；为将所述物体边界框和人体边界框对应的卷积特征图依次输入残差块、全局平均池化层得到的实例级外观特征，为将所述卷积特征图映射编码到n维空间中得到的特征，表示利用fc全连接层对目标特征向量进行降维。
[0009]
上述方案称为人类交互感知注意模块，引入此模块帮助提取目标外观特征。该模块是以外观实例为中心的关注模式，能将此模块灵活运用在以人为中心的分支和目标物体的分支来预测动作，并且是端到端。通过使用人外观信息来突出与人发生交互的物体区域。其技术优势在于可通过特征提取网络自动学习和训练，不断提升性能。相比于图像的注意力机制，人类交互感知注意模块拥有更大的灵活性，能根据不同目标外观来提取图像中不同区域特征，进一步提高了预测结果的准确性。
[0010]
步骤s5中，人类行为分类概率的具体获取过程包括：将所述物体边界框和人体边界框的并集作为参考框，构造包含物体边界框和人体边界框的双通道二进制图像；将所述二进制图像作为第一卷积神经网络的输入，获取该二进制图像双通道包含的空间特征；融合所述空间特征和人体边界框对应的实例级外观特征，将融合后的特征输入第二卷积神经网络，得到人类行为分类概率。
[0011]
上述过程的重点是利用边界框的位置信息研究人和物体的空间关系。虽然人和物体的外观特征包含有识别交互的线索，但仅用外观特征常常导致不正确的预测，为此提出上述交互模式表征两个边界框的相对位置，来分析人和物体的空间关系。
[0012]
对于一些不涉及任何目标对象的动作类（例如，步行，微笑），因为，和都变成0，仅来自人类分支的动作分数和人体检测的目标置信度。因此，步骤s5中，对于不涉及任何目标对象的动作，所述最终动作预测的得分。
[0013]
本发明还提供了一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序；所述处理器执行所述计算机程序，以实现本发明所述方法的步骤。
[0014]
本发明还提供了一种计算机程序产品，包括计算机程序/指令；该计算机程序/指令被处理器执行时实现本发明所述方法的步骤。
[0015]
本发明还提供了一种计算机可读存储介质，其上存储有计算机程序/指令；所述计算机程序/指令被处理器执行时实现本发明所述方法的步骤。
[0016]
与现有技术相比，本发明所具有的有益效果为：本发明以人类为第一视角，在faster r-cnn算法基础上，提出了一种基于人类交互感知的目标检测方法。在面对错综复杂的现实场景，通过视觉特征理解目标之间是如何发生交互，并分析视觉依存关系。本发明中基于人类处于这种相互作用的中心，来检测人与其他目标的相互作用。本发明能有效减少视频域无效的目标识别。这种以人为核心的目标检测模式，有助于实际应用的计算效率和视觉关系的挖掘。为了建模人类与物体发生交互的空间关系识别，通过双通道二值图像来表征交互模式，最终设计出一个检测人类和与人类发生交互的物体的检测模型。经过实验证明，本发明的可行性高，能有效的挖掘视频领域的人物之间视觉关系，达到人与物体的交互感知的目的。
附图说明
[0017]
图1为本发明实施例方法原理框图；图2为本发明实施例人类交互感知注意力模块结构图；图3为本发明物体边界框和人体边界框的双通道二进制图像交互模式图。
具体实施方式
[0018]
本发明实施例以人作为中心来建立基于人类交互感知的网络，相较于其他通用的检测任务，更加精细化和多样化。
[0019]
本发明中，目标是检测和识别三元组的形式（人类、动词、对象），因此必须准确地定位人和目标边界框(分别由bh和bo表示)，并识别其执行的动作。包括以下步骤：1）基于目标检测faster r-cnn和人类交互感知注意模块的物体检测，为每物体的框bo和动作分配一个行为分类概率。
[0020]
2）基于目标检测faster r-cnn和人类交互感知注意模块动态生成感兴趣的人类特征，为每个人的框bh和动作分配一个动作概率。
[0021]
3）编码人类和相关物体对象边界框之间的分支，融合人类的特征信息最大限度展示人与物体的空间配置。建模人和物体空间关系，并输出人类行为分类概率。
[0022]
4）最终通过一定的策略合并每个分支的分数，生成动作预测结果。
[0023]
所述人类交互感知注意模块可帮助提取目标的外观特征，包括如下步骤的处理：
a）基于faster r-cnn [3]
提取区域建议后，应用感兴趣（roi）池化对该区域建议，即对物体边界框bo或人体边界框bh的卷积特征图裁剪，并用双线性插值算法将每个区域裁剪到固定尺寸，将得到的特征图输入res5残差块，从而进行特征提取，然后利用全局平均池化（gap）提取2048维的特征向量，称为实例级外观特征，随后经过fc全连接层对上述特征向量进行降维至512维，其目的是为了与其他特征向量融合。
[0024]
b）获取基于faster r-cnn生成的卷积特征图，使用1
×
1卷积将该图像特征映射编码到512维空间中得到特征，并与降维后的实例级外观特征进行融合，即利用点积得到在该嵌入空间中的相似系数。最后softmax获得注意力图，该注意力图可突出显示图像中有助于识别与给定人/对象相关联的空间关系相关区域。那么可将表示如下式：；c）在注意力图的指导下，通过计算卷积特征的加权平均值来提取上下文特征，即上下文特征可表示为：；d）利用全连接层将2048维外观特征降维为1024维度，并与上下文特征进行相乘，达到外观特征和上下文特征深层融合。目标外观特征可以为上下文特征映射提供指导信息，而不是仅仅将外观特征与上下文特征串联。
[0025]
；e）最后将和外观特征以及基于注意力上下文特征串联，形成语义丰富而且有空间关系的特征向量。
[0026]
人类交互感知注意模块与现有方法相比具有以下优点：（1）注意力图可通过特征提取网络自动学习和训练，不断提升性能；（2）相比于图像的注意力机制
[6]
，人类交互感知注意模块拥有更大的灵活性，它能根据不同目标外观来提取图像中不同区域特征。
[0027]
步骤1）物体检测与步骤2）的过程类似。物体检测分支，即步骤1）主要任务是为每物体的框bo和动作分配一个行为分类概率。人类分支，即步骤2）主要任务是为每个人的框bh和动作分配一个动作概率。二者的具体实现过程包括：基于faster r-cnn [3]
的区域建议生成，经过预训练cnn模型的处理，训练集为v-coco数据集，得到卷积特征图。即将上述预训练的cnn作为特征提取器提取图像特征，将特征提取得到的卷积特征图送入rpn网络，输出图片生成的区域建议。rpn网络利用所有的参考矩形框，输出一系列目标对象良好的区域建议，即物体边界框bo和人体边界框bh。使用人类交互感知注意模块分别在物体检测分支和人类分支得到特征向量。将该特征向量输入到神经网络中，对于动作，获取到行为分类概率和动作概率。
[0028]
步骤3）的具体实现过程包括：基于目标检测faster r-cnn获取人类和相关物体对
象边界框，其交互模式是具有双通道二值图像来表征交互模式，第一个通道对应于人类边界框，第二个通道对应于对象边界框。将两个框的并集用作参考框，构造包含双通道二进制图像。第一个通道将人的边界框中所有值为1，其余部分的值设为0；第二个通道将物体边界框中所有值设为1，其余部分的值设为0。保留包围两个边界框最紧密的窗口，即同时包围人类边界框和物体边界框且所含像素数量最少的窗口，使得交互分支仅关注包含目标边界框的窗口，称为交互窗口。随后去除外部区域，并采用固定大小的输入，即将长边调整为固定长度，同时保持纵横比，在短边的两边填充零。将卷积神经网络作用在这个双通道二进制图像中并获取空间特征。由于两个边界框提供的空间信息十分粗糙，导致难以预测动作，故融合空间特征和人类分支的外观特征一起输入到卷积神经网络，并输出人类行为分类概率。
[0029]
步骤4）的具体实现过程包括：获取上述步骤中得到的行为分类概率、动作概率和人类行为分类概率，融合人类候选边界框bh、物体候选边界框bo和动作扩展为三元组概率。可以将三元组概率分解为：；上式表示针对每个人－物边界框对（bh，bo）预测动作的概率其中∈{1，a}，a表示动作总数。由此可知概率影响的因素有：（1）人和物体检测的目标置信度（和）；（2）基于人的外观的动作得分和基于目标物体的动作得分；（3）得分预先基于人与物体之间的空间关系。
[0030]
对于一些不涉及任何目标对象的动作类（例如，步行，微笑），因为，和都变成0，仅来自人类分支的动作分数和每个框的概率。故而退化为：；得到最终的三元组概率，也就是最终动作预测的得分。此时所有动作分别对应一个动作预测得分，选取得分最高的动作作为当前此人的预测动作。
[0031]
本发明实施例实验的硬件环境为intel core i7 2.5ghz，12g内存，系统环境为ubuntu16.04系统，算法开发软件环境为eclipse，以及tensorflow 1.2.0、opencv和anaconda3开源库等。在v-coco数据集进行训练和测试，数据集v-coco是提供注释的coco数据集的子集。其中v-coco包括总共10,346个图像，包含16,199个人类实例。因为单个人可能执行多个动作（例如坐在椅子上时拿着杯子），所以每个人都注释了26个不同动作的二进制标签向量。
[0032]
使用resnet-50-fpn作为主干检测网络，生成人类和对象边界框。实验中保持人体框的分数sh高于0.8，对象框的分数so高于0.4。在v-coco训练集上进行1000次迭代，学习率为0.001，权重衰减为0.0001，动量为0.9。
[0033]
与传统检测一个对象只有一个真实类不同，本发明每个人可以执行多个动作影响
多个物体对象。此外，本发明还可以检测图像中的多个交互实例。在人与目标对象未发生交互时，本发明依然能检测出人及其发生的动作。
[0034]
相比于interactnet和bar-cnn的网络模型，本发明基于人体交互感知的目标检测方法在人类与物体交互识别任务中精度有极大的优势。通过在物体分支和人类分支平均精度提高3.6%,验证了该方法以人为核心的感知能力。
[0035]
对人类交互感知的注意力模块验证测试，对比无注意力机制、自底向上的注意力机制和本发明提出的注意力模块在物体检测的精度，本发明在相对于无注意力机制平均精度提高了2.2%，而对于自底向上的注意力机制提高0.4%,验证了人类交互感知注意模块的有效性，为后续空间关系建模打下了坚实的基础。并且其模块化的结构具有迁移性，能够应用在不同的分支，共同训练改善性能。
[0036]
参考文献：[1] redmon j, divvala s, girshick r, et al. you only look once: unified, real-time object detection[c]//proceedings of the ieee conference on computer vision and pattern recognition. 2016: 779-788.[2] redmon j, farhadi a. yolov3: an incremental improvement[j]. arxiv preprint arxiv:1804.02767, 2018.[3] ren s, he k, girshick r, et al. faster r-cnn: towards real-time object detection with region proposal networks[j]. ieee transactions on pattern analysis and machine intelligence, 2016, 39(6): 1137-1149.[4] shahin s, sadeghian r, sareh s. faster r-cnn-based decision making in a novel adaptive dual-mode robotic anchoring system[c]//2021 ieee international conference on robotics and automation, xian, may 30-june 5, 2021. ieee, 2021: 11010-11016.[5] gkioxari g, girshick r, doll
á
r p, et al. detecting and recognizing human-object interactions[c]//proceedings of the ieee conference on computer vision and pattern recognition. 2018: 8359-8367.[6] vaswani a, shazeer n, parmar n, et al. attention is all you need[j]. advances in neural information processing systems, 2017, 30.。

当前第1页1