技术特征:
1.一种由一个或多个数据处理装置执行以使用神经网络来生成表征实体的网络输出的方法,所述方法包括:获得作为数据元素嵌入集合的所述实体的表示;获得潜在嵌入集合;以及使用所述神经网络来处理:(i)所述数据元素嵌入集合和(ii)所述潜在嵌入集合,以生成表征所述实体的所述网络输出,其中,所述神经网络包括神经网络块序列,所述神经网络块序列包括:(i)一个或多个交叉注意力块、(ii)一个或多个自注意力块和(iii)输出块,其中,每个交叉注意力块执行包括以下项的操作:使用对所述数据元素嵌入集合中的所述数据元素嵌入中的一些或全部数据元素嵌入的注意力来更新所述潜在嵌入集合中的每个潜在嵌入;其中,每个自注意力块执行包括以下项的操作:使用对所述潜在嵌入集合的注意力来更新所述潜在嵌入集合中的每个潜在嵌入;以及其中,所述输出块执行包括以下项的操作:在使用所述一个或多个交叉注意力块和所述一个或多个自注意力块来更新所述潜在嵌入集合之后,处理来自所述潜在嵌入集合的一个或多个潜在嵌入以生成表征所述实体的所述网络输出。2.根据权利要求1所述的方法,其中,所述潜在嵌入集合中的潜在嵌入的数目小于所述数据元素嵌入集合中的数据元素嵌入的数目。3.根据任一前述权利要求所述的方法,其中,所述潜在嵌入集合中的潜在嵌入的数目是预定义的并且独立于所述数据元素嵌入集合中的数据元素嵌入的数目。4.根据任一前述权利要求所述的方法,其中,所述神经网络包括多个交叉注意力块和多个自注意力块,并且其中,所述多个交叉注意力块和所述多个自注意力块交错。5.根据任一前述权利要求所述的方法,其中,由所述输出块处理来自所述潜在嵌入集合的一个或多个潜在嵌入以生成表征所述实体的所述网络输出包括:池化所述潜在嵌入集合中的所述潜在嵌入以生成池化潜在嵌入;以及使用一个或多个神经网络层来处理所述池化潜在嵌入以生成表征所述实体的所述网络输出。6.根据权利要求5所述的方法,其中,池化所述潜在嵌入集合中的所述潜在嵌入包括对所述潜在嵌入求平均。7.根据权利要求1至4中的任一项所述的方法,其中,表征所述实体的所述网络输出包括输出元素的序列,并且其中,由所述输出块处理来自所述潜在嵌入集合的一个或多个潜在嵌入以生成表征所述实体的所述网络输出包括,在多个时间步中的每一个处:处理:(i)来自所述潜在嵌入集合的所述一个或多个潜在嵌入和(ii)在任何先前时间步处生成的输出元素,以生成在所述时间步处的输出元素。8.根据任一前述权利要求所述的方法,其中,对于每个自注意力块,使用对所述潜在嵌入集合的注意力来更新所述潜在嵌入集合中的每个潜在嵌入包括:使用对所述潜在嵌入集合的查询-键-值注意力来更新所述潜在嵌入集合中的每个潜在嵌入。
9.根据任一前述权利要求所述的方法,其中,每个自注意力块执行包括以下项的操作:使用对所述潜在嵌入集合的注意力来重复地更新所述潜在嵌入集合中的每个潜在嵌入。10.根据任一前述权利要求所述的方法,其中,对于每个交叉注意力块,使用对所述数据元素嵌入集合中的所述数据元素嵌入中的一些或全部数据元素嵌入的注意力来更新所述潜在嵌入集合中的每个潜在嵌入包括:使用对所述数据元素嵌入集合中的所述数据元素嵌入中的一些或全部数据元素嵌入的查询-键-值注意力来更新所述潜在嵌入集合中的每个潜在嵌入,包括:对于所述潜在嵌入集合中的每个潜在嵌入生成相应的查询嵌入;对于所述数据元素嵌入集合中的多个数据元素嵌入中的每一个生成相应的键嵌入和相应的值嵌入;以及基于以下各项使用对所述数据元素嵌入集合中的所述多个数据元素嵌入使用查询-键-值注意力来更新所述潜在嵌入集合中的每个潜在嵌入:(i)针对所述潜在嵌入的所述查询嵌入以及(ii)针对所述数据元素嵌入的所述键和值嵌入。11.根据任一前述权利要求所述的方法,其中,所述实体包括在空间结构中布置的多个单元,其中,每个单元与定义所述单元在所述空间结构中的相应位置的位置数据相关联,并且其中,获得所述实体的作为所述数据元素嵌入集合的表示包括:对于所述实体中的每个单元,基于所述单元的特征生成所述单元的特征嵌入;对于所述实体中的每个单元,基于所述单元在所述空间结构中的位置生成所述单元的位置嵌入;以及对于所述实体中的每个单元,基于以下各项生成所述单元的数据元素嵌入:(i)所述单元的所述特征嵌入和(ii)所述单元的所述位置嵌入。12.根据权利要求11所述的方法,其中,对于所述实体中的每个单元,基于以下各项生成所述单元的所述数据元素嵌入:(i)所述单元的所述特征嵌入和(ii)所述单元的所述位置嵌入,包括:连结所述单元的所述特征嵌入和所述单元的所述位置嵌入。13.根据权利要求11至12中的任一项所述的方法,其中,所述空间结构是单元的一维(1d)、二维(2d)或三维(3d)阵列。14.根据权利要求13所述的方法,其中,对于所述实体中的每个单元,基于所述单元在所述空间结构中的位置生成所述单元的所述位置嵌入包括:对于所述实体中的每个单元,生成具有在预定义目标频率范围上对数线性地隔开的频带的傅里叶特征位置编码。15.根据权利要求11至14中的任一项所述的方法,其中,所述实体包括图像,并且所述图像中的每个像素定义所述实体中的相应单元。16.根据权利要求11至15中的任一项所述的方法,其中,所述实体包括音频波形,并且所述音频波形中的每个音频样本定义所述实体中的相应单元。17.根据权利要求11至16中的任一项所述的方法,其中,所述实体包括点云,并且所述点云中的每个点定义所述实体中的相应单元。18.根据权利要求11至14中的任一项所述的方法,其中,所述实体包括蛋白质,并且所
述蛋白质的氨基酸序列中的每个氨基酸定义所述实体中的相应单元。19.根据权利要求11至18中的任一项所述的方法,其中,所述实体包括词序列,并且所述词序列中的每个词定义所述实体中的相应单元。20.根据任一前述权利要求所述的方法,其中,所述神经网络的所述神经网络块序列进一步包括一个或多个选择块;其中,每个选择块执行包括以下项的操作:在使用一个或多个交叉注意力块、一个或多个自注意力块或两者来更新所述潜在嵌入集合之后,处理所述潜在嵌入集合和所述数据元素嵌入集合以生成所述数据元素嵌入集合中的每个数据元素嵌入的相应的选择分数;以及基于所述选择分数选择所述数据元素嵌入集合的真子集以由一个或多个指定的交叉注意力块使用;其中,每个指定的交叉注意力块使用对仅所述数据元素嵌入集合的所选择的真子集中的数据元素嵌入的注意力来更新所述潜在嵌入集合中的每个潜在嵌入。21.根据权利要求20所述的方法,其中,每个选择块包括:(i)参数选择神经网络和(ii)单元选择神经网络,并且其中,对于每个选择块,处理所述潜在嵌入集合和所述数据元素嵌入集合以生成所述数据元素嵌入集合中的每个数据元素嵌入的相应的选择分数包括:使用所述参数选择神经网络来处理所述潜在嵌入以生成定义所述单元选择神经网络的神经网络参数集合的值的网络输出;以及使用所述单元选择神经网络并且根据所述单元选择神经网络的所述神经网络参数集合的值来处理所述数据元素嵌入集合中的每个数据元素嵌入以生成所述数据元素嵌入的所述选择分数。22.根据权利要求20至21中的任一项所述的方法,其中,基于所述选择分数选择所述数据元素嵌入的真子集以由一个或多个指定的交叉注意力块使用包括:在所述数据元素嵌入集合中选择具有最高选择分数的预定数目的数据元素嵌入。23.根据权利要求20至22中的任一项所述的方法,进一步包括:基于表征所述实体的所述网络输出确定任务性能测量;基于所述任务性能测量确定奖励;以及在取决于所述奖励的强化学习目标函数上训练所述选择块。24.根据权利要求23所述的方法,其中,所述任务性能测量包括交叉熵分类误差。25.根据权利要求23至24中的任一项所述的方法,其中,所述强化学习目标函数包括平方贝尔曼误差。26.一种或多种存储指令的非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使所述一个或多个计算机执行根据权利要求1至25中的任一项所述的相应方法的操作。27.一种系统,包括:一个或多个计算机;以及一个或多个存储设备,所述一个或多个存储设备被通信地耦合到所述一个或多个计算机,其中,所述一个或多个存储设备存储指令,所述指令在由所述一个或多个计算机执行时,使所述一个或多个计算机执行根据权利要求1至25中的任一项所述的相应方法的操作。
技术总结
本说明书描述一种用于使用神经网络来生成表征实体的网络输出的方法。该方法包括:获得实体的作为数据元素嵌入集合的表示;获得潜在嵌入集合;以及使用神经网络来处理:(i)数据元素嵌入集合和(ii)潜在嵌入集合,以生成表征实体的网络输出。该神经网络包括:(i)一个或多个交叉注意力块、(ii)一个或多个自注意力块和(iii)输出块。每个交叉注意力块使用对数据元素嵌入中的一些或全部数据元素嵌入的注意力来更新每个潜在嵌入。每个自注意力块使用对潜在嵌入集合的注意力来更新每个潜在嵌入。输出块处理一个或多个潜在嵌入以生成表征实体的网络输出。网络输出。网络输出。
技术研发人员:安德鲁
受保护的技术使用者:渊慧科技有限公司
技术研发日:2022.02.03
技术公布日:2023/10/15