1.本技术实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。
背景技术:
2.在风控系统中,绝大多数用户的操作和交易是安全的,也就是说,绝大多数用户是可信用户,没必要对其进行大量的规则分析,但现有的基于策略的可信用户筛选方式,通常是设置大量的筛选规则,通过筛选规则的筛选确定用户是否为可信用户。这种方式存在的问题在于,随着时间的增长,策略中的规则会越来越臃肿。而且在进行整体策略优化时需要调整大量的筛选规则,导致优化成本高昂且难以操作,而且会在调整优化期间会对正常用户的使用产生影响。
3.综上基于筛选规则的识别方式无法发散性增加场景,难以覆盖全部的可信任对象,使用场景增多后,规则集将变得愈发庞大,难以维护,且可持续性差,当可信任对象需要优化的时候难度很大。
技术实现要素:
4.有鉴于此,本技术实施例提供一种数据处理方案,以至少部分解决上述问题。
5.根据本技术实施例的第一方面,提供了一种数据处理方法,包括:获取识别对象的属性数据和行为数据;使用所述属性数据和所述行为数据构建输入数据;将所述输入数据输入到用于识别可信任对象的可信分类模型中,以获得所述可信分类模型输出的分类结果和所述识别对象的风险概率,所述分类结果用于指示所述识别对象是否为可信任对象。
6.根据本技术实施例的第二方面,提供了一种数据处理装置,包括:获取模块,用于获取识别对象的属性数据和行为数据;构建模块,用于使用所述属性数据和所述行为数据构建输入数据;分类模块,用于将所述输入数据输入到用于识别可信任对象的可信分类模型中,以获得所述可信分类模型输出的分类结果和所述识别对象的风险概率,所述分类结果用于指示所述识别对象是否为可信任对象。
7.根据本技术实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述方法对应的操作。
8.根据本技术实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
9.根据本技术实施例提供的数据处理方案,通过可信分类模型实现端到端的可信任对象识别,基于识别对象的属性数据和行为数据确定其是否为可信任对象,如此无需建立规则,可信分类模型可持续迭代、易维护,且建成可信任对象的识别体系之后,可以根据需要灵活地将其配置在不同的场景或节点中,同时也能降低风控处置阶段的算力压力和分析
耗时等,提升体验。
附图说明
10.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
11.图1为适用本技术实施例的方法的示例性系统的示意图;
12.图2a为根据本技术实施例一的一种数据处理方法的步骤流程图;
13.图2b为根据本技术实施例一的另一种数据处理方法的步骤流程图;
14.图3为根据本技术实施例二的一种装置的结构框图;
15.图4为根据本技术实施例三的一种电子设备的结构示意图。
具体实施方式
16.为了使本领域的人员更好地理解本技术实施例中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术实施例一部分实施例,而不是全部的实施例。基于本技术实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本技术实施例保护的范围。
17.下面结合本技术实施例附图进一步说明本技术实施例具体实现。
18.图1示出了一种适用本技术实施例的方法的示例性系统。如图1所示,该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106,图1中示例为多个用户设备。
19.服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中,服务器102可以执行任何适当的功能。例如,在一些实施例中,服务器102可以配置可信分类模型,以对使用者是否为可信任对象进行识别。
20.在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(wan)、局域网(lan)、无线网络、数字订户线路(dsl)网络、帧中继网络、异步转移模式(atm)网络、虚拟专用网(vpn)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如,通信链路112)连接到通信网络104,该通信网络104能够经由一个或多个通信链路(例如,通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
21.。在一些实施例中,用户设备106可以包括任何合适类型的设备。例如,在一些实施例中,用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。
22.尽管将服务器102图示为一个设备,但是在一些实施例中,可以使用任何适当数量的设备来执行由服务器102执行的功能。例如,在一些实施例中,可以使用多个设备来实现由服务器102执行的功能。或者,可使用云服务实现服务器102的功能。
23.基于上述系统,本技术实施例提供了一种方法,以下通过多个实施例进行说明。
24.如图2a所示,该方法包括以下步骤:
25.步骤s202:获取识别对象的属性数据和行为数据。
26.属性数据和行为数据可以在获得授权的情况下获得。
27.在一示例中,获取识别对象的属性数据可以实现为:基于所述识别对象的用户画像数据、常用设备数据和常用网络数据构建所述识别对象的属性数据。
28.由于识别对象是否可信收到许多因素的影响,如何获得准确的、能够体现识别对象是否可信的数据成为解决该问题的关键,本示例中,属性数据包括常用设备数据、常用网络数据、常见兴趣点(poi)、以及用户画像数据等,由于属性数据中不仅包含用户画像数据,而且携带了常用设备数据、常用网络数据和常见兴趣点等数据,从而使得属性数据更加丰富,可以提升对可信用户识别的准确性等。
29.获取识别对象的行为数据可以实现为:基于所述识别对象的历史出行数据、打车订单呼叫数据和打车订单支付数据构建所述识别对象对应的行为序列和图关系作为所述行为数据,所述图关系用于指示所述识别对象的历史出行与所述打车订单呼叫和打车订单支付之间的关联关系。
30.对于识别对象的历史出行数据和打车订单呼叫数据和打车订单支付数据一定程度上体现了识别对象是否为一个可信用户,为了避免这些行为中的干扰对识别准确性的不利影响,减少误判,基于历史出行数据、打车订单呼叫数据和打车订单支付数据构建行为序列,这样使得行为数据中的时间信息可以充分地保留并在识别过程中使用到,以提升识别的准确性。此外还基于历史出行数据、打车订单呼叫数据和打车订单支付数据构建图关系,图关系中包含多个节点,一些节点为历史出行数据对应的节点,一些节点为打车订单呼叫数据对应的节点,还有一些节点为打车订单支付数据对应的节点,这些节点中有关联关系的数据之间建立连续,从而建成图关系,这样利用图关系更好地体现了数据之间的相关性,从而可以提升后续识别的准确性。
31.除此之外,行为数据还包括使用者在设定时间段(如最近一个月或者最近半年等)内的历史订单完成数量、历史订单的最大支付时长、最近一次支付时间、在设定时间段内的支付频率和平均支付值等等。
32.步骤s204:使用所述属性数据和所述行为数据构建输入数据。
33.在一种可行方式中,将属性数据和行为数据进行拼接,以形成能够输入可信分类模型的输入数据。
34.步骤s206:将所述输入数据输入到用于识别可信任对象的可信分类模型中,以获得所述可信分类模型输出的分类结果和所述识别对象的风险概率,所述分类结果用于指示所述识别对象是否为可信任对象。
35.可信分类模型可以是梯度提升分类树(即gbdt模型),也可以是其他能够实现分类的机器学习模型,如xgboot等。
36.在本实施例中,为了使得可信分类模型能够准确地确定识别对象是否为可信任对象,可以使用训练样本对所述可信分类模型进行训练。
37.训练包括下述过程:
38.过程a1:获取多个样本识别对象的样本属性数据和样本行为数据。
39.样本识别对象可以是一段时间内的历史订单对应的使用者。以网约车为例,样本识别对象为最近一个月内使用网约车出行的历史订单的使用者。样本识别对象的样本属性数据包括如常用终端设备、常用网络、常见兴趣点(poi)、以及使用者画像相关的其他数据、图关系和行为序列等,对此不作限制。
40.所述样本行为数据包括所述样本识别对象的历史订单和所述历史订单对应的历史支付行为。
41.过程b1:根据所述样本识别对象的历史支付行为,确定所述样本识别对象的标签,所述标签用于指示所述样本识别对象是否为可信任对象。
42.针对不同的应用场景可信任对象的判断标准可能不同,本实施例中,以网约车出行的风控场景为例,根据样本识别对象的历史支付行为的支付结果确定其是否为可信任对象。例如,历史支付行为指示样本识别对象所有的历史订单的支付结果均为支付成功,则可以确定将其确定为可信任对象,对于可信任对象的标签为正样本。
43.反之,若某个样本识别对象的历史支付行为指示有支付失败的历史订单,则确定其为非可信任对象,其对应的标签为负样本。
44.过程c1:使用所述样本属性数据、所述样本行为数据和所述标签对所述可信分类模型进行训练,直至满足训练终止条件。
45.可信分类模型可以是能够实现二分类的机器学习模型,例如为gbdt模型,也可以是其他能够实现分类的机器学习模型对此不作限制。以gbdt模型为例,使用样本属性数据和样本行为数据构建样本输入数据,并将样本输入数据输入到初始化的gbdt模型中,gbdt模型输出分类结果和对应的风险概率,分类结果用于指示样本识别对象是否为可信任对象,风险概率指示其为非可信任对象的概率。基于输出的分类结果、风险概率和标签计算损失值,根据损失值对gbdt模型的参数进行调整,再使用样本输入数据对gbdt模型进行训练,如此循环,直至满足终止条件。
46.终止条件可以是达到循环次数,或者是损失值小于设定的阈值(其可以根据需要确定)。
47.训练完成的可信分类模型可以配置在服务器102中,以用于对识别对象进行识别。例如,如图2b所示,该方法还可以包括以下步骤:
48.步骤s208:使用多个所述识别对象的标识、多个所述识别对象的分类结果和风险概率生成风险控制信息。
49.为了减少在订单处理过程中的耗时,且能够较好地控制风险,每隔一段时间使用训练的可信分类模型对识别对象进行一次识别,获得识别对象的分类结果和风险概率,并将其与识别对象的标识结合生成风险控制信息,以备后续使用。
50.例如,t1时刻使用可信分类模型获得识别对象的风险控制信息,以在t2时刻接收到待处理订单时对其对应的使用者进行风险识别。其中t2时刻晚于t1时刻。这样在后续接收到待处理订单后就不需要针对每个待处理订单的使用者占用很多的计算资源和算力,从而减少了资源浪费。
51.步骤s210:接收待处理订单的信息。
52.所述待处理订单的信息中携带有使用者的标识,如id或者uuid等。待处理订单的信息可以是发布的打车订单,也可以是在订单完成过程中的修改信息(如修改终点等),对
此不作限制。
53.在接收到可能产生风险的待处理订单的信息时,为了实现风险控制,可以将使用者的标识和风险控制信息中的识别对象的标识进行匹配,如果能匹配到标识一样的识别对象,则表示使用者是可信任对象,因此可以执行步骤s212。如果未能匹配到标识一样的识别对象,表示使用者为非可信任对象,可以执行步骤s214。
54.步骤s212:若所述风险控制信息中包含与使用者的标识匹配的识别对象的标识,则确定所述使用者为可信任对象,对所述待处理订单执行第一操作。
55.第一操作可以是将待处理订单调度到绿色通道的操作,这样使得待处理订单可以被快速处理,从而提升响应速度,又可以避免将较多的算力浪费到可信任对象的分析和订单处理上,以此避免资源的浪费。
56.步骤s214:若所述风险控制信息中未包含与所述使用者的标识匹配的识别对象的标识,则确定所述使用者为非可信任对象,对所述待处理订单执行第二操作。
57.所述第二操作与所述第一操作不同。对于非可信任对象,步骤s214可以实现为:从所述风险控制信息中获取所述使用者对应的风险概率,将所述风险概率与预设的概率阈值比较,若所述风险概率大于所述概率阈值,则标记所述待处理订单为高风险订单。
58.对于非可信任对象,不同的风险概率其违约的可能性也不同,若风险概率低于或等于概率阈值,则为了避免影响其正常使用可以将其调度到正常处理通道。若风险概率大于概率阈值,则将其标记为高风险订单,并调度到高风险通道。
59.通过这种方式,在风控系统中使用可信分类模型对识别对象(如订单的使用者)进行识别,以确定其是否为可信任对象,这样就不需要使用大量规则对识别对象进行分析,既实现了稳健地识别出正常的识别对象(即可信任对象),并在风控处置阶段将其快速放行,这样做不仅可以降低对可信任对象的打扰,提升风控无感知体验,同时也能够预留更多的资源针对非可信对象进行深度分析。由此解决了基于规则建设可信任对象的方案不是端到端的j9九游会真人的解决方案,不可持续且难以维护。
60.本方法由于利用了机器学习的可信分类模型,从而实现了端到端(end to end)的建模方式,解决了现有的通过策略确定可信用户的方式不是端到端的解决方式,需要人工对数据进行分析提炼出策略中的不同规则,不可持续且难以维护的问题,利用机器学习搭建可信任对象的可信分类模型后,无需再拆分场景,也不需要维护规则集,解决了基于规则建设可信任对象的方式中存在的规则集难以维护、场景无法覆盖全部可信任对象的问题;当需要优化可信分类模型时,不需要针对规则集进行调优,只要单独优化可信任对象的特征部分即可。
61.这样可信分类模型可持续迭代、易维护,且建成可信任对象的识别体系之后,可以根据需要灵活地将其配置在不同的场景或节点中,同时也能降低风控处置阶段的算力压力和分析耗时等,提升体验。
62.实施例二
63.参照图3,示出了本技术实施例二的装置的结构框图。
64.该装置包括:
65.获取模块302,用于获取识别对象的属性数据和行为数据;
66.构建模块304,用于使用所述属性数据和所述行为数据构建输入数据;
67.分类模块306,用于将所述输入数据输入到用于识别可信任对象的可信分类模型中,以获得所述可信分类模型输出的分类结果和所述识别对象的风险概率,所述分类结果用于指示所述识别对象是否为可信任对象。
68.可选地,装置还包括:
69.生成模块308,用于使用多个所述识别对象的标识、多个所述识别对象的分类结果和风险概率生成风险控制信息;
70.接收模块310,用于接收待处理订单的信息,所述待处理订单的信息中携带有使用者的标识;
71.第一确定模块312,用于若所述风险控制信息中包含与使用者的标识匹配的识别对象的标识,则确定所述使用者为可信任对象,对所述待处理订单执行第一操作。
72.可选地,所述装置还包括:
73.第二确定模块314,用于若所述风险控制信息中未包含与所述使用者的标识匹配的识别对象的标识,则确定所述使用者为非可信任对象,对所述待处理订单执行第二操作,所述第二操作与所述第一操作不同。
74.可选地,第二确定模块314用于从所述风险控制信息中获取所述使用者对应的风险概率,将所述风险概率与预设的概率阈值比较,若所述风险概率大于所述概率阈值,则标记所述待处理订单为高风险订单。
75.可选地,获取模块302用于基于所述识别对象的用户画像数据、常用设备数据和常用网络数据构建所述识别对象的属性数据;基于所述识别对象的历史出行数据、打车订单呼叫数据和打车订单支付数据构建所述识别对象对应的行为序列和图关系作为所述行为数据,所述图关系用于指示所述识别对象的历史出行与所述打车订单呼叫和打车订单支付之间的关联关系。
76.可选地,所述装置还包括:训练获取模块316用于获取多个样本识别对象的样本属性数据和样本行为数据,所述样本行为数据包括所述样本识别对象的历史订单和所述历史订单对应的历史支付行为;训练确定模块318,用于根据所述样本识别对象的历史支付行为,确定所述样本识别对象的标签,所述标签用于指示所述样本识别对象是否为可信任对象;训练模块320,用于使用所述样本属性数据、所述样本行为数据和所述标签对所述可信分类模型进行训练,直至满足训练终止条件。
77.可选地,所述可信分类模型包括梯度提升决策树。
78.该装置能够实现前述方法的效果,故不再赘述。
79.实施例三
80.参照图4,示出了根据本技术实施例三的一种电子设备的结构示意图,本技术具体实施例并不对电子设备的具体实现做限定。
81.如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(communications interface)404、存储器(memory)406、以及通信总线408。
82.其中:
83.处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
84.通信接口404,用于与其它电子设备或服务器进行通信。
85.处理器402,用于执行程序410,具体可以执行上述方法实施例中的相关步骤。
86.具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
87.处理器402可能是cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本技术实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
88.存储器406,用于存放程序410。存储器406可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
89.程序410具体可以用于使得处理器402执行前述多个方法实施例中任一实施例所描述的方法对应的操作。
90.程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,并具有相应的有益效果,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
91.本技术实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。
92.需要指出,根据实施的需要,可将本技术实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本技术实施例的目的。
93.上述根据本技术实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,ram、rom、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
94.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术实施例的范围。
95.以上实施方式仅用于说明本技术实施例,而并非对本技术实施例的限制,有关技术领域的普通技术人员,在不脱离本技术实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本技术实施例的范畴,本技术实施例的专利保护范围应由权利要求限定。