一种样本数据处理方法、装置及计算机设备转让专利
申请号 : CN202011513899.9
文献号 : CN112257818B
文献日 : 2021-03-09
发明人 : 顾凌云 , 谢旻旗 , 段湾 , 汪仁杰 , 张涛 , 潘峻
申请人 : 上海冰鉴信息科技有限公司
摘要 :
权利要求 :
1.一种样本数据处理方法,其特征在于,应用于计算机设备,所述方法包括:获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集;其中,每个样本子集对应一个类别标签;
接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列;
依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重;
其中,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列,包括:
确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素;
提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素;
根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素,在所述目标清单元素中得到需求映射数据,并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;
以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据,根据所述相关性系数列表对应的相关性匹配路径,将所述待关联数据匹配到所述需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据;
获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹;根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
2.根据权利要求1所述的方法,其特征在于,依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重,包括:根据所述样本子集的总数确定整体样本权重;
基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
3.根据权利要求2所述的方法,其特征在于,确定每个类别标签下的样本子集的当前样本权重,包括:
针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重;
根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权重。
4.一种样本数据处理装置,其特征在于,应用于计算机设备,所述装置包括:样本划分模块,用于获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集;其中,每个样本子集对应一个类别标签;
标签排序模块,用于接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列;
权重分配模块,用于依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重;
其中,标签排序模块,用于:
确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素;
提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素;
根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素,在所述目标清单元素中得到需求映射数据,并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;
以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据,根据所述相关性系数列表对应的相关性匹配路径,将所述待关联数据匹配到所述需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据;
获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹;根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
5.根据权利要求4所述的装置,其特征在于,权重分配模块,用于:根据所述样本子集的总数确定整体样本权重;
基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
6.根据权利要求5所述的装置,其特征在于,权重分配模块,用于:针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重;
根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权重。
7.一种计算机设备,其特征在于,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中调取计算机程序,并通过运行所述计算机程序实现权利要求1‑3任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1‑3任一项所述的方法。
说明书 :
一种样本数据处理方法、装置及计算机设备
技术领域
背景技术
的代价;又或者样本高度失衡影响预测结果,比如10000用户样本中只有1条是非法用户,
9999条是合法用户,那么直接将所有的样本预测为合法用户准确率是99.99%,这显然是没
有意义的。
问题。而一个类别的权重为该类别中所有单个样本权重加总得到。而往往实际风控场景中
能获取的建模样本在各类别上数量不均,可能导致样本不是实际总样本的无偏估计,假设
实际业务中合法用户和非法用户的比例是10:1,而建模的样本中合法用户和非法用户的比
例是5:1,那么该样本分布就不能代表实际上的分布,从而影响模型的预测效果。
发明内容
权重。
述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;
据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关
联数据,并将所述目标关联数据确定为标签排序参考数据;
传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获
取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单
元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,
停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取
到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行
排序得到类别排序队列。
对应一个类别标签;
权重。
述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;
据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关
联数据,并将所述目标关联数据确定为标签排序参考数据;
传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获
取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单
元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,
停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取
到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行
排序得到类别排序队列。
序实现第一方面所述的方法。
次根据接收到的业务需求信息将多个类别标签进行排序得到类别排序队列,最后依次为类
别排序队列中的每个类别标签下的每个样本子集分配样本权重。如此,当待处理样本数据
涉及多个层级的类别标签时,上述方法能够快速求取每个样本子集的样本权重,使得统一
级别下的各样本子集的总权重相等,同时又能保证不同层级类别间的样本总权重一致,这
在保留有效信息的同时使得待处理样本数据的整体权重均衡更准确。
附图说明
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
具体实施方式
细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例
中的技术特征可以相互组合。
利用数量占比的方式求取权重,即当两个类别A和B的样本数量分别是Na和Nb时,那么A和B
类中各自样本权重比例是Nb:Na,实际应用中可以令A和B类中每个样本权重是1和或者是和
1。这样总能保证两个类中每个样本权重加总后的总权重相等,即类别权重一致。在不特别
指定每个样本的具体权重时,都是默认所有的样本权重相等。因此可以通过直接抽样的方
式使得不同类别对应的样本数量相等,则各自样本加总的权重也一定相等。
中A类别将整个数据集划分为A1和A2两个子集,A1子集下用B类别可以继续得到B1和B2两个
子集,A2用B类别划分全部属于B3类。假设整体样本为借贷数据,A类可以是客户好坏划分,B
类可以进一步是客户的收入水平区间。需要保证A1和A2总权重相等,以及B1和B2总权重相
等。根据数据占比可以求取A1和A2中各自样本的权重,B1和B2内各样本相应的权重,但不能
协调A和B划分的数据集间的权重关系,使得前后层级的样本总权重一致,即A1的样本总权
重应该等于B1和B2的总权重。
果的不确定性。同样涉及多层级类别时,会增大终端类别抽样的复杂性。还是以图1为例,表
面上直接抽样只要保证A1和A2数量一致,B1和B2数量相等即可,但最终需要综合考虑B1和
B2以及B3各样本集的数量,给出一个合适的抽样数量方案,使得增删样本造成的信息损失
最小。其中终端样本指的是层次最小的类别下的样本,图1中B类别就是终端类别。
确定性。本专利发明了一种样本权重的决定方法,其本质依然是样本数量占比,在此基础上
进一步改进,使得样本涉及多层级类别时,能迅速求取终端类别的样本权重,并保证了各层
级类别样本集的权重均衡。
到的业务需求信息将多个类别标签进行排序得到类别排序队列,最后依次为类别排序队列
中的每个类别标签下的每个样本子集分配样本权重。如此,当待处理样本数据涉及多个层
级的类别标签时,上述方法能够快速求取每个样本子集的样本权重,使得统一级别下的各
样本子集的总权重相等,同时又能保证不同层级类别间的样本总权重一致,这在保留有效
信息的同时使得待处理样本数据的整体权重均衡更准确。
的内容。
的当前样本权重。
例,A类别的个数为2,那么A1和A2样本集各自的总权重为W/2。同样A1类别下B类别个数为2
个,则A1类别下B类别样本集的总权重各是(W/2)/2;A2类别下的B类别个数是3个,示例中A1
和A2的下一级类别都包含B1,但这两个B1应该视作两个不同的类别来考虑,B2同样视作两
个不同类别,则A2类别下的三个B类别总权重均是(W/2)/3。依次类推得到终端C类各个样本
集的总权重。
总权重均等。依旧看图2的例子,如果要考虑每个类别在整体样本的划分下样本总权重相
等,则A类别下A1和A2总权重均等,都是W/2,B类别下B1、B2和B3对应的整体样本的三个样本
集总权重均等,则B类各样本集总权重都是W/3。那么B1和B2均在A1和A2类中出现了,而A1和
A2样本总权重均等,则A1下的B1样本集,简写为A1B1的总权重就应该是1/2的B1总权重,(W/
3)/2,同样A1B2、A2B1、A2B2总权重都是(W/3)/2,只有A2B3总权重是W/3。此时加总A1B1、
A1B2总权重和为W/3,加总A2B1、A2B2、A2B3的总权重和为2W/3,这和A类划分的样本集各自
总权重不一致。因此,各层类别下的样本均衡只局限在上一个类别划分下的样本子集在该
层类别下各子集总权重的均衡,例图2就只用考虑A1子集内B1和B2总权重均衡,只考虑A2子
集内B1、B2、B3的总权重均衡。
排序执行路径将所述多个类别标签进行排序得到类别排序队列。
单元素。
据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表。
需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对
应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据。
之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序
逐层依次获取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结
果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置
信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与
最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个
类别标签进行排序得到类别排序队列。
实现清单元素的互相映射处理,进而确定出相关性系数列表,并进一步确定出不同清单元
素中的排序参考结果,这样可以实现对不同清单元素中的排序参考结果的排序置信度的考
虑,以确保最终得到的排序参考结果的排序置信度符合业务需求,进而确保对类别标签进
行排序时充分考虑实际业务需求。
对应一个类别标签;
权重。
述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;
据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关
联数据,并将所述目标关联数据确定为标签排序参考数据;
传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获
取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单
元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,
停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取
到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行
排序得到类别排序队列。
法。
的类别时,上述方案能够迅速的求取单个样本的权重值,使得同一级别下的各类样本总权
重均等,同时又保证不同层级类别间的样本总权重一致。
的权重。由于不需要进行抽样,就不会因增删样本损失样本信息从而增加不确定性。相反保
留所有样本并通过自大类到小类别的类别排序,循环求取各层级类别的权重,不仅平衡了
同一级别下各类别的权重,而且可以保证各层类别间总权重的一致性。这在保留有效信息
的同时使得整体权重均衡更准确。
改进等,均应包含在本申请的权利要求范围之内。