基于关系网标签化和图神经网络的风险预测方法及装置转让专利
申请号 : CN202110154683.6
文献号 : CN112508691B
文献日 : 2021-05-14
发明人 : 王磊 , 宋孟楠 , 苏绥绥
申请人 : 北京淇瑀信息科技有限公司
摘要 :
权利要求 :
1.一种基于关系网标签化和图神经网络的风险预测方法,其特征在于,所述方法包括:基于用户信息构建关系网络;
对所述关系网络中各个节点进行标签化处理得到各个节点的固定排序;
根据节点的固定排序进行采样,得到固定长度和固定排序的向量序列;
根据所述固定长度和固定排序的向量序列训练图神经网络;
将预测用户信息输入训练好的图神经网络中,得到该预测用户的风险概率;
其中,所述对所述关系网络中各个节点进行标签化处理得到各个节点的固定排序包括:
初始化各个节点排序得到节点初始排序;
根据节点初始排序和邻节点初始排序生成节点标签;
根据节点标签和邻节点标签对各个节点排序生成各个节点新标签,直至各个节点新标签固定为止;
所述根据节点的固定排序进行采样,得到固定长度和排序的向量序列包括:k‑1 k‑1 k‑1
根据节点的固定排序获取k‑1层前N个相邻节点对应的向量序列{h1 、h2 …hN },N为所述固定长度包含的相邻节点个数;
所述根据所述固定长度和固定排序的向量序列训练图神经网络包括:k‑1 k‑1 k‑1
将所述向量序列{h1 、h2 …hN }输入长短期记忆模型中,并将所述长短期记忆模型的输出记为AGGk;
将AGGk输入第K层聚合函数得到节点在第K层的向量;
将节点在各个层的向量进行迭代,得到最终向量,并根据所述最终向量得到节点预测值;
将所述节点预测值输入交叉熵损失函数,直至所述交叉熵损失函数最小。
2.根据权利要求1所述的方法,其特征在于,所述基于用户信息构建关系网络包括:以用户作为节点,以用户通话记录或通讯录信息作为边,构建无向关系网络。
3.根据权利要求1所述的方法,其特征在于,所述根据节点标签和邻节点标签对各个节点排序生成各个节点新标签包括:根据节点标签对各个节点排序得到节点排序编号;
根据节点排序编号和邻节点排序编号生成节点新标签。
4.根据权利要求3所述的方法,其特征在于,所述节点标签由节点签名字符串组成,包含节点排序编号和所有邻节点排序编号。
5.一种基于关系网标签化和图神经网络的风险预测装置,其特征在于,所述装置包括:构建模块,用于基于用户信息构建关系网络;
标签化模块,用于对所述关系网络中各个节点进行标签化处理得到各个节点的固定排序;
采样模块,用于根据节点的固定排序进行采样,得到固定长度和固定排序的向量序列;
训练模块,用于根据所述固定长度和固定排序的向量序列训练图神经网络;
预测模块,用于将预测用户信息输入训练好的图神经网络中,得到该预测用户的风险概率;
其中,所述标签化模块包括:初始化模块,用于初始化各个节点排序得到节点初始排序;
第一生成模块,用于根据节点初始排序和邻节点初始排序生成节点标签;
第二生成模块,用于根据节点标签和邻节点标签对各个节点排序生成各个节点新标签,直至各个节点新标签固定为止;
所述采样模块,具体用于根据节点的固定排序获取k‑1层前N个相邻节点对应的向量序k‑1 k‑1 k‑1
列{h1 、h2 …hN },N为所述固定长度包含的相邻节点个数;
所述训练模块包括:
k‑1 k‑1 k‑1
第一输入模块,用于将所述向量序列{h1 、h2 …hN }输入长短期记忆模型中,并将所述长短期记忆模型的输出记为AGGk;
第二输入模块,用于将AGGk输入第K层聚合函数得到节点在第K层的向量;
迭代模块,用于将节点在各个层的向量进行迭代,得到最终向量;并根据所述最终向量得到节点预测值;
最小化模块,用于将所述节点预测值输入交叉熵损失函数,直至所述交叉熵损失函数最小。
6.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1‑4中任一项所述的方法。
7.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1‑4中任一项所述的方法。
说明书 :
基于关系网标签化和图神经网络的风险预测方法及装置
技术领域
背景技术
还是机器学习都只输入了个体用户的信息,无法结合用户之间的社交关系进行综合分析,
从而降低了用户风险预测的准确度。
发明内容
},N为所述固定长度包含的相邻节点个数;
量序列{h1 、h2 …hN },N为所述固定长度包含的相邻节点个数;
上述方法。
向量序列;根据固定长度和固定排序的向量序列训练图神经网络。本发明通过图神经网络
来聚合用户关系网络中邻节点的信息,综合用户之间的社交关系来预测用户风险,提高了
对用户风险预测的准确度。
附图说明
发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,
可以根据这些附图获得其他实施例的附图。
具体实施方式
些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领
域的技术人员。
特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发
明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实
体。
一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、
组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例
如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、
“及/或”是指包括所列出项目中的任一个或多个的所有组合。
征x_v表示并且与已标记的标签t_v相关联。GNN在给定部分标记的图G中,利用这已标记的
节点来预测未标记的节点标签。其基本思想就是基于节点的局部邻居信息对节点进行
embedding。直观来讲,就是通过神经网络来聚合每个节点及其周围节点的信息。聚合一个
节点的邻节点信息时,采用平均的方法,并使用神经网络作聚合操作。如图1a~1b中的图结
构,第k层的目标节点A通过k‑1层的节点B、C、D聚合而来,而节点B又通过k‑2层的节点A和C
聚合而来,节点C又通过k‑2层的节点A、B、E、F聚合而来,节点D又通过k‑2层的节点A聚合而
来。则在聚合操作时,将任意节点v的输入向量特征来初始化第0层节点的embedding,即:
则节点v在第k层的embedding为: 其中,σ
为非线性激活函数, 为平均节点v的邻节点在第k‑1层的embedding, 为节点v在第
k‑1层的embedding。Wk和Bk为网络参数。
GraphSAGE算法等。其中,DeepWalk、GCN、GAT都缺乏泛化能力,无法直接泛化到在训练过程
没有出现过的顶点,每当有新节点加入到图中时,它必须重新训练模型以正确表示该节点,
属于一种直推式(transductive)的学习,不适用于图中节点不断变化的动态图。GraphSAGE
则是一种能够利用顶点的属性信息高效产生未知顶点embedding的一种归纳式
(inductive)学习的框架。GraphSAGE包含采样和聚合(Sample and aggregate),首先使用
图结构中节点之间连接信息,对邻节点进行采样,然后通过多层聚合函数不断地将相邻节
点的信息融合在一起。用融合后的信息预测节点标签。在GraphSAGE算法中,任意节点v在第
k层的embedding为:
其中, 是n个邻节点在第k‑1层聚合到
的特征向量序列。在聚合过程中要求输入LSTM的特征向量序列的长度和顺序是固定的,因
此在采样过程中要保证邻节点的排序是固定的。基于此,本发明在对邻节点进行采样之前,
对各个节点进行标签化处理,以得到排序固定的节点,从而保证后续采样得到排序和长度
固定的节点向量序列。
E)。其中,顶点也称为节点。根据边的方向可以将图分为有向图和无向图。
包括:
具有直接关联关系,二度联系人关系是指两个用户具有间接关联关系。
号隔开。如图3a中,每个节点的初始排序为1,节点A有3个邻节点B、C和D,则由节点A的初始
排序和邻节点B、C、D的初始排序生成节点A标签(1,111);节点B有2个邻节点A和C,则生成节
点B标签(1,11);节点C有4个邻节点A、B、E、F,则生成节点C标签(1,1111);节点D有3个邻节
点A、G、H,则生成节点D标签(1,111),节点E、F、G、H的节点标签依次类推。
根据节点标签对各个节点排序得到节点排序编号;具体排序方式可以预先设定,比如以升
序来排序,即:先比较节点排序编号大小,若节点排序编号相等,则比较邻节点排序编号,若
节点排序编号与邻节点排序编号都相等,则比较邻节点个数,邻节点个数少的排在邻节点
个数多的节点之前。对图3a中各个节点排序后,得到如图3b所示各个节点的排序编号。再根
据节点排序编号和邻节点排序编号生成节点新标签,具体在生成节点新标签时邻节点排序
编号以升序排列。则图3b中节点A有3个邻节点B、C和D,则由节点A的节点排序编号和邻节点
B、C、D的节点排序编号以升序排列生成节点A新标签(3,234);节点B有2个邻节点A和C,则生
成节点B新标签(2,34);节点C有4个邻节点A、B、E、F,则生成节点C新标签(4,2223);节点D有
3个邻节点A、G、H,则生成节点D新标签(3,113),节点E、F、G、H的节点新标签依次类推。最终
生成的节点新标签如图3c所示。
签不再变化为止,各个节点的固定标签即代表各个节点固定排序。
k‑1 k‑1 k‑1
固定标签的排序)获取k‑1层前N个相邻节点对应的向量序列{h1 、h2 …hN },N为所述固
定长度包含的相邻节点个数。
向量;其中,第k层聚合函数为:
序列{h1 、h2 …hN },N为所述固定长度包含的相邻节点个数。
块可以合并为一个模块,也可以进一步拆分成多个子模块。
对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以
参照上述方法或装置实施例来实现。
不同电子设备组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
的步骤。例如,所述处理单元510可以执行如图1所示的步骤。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这
样的程序模块5205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以
及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
的局域总线。
子设备500能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这
种通信可以通过输入/输出(I/O)接口550进行,还可以通过网络适配器560与一个或者多个
网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器560可
以通过总线530与电子设备500的其它模块通信。应当明白,尽管图5中未示出,电子设备500
中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外
部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。
读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子
设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包
括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器
(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑
ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或
多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:基于用
户信息构建关系网络;对所述关系网络中各个节点进行标签化处理得到各个节点的固定排
序;根据节点的固定排序进行采样,得到固定长度和固定排序的向量序列;根据所述固定长
度和固定排序的向量序列训练图神经网络;将预测用户信息输入训练好的图神经网络中,
得到该预测用户的风险概率。
明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算
机可读的存储介质(可以是CD‑ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一
台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方
法。
信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何
可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使
用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传
输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户
计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算
设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远
程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网
(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商
来通过因特网连接)。
现本发明的一些或者全部功能。
通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发
明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明
的保护范围之内。