一种基于知识图谱的互联网行为分析方法与系统转让专利

申请号 : CN202211353583.7

文献号 : CN115391670B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 毛红军

申请人 : 南京嘉安网络技术有限公司

摘要 :

本发明公开了基于知识图谱的互联网行为分析方法与系统,通过获取各个用户的ID和在互联网上的历史行为数据集,构建行为二部图;选择n个用户作为比较基础用户;挖掘行为二部图中的相似性特征;将相似性特征作为知识图谱分析模型的输入,将触网标签作为知识图谱分析模型的输出,对知识图谱分析模型进行训练;获取新用户指定时间段的行为数据集,构建有关新用户的二部图;根据触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;设置风控系数,判定新用户指定时间段的行为是否存在异常。本申请通过构建的行为二部图和训练的知识图谱分析模型的结合,挖掘出互联网行为的共性和隐形特征,以此判定用户是否有触网风险。

权利要求 :

1.一种基于知识图谱的互联网行为分析方法,其特征在于,包括:

获取各个用户的ID和在互联网上的历史行为数据集,依据用户ID和对应的历史行为数据集进行整合,构建行为二部图;行为二部图中包括两种节点,分别是用户ID节点和互联网行为节点;

行为数据集具体是每个用户在互联网上留下的行为痕迹,包括:年龄、性别、所处的生活环境、生活方式、兴趣爱好、内容阅读浏览偏好、支付消费偏好、出行情况、社交群体;

选择n个用户作为比较基础用户,具体地,为每个用户建立行为向量,计算N个用户的用户行为向量的多特征联合距离;其中,所述多特征联合距离反映N个用户之间多个互联网行为数据特征的整体相似度;根据多特征联合距离,对所述N个用户进行分组,从每一组中分别选取一定数量的用户构成n个用户作为比较基础用户;

利用相似性计算方法挖掘所述行为二部图中的相似性特征;具体地,采用杰卡德距离来计算所述行为二部图中的相似性特征,得到每个用户与n个比较基础用户之间行为特征的相似度;

将所述相似性特征作为知识图谱分析模型的输入,将触网标签作为所述知识图谱分析模型的输出,对知识图谱分析模型进行训练以得到触网型知识图谱分析模型;

获取新用户指定时间段的行为数据集,并构建有关新用户的二部图;

根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;具体地,采用杰卡德距离计算新用户的二部图与上述行为二部图的相似性特征,得到新用户与n个比较基础用户之间行为特征的相似度,将所述新用户与n个比较基础用户之间行为特征的相似度输入训练后的所述触网型知识图谱分析模型,得到触网风险的概率;

设置风控系数,判定新用户指定时间段的行为是否存在异常,具体包括:将所述触网风险的概率与阈值进行比较来判定新用户指定时间段的行为是否存在异常;

具体地,设置阈值为0.8,当触网风险的概率大于等于0.8时,则表明用户有触网风险;

根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签,还包括:触网风险标签取值为0或<1,小于1时保留小数点后4位;0表示无风险,小于

1的具体值表示风险大小,越接近1,表示风险越大。

2.一种基于知识图谱的互联网行为分析系统,其特征在于,包括:

第一获取模块,用于获取各个用户的ID和在互联网上的历史行为数据集,依据用户ID和对应的历史行为数据集进行整合,构建行为二部图;行为二部图中包含两种节点,分别是用户ID节点和互联网行为节点;

行为数据集具体是每个用户在互联网上留下的行为痕迹,包括:年龄、性别、所处的生活环境、生活方式、兴趣爱好、内容阅读浏览偏好、支付消费偏好、出行情况、社交群体;

选择模块,用于选择n个用户作为比较基础用户,具体地,为每个用户建立行为向量,计算N个用户的用户行为向量的多特征联合距离;其中,所述多特征联合距离反映N个用户之间多个互联网行为数据特征的整体相似度;根据多特征联合距离,对所述N个用户进行分组,从每一组中分别选取一定数量的用户构成n个用户作为比较基础用户;

相似度计算模块,用于利用相似性计算方法挖掘所述行为二部图中的相似性特征;具体地,采用杰卡德距离来计算所述行为二部图中的相似性特征,得到每个用户与n个比较基础用户之间行为特征的相似度;

训练模块,基于大数据机器学习训练方法,用于将所述相似性特征数据作为知识图谱分析模型的输入,将触网标签作为所述知识图谱分析模型的输出,对知识图谱分析模型进行训练以得到触网型知识图谱分析模型,实现对海量用户的检测,提供不同用户在不同风险环境下的风险系数;

第二获取模块,用于获取新用户指定时间段的行为数据集,并构建有关新用户的二部图;

识别模块,用于根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;具体地,采用杰卡德距离计算新用户的二部图与上述行为二部图的相似性特征,得到新用户与n个比较基础用户之间行为特征的相似度,将所述新用户与n个比较基础用户之间行为特征的相似度输入训练后的所述触网型知识图谱分析模型,得到触网风险的概率;

判定模块,用于设置风控系数,判定新用户指定时间段的行为是否存在异常,具体包括:将所述触网风险的概率与阈值进行比较来判定新用户指定时间段的行为是否存在异常;

具体地,设置阈值为0.8,当触网风险的概率大于等于0.8时,则表明用户有触网风险;

根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签,还包括:触网风险标签取值为0或<1,小于1时保留小数点后4位;0表示无风险,小于

1的具体值表示风险大小,越接近1,表示风险越大。

说明书 :

一种基于知识图谱的互联网行为分析方法与系统

技术领域

[0001] 本发明涉及大数据处理技术领域,具体涉及一种基于知识图谱的互联网行为分析方法与系统。

背景技术

[0002] 当前的用户行为分析方法,就是在海量的数据里,提取个人的有关行为数据,通过预训练好的神经网络等识别模型来进行识别处理。例如:CN107506781A公开了一种基于BP神经网络的人体行为识别方法,其包括人体行为建模处理和人体行为识别处理,人体行为建模处理包括以下步骤:获取训练的数据集;基于过滤式特征选择方法对基础特征信息进行提取;对提取所得的基础特征信息数据集进行层次聚类分析处理,并生成人体行为分类器;人体行为识别处理包括以下步骤:构建BP神经网络模型;将人体行为分类数据导入神经网络,使用拟牛顿倒传递法进行训练;通过BP神经网络算法对所述的人体分类器进行持续完善与优化;对输出结果进行离散化处理,得到人体行为识别处理结果。但是该类方法若具体的应用到互联网行为大数据领域,尤其是用户行为异常分析领域,得不到有效适用,针对触网风险的异常识别中,由于相关数据纷繁复杂,其准确度和效率也都得不到保证。
[0003] 互联网异常行为的分析重点在于海量数据中,个人的有关行为数据是离散的,通过知识图谱解决多个个人实体之间的关联关系,以图谱的方式展示知识结构。是相对有效的分析异常行为的方式之一。
[0004] 本申请通过多维度的标签体系,实现了N个基础用户特征抽取的基础数据,通过基础用户的行为对比,来验证触网风险的可能性。通过大数据训练机器学习技术,解决了海量数据中样本库不断调整和适配算法,最终选取严格保证准确率的机器训练模型。

发明内容

[0005] 针对现有技术中的以上缺陷,本发明的目的在于针对当前用户行为数据分析技术存在的触网行为异常识别的有效性和准确度得不到保证的缺点,提供一种基于知识图谱的互联网行为分析方法与系统,通过融合二部图和触网型知识图谱分析模型的方法,提高了针对互联网行为分析的效率和准确度。
[0006] 基于风险大数据+知识图谱和生态资源,结合APP活跃、设备属性、运营商,年龄、性别、人生状态、生活方式,兴趣偏好,兴趣爱好、内容阅读偏好、支付属性、消费情况等多维度建立风控特征模型,将原始数据输入模型二次融合分析和筛查,构建概率评分指数和标签属性,实现辖区风险易骗人群分析筛查。
[0007] 为实现上述发明目的,本发明采用如下技术方案:一种基于知识图谱的互联网行为分析方法,包括:
[0008] 获取各个用户的ID和在互联网上的历史行为数据集,依据用户ID和对应的历史行为数据集进行整合,构建行为二部图;
[0009] 选择n个用户作为比较基础用户,具体地,为每个用户建立行为向量,计算N个用户的用户行为向量的多特征联合距离;其中,所述多特征联合距离反映N个用户之间多个互联网行为数据特征的整体相似度;根据多特征联合距离,对所述N个用户进行分组,从每一组中分别选取一定数量的用户构成n个用户作为比较基础用户;
[0010] 利用相似性计算方法挖掘所述行为二部图中的相似性特征;具体地,采用杰卡德距离来计算所述行为二部图中的相似性特征,得到每个用户与n个比较基础用户之间行为特征的相似度;
[0011] 将所述相似性特征作为知识图谱分析模型的输入,将触网标签作为所述知识图谱分析模型的输出,对知识图谱分析模型进行训练以得到触网型知识图谱分析模型;
[0012] 获取新用户指定时间段的行为数据集,并构建有关新用户的二部图;
[0013] 根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;具体地,采用杰卡德距离计算新用户的二部图与上述行为二部图的相似性特征,得到新用户与n个比较基础用户之间行为特征的相似度,将所述新用户与n个比较基础用户之间行为特征的相似度输入训练后的所述触网型知识图谱分析模型,得到触网风险的概率;
[0014] 设置风控系数,判定新用户指定时间段的行为是否存在异常。
[0015] 基于相同的发明构思,本发明公开的一种基于知识图谱的互联网行为分析系统,包括:
[0016] 获取模块1,用于获取各个用户的ID和在互联网上的历史行为数据集,依据用户ID和对应的历史行为数据集进行整合,构建行为二部图;
[0017] 选择模块,用于选择n个用户作为比较基础用户,具体地,为每个用户建立行为向量,计算N个用户的用户行为向量的多特征联合距离;其中,所述多特征联合距离反映N个用户之间多个互联网行为数据特征的整体相似度;根据多特征联合距离,对所述N个用户进行分组,从每一组中分别选取一定数量的用户构成n个用户作为比较基础用户;
[0018] 相似度计算模块,用于利用相似性计算方法挖掘所述行为二部图中的相似性特征;具体地,采用杰卡德距离来计算所述行为二部图中的相似性特征,得到每个用户与n个比较基础用户之间行为特征的相似度;
[0019] 训练模块,基于大数据平台的机器学习训练模型,用于将所述相似性特征作为知识图谱分析模型的输入,将触网标签作为所述知识图谱分析模型的输出,对知识图谱分析模型进行训练以得到触网型知识图谱分析模型,实现对海量用户的检测,提供不同用户在不同风险环境下的风险系数;
[0020] 获取模块2,用于获取新用户指定时间段的行为数据集,并构建有关新用户的二部图;
[0021] 识别模块,用于根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;具体地,采用杰卡德距离计算新用户的二部图与上述行为二部图的相似性特征,得到新用户与n个比较基础用户之间行为特征的相似度,将所述新用户与n个比较基础用户之间行为特征的相似度输入训练后的所述触网型知识图谱分析模型,得到触网风险的概率;
[0022] 判定模块,用于设置风控系数,判定新用户指定时间段的行为是否存在异常。另需从各个方面评估,模型准确率、误差,时间、空间复杂度,稳定性、迁移性等,减少误报风险。
[0023] 有益效果:
[0024] 1. 本发明所设计的一种基于知识图谱的互联网行为分析方法,通过获取各个用户的ID和在互联网上的历史行为数据集,依据用户ID和对应的历史行为数据集进行整合,构建行为二部图;选择n个用户作为比较基础用户;利用相似性计算方法挖掘行为二部图中的相似性特征;将相似性特征作为知识图谱分析模型的输入,将触网标签作为知识图谱分析模型的输出,对知识图谱分析模型进行训练以得到触网型知识图谱分析模型;获取新用户指定时间段的行为数据集,并构建有关新用户的二部图;根据触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;设置风控系数,判定新用户指定时间段的行为是否存在异常。本申请通过构建的行为二部图和训练的知识图谱分析模型的结合,挖掘出互联网行为的共性和隐形特征,以此判定用户是否有触网风险,进而实现用户指定时间段互联网行为异常的分析判断,大大提高了针对互联网行为分析的有效性和准确度。
[0025] 2.本发明通过为每个用户建立行为向量,计算N个用户的用户行为向量的多特征联合距离;根据多特征联合距离,对N个用户进行分组,从每一组中分别选取一定数量的用户构成n个用户作为比较基础用户,由此选择出的比较中心对象更具代表性,为模型的训练打好了数据基础,能提高知识图谱分析模型训练的效率。
[0026] 3. 杰卡德距离作为一种衡量两个集合差异性的指标,本发明采用杰卡德距离来计算有关行为二部图中的相似性特征,从而计算行为特征的相似度,能挖掘潜在信息,提高了用户相似性度量的精度。

附图说明

[0027] 图1为本发明的基于知识图谱的互联网行为分析的方法流程图。
[0028] 图2为本发明的选择n个用户作为比较基础用户的流程图。
[0029] 图3 为本发明的用户行为多特征选取流程图。
[0030] 图4 为本发明互联网异常行为分析的风险类别介绍。

具体实施方式

[0031] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
[0032] 如图1‑图2所示,本实施例提供一种基于知识图谱的互联网行为分析方法,包括:
[0033] 获取各个用户的ID和在互联网上的历史行为数据集,依据用户ID和对应的历史行为数据集进行整合,构建行为二部图;行为数据集具体是每个用户在互联网上留下的行为痕迹,包括但不限定为:年龄、性别、所处的生活环境、生活方式、兴趣爱好、内容阅读浏览偏好、支付消费偏好、出行情况、社交群体。行为二部图中包含两种节点,分别是用户ID节点和互联网行为节点。
[0034] 选择n个用户作为比较基础用户,具体地,为每个用户建立行为向量,计算N个用户的用户行为向量的多特征联合距离;其中,所述多特征联合距离反映N个用户之间多个互联网行为数据特征的整体相似度;根据多特征联合距离,对所述N个用户进行分组,从每一组中分别选取一定数量的用户构成n个用户作为比较基础用户。具体地,可以从每一组中分别选取1‑2名用户构成n个用户作为比较基础用户。由此选择出的比较中心对象更具代表性,代表性也更广,为模型的训练打好了数据基础,能提高知识图谱分析模型训练的效率。
[0035] 利用相似性计算方法挖掘所述行为二部图中的相似性特征;具体地,采用杰卡德距离来计算所述行为二部图中的相似性特征,得到每个用户与n个比较基础用户之间行为特征的相似度;
[0036] Jaccard距离用来度量两个集合之间的差异性,它是Jaccard的相似系数的补集,被定义为1减去Jaccard相似系数,公式如下:
[0037] 。
[0038] 将所述相似性特征作为知识图谱分析模型的输入,将触网标签作为所述知识图谱分析模型的输出,对知识图谱分析模型进行训练以得到触网型知识图谱分析模型;
[0039] 获取新用户指定时间段的行为数据集,并构建有关新用户的二部图;
[0040] 根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;具体地,采用杰卡德距离计算新用户的二部图与上述行为二部图的相似性特征,得到新用户与n个比较基础用户之间行为特征的相似度,将所述新用户与n个比较基础用户之间行为特征的相似度输入训练后的所述触网型知识图谱分析模型,得到触网风险的概率;
[0041] 设置风控系数,判定新用户指定时间段的行为是否存在异常。
[0042] 进一步地,设置风控系数,判定新用户指定时间段的行为是否存在异常,具体包括:将所述触网风险的概率与阈值进行比较来判定新用户指定时间段的行为是否存在异常。具体地,设置阈值为0.8,当触网风险的概率大于等于0.8时,则表明用户有触网风险。
[0043] 进一步地,根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签,还包括:触网风险标签取值为0或<1(小数点后4位);0表示无风险,小于1的具体值表示风险大小,越接近1,表示风险越大。
[0044] 当识别用户有触网风险时,则对用户发出提醒警示,以避免用户有进一步损失。另需从各个方面评估,模型准确率、误差,时间、空间复杂度,稳定性、迁移性等,减少误报风险。
[0045] 基于相同的发明构思,本实施例公开的一种基于知识图谱的互联网行为分析系统,包括:
[0046] 获取模块1,用于获取各个用户的ID和在互联网上的历史行为数据集,依据用户ID和对应的历史行为数据集进行整合,构建行为二部图;
[0047] 选择模块,用于选择n个用户作为比较基础用户,具体地,为每个用户建立行为向量,计算N个用户的用户行为向量的多特征联合距离;其中,所述多特征联合距离反映N个用户之间多个互联网行为数据特征的整体相似度;根据多特征联合距离,对所述N个用户进行分组,从每一组中分别选取一定数量的用户构成n个用户作为比较基础用户;
[0048] 相似度计算模块,用于利用相似性计算方法挖掘所述行为二部图中的相似性特征;具体地,采用杰卡德距离来计算所述行为二部图中的相似性特征,得到每个用户与n个比较基础用户之间行为特征的相似度;
[0049] 训练模块,用于将所述相似性特征作为知识图谱分析模型的输入,将触网标签作为所述知识图谱分析模型的输出,对知识图谱分析模型进行训练以得到触网型知识图谱分析模型;
[0050] 获取模块2,用于获取新用户指定时间段的行为数据集,并构建有关新用户的二部图;
[0051] 识别模块,用于根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别,得到触网风险标签;具体地,采用杰卡德距离计算新用户的二部图与上述行为二部图的相似性特征,得到新用户与n个比较基础用户之间行为特征的相似度,将所述新用户与n个比较基础用户之间行为特征的相似度输入训练后的所述触网型知识图谱分析模型,得到触网风险的概率;
[0052] 判定模块,用于设置风控系数,判定新用户指定时间段的行为是否存在异常。另需从各个方面评估,模型准确率、误差,时间、空间复杂度,稳定性、迁移性等,减少误报风险。
[0053] 本发明通过构建的行为二部图和训练的知识图谱分析模型的结合,挖掘出互联网行为的共性和隐形特征,以此判定用户是否有触网风险,进而实现用户指定时间段互联网行为异常的分析判断,大大提高了针对互联网行为分析的有效性和准确度。