一种数据驱动的互联网卡用户价值分类方法、设备及介质转让专利

申请号 : CN202211513076.5

文献号 : CN115563555B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 高世杰张永敏王姗姗周杰钰钱凯

申请人 : 中南大学

摘要 :

本发明公开一种数据驱动的互联网卡用户价值分类方法、设备及介质,本方法首先从互联网卡用户的网卡使用数据中提取出用于表征用户价值状况的特征,然后将特征组成待分类数据集,对待分类数据集进行聚类,将聚类结果输入至预设的机器学习模型中,得到特征重要性向量,最后利用特征重要性向量判断用户的价值等级,本方法是通过大数据分析和挖掘技术从大规模群体用户数据中捕捉用户行为反应的潜在用户价值信息,从而利用潜在用户价值信息实现用户的价值等级划分。本方法得到的分类结果具有的明确的目的性和高可靠性,能为企业决策行为提供合理的大数据支持,而且待分类数据集中所筛选的特征可根据不同的应用场景进行差异化选取,很高的普适性。

权利要求 :

1.一种数据驱动的互联网卡用户价值分类方法,其特征在于,所述数据驱动的互联网卡用户价值分类方法包括:获取互联网卡用户的网卡使用数据,从所述网卡使用数据中提取出用于表征用户价值状况的特征,并对所述特征进行预处理后生成待分类数据集;

对所述待分类数据集进行聚类,得到聚类结果;将所述聚类结果作为所述待分类数据集的样本标签输入至预设的机器学习模型中,得到所述机器学习模型在满足可信度的评价指标后输出的特征重要性向量;其中,所述特征重要性向量是由所述待分类数据集中每个所述特征分别对应的特征重要性值所组成的向量;

基于所述特征重要性向量,为用户的价值等级进行分类;其中,所述基于所述特征重要性向量,为用户的价值等级进行分类,包括如下三种情况中的其中一种:第一种情况包括:将用户在所述待分类数据集中的特征向量转置后的向量与所述特征重要性向量相乘,得到用户的评分;基于所述评分判断用户的价值等级;

第二种情况包括:将用户在所述待分类数据集中的特征向量转置后的向量与所述特征重要性向量相乘,得到用户的评分;根据用户的所述评分,得到用户的第一价值等级;根据所述待分类数据集构建用户属性图,根据所述特征重要性向量更新所述用户属性图,得到更新后的所述用户属性图;根据预设的深度图聚类模型对所述更新后的所述用户属性图进行用户等级分类,得到用户分类后的第二价值等级;根据用户的所述第一价值等级和所述第二价值等级,判断用户的价值等级;

第三种情况包括:将用户在所述待分类数据集中的特征向量转置后的向量与所述特征重要性向量相乘,得到用户的评分;根据用户的所述评分,得到用户的第一价值等级;根据所述待分类数据集构建用户属性图,根据所述特征重要性向量更新所述用户属性图,得到更新后的所述用户属性图;根据预设的深度图聚类模型对所述更新后的所述用户属性图进行用户等级分类,得到用户分类后的第二价值等级;根据集成学习算法将所述机器学习模型与所述深度图聚类模型融合成新模型,将所述待分类数据集输入至所述新模型中,得到所述新模型输出的用户的第三价值等级;根据用户的所述第一价值等级、所述第二价值等级和所述第三价值等级,判断用户的价值等级。

2.根据权利要求1所述的数据驱动的互联网卡用户价值分类方法,其特征在于,所述基于所述评分判断用户的价值等级,包括:对用户的所述评分进行归一化,得到用户的归一化评分,按照阈值法划分价值等级区间,根据用户的所述归一化评分落入的所述价值等级区间,得到用户的价值等级。

3.根据权利要求1所述的数据驱动的互联网卡用户价值分类方法,其特征在于,所述根据所述待分类数据集构建用户属性图,根据所述特征重要性向量更新所述用户属性图,包括:构建用户属性图;其中,所述用户属性图以每位用户作为图的节点、每位用户在所述待分类数据集中的特征向量作为节点的特征以及每两位用户之间的余弦距离作为节点之间的边;

利用融合注意力机制的图自动编码器更新所述用户属性图,其中,所述图自动编码器的更新过程包括:

其中, 表示节点 聚合邻居节点的特征后的属性, 表示节点 的邻居节点的集合, 表示节点 与节点 之间的注意力权重, 表示所述特征重要性向量, 表示邻居节点 的属性, 代表机器学习中的Sigmoid函数。

4.根据权利要求3所述的数据驱动的互联网卡用户价值分类方法,其特征在于,所述深度图聚类模型通过如下方式对所述更新后的所述用户属性图进行用户等级分类,包括:其中, 表示第 类的聚类中心, 为图节点的表示, 表示节点 属于第 类的概率, 为第 类的聚类中心, 为节点 的等级分类结果。

5.根据权利要求1所述的数据驱动的互联网卡用户价值分类方法,其特征在于,所述根据用户的所述第一价值等级、所述第二价值等级和所述第三价值等级,判断用户的价值等级,包括:分别为所述第一价值等级、所述第二价值等级和所述第三价值等级设置对应的权重;

将用户的所述第一价值等级、所述第二价值等级和所述第三价值等级按照权重进行融合,得到用户的价值等级。

6.一种电子设备,其特征在于:包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行权利要求1至5任一项所述的数据驱动的互联网卡用户价值分类方法。

7.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至5任一项所述的数据驱动的互联网卡用户价值分类方法。

说明书 :

一种数据驱动的互联网卡用户价值分类方法、设备及介质

技术领域

[0001] 本发明涉及大数据分析技术领域,特别涉及一种数据驱动的互联网卡用户价值分类方法、设备及介质。

背景技术

[0002] 用户是每个企业的立业之本,企业的发展最主要的来源是庞大的用户群体,在互联网时代,扩大用户群体、增加用户的日活DAU(Daily Active User)是每个公司的首要战略目标。一方面,由于不同用户对产品的依赖度、自身消费水平、推荐传播水平等有各自的特点,从而导致不同用户能为企业创造的价值不同,另一方面,由于不同企业所提供的服务不同,尤其是目前各个企业为了抢占市场份额,推出了各种新型产品,以三大运营商推出的互联网卡产品为代表,这类产品的特点为能快速吸引用户,但用户忠诚度不高,流失速度快,存活时间短,现有的用户价值评价方法针对此类用户无法提供一个较好用户等级参考,企业无法对用户进行差异化的营销策略,导致用户流失现象加剧。
[0003] 现有关于用户价值分类方法有以下缺点:
[0004] 1)现有用户价值分类方法十分依赖用户的留存时长,通常在用户留存半年或者一年以后才对用户进行评分评级,对如互联网卡用户这种在网时长较短的用户就会不适用;
[0005] 2)现有用户价值分类方法更多的是关注用户的消费价值,而忽略了消费程度低,但忠诚度高的用户,此类用户也是一种潜在的高价值用户。传统的用户价值分类方法忽略了这一维度的特征,故而最终的分类结果也有失偏颇;
[0006] 3)由于现有用户价值分类方法更多的是关注单个场景的分类,方法的普适性也相对较差。

发明内容

[0007] 本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种数据驱动的互联网卡用户价值分类方法、设备及介质。
[0008] 本发明的第一方面,提供了一种数据驱动的互联网卡用户价值分类方法,所述数据驱动的互联网卡用户价值分类方法包括:
[0009] 获取互联网卡用户的网卡使用数据,从所述网卡使用数据中提取出用于表征用户价值状况的特征,并对所述特征进行预处理后生成待分类数据集;
[0010] 对所述待分类数据集进行聚类,得到聚类结果;将所述聚类结果作为所述待分类数据集的样本标签输入至预设的机器学习模型中,得到所述机器学习模型在满足可信度的评价指标后输出的特征重要性向量;其中,所述特征重要性向量是由所述待分类数据集中每个所述特征分别对应的特征重要性值所组成的向量;
[0011] 基于所述特征重要性向量,为用户的价值等级进行分类。
[0012] 根据本发明的实施例,至少具有如下技术效果:
[0013] 本方法首先从互联网卡用户的网卡使用数据中提取出用于表征用户价值状况的特征,然后将特征组成待分类数据集,对待分类数据集进行聚类,将聚类结果输入至预设的机器学习模型中,得到特征重要性向量,最后利用特征重要性向量判断用户的价值等级,本方法是通过大数据分析和挖掘技术从大规模群体用户数据中捕捉用户行为反应的潜在用户价值信息,从而利用潜在用户价值信息实现用户的价值等级划分。本方法得到的分类结果具有的明确的目的性和高可靠性,能为企业决策行为提供合理的大数据支持,而且待分类数据集中所筛选的特征可根据不同的应用场景进行差异化选取,很高的普适性。
[0014] 根据本发明的一些实施例,所述基于所述特征重要性向量,为用户的价值等级进行分类,包括:
[0015] 将用户在所述待分类数据集中的特征向量转置后的向量与所述特征重要性向量相乘,得到用户的评分;
[0016] 基于所述评分判断用户的价值等级。
[0017] 根据本发明的一些实施例,所述基于所述评分判断用户的价值等级,包括:
[0018] 对用户的所述评分进行归一化,得到用户的归一化评分,按照阈值法划分价值等级区间,根据用户的所述归一化评分落入的所述价值等级区间,得到用户的价值等级。
[0019] 根据本发明的一些实施例,所述基于所述特征重要性向量,为用户的价值等级进行分类,包括:
[0020] 将用户在所述待分类数据集中的特征向量转置后的向量与所述特征重要性向量相乘,得到用户的评分;根据用户的所述评分,得到用户的第一价值等级;
[0021] 根据所述待分类数据集构建用户属性图,根据所述特征重要性向量更新所述用户属性图,得到更新后的所述用户属性图;根据预设的深度图聚类模型对所述更新后的所述用户属性图进行用户等级分类,得到用户分类后的第二价值等级;
[0022] 根据用户的所述第一价值等级和所述第二价值等级,判断用户的价值等级。
[0023] 根据本发明的一些实施例,所述根据所述待分类数据集构建用户属性图,根据所述特征重要性向量更新所述用户属性图,包括:
[0024] 构建用户属性图;其中,所述用户属性图以每位用户作为图的节点、每位用户在所述待分类数据集中的特征向量作为节点的特征以及每两位用户之间的余弦距离作为节点之间的边;
[0025] 利用融合注意力机制的图自动编码器更新所述用户属性图,其中,所述图自动编码器的更新过程包括:
[0026]
[0027] 其中, 表示节点 聚合邻居节点的特征后的属性, 表示节点 的邻居节点的集合, 表示节点 与节点 之间的注意力权重, 表示所述特征重要性向量, 表示邻居节点 的属性, 代表机器学习中的Sigmoid函数。
[0028] 根据本发明的一些实施例,所述深度图聚类模型通过如下方式对所述更新后的所述用户属性图进行用户等级分类,包括:
[0029]
[0030]
[0031] 其中, 表示第 类的聚类中心, 为图节点的表示, 表示节点 属于第 类的概率, 为第 类的聚类中心, 为节点 的等级分类结果。
[0032] 根据本发明的一些实施例,所述基于所述特征重要性向量,为用户的价值等级进行分类,包括:
[0033] 将用户在所述待分类数据集中的特征向量转置后的向量与所述特征重要性向量相乘,得到用户的评分;根据用户的所述评分,得到用户的第一价值等级;
[0034] 根据所述待分类数据集构建用户属性图,根据所述特征重要性向量更新所述用户属性图,得到更新后的所述用户属性图;根据预设的深度图聚类模型对所述更新后的所述用户属性图进行用户等级分类,得到用户分类后的第二价值等级;
[0035] 根据集成学习算法将所述机器学习模型与所述深度图聚类模型融合成新模型,将所述待分类数据集输入至所述新模型中,得到所述新模型输出的用户的第三价值等级;
[0036] 根据用户的所述第一价值等级、所述第二价值等级和所述第三价值等级,判断用户的价值等级。
[0037] 根据本发明的一些实施例,所述根据用户的所述第一价值等级、所述第二价值等级和所述第三价值等级,判断用户的价值等级,包括:
[0038] 分别为所述第一价值等级、所述第二价值等级和所述第三价值等级设置对应的权重;
[0039] 将用户的所述第一价值等级、所述第二价值等级和所述第三价值等级按照权重进行融合,得到用户的价值等级
[0040] 本发明的第二方面,提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行上述的方法。由于电子设备采用了上述实施例的数据驱动的互联网卡用户价值分类方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
[0041] 本发明的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述的数据驱动的互联网卡用户价值分类方法。由于可读存储介质采用了上述实施例的数据驱动的互联网卡用户价值分类方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
[0042] 需要注意的是,本发明的第二方面和第三方面与现有技术之间的有益效果与上述的数据驱动的互联网卡用户价值分类方法与现有技术之间的有益效果相同,此处不再细述。
[0043] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0044] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0045] 图1是本发明一个实施例提供的一种数据驱动的互联网卡用户价值分类方法的流程示意图;
[0046] 图2是本发明另一个实施例提供的一种数据驱动的互联网卡用户价值分类方法的流程示意图;
[0047] 图3是本发明一个实施例提供的聚类算法选择示意图;
[0048] 图4是本发明一个实施例提供的聚类簇数选择示意图;
[0049] 图5是本发明一个实施例提供的LightGBM模型性能评价示意图;
[0050] 图6是本发明一个实施例提供的最终分类结果所对应评价指标中的账户余额对比示意图;
[0051] 图7是本发明一个实施例提供的最终分类结果所对应评价指标中的当月消费对比示意图;
[0052] 图8是本发明一个实施例提供的最终分类结果所对应评价指标中的活跃天数对比示意图;
[0053] 图9是本发明一个实施例提供的最终分类结果所对应评价指标中的日均流量使用对比示意图;
[0054] 图10是本发明一个实施例提供的最终分类结果所对应评价指标中的3个月后离网率对比示意图;
[0055] 图11是本发明一个实施例提供的最终分类结果所对应评价指标中的不同等级用户占比示意图。

具体实施方式

[0056] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0057] 在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0058] 在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0059] 本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0060] 需要理解的是,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0061] 参照图1,本申请的一个实施例,提供了一种数据驱动的互联网卡用户价值分类方法,本方法包括如下步骤S101至S105:
[0062] 步骤S101、获取互联网卡用户的网卡使用数据,从网卡使用数据中提取出用于表征用户价值状况的特征,并对特征进行预处理后生成待分类数据集。
[0063] 在步骤S101中,用于表征用户价值状况的特征包括但不仅限于用户忠诚度特征、黏性特征和商业价值特征,这些特征可以通过RFM模型(RFM模型是衡量用户价值和用户创造利益能力的重要工具和手段)进行提取,RFM模型通过用户的近期在互联网卡的购买行为Recency、购买的总体频率Frequency以及花了多少钱Monetary 这3项指标来描述该用户的价值特征。这里的预处理包括但不仅限于数据清洗与数据归一化;其中,数据清洗是为了过滤掉异常的数据,数据归一化是为了便于后续计算。待分类数据集由预处理后的特征组成。
[0064] 步骤S103、对待分类数据集进行聚类,得到聚类结果;将聚类结果作为待分类数据集的样本标签输入至预设的机器学习模型中,得到机器学习模型在满足可信度的评价指标后输出的特征重要性向量;其中,特征重要性向量是由待分类数据集中每个特征分别对应的特征重要性值所组成的向量。
[0065] 在步骤S103中,通过CH系数(Calinski‑Harabaz Index)的表现情况来选择初始的聚类中心以及具体适用的聚类算法,在一些实施例中,优选K‑Means(k‑means clustering algorithm  , k均值聚类算法)聚类算法对待分类数据集进行聚类,聚类后的结果是用户群体的初始标签值,其将作为待分类数据集的样本标签。
[0066] 在本申请一些实施例中,机器学习模型是LightGBM模型,将待分类数据集划分为80%的训练集和20%的测试集,训练集用于训练LightGBM模型,测试集用于测试LightGBM模型,当LightGBM模型在大于可信度的评价指标(指标为Precision(精准率)、Recall(召回率)、Accuracy(准确率)三项)的阈值,基于满足可信度的评价指标后的LighGBM模型将会计算每个特征对最后分类结果所贡献的特征重要性,直至输出的特征重要性向量。
[0067] 步骤S105、基于特征重要性向量,为用户的价值等级进行分类。
[0068] 步骤S103得知待分类数据集中的特征对最后分类(价值等级的分类)结果所贡献的特征重要性,进而步骤S105能够利用这一特征重要性向量判断用户的价值等级。
[0069] 本方法首先从互联网卡用户的网卡使用数据中提取出用于表征用户价值状况的特征,然后将特征组成待分类数据集,对待分类数据集进行聚类,将聚类结果输入至预设的机器学习模型中,得到特征重要性向量,最后利用特征重要性向量判断用户的价值等级,本方法是通过大数据分析和挖掘技术从大规模群体用户数据中捕捉用户行为反应的潜在用户价值信息,从而利用潜在用户价值信息实现用户的价值等级划分。本方法得到的分类结果具有的明确的目的性和高可靠性,能为企业决策行为提供合理的大数据支持,而且待分类数据集中所筛选的特征可根据不同的应用场景进行差异化选取,很高的普适性。
[0070] 在本申请的一个实施例中,步骤S105的具体实现过程包括如下步骤S1051a至S1053a:
[0071] 步骤S1051a、根据特征重要性向量与用户在待分类数据集中的特征向量转置后的向量相乘,得到用户的评分。
[0072] 步骤S1052a、对用户的评分进行归一化,得到用户的归一化评分。
[0073] 步骤S1053a、按照阈值法划分价值等级区间,根据用户的归一化评分落入的价值等级区间,得到用户的价值等级。
[0074] 在本实施例中,步骤S1051a将两个向量相乘后,就能得到用户的评分(评分为两个向量的积);然后步骤S1052a对评分进行归一化,归一化的范围可以是[1,100];然后步骤S1053a划分价值等级区间,例如[0,20]是一个区间,[21,40]是一个区间,依次类推,最后判断用户的归一化评分落入哪个区间,将该用户划分至对应的价值等级。
[0075] 在本申请的一个实施例中,步骤S105的具体实现过程包括如下步骤S1051b至S1053b:
[0076] 步骤S1051b、将用户在待分类数据集中的特征向量转置后的向量与特征重要性向量相乘,得到用户的评分;根据用户的评分,得到用户的第一价值等级。
[0077] 步骤S1052b、根据待分类数据集构建用户属性图,根据特征重要性向量更新用户属性图,得到更新后的用户属性图;根据预设的深度图聚类模型对更新后的用户属性图进行用户等级分类,得到用户分类后的第二价值等级。
[0078] 步骤S1053b、根据用户的第一价值等级和第二价值等级,判断用户的价值等级。
[0079] 在本实施例的步骤S1052b中,先利用待分类数据集中的特征去构建用户属性图,在一些实施例中,以将每位用户作为图的节点、每位用户的特征向量作为节点的特征和每两位用户之间的余弦距离作为节点之间的边的方式,构建用户属性图。在构建用户属性图之后,根据特征重要性向量更新用户图结构,在一些实施例中,通过融合注意力机制的图自动编码器GAE结合特征重要性向量来更新用户图结构。再利用预设的深度图聚类模型对更新后的用户属性图进行用户等级预测,深度图聚类模型利用图聚类算法求取图节点属于某个类别的概率,然后根据得到的概率值得到归属的类别。
[0080] 在步骤S1053b中,可为第一价值等级和第二价值等级分别设置不同的权重值,然后利用权值法来综合判断用户的价值等级。这里利用到了两个不同的用户价值等级融合来进行综合判断。本方法通过用户短期的行为数据与属性数据,捕捉用户行为反应的潜在用户价值信息。在对各个用户的价值进行分类的过程中,一方面,深度图聚类模型延续使用了同一特征重要性向量,从而使得深度图聚类模型和机器学习模型的融合进一步突显了重要性特征的权重,另一方面,深度图聚类模型和机器学习模型能互补,从而使得分类结果和各等级群体的评价指标具有的明确的目的性和高可靠性,进而为决策提供了合理的大数据支持。
[0081] 在本申请的一个实施例中,步骤S105的具体实现过程包括如下步骤S1051c至S1054c:
[0082] 步骤S1051c、将用户在待分类数据集中的特征向量转置后的向量与特征重要性向量相乘,得到用户的评分;根据用户的评分,得到用户的第一价值等级。
[0083] 步骤S1052c、根据待分类数据集构建用户属性图,根据特征重要性向量更新用户属性图,得到更新后的用户属性图;根据预设的深度图聚类模型对更新后的用户属性图进行用户等级分类,得到用户分类后的第二价值等级。
[0084] 步骤S1053c、根据集成学习算法将机器学习模型与深度图聚类模型融合成新模型,将待分类数据集输入至新模型中,得到新模型输出的用户的第三价值等级。
[0085] 步骤S1054c、根据用户的第一价值等级、第二价值等级和第三价值等级,判断用户的价值等级。
[0086] 在步骤S1053c中,可利用集成学习算法Stacking将第一机器学习模型和深度图聚类模型进行模型之间的融合,得到一个新模型。利用这一新模型能充分的从第二数据集中提取特征进行分类。需要注意的是,集成学习算法Stacking实现模型之间的融合为本领域技术人员的公知常识,此处不再细述。
[0087] 本方法通过用户短期的行为数据与属性数据,捕捉用户行为反应的潜在用户价值信息。在对各个用户的价值进行分类的过程中,一方面,各模型延续使用了同一特征重要性向量,从而使得多个模型的融合进一步突显了重要性特征的权重,另一方面,各模型能互补,尤其是深度图聚类模型能与机器学习模型能实现互补,使得分类结果和各等级群体的评价指标具有的明确的目的性和高可靠性,进而为决策提供了合理的大数据支持。
[0088] 参照图2至图11,为了便于理解,以下提供一组实施例,包括一种数据驱动的互联网卡用户价值分类方法,本方法包括如下步骤S201至S206:
[0089] 步骤S201、获取互联网卡的初始数据集,利用RFM模型进行特征选择,并对选择的特征进行数据清洗及归一化后生成待分类数据集。
[0090] 在本步骤S201中,RFM模型通过一个用户的近期购买行为Recency、购买的总体频率Frequency以及花了多少钱Monetary 3项指标来描述该用户的价值状况。
[0091] 例如,获取电信互联网卡10万用户一个月的互联网卡使用数据,从中随机采样出10万用户三个月的数据作为性能评估数据集(即初始数据集),利用RFM模型选取初始数据集中关键的核心价值特征,并根据电信用户场景,从初始数据集中选取用户忠诚度特征、黏性特征和商业价值特征,经过数据清洗与数据归一化后生成待分类数据集。
[0092] 优选地,在该步骤的数据清洗过程中,异常检测公式为:
[0093]                                     (1)
[0094]       (2)
[0095] 其中, 代表同一特征序列中的上四分位数, 代表同一特征序列中的下四分位数, 代表需要保留的正常值数据,其余的数据以正常值数据的均值替换。需要注意的是,异常检测公式为领域的公知常识,此处不再细述。
[0096] 归一化计算公式为:
[0097]                                  (3)
[0098] 其中, 代表归一化后的数据, 代表该特征中的最大值, 代表特征中的最小值, 与上述公式(2)中的异常值清洗中含义相同。
[0099] 步骤S202、对待分类数据集进行聚类,聚类的结果作为标签输入到机器学习模型中,在机器学习模型满足可信度的评价指标后,计算用于评估系列特征对最后分类结果所做贡献的特征重要性向量。
[0100] 在本步骤S202中,对待分类数据集进行无监督学习聚类,聚类算法与初始值的个数根据CH系数的表现情况来进行选择,如图3(横轴表示四种聚类算法,从左至右依次为K均值聚类、层次聚类、高斯聚类、密度聚类,纵轴表示CH系数)和图4(横轴表示簇数量,纵轴表示CH系数)所示,聚类以得到标签的算法优选采用二分类的K‑Means算法。其中,CH系数计算公式如下:
[0101] 类内离差矩阵:
[0102]                   (4)
[0103] 类间离差矩阵为:
[0104]                    (5)
[0105] 其中, 中的 表示簇 的点集(这里字符为大写 ), 和中的 表示簇 的中心点(这里字符为小写 ), 表示簇 的中心点, 表
示簇 的个数。
[0106] CH系数计算公式为:
[0107]                                (6)
[0108] 其中, 和 分别为类间离差矩阵 和类内离差矩阵 的迹,CH系数值越大,代表类内样本点越紧密,类间距离越松散,聚类效果越好。
[0109] 之后,基于优选的K‑means聚类算法进行无监督学习,得到用户群体的初始标签值,标签值的计算公式如下:
[0110]                          (7)
[0111] 其中, 是经过无监督学习后的样本标签, 代表每个数据样本即每个用户,和 为聚类的两种类别。
[0112] 然后以上述得到的用户群体初始标签值作为待分类数据集的样本标签,将待分类数据集进行随机划分,80%作为训练集放入LightGBM模型中训练,20%作为测试集用户模型性能测试,置信度阈值设置为0.9,当三者表现都大于置信度阈值时,认为该模型可信。其中包含了四个基本条件:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN),四种量化指标计算所得出的三种评价指标Precision(精准率),Recall(召回率),Accuracy(准确率)如公式三项评价指标表现结果如图5所示,均大于置信度阈值,认为该LightGBM模型可信,得到第一个分类模型 。
[0113]                                 (8)
[0114]                     (9)
[0115]               (10)
[0116] 获取特征重要性向量:基于满足可信度的评价指标后的LighGBM模型计算每个特征对最后分类结果所贡献的特征重要性,得到特征重要性向量 ,特征重要性公式如下:
[0117]                            (11)
[0118] 其中,代表特征 , 为树 中的特征重要性的二次方,为树的叶子节点数量, 即为树的非叶子节点数量(构建的树都是具有左右孩子的二叉树), 是和节点 相关联的特征, 是节点 分裂之后平方损失的减少值。
[0119]                            (12)
[0120] 为特征 的特征重要性的二次方, 为LightGBM算法中所设置的树的数量,表示第 棵树。
[0121] 计算完毕后得到特征重要性向量 ,该特征重要性向量即由各个特征所分别对应的特征重要性值所组成的向量。
[0122] 步骤S203、以特征重要性向量与待分类数据集中各个用户所对应的特征向量转置后的向量相乘得到各个用户的评分,根据用户划分等级得到各个用户所对应的第一价值等级。
[0123] 该步骤即基于上述得出的特征重要性向量 ,将待分类数据集中的每个用户的特征向量 (行向量)进行转置后,与其相乘,得到每个用户的评分。
[0124]                                      (13)
[0125] 其中, 是第 个用户的特征向量, 代表第 个用户的得分, 则代表全体用户的得分集合。
[0126] 优选地,该步骤划分用户等级的方法可为:
[0127] 对上述的用户得分集合 进行归一化,归一化的范围为[1,100],此时得到每个用户的归一化后得分 ,根据第二得分划分不同用户等级,在此划分阈值设置20,即[1, 20]得分为1星用户,[21, 40]为2星用户,依次划分,得到用户等级 (该阈值可根据需要动态变化)。
[0128] 步骤S204、根据待分类数据集构建用户属性图,并根据特征重要性向量更新用户属性图,利用深度图聚类模型对更新后的用户属性图进行用户等级预测,得到的分类结果作为各个用户的第二价值等级。
[0129] 在该步骤中,首先构建用户图,将每个用户作为图的节点,用户的特征向量作为节点的特征,用户之间的余弦距离作为节点之间的边,以此来构建用户图。边的计算公式如下:
[0130]                                 (14)
[0131] 其中 代表第 个和第 个用户之间的边, 代表第 个用户的特征向量,代表第 个用户的特征向量,为点乘运算。
[0132] 构建深度图聚类模型:利用深度图聚类算法,对生成的用户图进行聚类,首先利用融合注意力机制的图自动编码器GAE来更新用户图结构,更新公式如下:
[0133]                     (15)
[0134] 其中, 表示节点 聚合邻居节点的特征信息后的属性, 表示节点 的邻居节点的集合, 表示节点 与节点 之间的注意力权重, 表示所述特征重要性向量,表示邻居节点 的属性。
[0135] 更新完图结构后,利用图聚类求取其属于某个类别的概率,然后根据得到的概率值得到归属的类别,概率计算公式如下:
[0136]               (16)
[0137] 其中, 为第 类的聚类中心, 为图节点的表示, 为该节点属于第 类的概率, 为第 类的聚类中心。
[0138] 根据概率来计算类别,计算公式如下:
[0139]                                      (17)
[0140] 为节点 最终分类的结果,此深度图聚类模型作为 。
[0141] 步骤S205、用集成学习算法Stacking将机器学习模型和深度图聚类模型融合生成第三模型,将待分类数据集输入第三模型中得到各个用户的第三价值等级。在该步骤即利用Stacking算法,将上述的模型 作为第一层模型,将上述的模型 作为第二层模型,得到新模型 。
[0142] 步骤S206、根据各个用户所分别对应的第一价值等级、第二价值等级、第三价值等级,采用投票法确定该用户最终的价值等级,最终统计得到各等级所有用户所共同的各项评价指标。
[0143] 在该步骤中,投票法的具体实施可采用对三个等级按权重进行融合的方式处理。该步骤的评价指标根据不同业务场景可采用不同指标。基本实施例的电信互联网卡,可选地,评价指标可以是:用户黏性指标(用户对该卡的用程度)、商业价值指标(用户贡献的消费)、流失率指标(后续几个月的离网情况)。
[0144] 本实施例所得的各项评价指标,如图6至图11所示,可以从箱线图看出,随着用户等级的增加,箱线图上下限以及上下四份位数 和 也随着增加,图6(横轴表示用户等级,纵轴表示账户余额)和图7(横轴表示用户等级,纵轴表示实际消费金额)表示的是用户三个月平均的消费金额和账户余额,特别的,图8(横轴表示用户等级,纵轴表示活跃天数)和图9(横轴表示用户等级,纵轴表示平均流量消耗)两张图评价指标为黏性指标,反应用户对互联网卡产品的依赖程度,图8图9表示用户的月均活跃天数和日均流量消耗,可以看出,越高的等级用户对互联网卡的依赖度越强,同时从图10(横轴表示用户等级,纵轴表示用户流失率)中可以看出用户离网数据,三个月后,第一、二、三等级用户离网率分别达到62.4%、18.7%、13.2%,而相对应的第四、五两个高等级用户离网率只有5.3%,0.6%,图11(横轴表示用户等级,纵轴表示用户数量所占总体的比例)可以反映各个等级用户的占比,可以看出第四第五等级用户占总人数比例的20%左右,符合“二八法则”,以上性能评估可以反映出上述步骤S201至S206的优越性。
[0145] 本申请的一个实施例,提供了一种数据驱动的互联网卡用户价值分类系统,本系统包括待分类数据集单元、特征重要性向量获取单元和用户价值等级分类单元,具体:
[0146] 待分类数据集获取单元用于获取互联网卡用户的网卡使用数据,从网卡使用数据中提取出用于表征用户价值状况的特征,并对特征进行预处理后生成待分类数据集。
[0147] 特征重要性向量获取单元用于对待分类数据集进行聚类,得到聚类结果;将聚类结果作为待分类数据集的样本标签输入至预设的机器学习模型中,得到机器学习模型在满足可信度的评价指标后输出的特征重要性向量;其中,特征重要性向量是由待分类数据集中每个特征分别对应的特征重要性值所组成的向量。
[0148] 用户价值等级分类单元用于基于特征重要性向量,为用户的价值等级进行分类。
[0149] 本申请还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现:如上述的数据驱动的互联网卡用户价值分类方法。
[0150] 处理器和存储器可以通过总线或者其他方式连接。
[0151] 存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0152] 实现上述实施例的数据驱动的互联网卡用户价值分类方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的数据驱动的互联网卡用户价值分类方法,例如,执行以上描述的图1中的方法步骤S101至步骤S105,或图2中的方法步骤S201至步骤S206。
[0153] 本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行:如上述的数据驱动的互联网卡用户价值分类方法。
[0154] 该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的数据驱动的互联网卡用户价值分类方法,例如,执行以上描述的图1中的方法步骤S101至步骤S105,或图2中的方法步骤S201至步骤S206。
[0155] 本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储数据(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD‑ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的数据并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何数据递送介质。
[0156] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0157] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。