一种换电套餐用户逾期的预测方法、系统、装置及介质转让专利

申请号 : CN202311126893.X

文献号 : CN116862078B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李朝黄家明肖劼胡始昌杨建燮杨斌

申请人 : 杭州宇谷科技股份有限公司

摘要 :

本发明公开了一种换电套餐用户逾期的预测方法、系统、装置及介质,包括:获取用户的历史样本集;基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集;基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。本申请通过扩展随机数范围,可以增加样本集的多样性,避免样本过于集中而导致的重复数据,有效地减少重复数据的产生,并降低合成边界噪声样本的数量。同时通过融合模型结(56)对比文件US 2018336362 A1,2018.11.22祝由 等.供应链金融风险评估研究综述——基于知识图谱技术《.系统工程理论与实践》.2023,第第43卷卷(第第3期期),第795-812页.

权利要求 :

1.一种换电套餐用户逾期的预测方法,其特征在于,所述预测方法包括:获取用户的历史样本集,其中,所述历史样本集包括用户的行为数据、消费数据和信用数据;

所述行为数据样本包括骑行距离、换电次数、最近一次换电的时间间隔中的至少一种;

所述消费数据样本包括用户逾期前购买的最后一笔换电套餐的金额和天数、以及购买换电套餐是否使用优惠券中的至少一种;

所述信用数据样本包括用户是否有免押资格、芝麻信用分、历史逾期状况中的至少一种;

基于所述历史样本集进行聚类处理确定初始簇集合,对所述初始簇集合中的每个初始簇进行上采样,确定新样本集;

其中,所述基于所述历史样本集进行聚类处理确定初始簇集合,对所述初始簇集合中的每个初始簇进行上采样,确定新样本集,包括:根据所述历史样本集进行聚类处理,得到初始簇集合c1,c2,…,ck,其中,所述初始簇集合中的每个所述初始簇包括初始少数样本集和初始多数样本集;

基于所述初始少数样本集和所述初始多数样本集,确定所述初始簇集合中每个初始簇的不平衡率;

根据所述不平衡率和预先设定的阈值区间对所述初始簇集合进行筛选,确定目标簇集合;

基于所述目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集;

其中,所述基于所述目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集,包括:基于所述目标少数类样本集中样本之间的平均距离,确定所述目标簇集合中每个目标簇的采样权重,每个目标簇的采样权重为 ,其中,distancej为目标少数类样本集中样本之间的平均距离,j指代的是过滤后的簇的编号,j=1,2,...,t,t≤k;

根据所述采样权重,确定相对应的所述目标簇中新样本的目标数量,新样本的目标数量为 ,其中,majority_count(cj)表示每个目标簇中多数类样本数量,minority_count(cj)表示每个目标簇中少数类样本数量;

在每个所述目标簇中根据所述中心点样本和其他样本,利用预设差值模型生成所述目标数量的新样本,得到新样本集,所述预设差值模型为 ,其中,xnew为新样本,t取自‑10到10之间的随机数,xj是目标簇j中少数类样本的中心点,x表示选中的最近邻少数类样本,x表示选中的最近邻少数类样本的获取方式为:计算目标簇中少数类样本的中心点xj,计算平均值或者加权平均值作为中心点xj,选取与中心点xj的K个近邻样本中的任意一个样本,其中K为超参数;

基于所述新样本集和所述历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;

根据所述预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。

2.根据权利要求1所述的换电套餐用户逾期的预测方法,其特征在于,所述基于所述新样本集和所述历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型,包括:基于所述数据集对所述融合模型中的机器学习模型进行训练,确定目标最佳模型;

基于所述数据集在所述最佳模型上采用五折交叉验证,确定新数据集;

基于所述新数据集对所述融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到所述预测模型。

3.根据权利要求2所述的换电套餐用户逾期的预测方法,其特征在于,所述基于所述数据集对所述融合模型中的机器学习模型进行训练,确定目标最佳模型,包括:根据所述数据集中的训练集训练所述机器学习模型,采用所述数据集中的验证集进行评估,根据评估结果确定最佳模型;

基于贝叶斯优化算法对所述最佳模型进行优化处理,得到所述目标最佳模型。

4.根据权利要求2所述的换电套餐用户逾期的预测方法,其特征在于,所述新数据集包括新训练集、新验证集和新测试集;所述基于所述新数据集对所述融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到所述预测模型,包括:根据所述新训练集训练所述逻辑回归模型,采用所述新测试集进行评估,并根据评估结果采用所述新验证集进行模型调参,直至满足预设条件,得到所述预测模型。

5.一种用于实现权利要求1‑4任一项所述的换电套餐用户逾期的预测方法的系统,其特征在于,所述预测系统包括:历史样本集获取模块,用于获取用户的历史样本集,其中,所述历史样本集包括用户的行为数据、消费数据和信用数据;

新样本集获取模块,用于基于所述历史样本集进行聚类处理确定初始簇集合,对所述初始簇集合中的每个初始簇进行上采样,确定新样本集;

预测模型获取模块,用于基于所述新样本集和所述历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;

用户逾期结果获取模块,用于根据所述预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。

6.一种换电套餐用户逾期的预测装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1‑4中任一项所述的换电套餐用户逾期的预测方法。

7.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1‑4中任一项所述的换电套餐用户逾期的预测方法。

说明书 :

一种换电套餐用户逾期的预测方法、系统、装置及介质

技术领域

[0001] 本申请涉及一种大数据处理技术领域,尤其涉及一种换电套餐用户逾期的预测方法、系统、装置及介质。

背景技术

[0002] 目前,预测用户购买的换电套餐到期后长期不归还电池也不续费导致的长期逾期问题,有两种方法可供选择。一种是基于规则的方法,主要依赖用户的行为和信用信息,如长期未还电天数和芝麻信用分数。但这种方法只适用于简单场景,对于复杂场景的预测效果有限。另一种是基于有监督模型分类的方法,需要通过机器学习训练模型来进行预测。该方法可以根据用户的行为数据判断其是否会长期逾期,并给出逾期概率。然而,这种方法受数据不平衡问题的影响,因为逾期用户的比例往往较低,导致数据的分布不平衡。
[0003] 为了解决这个问题,常用的方法是使用SMOTE算法来处理数据不平衡,但该算法可能会放大数据中的噪声问题。此外,单个机器学习模型在实际使用中还存在预测精度和稳定性不高的问题。
[0004] 因此,需要减少数据不平衡问题,并提高预测模型的精度和稳定性。

发明内容

[0005] 本申请的目的在于提供一种换电套餐用户逾期的预测方法、系统、装置及介质,以至少解决相关技术中涉及的数据不平衡和单个模型预测精度不够高的问题。
[0006] 本申请第一方面提供一种换电套餐用户逾期的预测方法,预测方法包括:
[0007] 获取用户的历史样本集,其中,历史样本集包括用户的行为数据、消费数据和信用数据;
[0008] 基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集;
[0009] 基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;
[0010] 根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。
[0011] 在一个实施例中,基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集,包括:
[0012] 根据历史样本集进行聚类处理,得到初始簇集合,其中,初始簇集合中的每个初始簇包括初始少数样本集和初始多数样本集;
[0013] 基于初始少数类样本集和初始多数类样本集,确定初始簇集合中每个初始簇的不平衡率;
[0014] 根据不平衡率和预先设定的阈值区间对初始簇集合进行筛选,确定目标簇集合;
[0015] 基于目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集。
[0016] 在一个实施例中,基于目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集,包括:
[0017] 基于目标少数类样本集中样本之间的平均距离,确定目标簇集合中每个目标簇的采样权重;
[0018] 根据采样权重,确定相对应的目标簇中新样本的目标数量;
[0019] 在每个目标簇中根据中心点样本和其他样本,利用预设差值模型生成目标数量的新样本,得到新样本集。
[0020] 在一个实施例中,基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型,包括:
[0021] 基于数据集对融合模型中的机器学习模型进行训练,确定目标最佳模型;
[0022] 基于数据集在最佳模型上采用五折交叉验证,确定新数据集;
[0023] 基于新数据集对融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到预测模型。
[0024] 在一个实施例中,基于数据集对融合模型中的机器学习模型进行训练,确定目标最佳模型,包括:
[0025] 根据数据集中的训练集训练机器学习模型,采用数据集中的验证集进行评估,根据评估结果确定最佳模型;
[0026] 基于贝叶斯优化算法对最佳模型进行优化处理,得到目标最佳模型。
[0027] 在一个实施例中,新数据集包括新训练集、新验证集和新测试集;基于新数据集对融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到预测模型,包括:
[0028] 根据新训练集训练逻辑回归模型,采用新测试集进行评估,并根据评估结果采用新验证集进行模型调参,直至满足预设条件,得到预测模型。
[0029] 在一个实施例中,行为数据样本包括骑行距离、换电次数、最近一次换电的时间间隔中的至少一种;
[0030] 消费数据样本包括用户逾期前购买的最后一笔换电套餐的金额和天数、以及购买换电套餐是否使用优惠券中的至少一种;
[0031] 信用数据样本包括用户是否有免押资格、芝麻信用分、历史逾期状况中的至少一种。
[0032] 本申请第二方面提供一种换电套餐用户逾期的预测系统,预测系统包括:
[0033] 历史样本集获取模块,用于获取用户的历史样本集,其中,历史样本集包括用户的行为数据、消费数据和信用数据;
[0034] 新样本集获取模块,用于基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集;
[0035] 预测模型获取模块,用于基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;
[0036] 用户逾期结果获取模块,用于根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。
[0037] 本申请第三方面提供一种换电套餐用户逾期的预测装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,一个或多个处理器执行可执行代码时,用于实现上述任一项的换电套餐用户逾期的预测方法。
[0038] 本申请第四方面提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述任一项的换电套餐用户逾期的预测方法。
[0039] 本申请实施例提供的一种换电套餐用户逾期的预测方法、系统、装置及介质至少具有以下技术效果。
[0040] 本申请通过扩展随机数范围,可以增加样本集的多样性,避免样本过于集中而导致的重复数据,有效地减少重复数据的产生,并降低合成边界噪声样本的数量。同时通过融合模型结构,利用不同分类模型学习不同的信息,进而提高预测的准确性和稳定性。本申请尤其在SMOTE算法中,扩展随机数范围并使用softmax函数,可以更好地控制合成样本的分布,减少重复数据的产生,降低噪声样本的数量,并提高机器学习模型的准确性和稳定性。
[0041] 本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

[0042] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0043] 图1为SMOTE算法可能会在多数类样本区域生成噪声样本的示意图;
[0044] 图2为本申请实施例提供的换电套餐用户逾期的预测方法的流程示意图;
[0045] 图3为本申请实施例提供的上采样确定新样本集的流程示意图;
[0046] 图4为本申请实施例提供的确定新样本集的流程示意图;
[0047] 图5为本申请实施例提供的步骤S103确定新样本集的流程示意图;
[0048] 图6为本申请实施例提供的确定目标最佳模型的流程示意图;
[0049] 图7为本申请实施例提供的得到预测模型的流程示意图;
[0050] 图8为本申请实施例提供的另一种换电套餐用户逾期的预测方法的流程示意图;
[0051] 图9为本申请实施例提供的换电套餐用户逾期的预测系统的框图;
[0052] 图10为本申请实施例提供的电子设备的内部结构示意图。

具体实施方式

[0053] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0054] 显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0055] 在本申请中提及“实施例”意味着,结合实施例描述的特定持征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0056] 除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的”一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0057] 目前对于逾期问题的解决方法可以分为两大类:基于规则的方法和基于有监督模型分类的方法。
[0058] 基于规则的方法一般通过用户的行为和信用来判断,例如用户长期未还款天数和芝麻信用分。然而,规则方法在解决复杂场景的逾期预测问题时效果不佳。
[0059] 基于有监督模型分类的方法需要使用带有逾期和非逾期标签的训练数据,通过机器学习方法训练模型,最终得到一个能够自动检测用户是否会长期逾期的分类模型。该模型将用户的行为数据输入后,返回用户是否会长期逾期的标签以及长期逾期的概率。然而,由于实际中逾期用户的比例极低,模型的预测性能严重受数据不平衡的影响。目前常用的解决数据不平衡问题的算法是SMOTE,但其存在放大数据噪声的风险。此外,单个机器学习模型在实际使用中也存在预测精度和稳定性不足的问题。
[0060] SMOTE算法是目前应用最广泛的上采样算法,被广泛应用于学术界和工业界。然而,SMOTE算法存在一个主要问题,即可能会进一步放大数据中的噪声。图1为SMOTE算法可能会在多数类样本区域生成噪声样本的示意图,如图1所示,通过插值生成的三个样本被视为噪声样本,这是由于在不同决策边界之间进行上采样导致的。此外,SMOTE算法生成的样本中可能会有大量重复数据,这是因为随机插值会生成0到1之间的随机数,从而增加了重复数据的概率。当生成的人工数据较多时,会有更多的重复数据,且重复数据容易导致模型过拟合。
[0061] 总的来说,基于规则的方法适用于简单场景,而基于有监督模型分类的方法适用于复杂场景,但都受数据不平衡的影响。此外,SMOTE算法可能会放大数据中的噪声。因此,有必要改进SMOTE算法的缺陷以减少数据不平衡带来的影响。
[0062] 基于上述情况,本申请实施例提供了一种换电套餐用户逾期的预测方法、系统、装置及介质。
[0063] 第一方面,本申请实施例提供了一种换电套餐用户逾期的预测方法,图2为本申请实施例提供的换电套餐用户逾期的预测方法的流程示意图,如图2所示,该方法包括以下步骤:
[0064] 步骤S101、获取用户的历史样本集,其中,历史样本集包括用户的行为数据、消费数据和信用数据。
[0065] 在一个实施例中,行为数据样本包括骑行距离、换电次数、最近一次换电的时间间隔中的至少一种;
[0066] 消费数据样本包括用户逾期前购买的最后一笔换电套餐的金额和天数、以及购买换电套餐是否使用优惠券中的至少一种;
[0067] 信用数据样本包括用户是否有免押资格、芝麻信用分、历史逾期状况中的至少一种。
[0068] 步骤S102、基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集。
[0069] 本申请实施例提供一种聚类改进的中心SMOTE,通过对历史样本集进行聚类,并在每个簇内进行采样,可以减少在决策边界产生的样本点,从而减少对模型的影响。同时,在少数类的类中心点和少数类样本之间随机插值生成新的样本点,有助于进一步减少决策边界上的样本点。有效地处理样本不平衡的问题,提高模型在少数类样本上的性能。通过聚类和上采样,可以使得训练数据更加均衡,减少决策边界上样本点的生成。同时,通过插值生成新的样本点,可以增加少数类样本的数量,提升模型的泛化能力和鲁棒性。
[0070] 继续参照图1,如果对每个类别进行聚类并进行上采样,则不会产生图中的三个噪声样本,从而在使用监督学习模型拟合数据时不会受到噪声数据的影响。本申请主要通过将原始数据进行聚类,然后在每个类内生成所有样本,以避免产生新的噪声样本。
[0071] 图3为本申请实施例提供的上采样确定新样本集的流程示意图,如图3所示,在图2所示流程的基础上,步骤S102包括以下步骤:
[0072] 步骤S201、根据历史样本集进行聚类处理,得到初始簇集合,其中,初始簇集合中的每个初始簇包括初始少数样本集和初始多数样本集。
[0073] 根据历史样本集进行聚类处理通常采用聚类算法如K‑means、DBSCAN等来实现。聚类处理能够将历史样本集划分为多个簇c1,c2,…,ck,使得少数类样本和多数类样本能够被更好地区分开。这有助于解决样本不平衡问题,提高模型在少数类样本上的性能。其次,可以将相似的样本聚合在一起形成初始簇集合,有助于更好地捕捉数据内部的结构和特征,减少类别之间的混杂,为后续的采样和插值生成新样本点提供了更为准确的基础。
[0074] 步骤S202、基于初始少数类样本集和初始多数类样本集,确定初始簇集合中每个初始簇的不平衡率。
[0075] 计 算每 个初 始 簇的 不 平衡 率(im b al a nc e  r at i o,ir):,其中,i=1,2,...,k,majority count(ci)表示每个初始簇中
多数类样本数量,minority count(ci)表示每个初始簇中少数类样本数量。不平衡率是指少数类样本与多数类样本数量之间的比例差异。通过计算初始簇集合中每个初始簇的不平衡率,可以直观地了解样本集的不平衡程度。不平衡率作为调整采样和插值比例的依据。有助于进一步优化样本集的平衡性,提升模型在少数类上的表现,并且能够更好地适应换电套餐用户逾期预测场景中的数据分布和特征。
[0076] 步骤S203、根据不平衡率和预先设定的阈值区间对初始簇集合进行筛选,确定目标簇集合。
[0077] 首先对所有数据进行聚类,并计算每个簇的不平衡率,通过去除不必要进行采样的簇来提高采样效果。本申请实施例中,步骤S203中存在两个预先设定的阈值:irt1和irt2。其中,irt1用于剔除少数类样本数不少于多数类样本数的簇,因为这样的簇并不需要进行采样;irt2则用于去除少数类样本数极少的簇,因为极少数量的少数类样本会导致生成的样本失真。此外,阈值为大于零的值。最终,保留下经过筛选后的目标簇集合。
[0078] 步骤S204、基于目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集。
[0079] 其中,目标少数类样本集包含一个中心点样本,其余的样本均为其他样本。
[0080] 基于本申请实施例中计算保留下来簇中少数类样本集的簇内平均距离,并根据该距离确定相应的采样权重。根据所需生成的总样本数N,算法确定每个簇所需生成的新样本数。最后生成对应数量的样本。
[0081] 通过这种改进的方法,可以更好地处理不平衡数据集的采样问题。通过剔除不必要的簇和基于簇内平均距离的采样权重确定,该算法可以生成更符合真实少数类样本分布的合成样本,从而提高模型对少数类的学习效果。
[0082] 图4为本申请实施例提供的确定新样本集的流程示意图,如图4所示,在图3所示流程的基础上,步骤S204包括以下步骤:
[0083] 步骤S301、基于目标少数类样本集中样本之间的平均距离,确定目标簇集合中每个目标簇的采样权重。
[0084] 计算目标少数类样本集中样本之间的平均距离distancej,其中,j指代的是过滤后的簇的编号,j=1,2,...,t,t≤k。可以使用欧氏距离、曼哈顿距离或其他距离度量方式。然后计算目标簇集合中每个目标簇的采样权重 。基于目标少数类样本
集中样本之间的平均距离计算权重,可以根据每个目标簇的特点来调整生成样本的数量。
进而可以更加精确地控制合成样本的分布,使其更好地反映真实数据的特征,从而提高模型在少数类样本上的泛化能力。
[0085] 步骤S302、根据采样权重,确定相对应的目标簇中新样本的目标数量。
[0086] 确定每个目标簇中的采样数量nj=wj*(majority_count(cj)‑minority_count(cj)),其中,majority_count(cj)表示每个目标簇中多数类样本数量,minority_count(cj)表示每个目标簇中少数类样本数量,根据每个目标簇的采样权重和多数类、少数类样本的数量,计算出在该目标簇中应该生成的新样本的目标数量。通过乘以采样权重,可以对不同簇的生成样本数量进行加权,更好地满足少数类的采样需求。
[0087] 步骤S303、在每个目标簇中根据中心点样本和其他样本,利用预设差值模型生成目标数量的新样本,得到新样本集。
[0088] 产生的新样本xnew=x+softmax(t)*(xj‑x),其中,t取自‑10到10之间的随机数,xj是目标簇j中少数类样本的中心点,x表示选中的最近邻少数类样本。
[0089] 需要说明的是,x表示选中的最近邻少数类样本的获取方式为:计算目标簇中少数类样本的中心点xj,可以计算平均值或者加权平均值作为中心点xj。选取与中心点xj的k个近邻样本中的任意一个样本,其中k为超参数,优先地k为5,根据中心点xj和与选中的最近邻少数类样本x,对目标簇中的少数类样本进行插值,生成新样本。在少数类样本中心点和少数类样本之间进行随机插值生成新样本,以减少合成边界噪声样本的数量。
[0090] 继续参照图2,在步骤S102之后执行步骤S103,具体如下。
[0091] 步骤S103、基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型。
[0092] 图5为本申请实施例提供的步骤S103确定新样本集的流程示意图,如图5所示,在图2所示流程的基础上,步骤S103包括以下步骤:
[0093] 步骤S401、基于数据集对融合模型中的机器学习模型进行训练,确定目标最佳模型。
[0094] 在一个实施例中,数据集X包括训练集、验证集和测试集。
[0095] 将数据集划分为三个部分,分别为训练集(60%)、验证集(20%)和测试集(20%),使用常见的机器学习模型进行训练,包括决策树、随机森林、邻近算法(KNN)、高斯朴素贝叶斯、梯度提升决策树、辑回归、XGBoost、Lightgbm等。
[0096] 图6为本申请实施例提供的确定目标最佳模型的流程示意图,如图6所示,在图5所示流程的基础上,步骤S401包括以下步骤:
[0097] 步骤S501、根据数据集中的训练集训练机器学习模型,采用数据集中的验证集进行评估,根据评估结果确定最佳模型。
[0098] 使用训练好的模型对验证集进行预测,并计算模型在验证集上的性能指标,如准确率、F1分数等,根据各个模型在验证集上的性能指标,选取F1分数和recall均大于0.6的模型为最佳模型。
[0099] 步骤S502、基于贝叶斯优化算法对最佳模型进行优化处理,得到目标最佳模型。
[0100] 贝叶斯优化算法是用来寻找最优参数,在对最佳模型进行优化时,确定需要优化的超参数范围和搜索空间。创建一个评估函数,用于根据给定的超参数设置训练和评估模型。评估函数应该接收超参数作为输入,并返回模型在验证集上的性能指标,例如准确率、F1分数等。使用一个基于贝叶斯优化算法的库(例如hyperopt、Optuna等),初始化一个贝叶斯优化器对象,并指定要优化的超参数空间。在每次迭代中,优化器会根据之前的结果选择新的超参数组合并进行评估。设置一个适当的迭代次数,以及每次迭代所评估的超参数组合数量。在迭代结束后,从优化器中获取具有最高性能指标的超参数组合作为目标最佳模型的超参数设置。最后,使用目标最佳超参数组合,重新训练模型并在测试集上进行评估,以获得最终的性能指标。贝叶斯优化算法属于常规的优化算法,本申请实施例在于利用该算法对最佳模型进行优化处理,得到目标最佳模型,具体的优化过程这里不做具体限定,可以随着应用场景进行调整,此处不再赘述。
[0101] 继续参照图5,在步骤S401之后执行步骤S402,具体如下。
[0102] 步骤S402、基于数据集在最佳模型上采用五折交叉验证,确定新数据集。
[0103] 其中,五折交叉验证方法包括:将数据集均分为训练集、验证集和测试集,并将它们各自划分为五等份。使用五折交叉验证的方式拟合训练集。每次拟合都会生成一份新的训练集、验证集和测试集数据。在每次交叉验证中,将其中四份作为训练集,剩下的一份作为验证集。使用最佳模型,在这四份训练集上进行拟合,并对验证集进行预测。重复以上步骤五次,确保每份数据都被用作验证集一次。最终,将每次交叉验证中的训练集、验证集和原始的测试集数据合并,得到完整的新的训练集、验证集和测试集数据。通过这个过程,可以充分利用数据进行模型评估和选择,生成全新的数据集来训练和测试模型,以更精确地评估模型性能。
[0104] 步骤S403、基于新数据集对融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到预测模型。
[0105] 在一个实施例中,新数据集包括新训练集、新验证集和新测试集。
[0106] 图7为本申请实施例提供的得到预测模型的流程示意图,如图7所示,在图5所示流程的基础上,步骤S403包括以下步骤:
[0107] 步骤S601、根据新训练集训练逻辑回归模型,采用新测试集进行评估,并根据评估结果采用新验证集进行模型调参,直至满足预设条件,得到预测模型。
[0108] 将新训练集输入逻辑回归模型,拟合模型以预测逾期用户的分类标签。逻辑回归模型中采用的公式为: ,其中,e是一个常量,叫做自然底数,是一个固定值,约为2.71828182845904523536,X1、X2、X3、X4、X5为步骤S502中目标最佳模型的输出值,f为偏置值,a,b,c,d,m为逻辑回归模型拟合出来的系数,最后通过softmax归一化输出概率值,可以将概率值的阈值设定为0.5,大于等于0.5的被标记为逾期用户(标签为
1),小于0.5的被标记为非逾期用户(标签为0)。使用训练好的逻辑回归模型对新测试集进行预测,并根据预测结果和真实标签进行评估。根据评估结果采用新验证集进行模型调参调整逻辑回归的参数,例如正则化系数等,以获得更好的性能指标,根据在验证集上选择的最优参数,重新训练逻辑回归模型,以获得最佳性能,得到预测模型。使用逻辑回归模型进行拟合、预测和调参,可以快速构建简单而高效的预测模型,并根据数据集的反馈不断优化模型,提供更准确的逾期用户预测结果。
[0109] 继续参照图2,在步骤S103之后执行步骤S104,具体如下。
[0110] 步骤S104、根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。
[0111] 待预测用户数据包括用户的行为数据、消费数据和信用数据,行为数据包括骑行距离、换电次数、预设天数内没有更换电池中的至少一种;消费数据包括用户逾期前购买的最后一笔换电套餐的金额和天数、以及购买换电套餐是否使用优惠券中的至少一种;信用数据包括用户是否有免押资格、芝麻信用分、历史逾期状况中的至少一种。
[0112] 使用预测模型,对预测用户数据进行预测,得出标签(0或1),即换电套餐用户逾期结果的预测。
[0113] 图8为本申请实施例提供的另一种换电套餐用户逾期的预测方法的流程示意图,如图8所示,包括以下步骤:
[0114] 1. 取数和定标签:根据用户行为进行数据提取和标签设定:绝大部分用户在套餐到期的三天内会选择续费或归还电池。但在套餐到期后的三十天内仍未归还电池的用户中,绝大部分不太可能主动归还电池或续费。因此,需要提取在套餐到期三天后既未续费也未归还电池的用户数据,并将在套餐到期后三十天仍未归还电池或购买新套餐的用户标记为逾期用户,其他用户标记为非逾期用户。
[0115] 2. 数据提取:提取用户的行为数据,包括以下特征:骑行距离、换电次数、最近一次换电的时间间隔等。
[0116] 提取用户的消费数据,包括以下特征:客户逾期前购买的最后一笔套餐金额和距离逾期的天数,以及是否使用优惠券等信息。
[0117] 提取用户的信用数据,包括以下特征:用户是否有免押金资格、芝麻信用分数以及历史逾期的情况等。
[0118] 3. 对数据进行上采样:首先,对用户数据进行聚类找到数据中的簇。然后,在每个簇内进行上采样可以减小由于数据不平衡而引起的问题。确保每个簇都有足够的样本来进行有效的建模和分析,而不会过度依赖于某些簇或样本。此外,为了进一步减少在决策边界上产生的样本点,可以使用插值的方法生成新的样本点。具体做法是,在少数类的类中心点和少数类样本之间进行随机插值。这样做可以增加少数类的样本数量,并使其更加接近其他类别的样本分布,从而减少对模型决策边界的影响。聚类中心的SMOTE算法步骤如下:
[0119] a) 对所有用户数据样本聚类,得到簇c1,c2,…,ck。
[0120] b) 计算每个簇的imbalance ratio(不平衡率): ,其中,i=1,2,...,k,majority count(ci)表示多数类样本数,minority count(ci)表示少数类样本数。
[0121] c) 去除ir不在两个阈值之间的簇。
[0122] 需要说明的是,基于聚类改进的中心SMOTE是一种解决SMOTE存在问题的算法。首先对所有数据进行聚类,并计算每个簇的不平衡率,通过去除不必要进行采样的簇来提高采样效果。在改进的SMOTE算法中,有两个不平衡率参数:irt1和irt2。其中,irt1用于剔除少数类样本数不少于多数类样本数的簇,因为这样的簇并不需要进行采样;irt2则用于去除少数类样本数极少的簇,因为极少数量的少数类样本会导致生成的样本失真。此外,阈值为大于零的值。最终,保留下经过筛选后的目标簇集合。然后计算保留下来簇中少数类样本的簇内平均距离,根据这个距离确定相应的采样权重,然后根据总的生成的用户数据样本数N确定每个簇生成的样本数,然后再根据改进的中心SMOTE生成对应的样本。
[0123] d) 计算过滤后簇中少数类样本的平均距离distancej,其中,j指代的是过滤后的簇的编号,j=1,2,...,t,t≤k。
[0124] e) 计算步骤c中去除ir不在两个阈值之间的簇之后,剩下的簇,每个簇中的采样权重: 。
[0125] f) 确定每个簇中的采样数量:nj=wj*(majority_count(cj)‑minority_count(cj))。
[0126] g) 产生新样本:xnew=x+softmax(t)*(xj‑x),其中,t在‑10到10之间的随机数,xj是簇j中少数类样本的中心点,x表示选中的最近邻少数类样本。
[0127] x表示选中的最近邻少数类样本的获取方式为:计算目标簇中少数类样本的中心点xj,可以计算平均值或者加权平均值作为中心点xj。选取与中心点xj的k个近邻样本中的任意一个样本,其中k为超参数,优先地k为5,根据中心点xj和与选中的最近邻少数类样本x,对目标簇中的少数类样本进行插值,生成新样本。
[0128] 4. 使用融合模型:使用融合模型可以帮助提高预测的准确性和稳定性。具体的流程如下:
[0129] a) 将数据集划分为三个部分,分别为训练集(60%)、验证集(20%)和测试集(20%)。
[0130] b) 使用常见的机器学习模型训练集数据,包括决策树、随机森林、邻近算法(KNN)、高斯朴素贝叶斯、梯度提升决策树、辑回归、XGBoost、Lightgbm等,根据模型在验证集的预测结果选出top q个综合性能最好的基模型,最好的q个模型,q没有限定几个,可以理解为一个超参数,本任务为5个。
[0131] c) 使用贝叶斯优化算法对剩余的模型进行优化,得到优化好的模型。
[0132] d) 将训练集、测试集和验证集均分五等份,将优化好的模型使用五折交叉验证的方式拟合训练集,每次的拟合都会生成一份训练集、验证集和测试集数据,经过五折训练和预测后就生成完整的新的训练集、验证集和测试集数据。
[0133] e) 为了避免过拟合,使用简单模型逻辑回归拟合新的数据集,根据验证集调参,最后使用训练好的逻辑回归预测出逾期用户;逻辑回归模型中采用的公式为:,其中,e是一个常量,叫做自然底数,是一个固定值,约为
2.71828182845904523536,,X1、X2、X3、X4、X5为优化好的模型的输出值,f为偏置值,a,b,c,d,m为逻辑回归模型拟合出来的系数,最后通过softmax归一化输出概率值,可以将概率值的阈值设定为0.5,大于等于0.5的被标记为逾期用户(标签为1),小于0.5的被标记为非逾期用户(标签为0)。
[0134] 综上,本申请实施例提供的一种换电套餐用户逾期的预测方法,通过扩展随机数范围,可以增加样本集的多样性,避免样本过于集中而导致的重复数据,有效地减少重复数据的产生,并降低合成边界噪声样本的数量。同时通过融合模型结构,利用不同分类模型学习不同的信息,进而提高预测的准确性和稳定性。本申请尤其在SMOTE算法中,扩展随机数范围并使用softmax函数,可以更好地控制合成样本的分布,减少重复数据的产生,降低噪声样本的数量,并提高机器学习模型的准确性和稳定性。
[0135] 需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0136] 第二方面,本申请实施例提供了一种换电套餐用户逾期的预测系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0137] 图9为本申请实施例提供的换电套餐用户逾期的预测系统的框图,如图9所示,该系统包括:
[0138] 历史样本集获取模块701,用于获取用户的历史样本集,其中,历史样本集包括用户的行为数据、消费数据和信用数据。
[0139] 新样本集获取模块702,用于基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集。
[0140] 预测模型获取模块703,用于基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型。
[0141] 用户逾期结果获取模块704,用于根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。
[0142] 需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0143] 第三方面,本申请实施例提供了一种换电套餐用户逾期的预测装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,一个或多个处理器执行可执行代码时,用于实现上述任一项方法实施例中的步骤。
[0144] 可选地,上述换电套餐用户逾期的预测装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0145] 需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0146] 另外,结合上述实施例中的换电套餐用户逾期的预测方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意换电套餐用户逾期的预测方法。
[0147] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现换电套餐用户逾期的预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0148] 在一个实施例中,图10为本申请实施例提供的电子设备的内部结构示意图,如图10所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图10所示。
该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现换电套餐用户逾期的预测方法,数据库用于存储数据。
[0149] 本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0150] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0151] 本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0152] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。