一种基于克隆选择算法的智能营销模型库方法转让专利

申请号 : CN202010493640.6

文献号 : CN112699911B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李涛

申请人 : 武汉市教云慧智信息技术有限公司

摘要 :

本发明公开了一种基于克隆选择算法的智能营销模型库方法,该方法包括以下步骤:1)采集会员消费数据建立数据集,对数据集进行标记;2)生成基模型BaseModel;3)基模型BaseModel之间随机组合,产生模型Models;4)模型Models与抗原结合成为抗体群M,选择亲和度最大的前N个抗体作为抗体群Ab;5)对抗体群Ab进行克隆,得到克隆后的规模为Nc的抗体群Ab`;6)对克隆后的抗体群Ab`中的抗体按照突变概率P进行突变操作,然后进行克隆删除操作;7)合并抗体群Ab和Ab`,获得新的抗体群Abs;8)判断是否满足终止条件;9)使用抗体群Abs中亲和度最高的抗体的模型对测试集进行分类目标检测。本发明方法能解决现有模型难以不断适应营销目标改变的问题。

权利要求 :

1.一种基于克隆选择算法的智能营销模型库方法,其特征在于,包括以下步骤:

1)采集会员消费数据建立数据集,对数据集进行标记,将标记后的数据集划分为测试集和训练集;

会员消费数据特征包括:会员等级标识、1年消费金额、1年消费次数、1年消费客单价、半年消费金额、半年消费次数、半年消费客单价、毛利率、性别、年龄、消费地域、消费时间、消费商品、消费支付方式、消费门店;

对数据集进行标记根据分类目标需求标记;

2)从训练集中抽取一部分数据作为抗原,剩下的数据对算法集中的算法进行训练,生成基模型BaseModel;

所述算法集为多种分类算法封装的算法集;

所述基模型为单一算法训练生成的识别器,包括决策树、支持向量机、随机森林、深度学习、逻辑回归;

3)基模型BaseModel之间随机组合,产生模型Models;所述模型为若干基模型组成的集成识别器,即抗体,包括各基模型及各基模型在模型中的数量权重;

模型表示如下:

Models={(BaseModel1,weight1),…,(BaseModeln,weightn)}模型表示为若干基模型组成的集成识别器,weighti表示第i个基模型BaseModeli在模型中的权重;

4)模型Models与抗原结合成为抗体群M,计算抗体群M中抗体与抗原的亲和度,选择亲和度最大的前N个抗体作为抗体群Ab;

抗体群M中抗体与抗原的亲和度采用下式计算:其中,T表示抗原中被抗体x正确识别的数量;F表示抗原中被抗体x识别错误的数量;

然后,将抗体群Ab中的抗体按照亲和度由大至小按降序排列,得到:Ab={Ab1,Ab2,...,AbN}且fit(Abi)>fit(Abi+1),i=1,2,...,N‑1;

其中,fit(*)为亲和度函数,fit(Abi)为第i个抗体对抗原的亲和度;

5)对抗体群Ab进行克隆,得到克隆后的规模为Nc的抗体群Ab`;

6)对克隆后的抗体群Ab`中的抗体按照突变概率P进行突变操作,然后进行克隆删除操作;

7)合并抗体群Ab和Ab`,选取亲和度最高且互不相同的N个抗体作为新的抗体群Abs;

8)判断是否满足终止条件,不满足则转至步骤5)继续执行,满足则结束计算;

所述终止条件为:迭代次数达到设定次数,或者准确率收敛且达到预先设定的值;

9)使用抗体群Abs中亲和度最高的抗体的模型对测试集进行分类目标检测;

使用测试集计算抗体群Abs中亲和度最高的抗体的模型的准确率、召回率与F1值,并采用该模型进行识别。

2.根据权利要求1所述的基于克隆选择算法的智能营销模型库方法,其特征在于,所述步骤1)中对数据集进行标记根据分类目标需求标记;具体如下:如果分类目标为寻找愿意参与优惠活动的会员,根据商品做优惠活动的历史记录,对已经参与优惠活动的会员标记为1,对没有参与优惠活动的会员标记为0,构建正负样本库;

如果分类目标为寻找愿意续费的会员,根据续费历史记录,把续费的会员标记为1,没有续费的标记为0,构建正负样本库。

3.根据权利要求1所述的基于克隆选择算法的智能营销模型库方法,其特征在于,所述步骤3)中基模型BaseModel之间随机组合,产生模型Models的过程如下:基模型之间的交叉组合形成模型,即确定模型中基模型总数量的上限,然后以小于等于上限值的随机数组合进行基模型个数的设置,然后组合形成模型。

4.根据权利要求1所述的基于克隆选择算法的智能营销模型库方法,其特征在于,所述步骤5)中对抗体群Ab进行克隆,采用的克隆规模函数如下:其中,Nc为克隆后的抗体群规模,β为克隆系数,用来控制克隆的规模,round为取整函数,i为序号,N为抗体群Ab中抗体的数量,第i个抗体将会克隆出round(βN/i)个相同的抗体。

5.根据权利要求1所述的基于克隆选择算法的智能营销模型库方法,其特征在于,所述步骤6)中突变操作为抗体模型按照突变概率P随机选取抗体模型的m个基模型,并由随机生成的n个基模型来取代,形成新的抗体模型,其中,Np≥m≥1,m≥n≥1。

6.根据权利要求1所述的基于克隆选择算法的智能营销模型库方法,其特征在于,所述步骤6)中克隆删除操作为计算经过突变之后的抗体的亲和度,若突变之后的抗体的亲和度低于突变前的父代抗体的亲和度,则删除该抗体,用其父代抗体来代替。

7.根据权利要求1所述的基于克隆选择算法的智能营销模型库方法,其特征在于,所述突变概率P取值为0.6,克隆系数β取值为2。

说明书 :

一种基于克隆选择算法的智能营销模型库方法

技术领域

[0001] 本发明涉及智能营销技术,尤其涉及一种基于克隆选择算法的智能营销模型库方法。

背景技术

[0002] 智能营销的核心是根据会员用户的各种特征,实现精准营销。在智能营销中存在了大量的二分类问题,包括如何识别对某类商品感兴趣的会员和不感兴趣的会员,如何找
到对某种优惠活动感兴趣的会员,如何发现某些会员可能成为不活跃会员等。
[0003] 针对这一问题,现有的方法主要是根据会员历史消费数据,运用决策树、支持向量机、随机森林、深度学习、逻辑回归等算法在不同的数据集上进行训练,由于数据和问题的
多样性,这就导致不同的数据特征、不同的问题需要采用不同的算法才能达到最好的效果,
目前,这一过程大多采用逐个尝试的方法做试验,即:根据历史数据划分为训练集和测试
集,然后逐个尝试不同的算法,找到最适应当前数据特征的算法;在此基础上,可能还需要
尝试不同算法的组合,有可能不同算法的组合的结果可能产生更好的效果。这一过程往往
依赖于人工,需要耗费大量的时间。
[0004] 针对这一问题,在抽取会员特征的基础上,本文提出了一种精准营销模型库的方法,模型库涵盖了决策树、支持向量机、随机森林、深度学习、逻辑回归等二分类算法,运用
克隆选择算法对模型组合进行演化,根据实验得到的准确率、召回率、F1值等参数,选择效
果好的模型及其组合,淘汰效果差的模型,提升智能营销中的算法效率。
[0005] Bumet于1959年提出克隆选择学说,认为免疫细胞是随机形成的多样性的细胞克隆,每一克隆的细胞表达同一特异性的受体。当受抗原刺激时,细胞表面特异受体被识别并
结合抗原,导致细胞进行克隆扩增,产生大量后代细胞,合成大量相同特异性抗体。克隆选
择与达尔文提出的自然选择过程类似,克隆竞争结合病原体,亲和力最高的抗体是最适应
的,因此复制最多。与达尔文自然选择理论不同的是克隆选择应用于免疫系统内的细胞群
体。识别抗原的细胞克隆存活下来并成长,不能识别抗原的细胞克隆发生死亡并被其它克
隆取代,这就是克隆选择。免疫系统在成长的克隆中也是自适应的,也呈现出一种变异机
制,即体细胞高频变异。该机制确保能改进抗体与抗原的结合力,致使具有极高亲和力的匹
配产生。克隆选择理论的主要特征是新细胞是父代(克隆)的拷贝,它受制于体细胞高频变
异的成熟机制,对能导致自身免疫疾病的细胞禁止克隆,增殖和分化成熟细胞与抗原的联
系。
[0006] 克隆选择在个体内操作,进化的趋势倾向于识别一般抗原的方向。有许多证据表明这样的倾向性确实存在。亲和力变异是达尔文变异和选择进化论思想的过程,变异由体
细胞高频变异实现,选择则通过对病原体抗原决定基的竞争来实现。
[0007] 克隆选择算法是人工免疫系统中的一个重要的分类算法,该方法的机制是模仿生物机体内对于抗体细胞进行好坏的识别,再按照好坏的程度进行克隆、变异和压缩选择的
过程。该算法是通过对现阶段优秀的抗体集进行突变操作,再压缩新产生的抗体集来保持
抗体集的大小不变。克隆选择算法实质上是通过抗体的一代代优化最后获得问题的最优
解。

发明内容

[0008] 本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于克隆选择算法的智能营销模型库方法。
[0009] 本发明解决其技术问题所采用的技术方案是:一种基于克隆选择算法的智能营销模型库方法,包括以下步骤:
[0010] 1)采集会员消费数据建立数据集,对数据集进行标记,将标记后的数据集划分为测试集和训练集;
[0011] 会员消费数据特征包括:会员等级标识、1年消费金额、1年消费次数、1年消费客单价、半年消费金额、半年消费次数、半年消费客单价、毛利率、性别、年龄、消费地域、消费时
间、消费商品、消费支付方式、消费门店;
[0012] 对数据集进行标记根据分类目标需求标记;
[0013] 2)从训练集中抽取一部分数据作为抗原,剩下的数据对算法集中的算法进行训练,生成基模型BaseModel;
[0014] 所述算法集为多种分类算法封装的算法集;
[0015] 所述基模型为单一算法训练生成的识别器,包括决策树、支持向量机、随机森林、深度学习、逻辑回归;
[0016] 3)基模型BaseModel之间随机组合,产生模型Models;所述模型为若干基模型组成的集成识别器,即抗体,包括各基模型及各基模型在模型中的数量权重;模型组合主要是每
个模型识别器的数量,例如:共产生了10个识别器,3个决策树识别器、7个随机森林识别器。
[0017] 模型:
[0018] Model={(BaseModel1,weight1),…,(BaseModeln,weightn)}.
[0019] 模型表示若干基模型组成的集成识别器,weighti表示第i个基模型在模型中的权重;
[0020] 4)模型Models与抗原结合成为抗体群M,计算抗体群M中抗体与抗原的亲和度,选择亲和度最大的前N个抗体作为抗体群Ab;
[0021] 5)对抗体群Ab进行克隆,得到克隆后的规模为Nc的抗体群Ab`;
[0022] 6)对克隆后的抗体群Ab`中的抗体按照突变概率P进行突变操作,然后进行克隆删除操作;
[0023] 7)合并克隆前后抗体群Ab和Ab`,选取亲和度最高且互不相同的N个抗体作为新的抗体群Abs;
[0024] 8)判断是否满足终止条件,不满足则转至步骤5)继续执行,满足则结束计算;
[0025] 所述终止条件为:迭代次数达到设定次数,或者准确率收敛且达到预先设定的值;
[0026] 9)使用抗体群Abs中亲和度最高的抗体的模型对测试集进行分类目标检测;
[0027] 使用测试集计算抗体群Abs中亲和度最高的抗体的模型的准确率、召回率与F1值,并采用该模型进行识别。
[0028] 按上述方案,所述步骤1)中对数据集进行标记根据分类目标需求标记;具体如下:
[0029] 如果分类目标为寻找愿意参与优惠活动的会员,根据商品做优惠活动的历史记录,对已经参与优惠活动的会员标记为1,对没有参与优惠活动的会员标记为0,构建正负样
本库;
[0030] 如果分类目标为寻找愿意续费的会员,根据续费历史记录,把续费的会员标记为1,没有续费的标记为0,构建正负样本库。
[0031] 按上述方案,所述步骤3)中基模型BaseModel之间随机组合,产生模型Models的过程如下:基模型之间的交叉组合形成模型,即确定模型中基模型总数量的上限,然后以小于
等于上限值的随机数组合进行基模型个数的设置,然后组合形成模型。
[0032] 按上述方案,所述步骤4)中抗体与抗原的亲和度采用下式计算:
[0033]
[0034] 其中,T表示抗原中被抗体x正确识别的数量;F表示抗原中被抗体x识别错误的数量;
[0035] 然后,将抗体群Ab中的抗体按照亲和度由大至小按降序排列,得到:
[0036] Ab={Ab1,Ab2,...,AbN}且fit(Abi)>fit(Abi+1),i=1,2,...,N‑1
[0037] 其中,fit(*)为亲和度函数,fit(Abi)为第i个抗体对抗原的亲和度。
[0038] 按上述方案,所述步骤5)中对抗体群Ab进行克隆,采用的克隆规模函数如下:
[0039]
[0040] 其中,Nc为克隆后的抗体群规模,β为克隆系数,用来控制克隆的规模,round为取整函数,i为序号,N为抗体群Ab中抗体的数量,第i个抗体将会克隆出round(βN/i)个相同的
抗体,也就是说亲和度越高的抗体,克隆的规模也就越大,使高亲和度抗体中的优秀基模型
得以更好的保存和发展。
[0041] 按上述方案,所述步骤6)中突变操作为抗体模型按照突变概率P随机选取抗体模型的m个基模型,并由随机生成的n个基模型来取代,形成新的抗体模型,其中,Np≥m≥1,m
≥n≥1。
[0042] 按上述方案,所述步骤6)中克隆删除操作为计算经过突变之后的抗体的亲和度,若突变之后的抗体的亲和力低于突变前的父代抗体的亲和度,则删除该抗体,用其父代抗
体来代替。
[0043] 按上述方案,所述突变概率P取值为0.6,克隆系数β取值为2。
[0044] 本发明产生的有益效果是:
[0045] 1.本发明在克隆选择算法的基础上,通过建立模型库获得最优模型,从而解决现有模型难以不断适应营销目标改变的问题。
[0046] 2.本发明生成的模型通过分类器的竞争和变异优选得到,其准确率优于通过试验组合获得的分类器。

附图说明

[0047] 下面将结合附图及实施例对本发明作进一步说明,附图中:
[0048] 图1是本发明实施例的方法流程图。

具体实施方式

[0049] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限
定本发明。
[0050] 如图1所示,一种基于克隆选择算法的智能营销模型库方法,包括以下步骤:
[0051] 1)采集会员消费数据建立数据集,对数据集进行标记,将标记后的数据集划分为测试集和训练集;
[0052] 会员消费数据特征包括:会员等级标识、1年消费金额、1年消费次数、1年消费客单价、半年消费金额、半年消费次数、半年消费客单价、毛利率、性别、年龄、消费地域、消费时
间、消费商品、消费支付方式、消费门店;
[0053] 对数据集进行标记根据分类目标需求标记;
[0054] 例如:如果分类目标为寻找愿意参与优惠活动的会员,根据商品做优惠活动的历史记录,对已经参与优惠活动的会员标记为1,对没有参与优惠活动的会员标记为0,构建正
负样本库;
[0055] 如果分类目标为寻找愿意续费的会员,根据续费历史记录,把续费的会员标记为1,没有续费的标记为0,构建正负样本库。
[0056] 2)从训练集中抽取一部分数据作为抗原,剩下的数据对算法集中的算法进行训练,生成基模型BaseModel;
[0057] 所述算法集为多种分类算法封装的算法集;
[0058] 所述基模型为单一算法训练生成的识别器,包括决策树、支持向量机、随机森林、深度学习、逻辑回归;
[0059] 3)基模型BaseModel之间随机组合,产生模型Models;所述模型为若干基模型组成的集成识别器,即抗体,包括各基模型及各基模型在模型中的数量权重;
[0060] 模型:
[0061] Model={(BaseModel1,weight1),…,(BaseModeln,weightn)}.
[0062] 模型表示若干基模型组成的集成识别器,weighti表示第i个基模型在模型中的权重;
[0063] 基模型BaseModel之间随机组合,产生模型Models的过程如下:基模型之间的交叉组合形成模型,即确定模型中基模型总数量的上限,然后以小于等于上限值的随机数组合
进行基模型个数的设置,然后组合形成模型。
[0064] 例如,上限值为15,算法集中封装了决策树识别和随机森林识别器,随机数组合为(3,7),则产生了10个识别器,3个决策树识别器、7个随机森林识别器。
[0065] 4)模型Models与抗原结合成为抗体群M,计算抗体群M中抗体与抗原的亲和度,选择亲和度最大的前N个抗体作为抗体群Ab;
[0066] 所述步骤4)中抗体与抗原的亲和度采用下式计算:
[0067]
[0068] 其中,T表示抗原中被抗体x正确识别的数量;F表示抗原中被抗体x识别错误的数量;
[0069] 然后,将抗体群Ab中的抗体按照亲和度由大至小按降序排列,得到:
[0070] Ab={Ab1,Ab2,...,AbN}且fit(Abi)>fit(Abi+1),i=1,2,...,N‑1
[0071] 其中,fit(*)为亲和度函数,fit(Abi)为第i个抗体对抗原的亲和度。
[0072] 5)对抗体群Ab进行克隆,得到克隆后的规模为Nc的抗体群Ab`;
[0073] 对抗体群Ab进行克隆,采用的克隆规模函数如下:
[0074]
[0075] 其中,Nc为克隆后的抗体群规模,β为克隆系数,用来控制克隆的规模,round为取整函数,i为序号,N为抗体群Ab中抗体的数量,第i个抗体将会克隆出round(βN/i)个相同的
抗体,也就是说亲和度越高的抗体,克隆的规模也就越大,使高亲和度抗体中的优秀基模型
得以更好的保存和发展。克隆系数β取值为2。克隆系数β取值一般根据需要克隆的规模确
定,初始值为2,如果需要快速增加克隆,可以调整为3等,β是一个正整数值,建议取值范围
为[2,10]。
[0076] 6)对克隆后的抗体群Ab`中的抗体按照突变概率P进行突变操作,然后进行克隆删除操作;突变概率P取值为0.6;
[0077] 所述步骤6)中突变操作为抗体模型按照突变概率P随机选取抗体模型的m个基模型,并由随机生成的n个基模型来取代,形成新的抗体模型,其中,Np≥m≥1,m≥n≥1;
[0078] 所述步骤6)中克隆删除操作为计算经过突变之后的抗体的亲和度,若突变之后的抗体的亲和度低于突变前的父代抗体的亲和度,则删除该抗体,用其父代抗体来代替。
[0079] 7)合并抗体群Ab和Ab`,选取亲和度最高且互不相同的N个抗体作为新的抗体群Abs;
[0080] 8)判断是否满足终止条件,不满足则转至步骤5)继续执行,满足则结束计算;
[0081] 所述终止条件为:迭代次数达到设定次数,或者准确率收敛且达到预先设定的值;
[0082] 9)使用抗体群Abs中亲和度最高的抗体的模型对测试集进行分类目标检测;
[0083] 使用测试集计算抗体群Abs中亲和度最高的k个抗体的模型的准确率、召回率与F1值,根据准确率、召回率与F1值评价模型的好坏,将最好的模型保留下来,非最优的模型淘
汰掉。并采用该模型进行识别。
[0084] 为了进一步提高最终模型的效果,可多次进行本方案。
[0085] 应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。