信息推荐方法、装置、计算机设备及介质转让专利

申请号 : CN202011288944.5

文献号 : CN112328909B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘波

申请人 : 中国平安人寿保险股份有限公司

摘要 :

本发明涉及通信领域,公开了一种信息推荐方法、装置、计算机设备及介质,所述方法包括:通过采集每个用户的初始数据,并对所述初始数据进行数据预处理和稳定性评估,得到稳定数据,进而通过稳定数据中包含的特征进行特征衍生,得到衍生特征,并通过机器学习的方式,对衍生特征进行特征值的预测,进而根据预测到的数值对衍生特征的数值进行补充,得到补充后的数据,并将补充后的数据和稳定数据一起作为目标数据,加入到目标数据集中,基于目标数据集,采用召回和排序的方式,对用户偏好进行预测,进而根据预测的用户偏好和业务策略,确定推荐信息并推送给用户,本发明提高了信息推荐的精准程度。

权利要求 :

1.一种信息推荐方法,其特征在于,包括:采集每个用户的初始数据,并对所述初始数据进行数据预处理和稳定性评估,得到稳定数据,其中,获取所述稳定数据包含的特征为稳定特征;

采用特征衍生的方式,对所述稳定特征进行特征衍生处理,得到衍生特征;

通过采用机器学习的方式,对所述衍生特征中缺失的特征值进行信息预测,得到预测结果;

根据预测结果对所述缺失的特征值进行填充,得到填充后的数据,将所述填充后的数据和所述稳定数据作为目标数据,并将所述目标数据存入到目标数据集中;

针对所述目标数据集的任一目标数据,将所述目标数据和每个召回方法输入到预设的推荐模型中,通过所述预设的推荐模型,对每个召回方法进行打分,得到预测分值;

按照所述预测分值由大到小的顺序排序,并从排序后的所述预测分值中,依次选取预设数量的召回方法加入到召回方法序列;

根据预设的推荐条件,结合所述召回方法序列,生成推荐信息,将所述推荐信息推荐给所述目标数据对应的用户;

其中,所述对所述初始数据进行数据预处理和稳定性评估,得到稳定数据包括:对所述初始数据按照预设标签类型进行分类,得到初始类别信息;

对每个所述初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;

计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征,将包含的基础特征均为稳定特征的基础类别信息,作为稳定数据;

其中,所述预设的推荐模型为梯度提升决策树模型,所述通过所述预设的推荐模型,对每个召回方法进行打分,得到预测分值包括:将每个所述召回方法对应的模拟结果作为一个参考特征,将所述目标数据中包含的数据特征作为目标特征,并将所述参考特征和所述目标特征作为训练特征;

将所述训练特征输入到梯度提升决策树模型中,通过所述梯度提升决策树模型对所述训练特征进行训练,得到n棵决策树;

将每棵所述决策树的路径包含的特征作为自变量,基于二分类逻辑回归模型,进行预设事件的结果预测,得到每个召回方法对应的预测分值。

2.如权利要求1所述的信息推荐方法,其特征在于,所述计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征包括:计算每个基础特征的信息值IV,并根据所述信息值IV进行特征筛选,得到关键特征;

通过预设方式,计算所述关键特征的稳定度指标PSI,将所述稳定度指标PSI超过预设阈值的关键特征,作为稳定特征。

3.如权利要求1所述的信息推荐方法,其特征在于,所述通过所述梯度提升决策树模型对所述训练特征进行训练,得到n棵决策树包括:对所述训练特征采用分类回归树算法,生成原始决策树;

将所述原始决策树放入决策树模型中,并将所述原始决策树作为当前决策树;

基于所述训练特征,计算所述当前决策树的残差向量;

依据所述残差向量拟合新的决策树,并将该新的决策树放入所述决策树模型中;

若所述决策树模型中决策树的总数低于预设阈值,则将所述新的决策树作为所述当前决策树,返回基于所述训练特征,计算所述当前决策树的残差向量的步骤继续执行;

若所述决策树模型中决策树的总数达到预设阈值n,则停止拟合新的决策树,得到包含n棵决策树的决策树模型。

4.一种信息推荐装置,其特征在于,包括:特征获取模块,用于采集每个用户的初始数据,并对所述初始数据进行数据预处理和稳定性评估,得到稳定数据,其中,获取所述稳定数据包含的特征为稳定特征;

特征衍生模块,用于采用特征衍生的方式,对所述稳定特征进行特征衍生处理,得到衍生特征;

特征值预测模块,用于通过采用机器学习的方式,对所述衍生特征中缺失的特征值进行信息预测,得到预测结果;

特征补全模块,用于根据预测结果对所述缺失的特征值进行填充,得到填充后的数据,将所述填充后的数据和所述稳定数据作为目标数据,并将所述目标数据存入到目标数据集中;

数据评估模块,用于针对所述目标数据集的任一目标数据,将所述目标数据和每个召回方法输入到预设的推荐模型中,通过所述预设的推荐模型,对每个召回方法进行打分,得到预测分值;

分值排序模块,用于按照所述预测分值由大到小的顺序排序,并从排序后的所述预测分值中,依次选取预设数量的召回方法加入到召回方法序列;

信息推荐模块,用于根据预设的推荐条件,结合所述召回方法序列,生成推荐信息,将所述推荐信息推荐给所述目标数据对应的用户;

其中,所述特征获取模块包括:

分类单元,用于对所述初始数据按照预设标签类型进行分类,得到初始类别信息;

预处理单元,用于对每个所述初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;

稳定性筛选单元,用于计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征,将包含的基础特征均为稳定特征的基础类别信息,作为稳定数据;

其中,所述数据评估模块包括:

训练特征提取单元,用于将每个召回方法对应的模拟结果作为一个参考特征,将目标数据中包含的数据特征作为目标特征,并将参考特征和目标特征作为训练特征;

决策树构建单元,用于将训练特征输入到梯度提升决策树模型中,通过梯度提升决策树模型对训练特征进行训练,得到n棵决策树;

分值预测单元,用于将每棵决策树的路径包含的特征作为自变量,基于二分类逻辑回归模型,进行预设事件的结果预测,得到每个召回方法对应的预测分值。

5.如权利要求4所述的信息推荐装置,其特征在于,所述稳定性筛选单元包括:关键特征确定子单元,用于计算每个基础特征的信息值IV,并根据所述信息值IV进行特征筛选,得到关键特征;

稳定性计算子单元,用于通过预设方式,计算所述关键特征的稳定度指标PSI,将所述稳定度指标PSI超过预设阈值的关键特征,作为稳定特征。

6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至

3任一项所述的信息推荐方法。

7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的信息推荐方法。

说明书 :

信息推荐方法、装置、计算机设备及介质

技术领域

[0001] 本发明涉及数据处理领域,尤其涉及一种信息推荐方法、装置、计算机设备及介质。

背景技术

[0002] 在现有的信息推荐领域中,当我们向用户进行信息推荐的时候,传统的做法是根据已有的用户填写信息(包括但不限于年龄、性别、收入、职业等信息)和用户历史行为数据
进行推荐。在这种模式下,一般优化的目标都是单一的,即任务都是单一场景下的目标优
化。在实际场景中,关注的优化目标都是某一特定的指标,例如用户的点击率、购买率、曝光
率、转发量等。
[0003] 当产品信息需要面向不同用户性别、年龄、地域进行精准个性化推荐时,尤其是在用户为游客身份或者新用户身份(用户属性信息几乎空白)时,推荐的难度将大大加大。传
统做法采取协同过滤(基于用户的协同过滤、基于物品的协同过滤、基于内容的推荐)算法,
这些做法存在推荐结果的个性化较弱、较宽泛,倾向于推荐同类商品,推荐的精准程度不
高,因而,亟需一种精准的信息推荐方法。

发明内容

[0004] 本发明实施例提供一种信息推荐方法、装置、计算机设备和存储介质,以提高信息推荐的精准程度。
[0005] 为了解决上述技术问题,本申请实施例提供一种信息推荐方法,包括:
[0006] 采集每个用户的初始数据,并对所述初始数据进行数据预处理和稳定性评估,得到稳定数据,其中,获取所述稳定数据包含的特征为稳定特征;
[0007] 采用特征衍生的方式,对所述稳定特征进行特征衍生处理,得到衍生特征;
[0008] 通过采用机器学习的方式,对所述衍生特征中缺失的特征值进行信息预测,得到预测结果;
[0009] 根据预测结果对所述缺失的特征值进行填充,得到填充后的数据,将所述填充后的数据和所述稳定数据作为目标数据,并将所述目标数据存入到目标数据集中;
[0010] 针对所述目标数据集的任一目标数据,将所述目标数据和每个召回方法输入到预设的推荐模型中,通过所述预设的推荐模型,对每个召回方法进行打分,得到预测分值;
[0011] 按照所述预测分值由大到小的顺序排序,并从排序后的所述预测分值中,依次选取预设数量的召回方法加入到召回方法序列;
[0012] 根据预设的推荐条件,结合所述召回方法序列,生成推荐信息,将所述推荐信息推荐给所述目标数据对应的用户。
[0013] 可选地,所述对所述初始数据进行数据预处理和稳定性评估,得到稳定数据包括:
[0014] 对所述初始数据按照预设标签类型进行分类,得到初始类别信息。
[0015] 对每个所述初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;
[0016] 计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征,将包含的基础特征均为稳定特征的基础类别信息,作为稳定数
据。
[0017] 可选地,其特征在于,所述计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征包括:
[0018] 计算每个基础特征的信息值IV,并根据所述信息值IV进行特征筛选,得到关键特征;
[0019] 通过预设方式,计算所述关键特征的稳定度指标PSI,将所述稳定度指标PSI超过预设阈值的关键特征,作为稳定特征。
[0020] 可选地,所述预设的模型为梯度提升决策树模型,所述通过所述预设的推荐模型,对每个召回方法进行打分,得到预测分值包括:
[0021] 将每个所述召回方法对应的模拟结果作为一个参考特征,将所述目标数据中包含的数据特征作为目标特征,并将所述参考特征和所述目标特征作为训练特征;
[0022] 将所述训练特征输入到梯度提升决策树模型中,通过所述梯度提升决策树模型对所述训练特征进行训练,得到n棵决策树;
[0023] 将所每棵所述决策树的路径包含的特征作为自变量,基于二分类逻辑回归模型,进行预设事件的结果预测,得到每个召回方法对应的预测分值。
[0024] 可选地,所述通过所述梯度提升决策树模型对所述训练特征进行训练,得到n棵决策树包括:
[0025] 对所述训练特征采用分类回归树算法,生成原始决策树;
[0026] 将所述原始决策树放入决策树模型中,并将所述原始决策树作为当前决策树;
[0027] 基于所述训练特征,计算所述当前决策树的残差向量;
[0028] 依据所述残差向量拟合新的决策树,并将该新的决策树放入所述决策树模型中;
[0029] 若所述决策树模型中决策树的总数低于预设阈值,则将所述新的决策树作为所述当前决策树,返回基于所述训练特征,计算所述当前决策树的残差向量的步骤继续执行;
[0030] 若所述决策树模型中决策树的总数达到预设阈值n,则停止拟合新的决策树,得到包含n棵决策树的决策树模型。
[0031] 为了解决上述技术问题,本申请实施例还提供一种信息推荐装置,包括:
[0032] 特征获取模块,用于采集每个用户的初始数据,并对所述初始数据进行数据预处理和稳定性评估,得到稳定数据,其中,获取所述稳定数据包含的特征为稳定特征;
[0033] 特征衍生模块,用于采用特征衍生的方式,对所述稳定特征进行特征衍生处理,得到衍生特征;
[0034] 特征值预测模块,用于通过采用机器学习的方式,对所述衍生特征中缺失的特征值进行信息预测,得到预测结果;
[0035] 特征补全模块,用于根据预测结果对所述缺失的特征值进行填充,得到填充后的数据,将所述填充后的数据和所述稳定数据作为目标数据,并将所述目标数据存入到目标
数据集中;
[0036] 数据评估模块,用于针对所述目标数据集的任一目标数据,将所述目标数据和每个召回方法输入到预设的推荐模型中,通过所述预设的推荐模型,对每个召回方法进行打
分,得到预测分值;
[0037] 分值排序模块,用于按照所述预测分值由大到小的顺序排序,并从排序后的所述预测分值中,依次选取预设数量的召回方法加入到召回方法序列;
[0038] 信息推荐模块,用于根据预设的推荐条件,结合所述召回方法序列,生成推荐信息,将所述推荐信息推荐给所述目标数据对应的用户。
[0039] 可选地,所述特征获取模块包括:
[0040] 分类单元,用于对所述初始数据按照预设标签类型进行分类,得到初始类别信息。
[0041] 预处理单元,用于对每个所述初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;
[0042] 稳定性筛选单元,用于计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征,将包含的基础特征均为稳定特征的基
础类别信息,作为稳定数据。
[0043] 可选地,所述稳定性筛选单元包括:
[0044] 关键特征确定子单元,用于计算每个基础特征的信息值IV,并根据所述信息值IV进行特征筛选,得到关键特征;
[0045] 稳定性计算子单元,用于通过预设方式,计算所述关键特征的稳定度指标PSI,将所述稳定度指标PSI超过预设阈值的关键特征,作为稳定特征。
[0046] 可选地,所述数据评估模块包括:
[0047] 训练特征提取单元,用于将每个所述召回方法对应的模拟结果作为一个参考特征,将所述目标数据中包含的数据特征作为目标特征,并将所述参考特征和所述目标特征
作为训练特征;
[0048] 决策树构建单元,用于将所述训练特征输入到梯度提升决策树模型中,通过所述梯度提升决策树模型对所述训练特征进行训练,得到n棵决策树;
[0049] 分值预测单元,用于将所每棵所述决策树的路径包含的特征作为自变量,基于二分类逻辑回归模型,进行预设事件的结果预测,得到每个召回方法对应的预测分值。
[0050] 可选地,所述决策树构建单元包括:
[0051] 第一棵决策树生成子单元,用于对所述训练特征采用分类回归树算法,生成原始决策树;
[0052] 决策树更迭子单元,用于将所述原始决策树放入决策树模型中,并将所述原始决策树作为当前决策树;
[0053] 残差计算子单元,用于基于所述训练特征,计算所述当前决策树的残差向量;
[0054] 新的决策树生成子单元,用于依据所述残差向量拟合新的决策树,并将该新的决策树放入所述决策树模型中;
[0055] 更新迭代子单元,用于若所述决策树模型中决策树的总数低于预设阈值,则将所述新的决策树作为所述当前决策树,返回基于所述训练特征,计算所述当前决策树的残差
向量的步骤继续执行;
[0056] 决策树模型生成子单元,用于若所述决策树模型中决策树的总数达到预设阈值n,则停止拟合新的决策树,得到包含n棵决策树的决策树模型。
[0057] 为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述
计算机程序时实现上述信息推荐方法的步骤。
[0058] 为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述信息推荐
方法的步骤。
[0059] 本发明实施例提供的信息推荐方法、装置、计算机设备及存储介质,通过采集每个用户的初始数据,并对所述初始数据进行数据预处理和稳定性评估,得到稳定数据,进而通
过稳定数据中包含的特征进行特征衍生,得到衍生特征,并通过机器学习的方式,对衍生特
征进行特征值的预测,进而根据预测到的数值对衍生特征的数值进行补充,得到补充后的
数据,并将补充后的数据和稳定数据一起作为目标数据,加入到目标数据集中,采用质量较
高且特征较为丰富的目标数据,有利于提高偏好预测的准确性,进而基于目标数据集,采用
召回和排序的方式,对用户偏好进行预测,进而根据预测的用户偏好和业务策略,确定推荐
信息并推送给用户,提高了信息推荐的精准程度。

附图说明

[0060] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施
例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图
获得其他的附图。
[0061] 图1是本申请可以应用于其中的示例性系统架构图;
[0062] 图2是本申请的信息推荐方法的一个实施例的流程图;
[0063] 图3是根据本申请的信息推荐装置的一个实施例的结构示意图;
[0064] 图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

[0065] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体
的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明
中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说
明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用
于描述特定顺序。
[0066] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同
的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0067] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发
明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
[0068] 请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。
网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0069] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
[0070] 终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示
perts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture 
E界面显示perts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上
型便携计算机和台式计算机等等。
[0071] 服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
[0072] 需要说明的是,本申请实施例所提供的信息推荐方法由服务器执行,相应地,信息推荐装置设置于服务器中。
[0073] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、
103具体可以对应的是实际生产中的应用系统。
[0074] 请参阅图2,图2示出本发明实施例提供的一种信息推荐方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
[0075] S201:采集每个用户的初始数据,并对初始数据进行数据预处理和稳定性评估,得到稳定数据,其中,获取稳定数据包含的特征为稳定特征。
[0076] 具体地,通过数据采集的方式,获取到每个用户的初始数据,并根据预设标签类型,对初始据进行分类,得到初始类别信息,进而根据每个初始类别信息的特征进行缺失值
检查和稳定性评估,得到数据特征均较为稳定的稳定数据。
[0077] 其中,数据采集的方式具体包括但不限于:网络爬虫爬取、后台日志读取、基于大数据的分布式数据采集和数据库读取等,具体可依据实际情况进行择取,此处不作限制。
[0078] 其中,预设的标签类型可根据实际情况进行设定,例如,在一具体实施方式中,预设的标签类型包括基础属性、浏览属性、消费属性和信用属性等。
[0079] 需要说明的是,在本实施例中,每个初始类别信息可以包括一个或多个基础特征,例如,在上述示例中,基础属性可以包括年龄、性别、身高、体重以及籍贯等基础特征,浏览
属性包括浏览、收藏、转发、评论及点赞等基础特征。
[0080] S202:采用特征衍生的方式,对稳定特征进行特征衍生处理,得到衍生特征。
[0081] 具体地,按照需要应用场景的类别和特征的复杂程度,从关键特征序列中选取若干稳定性特征,并对选取出的稳定性特征进行特征衍生,得到衍生特征。
[0082] 在本实施例中,特征衍生包括但不限于特征组合、特征交叉、图像特征生成、文本特征生成等。
[0083] 其中,特征组合具体可以通过特征两两之间的四则运算组合,逻辑与、或组合,多项式构造,特征自身与其均值作差等来实现。
[0084] 需要说明的是,不同数据来源的初始数据,其包含的基础特征可能存在不同,通过特征衍生的方式,能极大丰富每个用户对应的特征数据,有利于提高后续信息推荐的精准
程度。
[0085] S203:通过采用机器学习的方式,对衍生特征中缺失的特征值进行信息预测,得到预测结果。
[0086] 具体地,在得到衍生特征后,将衍生特征作为用户数据的一部分特征,对于一些特征对应的数值的缺失,根据已有的一些数据,采用通过机器学习的方式进行数值预测,得到
信息预测结果。
[0087] 其中,进行数值预测的机器学习方法包括但不限于:lightgbm模型、cnn+rnn的组合算法等。
[0088] 例如,某一用户数据包含特征A(A1,A2,A3),在经过特征衍生之后,特征A变为了特征A’(A1,A2,A3,C6),在该用户的初始数据中,没有C6对应的数值,因而,需要对C6的数值进
行预测,将所有用户对应数据输入到机器学习模型中,通过机器学习模型,对特征A’中的C6
的数值进行预测,得到预测值。
[0089] S204:根据预测结果对缺失的特征值进行填充,得到填充后的数据,将填充后的数据和稳定数据作为目标数据,并将目标数据存入到目标数据集中。
[0090] 具体地,根据得到的信息预测结果,对衍生特征的缺失值进行填充,得到填充后的数据,并将填充后的数据和稳定数据作为最终的目标数据,存入到目标数据集中。
[0091] 应理解,对衍生特征的缺失数值进行填充,可提高衍生特征对应数据的质量,进而可将填充后的数据作为目标数据存入到目标数据集中,提升目标数据集的数据多样性,针
对用户相关重要信息缺失(如年龄、性别、地区、婚姻状态等信息),也能够在不主动获取用
户隐私的情况下很好的将对应合适的信息推荐给用户,进而提高信息推荐的精准度,提升
用户服务体验。
[0092] S205:针对目标数据集的任一目标数据,将目标数据和每个召回方法输入到预设的推荐模型中,通过预设的推荐模型,对每个召回方法进行打分,得到预测分值。
[0093] 具体地,服务端预设有多个召回方法(召回策略),采取简单模型将推荐物品候选集合快速筛减至指定级别,(百级别或者十级别,是具体产品情况而定),针对目标数据集的
任意一个目标数据,采用预设的推荐评估模型,对每个召回方法进行打分,在后续根据分值
对召回方法进行评估。
[0094] 其中,推荐预设模型包括但不限于:Wide&Deep模型、DIEN(Deep Interest Evolution Network for Click)模型、GBDT+LR模型、DNN模型等。
[0095] 需要说明的是,本实施例中,信息推荐过程包括召回阶段和排序阶段,召回阶段可以理解为根据用户的行为数据,为用户在海量的信息中粗选一批待推荐的内容,挑选出一
个小的候选集,相当于粗排序。排序阶段再在此基础上进行更精准的计算,做到给每一个内
容进行精确打分,相当于精排序。在召回阶段,采用召回方法进行粗排序,在排序阶段,采用
预设的推荐评估模型进行精排序。
[0096] 优选地,本实施例采用GBDT决策树与二分类逻辑回归模型LR的组合方式,作为预设推荐模型,对召回方法的进行评估,具体实现细节可参考后续实施例的描述,为避免重
复,此处不再赘述。
[0097] S206:按照预测分值由大到小的顺序排序,并从排序后的预测分值中,依次选取预设数量的召回方法加入到召回方法序列。
[0098] 具体地,按照预测分值由大到小的顺序排序,并从排序后的预测分值中,依次选取预设数量的召回方法加入到召回方法序列。
[0099] 其中,预设数量可根据实际需求进行设定,此处不做限制。
[0100] S207:根据预设的推荐条件,结合召回方法序列,生成推荐信息,将推荐信息推荐给目标数据对应的用户。
[0101] 具体地,针对不同用户来说,即使获取了较为优秀的召回方法,但是,还需要结合一些业务策略,比如去已读,推荐多样化,加入广告等各种业务策略,之后形成最终推荐结
果,并将推荐信息推送给用户。
[0102] 本实施例中,通过采集每个用户的初始数据,并对所述初始数据进行数据预处理和稳定性评估,得到稳定数据,进而通过稳定数据中包含的特征进行特征衍生,得到衍生特
征,并通过机器学习的方式,对衍生特征进行特征值的预测,进而根据预测到的数值对衍生
特征的数值进行补充,得到补充后的数据,并将补充后的数据和稳定数据一起作为目标数
据,加入到目标数据集中,采用质量较高且特征较为丰富的目标数据,有利于提高偏好预测
的准确性,进而基于目标数据集,采用召回和排序的方式,对用户偏好进行预测,进而根据
预测的用户偏好和业务策略,确定推荐信息并推送给用户,提高了信息推荐的精准程度。
[0103] 在本实施例的一些可选的实现方式中,步骤S201中,对初始数据进行数据预处理和稳定性评估,得到稳定数据包括:
[0104] 对初始数据按照预设标签类型进行分类,得到初始类别信息。
[0105] 对每个初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;
[0106] 计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征,将包含的基础特征均为稳定特征的基础类别信息,作为稳定数
据。
[0107] 其中,预设标签类型为预先根据需求进行分类的标签。
[0108] 具体地,在对获取到的数据进行分类得到初始类别信息后,需要对数据进行数据预处理,以确保数据质量,考虑到存在数据来源不一致、未及时更新等原因导致的部分数据
缺失问题,在本实施例中,先对每个初始类别信息进行缺失值的处理,得到基础类别信息。
[0109] 本实施例中中,每个基础类别信息包括一个或多个基础特征,在得到每个基础类别信息后,需要对这些基础特征的稳定性进行评估,保留稳定性好的基础特征,作为稳定特
征。
[0110] 其中,预设稳定度阈值可以根据实际情况进行设定,此处不做限定,在本实施例中,优选值为0.25。
[0111] 进一步地,对每个所述初始类别信息进行缺失值处理,得到基础类别信息,具体过程包括:
[0112] 针对每个初始类别信息,获取所述初始类别信息中每个基础特征对应的特征值;
[0113] 对所述特征值进行数据校验,将校验失败的特征值作为缺失值;
[0114] 对每个基础特征对应的缺失值进行统计,并将缺失值与特征值的比例超过预设比例的基础特征,作为无效特征,并从所述初始类别信息中移除所述无效特征,得到基础类别
信息。
[0115] 其中,对所述特征值进行数据校验,具体包括但不限于:空值校验、数值规范性校验和数值唯一性校验。
[0116] 应理解,在将缺失值与特征值的比例超过预设比例,也即,缺失值较多,此时,认定该缺失值对应的基础特征存在质量问题,将该基础特征作为无效特征,从初始类别信息中
移除,以避免后续该基础特征对信息推荐模型预测产生负面影响。
[0117] 其中,空值检验可以正则表达式的方式实现,数值规范性校验通过将数值与预设规则进行匹配判断,数值唯一性校验是指判断是否存在相同的重复的数值。
[0118] 本实施例中,对初始数据进行数据预处理和稳定性评估,得到稳定数据,确保数据质量,有利于后续提高后续特征衍生的准确程度。
[0119] 在本实施例的一些可选的实现方式中,计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征包括:
[0120] 计算每个基础特征的信息值IV,并根据信息值IV进行特征筛选,得到关键特征;
[0121] 通过预设方式,计算关键特征的稳定度指标PSI,将稳定度指标PSI超过预设阈值的关键特征,作为稳定特征。
[0122] 具体地,针对对基础特征中数据类型为连续型的特征,进行分箱处理,将连续型的特征转化为离散型特征;针对所有离散型特征进行独热编码,得到数字化变量;根据数字化
变量,计算每个特征对应的信息值IV,进而对信息值IV进行重要性排序,得到重要性由高到
低的排序结果,进而根据排序结果,对信息值IV对应的属性特征进行筛选,得到关键特征,
再计算每个关键特征的稳定度指标PSI,将稳定性指标超过预设阈值的关键特征,作为稳定
特征。在后续通过稳定特征进行特征组合衍生,有利于提高衍生特征的质量。
[0123] 其中,预设方式具体可以是通过按照时间的维度,选取每个月的关键特征的数据,逐月计算关键特征的稳定度指标PSI。
[0124] 需要说明的是,在信息推荐场景中,涉及的数据维度和数据量均较大,通过信息值IV进行关键特征的筛选,保留重要特征,可极大减少数据运算量,提高稳定特征获取的效
率。
[0125] 可选地,本实施例还通过预设的特征排序方式,从多个维度对稳定性特征进行重要性排序,得到关键特征序列,以便后续再进行特征衍生处理时,优先选取排序靠前的特征
进行特征衍生。
[0126] 其中,预设的特征排序方式包括但不限于:lightgbm算法、xgboost算法等,需要说明的是,树模型天然会对特征进行重要性排序,以分裂数据集,构建分支,进而根据分支的
评分得到重要性排序,具体方式可根据实际需要进行选取,此处不做限制。
[0127] 需要说明的是,通过树模型计算出每个稳定性特征的排序后,将重要程度低于预设数值的稳定性指标剔除,以提高关键特征序列中特征的质量。
[0128] 在本实施例的一些可选的实现方式中,步骤S205中,预设的模型为梯度提升决策树模型,通过预设的推荐模型,对每个召回方法进行打分,得到预测分值包括:
[0129] 将每个召回方法对应的模拟结果作为一个参考特征,将目标数据中包含的数据特征作为目标特征,并将参考特征和目标特征作为训练特征;
[0130] 将训练特征输入到梯度提升决策树模型中,通过梯度提升决策树模型对训练特征进行训练,得到n棵决策树;
[0131] 将所每棵决策树的路径包含的特征作为自变量,基于二分类逻辑回归模型,进行预设事件的结果预测,得到每个召回方法对应的预测分值。
[0132] 其中,梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来作为最终预测结果。
[0133] 其中,梯度提升决策树中的决策树属于回归树,在这些树的每个节点都会得到该节点对应的分类特征的预测值,对于未确定具体数值的分类特征,使用该分类特征的平均
值作为该分类特征的预测值。
[0134] 在生成决策树模型后,针对每个决策树,将不同路径包含的特征的特征值进行特征组合,得到组合特征,并将不同树的相同组合特征的值进行累加,将最终的累加值作为该
组合特征的特征值,并将该特征值作为二分类逻辑回归(Logistic Regression,LR)模型中
的一个自变量,来计算概率值,并根据概率值确定组合特征对应的召回方法的预测分值。
[0135] 在本实施例的一些可选的实现方式中,通过梯度提升决策树模型对训练特征进行训练,得到n棵决策树包括:
[0136] 对训练特征采用分类回归树算法,生成原始决策树;
[0137] 将原始决策树放入决策树模型中,并将原始决策树作为当前决策树;
[0138] 基于训练特征,计算当前决策树的残差向量;
[0139] 依据残差向量拟合新的决策树,并将该新的决策树放入决策树模型中;
[0140] 若决策树模型中决策树的总数低于预设阈值,则将新的决策树作为当前决策树,返回基于训练特征,计算当前决策树的残差向量的步骤继续执行;
[0141] 若决策树模型中决策树的总数达到预设阈值n,则停止拟合新的决策树,得到包含n棵决策树的决策树模型。
[0142] 在本实施例中,分类回归树(Classification And Regression Tree,CART)算法又称为最小二乘回归树,CART算法考虑到每个节点都有成为叶子节点的可能,对每个节点
都分配类别。分配类别的方法可以用当前节点中出现最多的类别,也可以参考当前节点的
分类错误或者其他更复杂的方法,是采用一种基于二分递归分割的方式,该算法总是将当
前样本集分割为两个子样本集,使得生成的决策树的每个叶子结点都只有两个分枝。因此
CART算法生成的决策树是结构简洁的二叉树,CART算法适用于样本特征的取值为是或非的
场景。
[0143] 其中,分类回归树的每一个节点都会得一个预测值,以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。在分枝时穷举每一个特征对应的数字化变量值找最好
的分割点,但衡量最好的标准不再是最大熵,而是最小化平方误差作为切分误差,也就是被
预测出错的人数越多,错的越离谱,切分误差就越大,通过最小化平方误差作为切分误差能
够找到最可靠的分枝依据。若最终叶子节点上人的年龄不唯一,则以该节点上所有人的平
均年龄做为该叶子节点的预测年龄。
[0144] 具体地,在梯度提升决策树算法中,采用梯度提升的作法来构造弱分类器,在每次迭代的时候,通过使用损失函数来计算当前决策树中样本在每个分类特征上的损失值,进
而将该损失值作为下一棵树的预测值来拟合生成新的决策树,该损失值即为残差向量的绝
对值。
[0145] 其中,损失函数包括但不限于:0‑1损失函数(0‑1Loss Function)、平方损失函数(Quadratic Loss Function)、绝对值损失函数(Absolute Loss Function)和对数损失函
数(Logarithmic Loss Function)等。
[0146] 优选地,本发明采用的损失函数为对数损失函数,该损失函数采用了极大似然估计的方法。
[0147] 进一步地,使用训练特征对应的残差向量作为新的决策树在该分类特征上的预测值,并进行新的决策树的拟合,使得新的决策树对当前决策树作进一步的完善,提高了决策
树模型对于样本数据的特征描述的准确率。
[0148] 本实施例中,通过CART算法生成原始决策树,将原始决策树放入决策树模型中,并将该原始决策树作为当前决策树,进而计算当前决策树的残差向量,根据当前决策树的残
差向量拟合新的决策树,并将该新的决策树放入决策树模型中,如此循环拟合新的决策树,
直到决策树模型中决策树的总数达到预设阈值,则停止拟合新的决策树,整个过程采用梯
度提升决策树算法,使得每一棵新的决策树都是对当前决策树的拟合,逐步减少了决策树
模型的误差,有利于提升了预测准确率。
[0149] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限
定。
[0150] 图3示出与上述实施例信息推荐方法一一对应的信息推荐装置的原理框图。如图3所示,该信息推荐装置包括身特征获取模块31、特征衍生模块32、特征值预测模块33、特征
补全模块34、数据评估模块35、分值排序模块36和信息推荐模块37。各功能模块详细说明如
下:
[0151] 特征获取模块31,用于采集每个用户的初始数据,并对初始数据进行数据预处理和稳定性评估,得到稳定数据,其中,获取稳定数据包含的特征为稳定特征;
[0152] 特征衍生模块32,用于采用特征衍生的方式,对稳定特征进行特征衍生处理,得到衍生特征;
[0153] 特征值预测模块33,用于通过采用机器学习的方式,对衍生特征中缺失的特征值进行信息预测,得到预测结果;
[0154] 特征补全模块34,用于根据预测结果对缺失的特征值进行填充,得到填充后的数据,将填充后的数据和稳定数据作为目标数据,并将目标数据存入到目标数据集中;
[0155] 数据评估模块35,用于针对目标数据集的任一目标数据,将目标数据和每个召回方法输入到预设的推荐模型中,通过预设的推荐模型,对每个召回方法进行打分,得到预测
分值;
[0156] 分值排序模块36,用于按照预测分值由大到小的顺序排序,并从排序后的预测分值中,依次选取预设数量的召回方法加入到召回方法序列;
[0157] 信息推荐模块37,用于根据预设的推荐条件,结合召回方法序列,生成推荐信息,将推荐信息推荐给目标数据对应的用户。
[0158] 可选地,特征获取模块31包括:
[0159] 分类单元,用于对初始数据按照预设标签类型进行分类,得到初始类别信息。
[0160] 预处理单元,用于对每个初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;
[0161] 稳定性筛选单元,用于计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征,将包含的基础特征均为稳定特征的基
础类别信息,作为稳定数据。
[0162] 可选地,稳定性筛选单元包括:
[0163] 关键特征确定子单元,用于计算每个基础特征的信息值IV,并根据信息值IV进行特征筛选,得到关键特征;
[0164] 稳定性计算子单元,用于通过预设方式,计算关键特征的稳定度指标PSI,将稳定度指标PSI超过预设阈值的关键特征,作为稳定特征。
[0165] 可选地,数据评估模块35包括:
[0166] 训练特征提取单元,用于将每个召回方法对应的模拟结果作为一个参考特征,将目标数据中包含的数据特征作为目标特征,并将参考特征和目标特征作为训练特征;
[0167] 决策树构建单元,用于将训练特征输入到梯度提升决策树模型中,通过梯度提升决策树模型对训练特征进行训练,得到n棵决策树;
[0168] 分值预测单元,用于将所每棵决策树的路径包含的特征作为自变量,基于二分类逻辑回归模型,进行预设事件的结果预测,得到每个召回方法对应的预测分值。
[0169] 可选地,决策树构建单元包括:
[0170] 第一棵决策树生成子单元,用于对训练特征采用分类回归树算法,生成原始决策树;
[0171] 决策树更迭子单元,用于将原始决策树放入决策树模型中,并将原始决策树作为当前决策树;
[0172] 残差计算子单元,用于基于训练特征,计算当前决策树的残差向量;
[0173] 新的决策树生成子单元,用于依据残差向量拟合新的决策树,并将该新的决策树放入决策树模型中;
[0174] 更新迭代子单元,用于若决策树模型中决策树的总数低于预设阈值,则将新的决策树作为当前决策树,返回基于训练特征,计算当前决策树的残差向量的步骤继续执行;
[0175] 决策树模型生成子单元,用于若决策树模型中决策树的总数达到预设阈值n,则停止拟合新的决策树,得到包含n棵决策树的决策树模型。
[0176] 关于信息推荐装置的具体限定可以参见上文中对于信息推荐方法的限定,在此不再赘述。上述信息推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上
述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储
于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0177] 为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
[0178] 所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机
设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的
组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或
存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专
用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-
Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式
设备等。
[0179] 所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人
机交互。
[0180] 所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态
随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程
只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述
计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述
存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式
硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡
(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包
括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操
作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用
于暂时地存储已经输出或者将要输出的各类数据。
[0181] 所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计
算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代
码或者处理数据,例如运行电子文件的控制的程序代码。
[0182] 所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
[0183] 本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所
述至少一个处理器执行如上述的信息推荐方法的步骤。
[0184] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服
务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
[0185] 显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同
的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻
全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其
依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进
行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他
相关的技术领域,均同理在本申请专利保护范围之内。