点击率预估模型建立方法、装置及信息提供方法、系统转让专利

申请号 : CN201410203666.7

文献号 : CN105095625B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 顾进杰黄立辉郑伟黄鹏林锋

申请人 : 阿里巴巴集团控股有限公司

摘要 :

本申请公开了一种点击率预估模型建立方法、装置及信息提供方法、系统,该方法包括:从与当前语言频道对应的历史数据中提取出基础特征,组合基础特征得到组合特征;根据基础特征和组合特征得到有效高阶特征,并计算有效高阶特征的权重;将有效高阶特征及其对应的权重带入到CTR计算公式中,得到当前语言频道的CTR预估模型。该方案实现建立每个语言频道的CTR预估模型,建立CTR预估模型的效率和CTR预估模型的准确性相对于现有的方式也有很大程度的提高。

权利要求 :

1.一种点击率预估模型建立方法,其特征在于,包括:

从与当前语言频道对应的历史数据中提取出基础特征,组合任意两个所述基础特征得到候选组合特征;从所述历史数据包括的历史特征的历史CTR中查找所述候选组合特征的历史CTR;根据所述基础特征的预设权重、所述候选组合特征的历史CTR和回归函数计算所述候选组合特征的权重;选取权重大于第一设定阈值的候选组合特征得到所述组合特征;

根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权重;以及将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语言频道的CTR预估模型。

2.如权利要求1所述的方法,其特征在于,从与当前语言频道对应的历史数据中提取出基础特征,具体包括:获取所述历史数据包括的历史特征;

将所述历史特征按照最小语义单元进行分割,得到所述基础特征。

3.如权利要求1所述的方法,其特征在于,根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权重,具体包括:组合所述基础特征和所述组合特征中的至少一者得到候选高阶特征;

从所述候选高阶特征中选取出有效高阶特征;

从所述历史数据包括的历史特征的历史CTR中查找所述有效高阶特征的历史CTR;

根据所述有效高阶特征的历史CTR和CTR计算公式计算所述有效高阶特征的权重。

4.如权利要求3所述的方法,其特征在于,从所述候选高阶特征中选取出有效高阶特征,具体包括至少一种:从所述历史特征的历史CTR中获取所述候选高阶特征的历史CTR,选取所述候选高阶特征的历史CTR大于第二设定阈值的候选高阶特征得到所述有效高阶特征;

将所述候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对所述目标函数求梯度,选取所述损失函数的梯度的绝对值大于所述正则化项的系数对应的候选高阶特征得到所述有效高阶特征。

5.如权利要求1-4任一所述的方法,其特征在于,得到所述当前语言频道的CTR预估模型之后,还包括:评估所述当前语言频道的CTR预估模型是否合格;

若所述当前语言频道的CTR预估模型不合格,则重新执行所述从与当前语言频道对应的历史数据中提取出基础特征的步骤。

6.如权利要求5所述的方法,其特征在于,评估所述当前语言频道的CTR预估模型是否合格,具体包括:若所述有效高阶特征的数量未达到设定数值,根据所述有效高阶特征及其对应的权重绘制受试者工作特征ROC曲线,计算所述ROC曲线的曲线下面积AUC值,若所述AUC值大于第三设定阈值,则确定所述当前语言频道的CTR预估模型合格,若所述AUC值小于或者等于所述第三设定阈值,则确定所述当前语言频道的CTR预估模型不合格;或者,若所述有效高阶特征的数量未达到所述设定数值,将所述有效高阶特征带入所述当前语言频道的CTR预估模型中计算所述有效高阶特征的预估CTR,从所述历史数据包括的历史特征的历史CTR中获取所述有效高阶特征的历史CTR,计算所述有效高阶特征的历史CTR与预估CTR的均方误差MSE,若所述MSE小于第四设定阈值,则确定所述当前语言频道的CTR预估模型合格,若所述MSE小于或者等于所述第四设定阈值,则确定所述当前语言频道的CTR预估模型不合格。

7.一种点击率预估模型建立装置,其特征在于,包括:

提取组合单元,用于从与当前语言频道对应的历史数据中提取出基础特征,组合任意两个所述基础特征组合得到候选组合特征;从所述历史数据包括的历史特征的历史CTR中查找所述候选组合特征的历史CTR;根据所述基础特征的预设权重、所述候选组合特征的历史CTR和回归函数计算所述候选组合特征的权重;选取权重大于第一设定阈值的候选组合特征得到所述组合特征;

计算单元,用于根据所述基础特征和所述组合特征得到有效高阶特征,并计算有效高阶特征的权重;以及获取单元,用于将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语言频道的CTR预估模型。

8.如权利要求7所述的装置,其特征在于,所述提取组合单元,具体用于:获取所述历史数据包括的历史特征;

将所述历史特征按照最小语义单元进行分割,得到所述基础特征。

9.如权利要求7所述的装置,其特征在于,所述计算单元,具体用于:组合所述基础特征和所述组合特征中的至少一者得到候选高阶特征;

从所述候选高阶特征中选取出有效高阶特征;

从所述历史数据包括的历史特征的历史CTR中查找所述有效高阶特征的历史CTR;

根据所述有效高阶特征的历史CTR和CTR计算公式计算所述有效高阶特征的权重。

10.如权利要求9所述的装置,其特征在于,所述计算单元,用于从所述候选高阶特征中选取出有效高阶特征,具体用于至少一种:从所述历史特征的历史CTR中获取所述候选高阶特征的历史CTR,选取所述候选高阶特征的历史CTR大于第二设定阈值的候选高阶特征得到所述有效高阶特征;

将所述候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对所述目标函数求梯度,选取所述损失函数的梯度的绝对值大于所述正则化项的系数对应的候选高阶特征得到所述有效高阶特征。

11.如权利要求7-10任一所述的装置,其特征在于,还包括评估单元,用于:评估所述当前语言频道的CTR预估模型是否合格;

若所述当前语言频道的CTR预估模型不合格,则重新转向所述提取组合单元。

12.如权利要求11所述的装置,其特征在于,所述评估单元,具体用于:若所述有效高阶特征的数量未达到设定数值,根据所述有效高阶特征及其对应的权重绘制受试者工作特征ROC曲线,计算所述ROC曲线的曲线下面积AUC值,若AUC值大于第三设定阈值,则确定所述当前语言频道的CTR预估模型合格,若AUC值小于或者等于所述第三设定阈值,则确定所述当前语言频道的CTR预估模型不合格;或者,若所述有效高阶特征的数量未达到所述设定数值,将所述有效高阶特征带入所述当前语言频道的CTR预估模型中计算所述有效高阶特征的预估CTR,从所述历史数据包括的历史特征的历史CTR中获取所述有效高阶特征的历史CTR,计算所述有效高阶特征的历史CTR与预估CTR的均方误差MSE,若所述MSE小于第四设定阈值,则确定所述当前语言频道的CTR预估模型合格,若所述MSE小于或者等于所述第四设定阈值,则确定所述当前语言频道的CTR预估模型不合格。

13.一种信息提供方法,其特征在于,包括:

根据用户输入的搜索信息,确定与所述搜索信息匹配的语言频道以及候选展示信息;

获取所述语言频道的点击率CTR预估模型,并使用所述CTR预估模型计算每个所述候选展示信息的预估CTR,其中,所述CTR预估模型是根据权利要求1-5任一所述的CTR预估模型建立方法建立的;以及按照预估CTR从大到小的顺序对候选展示信息进行排序,将设定位置之前的候选展示信息提供给所述用户。

14.一种信息提供系统,其特征在于,包括客户端和信息提供服务器,其中:所述客户端,用于将用户输入的搜索信息提供给所述信息提供服务器,以及将所述信息提供服务器搜索到的展示信息提供给用户;以及所述信息提供服务器,用于根据用户输入的搜索信息,确定与所述搜索信息匹配的语言频道以及候选展示信息;获取所述语言频道对应的点击率CTR预估模型,并使用所述CTR预估模型计算每个候选展示信息的预估CTR,其中,所述CTR预估模型是根据权利要求1-5任一所述的CTR预估模型建立方法建立的;按照预估CTR从大到小的顺序对候选展示信息进行排序,将设定位置之前的候选展示信息提供给所述用户。

说明书 :

点击率预估模型建立方法、装置及信息提供方法、系统

技术领域

[0001] 本申请涉及网络技术领域,尤其涉及一种点击率(Click Through Ratio,CTR)预估模型建立方法、装置及信息提供方法、系统。

背景技术

[0002] 随着电子商务的全球化发展,越来越多的电子商务网站采用多个语言频道,例如某电子商务网站可以同时提供中文、西班牙文、英文、法文、日文、韩文六个语言频道,由于面向地区的差异,这些语言频道中包含的信息可能不完全相同。
[0003] 若用户在电子商务网站上搜索需要的商品,可以通过搜索引擎输入搜索词(query),服务器根据该query挑选出相关的展示信息并对这些展示信息进行CTR预估,按照CTR预估结果将排序后的展示信息提供给用户,以供用户选择。将展示信息在电子商务网站上被点击次数与被展示次数的比值定义为CTR,用来表征展示信息被关注的程度。CTR预估是电子商务网站提供展示信息时非常重要的一个环节,在对展示信息进行CTR预估时需要使用CTR预估模型,而CTR预估模型准确性的高低会直接影响提供展示信息的准确性和用户体验。
[0004] 目前,CTR预估模型大多是基于反馈特征的线性模型,首先由人工从历史特征中排定出有效特征,并获取这些有效特征的历史点击率(Historical Click Through Ratio,HCTR),将基于有效特征的HCTR作为线性模型的输入特征,通过逻辑回归模型(Logistic Regression,LR)训练,由人工建立一个CTR预估模型。当电子商务网站包括多个语言频道时,针对每个语言频道都需要建立一个CTR预估模型,每个语言频道的历史特征都要由人工确定,这种方式过分受限于人为因素,导致建立CTR预估模型的效率和CTR预估模型的准确性都非常低。因此,目前亟需一种适用于多个语言频道的CTR预估模型自动建立方法。

发明内容

[0005] 本申请实施例提供一种CTR预估模型建立方法、装置及信息提供方法、系统,用以实现自动建立适用于多个语言频道的CTR预估模型。
[0006] 根据本申请实施例,提供一种信息提供方法,包括:
[0007] 从与当前语言频道对应的历史数据中提取出基础特征,组合所述基础特征得到组合特征;
[0008] 根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权重;以及
[0009] 将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语言频道的CTR预估模型。
[0010] 具体的,从与当前语言频道对应的历史数据中提取出基础特征,具体包括:
[0011] 获取所述历史数据包括的历史特征;
[0012] 将所述历史特征按照最小语义单元进行分割,得到所述基础特征。
[0013] 具体的,组合所述基础特征得到组合特征,具体包括:
[0014] 组合任意两个所述基础特征得到候选组合特征;
[0015] 从所述历史数据包括的历史特征的历史CTR中查找所述候选组合特征的历史CTR;
[0016] 根据所述基础特征的预设权重、所述候选组合特征的历史CTR和回归函数计算所述候选组合特征的权重;
[0017] 选取权重大于第一设定阈值的候选组合特征得到所述组合特征。
[0018] 具体的,根据所述基础特征和所述组合特征得到有效高阶特征,并计算所述有效高阶特征的权重,具体包括:
[0019] 组合所述基础特征和所述组合特征中的至少一者得到候选高阶特征;
[0020] 从所述候选高阶特征中选取出有效高阶特征;
[0021] 从所述历史数据包括的历史特征的历史CTR中查找所述有效高阶特征的历史CTR;
[0022] 根据所述有效高阶特征的历史CTR和CTR计算公式计算所述有效高阶特征的权重。
[0023] 具体的,从所述候选高阶特征中选取出有效高阶特征,具体包括至少一种:
[0024] 从所述历史特征的历史CTR中获取所述候选高阶特征的历史CTR,选取历史CTR大于第二设定阈值的候选高阶特征得到所述有效高阶特征;
[0025] 将所述候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对所述目标函数求梯度,选取所述损失函数的梯度的绝对值大于所述正则化项的系数对应的候选高阶特征得到所述有效高阶特征。
[0026] 可选的,得到所述当前语言频道的CTR预估模型之后,还包括:
[0027] 评估所述当前语言频道的CTR预估模型是否合格;
[0028] 若所述当前语言频道的CTR预估模型不合格,则重新执行所述从与当前语言频道对应的历史数据中提取出基础特征的步骤。
[0029] 具体的,评估所述当前语言频道的CTR预估模型是否合格,具体包括:
[0030] 若所述有效高阶特征的数量未达到设定数值,根据所述有效高阶特征及其对应的权重绘制受试者工作特征ROC曲线,计算所述ROC曲线的曲线下面积AUC值,若AUC值大于第三设定阈值,则确定所述当前语言频道的CTR预估模型合格,若AUC值小于或者等于所述第三设定阈值,则确定所述当前语言频道的CTR预估模型不合格;或者,
[0031] 若所述有效高阶特征的数量未达到所述设定数值,将所述有效高阶特征带入所述当前语言频道的CTR预估模型中计算所述有效高阶特征的预估CTR,从所述历史数据包括的历史特征的历史CTR中获取所述有效高阶特征的历史CTR,计算所述有效高阶特征的历史CTR与预估CTR的均方误差MSE,若所述MSE小于第四设定阈值,则确定所述当前语言频道的CTR预估模型合格,若所述MSE小于或者等于所述第四设定阈值,则确定所述当前语言频道的CTR预估模型不合格。
[0032] 还提供一种点击率预估模型建立装置,包括:
[0033] 提取组合单元,用于从与当前语言频道对应的历史数据中提取出基础特征,组合所述基础特征得到组合特征;
[0034] 计算单元,用于根据所述基础特征和所述组合特征得到有效高阶特征,并计算有效高阶特征的权重;以及
[0035] 获取单元,用于将所述有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到所述当前语言频道的CTR预估模型。
[0036] 具体的,所述提取组合单元,具体用于:
[0037] 获取所述历史数据包括的历史特征;
[0038] 将所述历史特征按照最小语义单元进行分割,得到所述基础特征。
[0039] 具体的,所述提取组合单元,具体用于:
[0040] 组合任意两个所述基础特征组合得到候选组合特征;
[0041] 从所述历史数据包括的历史特征的历史CTR中查找所述候选组合特征的历史CTR;
[0042] 根据所述基础特征的预设权重、所述候选组合特征的历史CTR和回归函数计算所述候选组合特征的权重;
[0043] 选取权重大于第一设定阈值的候选组合特征得到所述组合特征。
[0044] 具体的,所述计算单元,具体用于:
[0045] 组合所述基础特征和所述组合特征中的至少一者得到候选高阶特征;
[0046] 从所述候选高阶特征中选取出有效高阶特征;
[0047] 从所述历史数据包括的历史特征的历史CTR中查找所述有效高阶特征的历史CTR;
[0048] 根据所述有效高阶特征的历史CTR和CTR计算公式计算所述有效高阶特征的权重。
[0049] 具体的,所述计算单元,用于从所述候选高阶特征中选取出有效高阶特征,具体用于至少一种:
[0050] 从所述历史特征的历史CTR中获取所述候选高阶特征的历史CTR,选取历史CTR大于第二设定阈值的候选高阶特征得到所述有效高阶特征;
[0051] 将所述候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对所述目标函数求梯度,选取所述损失函数的梯度的绝对值大于所述正则化项的系数对应的候选高阶特征得到所述有效高阶特征。
[0052] 可选的,还包括评估单元,用于:
[0053] 评估所述当前语言频道的CTR预估模型是否合格;
[0054] 若所述当前语言频道的CTR预估模型不合格,则重新转向所述提取组合单元。
[0055] 具体的,所述评估单元,具体用于:
[0056] 若所述有效高阶特征的数量未达到设定数值,根据所述有效高阶特征及其对应的权重绘制受试者工作特征ROC曲线,计算所述ROC曲线的曲线下面积AUC值,若AUC值大于第三设定阈值,则确定所述当前语言频道的CTR预估模型合格,若AUC值小于或者等于所述第三设定阈值,则确定所述当前语言频道的CTR预估模型不合格;或者,
[0057] 若所述有效高阶特征的数量未达到所述设定数值,将所述有效高阶特征带入所述当前语言频道的CTR预估模型中计算所述有效高阶特征的预估CTR,从所述历史数据包括的历史特征的历史CTR中获取所述有效高阶特征的历史CTR,计算所述有效高阶特征的历史CTR与预估CTR的均方误差MSE,若所述MSE小于第四设定阈值,则确定所述当前语言频道的CTR预估模型合格,若所述MSE小于或者等于所述第四设定阈值,则确定所述当前语言频道的CTR预估模型不合格。
[0058] 还提供一种信息提供方法,包括:
[0059] 根据用户输入的搜索信息,确定与所述搜索信息匹配的语言频道以及候选展示信息;
[0060] 获取所述语言频道的点击率CTR预估模型,并使用所述CTR预估模型计算每个候选展示信息的预估CTR,其中,所述CTR预估模型是根据权利要求1-6所述的CTR预估模型建立方法建立的;以及
[0061] 按照预估CTR从大到小的顺序对候选展示信息进行排序,将设定位置之前的候选展示信息提供给所述用户。
[0062] 还提供一种信息提供系统,包括客户端和信息提供服务器,其中:
[0063] 所述客户端,用于将用户输入的搜索信息提供给所述信息提供服务器,以及将所述信息提供服务器搜索到的展示信息提供给用户;以及
[0064] 所述信息提供服务器,用于根据用户输入的搜索信息,确定与所述搜索信息匹配的语言频道以及候选展示信息;获取所述语言频道对应的点击率CTR预估模型,并使用所述CTR预估模型计算每个候选展示信息的预估CTR;按照预估CTR从大到小的顺序对候选展示信息进行排序,将设定位置之前的候选展示信息提供给所述用户。
[0065] 本申请实施例提供的点击率预估模型建立方法、装置及信息提供方法、系统,从与当前语言频道对应的历史数据中提取出基础特征,组合基础特征得到组合特征;根据基础特征和组合特征得到有效高阶特征,并计算有效高阶特征的权重;将有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到当前语言频道的CTR预估模型,从而实现建立每个语言频道的CTR预估模型,建立CTR预估模型的效率和CTR预估模型的准确性相对于人工参与的方式也有很大程度的提高。

附图说明

[0066] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0067] 图1为本申请一种实施例中信息提供系统的结构示意图;
[0068] 图2为本申请一种实施例中信息提供方法的流程图;
[0069] 图3为本申请一种实施例中CTR预估模型建立方法的流程图;
[0070] 图4为本申请一种实施例中CTR预估模型建立装置的结构示意图;以及[0071] 图5为本申请另一种实施例中优选的CTR预估模型建立装置的结构示意图。

具体实施方式

[0072] 为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0073] 为了实现自动建立适用于多个语言频道的CTR预估模型,本申请实施例提供的一种信息提供方法,通过如图1所示的信息提供系统实现,该信息提供系统包括客户端1和与客户端1通信(有线或者无线)的信息提供服务器2,该信息提供系统中可以根据需要包括一个或多个客户端1,图1中给出的是包括两个客户端1的情况。其中:
[0074] 客户端1,用于将用户输入的搜索信息提供给信息提供服务器2,以及将信息提供服务器2搜索到的展示信息提供给用户。
[0075] 信息提供服务器2,用于根据用户通过客户端1输入的搜索信息,确定与搜索信息匹配的语言频道以及候选展示信息;获取语言频道对应的CTR预估模型,并使用CTR预估模型计算每个候选展示信息的预估CTR;按照预估CTR从大到小的顺序对候选展示信息进行排序,将设定位置之前的候选展示信息提供给用户。
[0076] 当信息提供服务器2用于电子商务网站时,搜索信息是用户为了搜索展示信息而输入的搜索词,可以用query表示,展示信息是商品广告信息。
[0077] 例如,用户想要购买男士衬衫时,可以在搜索引擎上输入“男士衬衫”,“男士衬衫”即为搜索信息;信息提供服务器根据用户输入的搜索信息搜索相关的商品广告信息,然后提供给用户进行选择。
[0078] 上述信息提供方法的流程如图2所示,具体步骤如下:
[0079] S21:根据用户输入的搜索信息,确定与搜索信息匹配的语言频道以及候选展示信息。
[0080] 一般作为浏览方的用户可以通过在客户端输入query的方式查找自己感兴趣的展示信息,当电子商务网站包括多个语言频道时,服务器侧首先要根据用户输入的query确定用户想要搜索的语言频道,例如当用户在电子商务网站的英文主站上输入西班牙文的query时,可以确定该用户要在电子商务网站的西班牙文频道进行搜索。然后可以将西班牙文的展示信息作为候选展示信息,候选展示信息是有可能提供给用户的展示信息。
[0081] S22:获取语言频道的CTR预估模型,并使用CTR预估模型计算每个候选展示信息的预估CTR。
[0082] 一般来说,不同语言频道上的展示信息被关注的程度是不同的。例如,在电子商务网站的英文频道上,华为手机卖的最好,而在韩文频道上,三星手机卖的最好,也就是说,在英文频道上CTR(华为)>CTR(三星),而在韩文频道上CTR(三星)>CTR(华为),相应地,每个语言频道对应的CTR预估模型也应该不同。
[0083] 可以预先针对每个语言频道建立CTR预估模型,在确定与搜索信息匹配的语言频道后,需要获取该语言频道的CTR预估模型,并使用该CTR预估模型计算每个候选展示信息的预估CTR。
[0084] CTR预估模型可以采用公式CTR计算公式表示:
[0085] 其中,xi表示第i个有效高阶特征的值,其为离散值,具体地,当候选展示信息存在该有效高阶特征时取值为1,当候选展示信息不存在该有效高阶特征时取值为0,X为有效高阶特征的值xi的集合,ωi表示第i个有效高阶特征的权重,有效高阶特征的权重是在建立CTR预估模型时计算出来的,取值范围为R,R为实数,ω0表示初始化值。其中,有效高阶特征可以包括多个特征,特征的种类也比较多,例如可以包括query、展示信息位置、展示信息属性等等。
[0086] 在使用CTR预估模型计算候选展示信息的预估CTR时,可以首先确定该候选展示信息包括CTR预估模型中的有效高阶特征,也就是确定的xi,然后将其带入CTR预估模型中计算展示信息的预估CTR。
[0087] S23:按照预估CTR从大到小的顺序对候选展示信息进行排序,将设定位置之前的候选展示信息提供给用户。
[0088] 计算出所有候选展示信息的预估CTR后,可以按照预估CTR大小将展示信息进行排序,然后再选取一部分候选展示信息提供给用户,可以根据不同的需求确定提供给用户的候选展示信息的数量,例如可以选取预估CTR排序前10位的候选展示信息,这时设定位置为10,当然也可以根据需要设置为其它数值。
[0089] 还可以统计设定时间内每个有效高阶特征的CTR,也就是每个有效高阶特征在设定时间内被点击次数与被展示次数的比值,由于展示信息中可能对应多个有效高阶特征,所以不仅可以统计展示信息的CTR,还可以统计有效特征的CTR,然后保存有效高阶特征及其对应的CTR作为历史数据,用于建立预估CTR模型使用。设定时间可以根据实际需要进行确定,例如设置为20天、1个月等等。
[0090] 下面介绍建立CTR预估模型的方法,该方法适用于建立每个语言频道的CTR预估模型,流程如图3所示,包括如下步骤:
[0091] S31:从与当前语言频道对应的历史数据中提取出基础特征,组合基础特征得到组合特征。
[0092] 当前语言频道可以是电子商务网站的任一个语言频道,与当前语言频道对应的历史数据可以是预先统计的设定时间的有效高阶特征及其对应的CTR,由于统计的是过去某段时间内的CTR,因此,历史数据包括的有效高阶特征是历史特征,历史数据包括的CTR是历史CTR;还可以翻译其它语言频道的历史数据得到与当前语言频道对应的历史数据;还可以从其它网站挖掘与当前语言频道对应的历史数据。历史数据一般是离线数据,其存储在特定的数据库服务器中。
[0093] 由于这些历史数据中的历史特征可能不是最小的语义单元,因此可以从其中提取出基础特征,然后再组合这些基础特征得到组合特征,组合特征可以包括两个或者两个以上的基础特征。
[0094] S32:根据基础特征和组合特征得到有效高阶特征,并计算有效高阶特征的权重。
[0095] 有时将基础特征和组合特征进行进行组合得到的高阶特征在建立CTR预估模型时更有意义,例如对于衬衫来说,同时出现颜色、款式、品牌等等这些特征时被关注的程度比较高,而仅出现颜色这一个特征时被关注的程度会比较低,因此,可以根据基础特征和组合特征筛选出有效高阶特征,然后再计算有效高阶特征的权重。
[0096] S33:将有效高阶特征及其对应的权重带入到CTR计算公式中,得到当前语言频道的CTR预估模型。
[0097] 将有效高阶特征及其对应的权重带入到公式(1)中,这样就得到当前语言频道的CTR预估模型。
[0098] 该方案能够实现建立每个语言频道的CTR预估模型,建立CTR预估模型的效率和CTR预估模型的准确性相对于人工参与的方式也有很大程度的提高。在一些实施方式中,也可以针对两个或者两个以上的语言频道建立一个合并的CTR预估模型。
[0099] 下面进一步详细描述上述各个步骤。
[0100] 具体的,上述S31中的从与当前语言频道对应的历史数据中提取出基础特征,具体包括:
[0101] 获取历史数据包括的历史特征;
[0102] 将获取的历史特征按照最小语义单元进行分割,得到基础特征。
[0103] 例如,获取的历史特征为“宅男游戏廉价衣服”,该历史特征可以按照最小语义单元进一步分割成“宅男”、“游戏”、“廉价”和“衣服”,这些就可以作为基础特征。
[0104] 具体的,上述S31中的组合基础特征得到组合特征,具体包括:
[0105] 组合任意两个基础特征组合得到候选组合特征;
[0106] 从历史数据包括的历史特征的历史CTR中查找候选组合特征的历史CTR;
[0107] 根据基础特征的预设权重、候选组合特征的历史CTR和回归函数计算候选组合特征的权重;
[0108] 选取权重大于第一设定阈值的候选组合特征得到组合特征。
[0109] 可以将任意两个基础特征组合后作为组合特征,这样得到的组合特征的数量会非常多,而其中有些对于建立CTR预估模型会产生干扰,因此,可以将任意两个基础特征组合后作为候选组合特征,然后进一步进行筛选。
[0110] 候选组合特征在历史数据中都可以找到,获取历史数据中候选组合特征的历史CTR,基础特征的预设权重是预先设定的,将基础特征的预设权重、候选组合特征的历史CTR带入到回归函数中计算候选组合特征的权重,其中,回归函数为F(X)为候选组合特征ij的历史CTR,ωi表示基础特征i的预设权重,
ω0表示初始化值,xi表示基础特征i的值,X为n个基础特征xi的值的集合,ωij表示组合特征ij的预设权重,xij表示组合特征ij的值。
[0111] 具体的,上述S32中的根据基础特征和组合特征得到有效高阶特征,并计算有效高阶特征的权重,具体包括:
[0112] 组合基础特征和组合特征中的至少一者得到候选高阶特征;
[0113] 从候选高阶特征中选取出有效高阶特征;
[0114] 从历史数据包括的历史特征的历史CTR中查找有效高阶特征的历史CTR;
[0115] 根据有效高阶特征的历史CTR和CTR计算公式计算有效高阶特征的权重。
[0116] 可以将基础特征进行组合得到候选高阶特征,也可以将组合特征进行组合得到候选高阶特征,还可以将基础特征和组合特征进行组合得到候选高阶特征。
[0117] 在公式(1)中,有效高阶特征的历史CTR和xi一定时,就可以解出其中的ωi。
[0118] 具体的,上述从候选高阶特征中选取出有效高阶特征,具体包括以下两种方式之一或者组合:
[0119] 第一种方式,从历史特征的历史CTR中获取候选高阶特征的历史CTR,选取历史CTR大于第二设定阈值的候选高阶特征得到有效高阶特征。
[0120] 当历史CTR小于第二设定阈值时,该候选高阶特征对于建立CTR预估模型的贡献不是很大,可以忽略,因此,可以选取历史CTR大于第二设定阈值的候选高阶特征得到有效高阶特征。第二设定阈值可以根据实际需要进行设定。
[0121] 第二种方式,将候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对目标函数求梯度,选取损失函数的梯度的绝对值大于正则化项的系数对应的候选高阶特征得到有效高阶特征。
[0122] 目标函数可以为 其中,L(ω,x)为损失函数,Ω(ω)为正则化项, Xi表示第i个展示信息中包括的
第j个候选高阶特征的值的集合,ωj表示第j个候选高阶特征的预设权重,xj表示第j个候选高阶特征的值,yi表示第i个展示信息的历史CTR,m为候选高阶特征的总数,n表示展示信息的数量。当 时,第j个候选高阶特征极有可能是对建立CTR预估模型有用的特征,选取这部分候选高阶特征作为有效高阶特征。
[0123] 可选的,上述S33中的得到当前语言频道的CTR预估模型之后,还包括:
[0124] 评估当前语言频道的CTR预估模型是否合格;
[0125] 若当前语言频道的CTR预估模型不合格,则重新执行S31。
[0126] 可以对得到的CTR预估模型进行评估,如果评估结果为合格,则将该CTR预估模型用于上述信息提供方法中,然后保存设定时间内的有效高阶特征的CTR,保存的数据又用于建立CTR预估模型,这样经过反复的迭代就可以得到更好的CTR预估模型;如果评估结果为不合格,则可以重新执行上述建立CTR预估模型的方法,重新建立CTR预估模型。
[0127] 具体的,上述评估当前语言频道的CTR预估模型是否合格,具体可以包括以下两种方式:
[0128] 第一种方式,若有效高阶特征的数量未达到设定数值,根据当前语言频道的CTR预估模型中的有效高阶特征及其对应的权重绘制受试者工作特征(Receiver Operating Characteristic Curve,ROC)曲线,计算ROC曲线的曲线下面积(Area Under the Curve,AUC)值,若AUC值大于第三设定阈值,则确定当前语言频道的CTR预估模型合格,若AUC值小于或者等于第三设定阈值,则确定当前语言频道的CTR预估模型不合格。
[0129] 有效高阶特征的数量也会影响到建立的CTR预估模型是否合格,若有效高阶特征的数量过少,可能会影响CTR预估模型的预估结果的准确性,所以,可以判断有效特征的数量是否未达到设定数值,若未达到,使用第一种方式评估CTR预估模型是否合格。
[0130] 其中,设定数值可以根据实际需要进行设定,例如设为1万、5万、10万等等,第三设定阈值可以设定为0.5到1之间的任意数值,数值越大说明CTR预估模型的预估效果越好。
[0131] 第二种方式,若有效高阶特征的数量未达到设定数值,将有效高阶特征带入当前语言频道的CTR预估模型中计算有效高阶特征的预估CTR,从历史数据包括的历史特征的历史CTR中获取有效高阶特征的历史CTR,计算有效高阶特征的历史CTR与预估CTR的均方误差(Mean Squared Error,MSE),若MSE小于第四设定阈值,则确定当前语言频道的CTR预估模型合格,若MSE小于或者等于第四设定阈值,则确定当前语言频道的CTR预估模型不合格。
[0132] 在确定有效高阶特征的数量未达到设定数据值后,可以计算有效高阶特征的历史CTR与预估CTR之间的MSE,若该MSE过大,那就说明该CTR预估模型是不合格的;反之,说明该CTR模型是合格的。
[0133] 其中,第四设定阈值可以根据实际需要进行设定,有效高阶特征的MSE可以采用下列公式计算: 为第i个有效高阶特征的预估CTR,Yi为第i个有效高阶特征的历史CTR。
[0134] 从上述两种方法可以看出,ACU值反应对展示信息进行排序能力的强弱,MSE反应预估值与真实值的差距。下表中的数据表示针对西班牙文频道采用本申请中的CTR预估模型与采用现有技术中的CTR预估模型进行CTR预估的结果对比:
[0135]  本申请中的CTR预估模型 现有技术中的CTR预估模型
AUC 0.8918 0.6810
MSE 0.00332 >0.006
[0136] 其中,AUC值已经接近0.9,是一个比较高的值,同时MSE基本接近点击率的均值。与现有技术中的CTR预估模型相对比,AUC值提升了0.2,MSE提升幅度也很明显。可见,采用本申请中的CTR预估模型进行CTR预估可以达到较好的效果。
[0137] 基于同一发明构思,本申请实施例还提供的一种CTR预估模型建立装置,该装置可以设置在如图1所示的信息提供系统中的信息提供服务器2中,该装置的结构如图4所示,包括:
[0138] 提取组合单元31,用于从与当前语言频道对应的历史数据中提取出基础特征,组合基础特征得到组合特征。
[0139] 计算单元32,用于根据基础特征和组合特征得到有效高阶特征,并计算有效高阶特征的权重。
[0140] 获取单元33,用于将有效高阶特征及其对应的权重带入到点击率CTR计算公式中,得到当前语言频道的CTR预估模型。
[0141] 具体的,上述提取组合单元31,具体用于:
[0142] 获取历史数据包括的历史特征;
[0143] 将获取的历史特征按照最小语义单元进行分割,得到基础特征。
[0144] 具体的,上述提取组合单元31,具体用于:
[0145] 组合任意两个基础特征组合得到候选组合特征;
[0146] 从历史数据包括的历史特征的历史CTR中查找候选组合特征的历史CTR;
[0147] 根据基础特征的预设权重、候选组合特征的历史CTR和回归函数计算候选组合特征的权重;
[0148] 选取权重大于第一设定阈值的候选组合特征得到组合特征。
[0149] 具体的,上述计算单元32,具体用于:
[0150] 组合基础特征和组合特征中的至少一者得到候选高阶特征;
[0151] 从候选高阶特征中选取出有效高阶特征;
[0152] 从历史数据包括的历史特征的历史CTR中查找有效高阶特征的历史CTR;
[0153] 根据有效高阶特征的历史CTR和CTR计算公式计算有效高阶特征的权重。
[0154] 具体的,上述计算单元32,用于从候选高阶特征中选取出有效高阶特征,具体用于至少一种:
[0155] 从历史特征的历史CTR中获取候选高阶特征的历史CTR,选取历史CTR大于第二设定阈值的候选高阶特征得到有效高阶特征;
[0156] 将候选高阶特征分别带入包括损失函数和正则化项的目标函数中,对目标函数求梯度,选取损失函数的梯度的绝对值大于正则化项的系数对应的候选高阶特征得到有效高阶特征。
[0157] 请参阅图5,本申请实施例还提供另一种CTR预估模型建立装置,其基本结构与图4描述的CTR预估模型建立装置类似,以相同标号标示的元件省略不表。进一步,图5所示的CTR预估模型建立装置还包括评估单元34,用于:
[0158] 评估当前语言频道的CTR预估模型是否合格;
[0159] 若当前语言频道的CTR预估模型不合格,则重新转向提取组合单元31。
[0160] 具体的,上述评估单元34,具体用于:
[0161] 若有效高阶特征的数量未达到设定数值,根据有效高阶特征及其对应的权重绘制ROC曲线,计算ROC曲线的AUC值,若AUC值大于第三设定阈值,则确定当前语言频道的CTR预估模型合格,若AUC值小于或者等于第三设定阈值,则确定当前语言频道的CTR预估模型不合格;或者,
[0162] 若有效高阶特征的数量未达到设定数值,将有效高阶特征带入当前语言频道的CTR预估模型中计算有效高阶特征的预估CTR,从历史数据包括的历史特征的历史CTR中获取有效高阶特征的历史CTR,计算有效高阶特征的历史CTR与预估CTR的MSE,若MSE小于第四设定阈值,则确定当前语言频道的CTR预估模型合格,若MSE小于或者等于第四设定阈值,则确定当前语言频道的CTR预估模型不合格。
[0163] 上述说明示出并描述了本申请的优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。