具有最优阈值筛选的品牌广告效果优化的方法转让专利

申请号 : CN201511020056.4

文献号 : CN105654198B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨田雷龙艳章岑周盛潘柏宇王冀

申请人 : 合一网络技术(北京)有限公司

摘要 :

一种具有最优阈值筛选的品牌广告效果优化的方法及装置,所述方法充分利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行模型训练得到训练模型,利用不同时间段的验证数据通过训练模型分别得到不同的点击率,比较优选后得到点击率阈值。利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。

权利要求 :

1.一种具有最优阈值筛选的品牌广告效果优化的方法,包括如下步骤:数据源清洗及整合步骤(S110):获得四种数据作为点击率优化模型的数据源,所述四种数据包括:用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,素材信息数据:指的是品牌广告的素材信息,

广告展示日志信息:指的是广告展示时记录下的相关信息,

广告点击日志信息:用户点击广告时记录下的相关信息,

将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;

特征提取及格式化步骤(S120):对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;

模型训练及验证步骤(S130):使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,使用在模型训练数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;

模型测试及投放步骤(S140):利用第二验证数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。

2.根据权利要求1所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:在数据源清洗及整合步骤中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。

3.根据权利要求1所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:在特征提取及格式化步骤中,所述特征提取进一步包括抽取三方面不同的特征,包括:上下文信息特征,即发生当前广告行为时的上下文环境信息;

广告信息特征,即广告素材的描述信息;

用户信息特征,即当前用户的基础信息与偏好信息。

4.根据权利要求3所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:在特征提取及格式化步骤中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。

5.根据权利要求1-4中任意一项所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:在所述模型训练及验证步骤中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。

6.一种具有最优阈值筛选的品牌广告效果优化的装置,包括如下单元:数据源清洗及整合单元(S210):获得四种数据作为点击率优化模型的数据源,所述四种数据包括:用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,素材信息数据:指的是品牌广告的素材信息,

广告展示日志信息:指的是广告展示时记录下的相关信息,

广告点击日志信息:用户点击广告时记录下的相关信息,

将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;

特征提取及格式化单元(S220):对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;

模型训练及验证单元(S230):使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,使用在模型训练数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化单元得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;

模型测试及投放单元(S240):利用第二验证数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化单元得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。

7.根据权利要求6所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:在数据源清洗及整合单元中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。

8.根据权利要求6所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:在特征提取及格式化单元中,所述特征提取进一步包括抽取三方面不同的特征,包括:上下文信息特征,即发生当前广告行为时的上下文环境信息;

广告信息特征,即广告素材的描述信息;

用户信息特征,即当前用户的基础信息与偏好信息。

9.根据权利要求8所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:在特征提取及格式化单元中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。

10.根据权利要求6-9中任意一项所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:在所述模型训练及验证单元中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。

说明书 :

具有最优阈值筛选的品牌广告效果优化的方法

技术领域

[0001] 本申请涉及广告投放领域,具体的,涉及一种利用广告的以往投放数据建立投放模型,对最优阈值筛选的品牌广告效果优化的方法。

背景技术

[0002] 品牌广告主在进行广告投放往往希望投放的广告达到一定的展现量,以展现他们的产品,在这个基础上,广告主希望自己的广告在一定展现量的前提下能获取更多的点击率。
[0003] 要想获取高的广告点击率,除了跟广告本身品质、吸引度相关之外,还与用户是个人的需求及喜好相关,而根据用户需求及喜好向用户投放其喜好的视频广告能够提高广告的点击率。
[0004] 视频网站是指在完善的技术平台支持下,让互联网用户在线流畅发布、浏览和分享视频作品的网络媒体。由此,视频网站没有像搜索引擎那样获取用户直接需求信息的功能,现阶段的广告点击率预算模型选择不当又导致不能准确地向用户精准地投放视频广告。因此,如何向用户投放更准确的广告并且提高广告点击率,进一步的,如何建立更加优化的广告点击率预算模型对广告投放进行预测以向用户精确地投放广告成为现有技术亟待解决的问题。

发明内容

[0005] 本发明的目的在于提出一种广告投放的预测算法,对视频网站中被挖掘出来的大量用户信息,包括用户基本信息及用户偏好,进行整合处理,结合广告素材本身的特点,通过模型预测及验证最优广告点击率,再进行广告投放点击率优化工作,更精准地向用户投放广告,提高点击率。
[0006] 为达此目的,本发明采用以下技术方案:
[0007] 一种具有最优阈值筛选的品牌广告效果优化的方法,包括如下步骤:
[0008] 数据源清洗及整合步骤S110:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
[0009] 用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
[0010] 素材信息数据:指的是品牌广告的素材信息,
[0011] 广告展示日志信息:指的是广告展示时记录下的相关信息,
[0012] 广告点击日志信息:用户点击广告时记录下的相关信息,
[0013] 将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
[0014] 特征提取及格式化步骤S120:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
[0015] 模型训练及验证步骤S130:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
[0016] 使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
[0017] 模型测试及投放步骤S140:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
[0018] 优选地,在数据源清洗及整合步骤中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
[0019] 优选地,在特征提取及格式化步骤中,所述特征提取进一步包括抽取三方面不同的特征,包括:
[0020] 上下文信息特征,即发生当前广告行为时的上下文环境信息;
[0021] 广告信息特征,即广告素材的描述信息;
[0022] 用户信息特征,即当前用户的基础信息与偏好信息。
[0023] 优选地,在特征提取及格式化步骤中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
[0024] 优选地,在所述模型训练及验证步骤中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
[0025] 本发明还公开了一种具有最优阈值筛选的品牌广告效果优化的装置,包括如下单元:
[0026] 数据源清洗及整合单元S210:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
[0027] 用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
[0028] 素材信息数据:指的是品牌广告的素材信息,
[0029] 广告展示日志信息:指的是广告展示时记录下的相关信息,
[0030] 广告点击日志信息:用户点击广告时记录下的相关信息,
[0031] 将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
[0032] 特征提取及格式化单元S220:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
[0033] 模型训练及验证单元S230:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
[0034] 使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化单元得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
[0035] 模型测试及投放单元S240:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化单元得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
[0036] 优选地,在数据源清洗及整合单元中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
[0037] 优选地,在特征提取及格式化单元中,所述特征提取进一步包括抽取三方面不同的特征,包括:
[0038] 上下文信息特征,即发生当前广告行为时的上下文环境信息;
[0039] 广告信息特征,即广告素材的描述信息;
[0040] 用户信息特征,即当前用户的基础信息与偏好信息。
[0041] 优选地,在特征提取及格式化单元中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
[0042] 优选地,在所述模型训练及验证单元中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
[0043] 本发明充分利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行模型训练得到训练模型,利用不同时间段的验证数据通过训练模型分别得到不同的点击率,比较优选后得到点击率阈值。利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。

附图说明

[0044] 图1是根据本发明的具体实施例的具有最优阈值筛选的品牌广告效果优化的方法的流程图;
[0045] 图2是根据本发明的具体实施例的模型训练与测试体系的示意图;
[0046] 图3是根据本发明的具体实施例的特征格式化结果的示例
[0047] 图4是根据本发明的具体实施例的具有最优阈值筛选的品牌广告效果优化的装置的模块图。

具体实施方式

[0048] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0049] 参见附图1,公开了根据本发明的具有最优阈值筛选的品牌广告效果优化的方法的流程图,包括如下步骤:
[0050] 数据源清洗及整合步骤S110:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
[0051] 用户信息数据(User Profiles):指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,进一步优选地,还可以包括用户性别、年龄等信息;该信息可以位于用户信息库中。
[0052] 素材信息数据:指的是品牌广告的素材信息,示例性的包括该广告所处的行业,子行业,品类信息与广告素材Id,该信息可以位于素材信息数据库中。
[0053] 广告展示日志信息:指的是广告展示时记录下的相关信息,示例性的包括时间,设备类型,操作系统和所在投放ID中的一个或多个;其中所述投放ID指的是所在的广告投放活动的ID。
[0054] 广告点击日志信息:用户点击广告时记录下的相关信息,示例性的包括时间,设备类型,操作系统和所在投放ID中的一个或多个;
[0055] 将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息。
[0056] 在一个优选的实施例中,上述四种信息以用户的cookie标识唯一表示,从而能够在数据的清洗中通过验证去除不需要的属性(或者说去除不合法的cookie),或者对一些缺失的数据进行补充,整合。例如,cookie中包含有不需要用户的登录时间,或者不需要用户的性别,则能够在整合的数据中去除上述的属性。又例如,在某个cookie中缺少用户的年龄,在利用其它包含该用户的cookie中所具有的用户的年龄进行补充、整合。
[0057] 例如:某用户如果观看了某支广告,并点击了该广告,那么广告展示日志和广告点击日志将分别同时记录下日志,且两条日志的cookie、会话Id以及广告位Id是相同的。如果只观看了而没有点击该广告,则只在广告展示日志里记录有日志。对广告点击日志和广告展示日志通过cookie,会话Id,广告Id进行整合,某个用户在某次会话中既观看又点击了该广告,则把这条点击日志记为正样本。如果用户在某次会话中只观看但并无点击该广告,则把这条日志记为负样本。然后,通过日志里的广告素材Id可以与素材信息库进行连接整合得到广告素材的行业描述信息,最后通过日志里的cookie可以与用户信息库里的用户信息进行连接整合得到该用户的人口属性与偏好信息。
[0058] 特征提取及格式化步骤S120:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;即模型训练数据和第一验证数据都是相同格式的数据,仅仅是分配的数量不同而已。进一步优选的,模型训练数据和第一验证数据的比例为7:3。
[0059] 进一步的,所述特征提取进一步包括抽取三方面不同的特征,包括:
[0060] 上下文信息特征,即发生当前广告行为时的上下文环境信息,例如:时间、地点、广告位、频道、子频道和设备类型;
[0061] 广告信息特征,即广告素材的描述信息,例如:广告行业,子行业与品类信息;
[0062] 用户信息特征,即当前用户的基础信息与偏好信息,例如:性别、年龄、广告偏好和频道偏好。
[0063] 进一步的,所述格式化包括将上述三种特征进行格式化,变成适合算法训练的数据格式。这里分两类特征,类别特征与连续特征,需要分别进行处理。
[0064] 所述类别特征:指的是具有有限几种类别的特征,包括设备类型、性别等,需要对它进行离散化编码,使得算法计算时能够有效理解。采用普遍的独热编码(One-hot encoding)技术对类别特征进行编码。
[0065] 所述连续特征,指的是具有连续范围的特征,包括素材时长,视频时长,某投放的历史CTR统计值等。连续特征是否需要进行离散化要根据选择的算法模型而定。当采用逻辑回归模型由于要对各维度数据进行线性组合,所以需要进行离散化处理,而使用树模型则不需要进行离散化。连续特征离散化一般采用分段离散的方法,比如广告素材时长,可以分5s为一段进行One-hot encoding编码。
[0066] 模型训练及验证步骤S130:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,其中最优点击率可以是最高的点击率;
[0067] 使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤S120的方法得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,其中最优点击率可以是最高的点击率;
[0068] 将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值。
[0069] 其中最近的广告投放数据是在模型训练数据之后的广告投放数据。相当于用第一天广告投放的数据训练得到模型训练数据和第一验证数据,利用第二天广告投放的数据作为第二份的数据,以作为第二验证数据。将第一验证数据在线性预测曲线上的最高点作为第一点击率,将第二验证数据在线性预测曲线上的最高点作为第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值。
[0070] 因此,本方法在点击率预测时候采用了时间范围更为宽广的广告投放数据,使得得到的点击率阈值更为客观。
[0071] 模型测试及投放步骤S140:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤S120的方法得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
[0072] 参见图2,进一步公开了模型训练与测试体系的示意图。利用原始数据根据步骤S110和S120得到第一份格式化数据,例如第一天的数据,并将该格式化数据分为模型训练数据和模型验证数据;通过模型训练得到训练模型,并利用第一验证数据进行验证,从而调整得到第一点击率。
[0073] 将第一份格式化数据之后投放广告得到的数据,例如第二天的数据,也利用步骤S110和S120得到第二份格式化数据,并将该格式化数据作为第二验证数据通过所述测试模型得到第二点击率;将第一点击率与第二点击率比较,进行线性比较,最高值作为预测的点击率阈值。
[0074] 将第二份格式化数据之后的广告投放数据,例如第三天广告投放数据也利用步骤S110和S120得到第三份格式化数据,并将该格式化数据作为模型测试数据通过所述测试模型得到测试点击率,将测试点击率与预先设定的点击率阈值比较,大于等于预先设定的点击率阈值则进行投放,小于预先设定的点击率阈值则不投放。这样,能够得知是否应当继续投放广告,从而进行了第四天的广告投放。
[0075] 而在广告继续投放时,也继续利用第四天的数据通过步骤S110和S120得到格式化数据,并将该格式化数据作为测试数据通过测试模型得到点击率值与预先设定的点击率阈值比较,从而判断是否投放数据。后续的广告投放也采用类似的方式,这样,每天投放的广告得到的数据都能为后一天广告是否投放进行参考,从而实现了广告投放的动态判断。
[0076] 进一步的,在所述模型训练及验证步骤S130中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
[0077] 逻辑回归模型算法(Logistic Regression):逻辑回归模型是一个应用十分普遍的模型,它在整个向量空间中计算每一个特征维度的权重,对每一条记录,都计算这些权重与对应特征值的加权和,再把结果应用一个Logistic函数得到点击率预测概率值。
[0078] GBDT:这是一个树模型,使用指定N颗树对数据进行训练。最初使用一棵树对数据进行训练,然后逐渐加入新树对模型进行增强。
[0079] 优选的,在实验中,使用树数目N=10,每颗树深度Depth=4取得了良好的效果。
[0080] 其中,逻辑回归模型算法(Logistic Regression)的模型构建算法,采用常规算法,也可参考https://en.wikipedia.org/wiki/Logistic_regression。
[0081] 梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT)采用常规算法,也可参考https://en.wikipedia.org/wiki/Decision_tree。
[0082] 实施例1:
[0083] 使用视频网站里一天的广告点击日志,广告展示日志,广告素材信息,用户信息进行数据整合与清洗后对特征进行抽取与格式化。一共提取35项特征,其中上下文特征包括:时间、城市、设备类型等;广告素材特征包括:素材行业,子行业,品类;用户信息特征包括:
性别,年龄,广告偏好,频道偏好;组合特征包括:时间与设备类型组合,性别与广告行业组合等。抽取后的这些特征要经过One-hot encoding编码进行离散化,因此这35项特征一共映射到5369维特征空间中。每个样本将表示为5369维的向量和自身是正样本或负样本标识的记录。由于5369维是一个很大的特征空间,而且整个数据矩阵是非常稀疏的,所以只存储有值的特征维度。如图3,第一列是正负样本的标识,1表示正样本,0表示负样本,后面的每列是以维度为key,该维度特征值为value的组合key:value数据。
[0084] 经过建模后,进行验证、测试,可以使用精确率,召回率,F值与按该模型投放的新点击率四项指标来描述模型的好坏。结果如表1所示。
[0085]
[0086] 表1:训练模型效果
[0087] 本发明充分地利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行逻辑回归模型训练得到优化模型并验证的方法。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高。
[0088] 参见图4,本发明还公开了一种具有最优阈值筛选的品牌广告效果优化的装置,包括如下单元:
[0089] 数据源清洗及整合单元S210:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
[0090] 用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
[0091] 素材信息数据:指的是品牌广告的素材信息,
[0092] 广告展示日志信息:指的是广告展示时记录下的相关信息,
[0093] 广告点击日志信息:用户点击广告时记录下的相关信息,
[0094] 将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
[0095] 特征提取及格式化单元S220:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
[0096] 模型训练及验证单元S230:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
[0097] 使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化单元得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
[0098] 模型测试及投放单元S240:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化单元S220得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
[0099] 优选地,在数据源清洗及整合单元S210中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
[0100] 优选地,在特征提取及格式化单元S220中,所述特征提取进一步包括抽取三方面不同的特征,包括:
[0101] 上下文信息特征,即发生当前广告行为时的上下文环境信息;
[0102] 广告信息特征,即广告素材的描述信息;
[0103] 用户信息特征,即当前用户的基础信息与偏好信息。
[0104] 优选地,在特征提取及格式化单元S220中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
[0105] 优选地,在所述模型训练及验证单元S230中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
[0106] 显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
[0107] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。