基于美学特征的海报CTR预测方法及装置转让专利

申请号 : CN202110100658.X

文献号 : CN112767038B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 范凌

申请人 : 特赞(上海)信息科技有限公司

摘要 :

本申请公开了一种基于美学特征的海报CTR预测方法及装置,本申请方法包括对海报图像分别进行多维度的特征提取,得到多种美学特征;对美学特进行处理得到每张海报图像的美学特征向量;将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,三种监督学习模型为决策树模型、随机森林模型、支持向量机SVM模型;选择其中一个预测模型确定为最终的点击通过率模型;将待预测海报图像的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果。本申请解决现有的基于设计师主观的衡量方式对海报投放之后的表现效果不可控的,可靠性不高,并且影响投放开支的问题。

权利要求 :

1.一种基于美学特征的海报CTR预测方法,其特征在于,所述方法包括:对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征;

分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理;

对于每张海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并,得到每张海报图像对应的美学特征向量,其中,其他的美学特征是指除类别型之外的特征;

在将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并之前,计算每种美学特征每种特征的方差值;移除方差值小于预设阈值的特征;

将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,所述三种监督学习模型为决策树模型、随机森林模型、支持向量机SVM模型;

根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型,包括:将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型的初始模型;

分别对每种初始模型的模型参数进行多次调节,观察预测结果和真实值之间的均根方差,将使预测结果和真实值之间的均根方差最小的模型参数组合作为对应的三种点击通过率预测模型的最终参数组合;

不同的模型对应的调节参数是不同的,若监督学习模型为决策树模型,则调节树的深度、叶节点所需的最小样本数;若监督学习模型为随机森林模型,则调节树的数量、每棵树选择的样本数量、树的最大深度;若监督学习模型为支持向量机SVM模型,则调节惩罚系数、gamma参数;

预测结果和真实值是针对每张用于模型训练的海报图像的通过模型得到的点击通过率和真实获取到的点击功通过率;在进行每种模型的预测结果和真实值之间的均根方差计算时,包括:用所有或部分的用于训练的海报图像;将预设数据的海报图像进行分类,一部分用于模型训练,一部分用于模型的调参;

根据每种最终参数组合确定三种点击通过率模型;

将待预测海报图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果;

其中,对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征,包括:

从:基础特征、元素特征、人物特征、颜色特征、文字特征、显著性特征、风格特征、Logo特征8个维度去提取美学特征;

基础特征包括:图片色调、图片饱和度、图片明度、图片色值熵、图片色偏、图片的RGB色值、对比度、色温;

元素特征包括:装饰元素的数量、装饰元素面积占比、装饰元素中心点坐标、主商品元素数量、主商品元素的面积占比、主商品元素的中心点坐标、文本元素数量、文本元素的面积占比、文本元素的中心点坐标、文本元素和商品元素面积重叠占比;

人物特征包括:模特平均年龄、模特表情类型、模特颜值;

颜色特征包括:各颜色的占比,颜色包括:灰色、蓝色、青色、黄色、绿色、紫色、白色、红色、品红、橘黄;

文字特征包括:文字行数、文字中心点坐标、文字字数、主文案、主文案字数;

显著性特征是通过显著性模型得出的图片像素级别的显著性分数,其特征包括:显著性均值、显著性标准差;

风格特征是通过风格检测模型得出的各个风格程度的分数,其特征包括:干净程度、可爱程度、黑暗程度、时尚程度、极简程度、现代程度、流行程度、水彩程度;

Logo特征包括:Logo数量、Logo面积占比、Logo坐标、Logo名称。

2.根据权利要求1中所述的基于美学特征的海报CTR预测方法,其特征在于,根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型,包括:

分别计算三种点击通过率预测模型的预测结果和真实值之间的均根方差;

将均根方差最小的点击通过率模型作为最终的点击通过率模型。

3.根据权利要求1中所述的基于美学特征的海报CTR预测方法,其特征在于,所述方法还包括:

根据待预测海报图像对应的美学特征向量和最终的点击通过率模型,判断每一种特征对海报图像的点击通过的影响度;

根据每种特征对应的影响度对所述预测海报图像进行调整。

4.根据权利要求3中所述的基于美学特征的海报CTR预测方法,其特征在于,所述根据待预测海报图像对应的美学特征向量和最终的点击通过率模型,判断每种特征对海报图像的点击通过的影响度包括:

每次移除待预测海报图像对应的美学特征向量中某一种特征对应的值,每次移除后得到一个部分美学特征向量;

将每一次得到的部分美学特征向量输入到最终的点击通过率模型,得到一个点击通过率结果,并根据所述一个点击通过率结果确定该次移除的特征对应的影响度。

5.根据权利要求1中所述的基于美学特征的海报CTR预测方法,其特征在于,所述方法还包括:

海报投放后,监测待预测海报图像的实际点击通过率;

根据实际点击通过率与应用最终的点击通过率模型进行预测的海报点击率的比较结果进行模型的动态调整。

6.一种基于美学特征的海报CTR预测装置,其特征在于,所述装置包括:提取模块,用于对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征;

特征处理模块,用于分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理;对于每张海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并,得到每张海报图像对应的美学特征向量,其中,其他的美学特征是指除类别型之外的特征;

在将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并之前,计算每种美学特征每种特征的方差值;移除方差值小于预设阈值的特征;

模型训练模块,用于将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,所述三种监督学习模型为决策树模型、随机森林模型、支持向量机SVM模型;

模型确定模块,用于根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型,包括:将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型的初始模型;

分别对每种初始模型的模型参数进行多次调节,观察预测结果和真实值之间的均根方差,将使预测结果和真实值之间的均根方差最小的模型参数组合作为对应的三种点击通过率预测模型的最终参数组合;

不同的模型对应的调节参数是不同的,若监督学习模型为决策树模型,则调节树的深度、叶节点所需的最小样本数;若监督学习模型为随机森林模型,则调节树的数量、每棵树选择的样本数量、树的最大深度;若监督学习模型为支持向量机SVM模型,则调节惩罚系数、gamma参数;

预测结果和真实值是针对每张用于模型训练的海报图像的通过模型得到的点击通过率和真实获取到的点击功通过率;在进行每种模型的预测结果和真实值之间的均根方差计算时,包括:用所有或部分的用于训练的海报图像;将预设数据的海报图像进行分类,一部分用于模型训练,一部分用于模型的调参;

根据每种最终参数组合确定三种点击通过率模型;

预测模块,用于将待预测海报图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果;

其中,提取模块,用于对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征,包括:从:基础特征、元素特征、人物特征、颜色特征、文字特征、显著性特征、风格特征、Logo特征8个维度去提取美学特征;

基础特征包括:图片色调、图片饱和度、图片明度、图片色值熵、图片色偏、图片的RGB色值、对比度、色温;

元素特征包括:装饰元素的数量、装饰元素面积占比、装饰元素中心点坐标、主商品元素数量、主商品元素的面积占比、主商品元素的中心点坐标、文本元素数量、文本元素的面积占比、文本元素的中心点坐标、文本元素和商品元素面积重叠占比;

人物特征包括:模特平均年龄、模特表情类型、模特颜值;

颜色特征包括:各颜色的占比,颜色包括:灰色、蓝色、青色、黄色、绿色、紫色、白色、红色、品红、橘黄;

文字特征包括:文字行数、文字中心点坐标、文字字数、主文案、主文案字数;

显著性特征是通过显著性模型得出的图片像素级别的显著性分数,其特征包括:显著性均值、显著性标准差;

风格特征是通过风格检测模型得出的各个风格程度的分数,其特征包括:干净程度、可爱程度、黑暗程度、时尚程度、极简程度、现代程度、流行程度、水彩程度;

Logo特征包括:Logo数量、Logo面积占比、Logo坐标、Logo名称。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1至5中任意一项所述的基于美学特征的海报CTR预测方法。

说明书 :

基于美学特征的海报CTR预测方法及装置

技术领域

[0001] 本申请涉及电商海报设计领域,具体而言,涉及一种基于美学特征的海报CTR预测方法及装置。

背景技术

[0002] 目前,互联网电商海报设计领域,设计师往往是凭借多年的从业经验给出对海报设计结果的主观评价,往往不能很好的把控海报投放之后的具体表现,比如点击率如何,转
化率如何都无法给出更好的判断,而海报的点击率、转化率等指标又是电商海报效果的重
要衡量指标。因此,现有的基于设计师主观的衡量方式,基本上对海报投放之后的表现效果
是不可控的,可靠性不高。而广告投放的开销是巨大的,因此对于海报投放效果的不可控以
及不可靠对投放开支有很大的影响。

发明内容

[0003] 本申请的主要目的在于提供一种基于美学特征的海报CTR预测方法及装置,解决现有的基于设计师主观的衡量方式,基本上对海报投放之后的表现效果是不可控的,可靠
性不高,并且影响投放开支的问题。
[0004] 为了实现上述目的,根据本申请的第一方面,提供了一种基于美学特征的海报CTR预测方法。
[0005] 根据本申请的基于美学特征的海报CTR预测方法包括:
[0006] 对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征;
[0007] 分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理;
[0008] 对于每张海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并,得到每张海报图像对应的美学特征向量;
[0009] 将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,所述三种监督学习模型为决策树模型、随机森林模
型、支持向量机SVM模型;
[0010] 根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型;
[0011] 将待预测海报图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果。
[0012] 可选的,所述多种美学特征包括:
[0013] 基础特征、元素特征、人物特征、颜色特征、文字特征、显著性特征、风格特征、Logo特征,每种美学特征中至少包含一种特征。
[0014] 可选的,在将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并之前,所述方法还包括:
[0015] 计算每种美学特征每种特征的方差值;
[0016] 移除方差值小于预设阈值的特征。
[0017] 可选的,所述将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,包括:
[0018] 将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型的初始模型;
[0019] 分别对每种初始模型的模型参数进行调节,将使预测结果和真实值之间的均根方差最小的模型参数组合作为对应的三种点击通过率预测模型的最终参数组合;
[0020] 根据每种最终参数组合确定三种点击通过率模型。
[0021] 可选的,根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型,包括:
[0022] 分别计算三种点击通过率预测模型的预测结果和真实值之间的均根方差;
[0023] 将均根方差最小的点击通过率模型作为最终的点击通过率模型。
[0024] 可选的,所述方法还包括:
[0025] 根据待预测海报图像对应的美学特征向量和最终的点击通过率模型,判断每一种特征对海报图像的点击通过的影响度;
[0026] 根据每种特征对应的影响度对所述预测海报图像进行调整。
[0027] 可选的,所述根据待预测海报图像对应的美学特征向量和最终的点击通过率模型,判断每种特征对海报图像的点击通过的影响度包括:
[0028] 每次移除待预测海报图像对应的美学特征向量中某一种特征对应的值,每次移除移除后得到一个部分美学特征向量;
[0029] 将每一次得到的部分美学特征向量输入到最终的点击通过率模型,得到一个点击通过率结果,并根据所述一个点击通过率结果确定该次移除的特征对应的影响度。
[0030] 可选的,所述方法还包括:
[0031] 海报投放后,监测待预测海报图像的实际点击通过率;
[0032] 根据实际点击通过率与应用最终的点击通过率模型进行预测的海报点击率的比较结果进行模型的动态调整。
[0033] 为了实现上述目的,根据本申请的第二方面,提供了另一种基于美学特征的海报CTR预测装置。
[0034] 根据本申请的基于美学特征的海报CTR预测装置包括:
[0035] 提取模块,用于对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征;
[0036] 特征处理模块,用于分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理;对于每张海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行
横向合并,得到每张海报图像对应的美学特征向量;
[0037] 模型训练模块,用于将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,所述三种监督学习模型为决策树
模型、随机森林模型、支持向量机SVM模型;
[0038] 模型确定模块,用于根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型;
[0039] 预测模块,用于将待预测海报图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果。
[0040] 可选的,所述多种美学特征包括:
[0041] 基础特征、元素特征、人物特征、颜色特征、文字特征、显著性特征、风格特征、Logo特征,每种美学特征中至少包含一种特征。
[0042] 可选的,所述特征处理模块,还用于:
[0043] 在将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并之前,计算每种美学特征每种特征的方差值;移除方差值小于预设阈值的特征。
[0044] 可选的,所述模型训练模块,包括:
[0045] 训练单元,用于将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型的初始模型;
[0046] 调参单元,用于分别对每种初始模型的模型参数进行调节,将使预测结果和真实值之间的均根方差最小的模型参数组合作为对应的三种点击通过率预测模型的最终参数
组合;
[0047] 第一确定单元,用于根据每种最终参数组合确定三种点击通过率模型。
[0048] 可选的,模型确定模块包括:
[0049] 计算单元,用于分别计算三种点击通过率预测模型的预测结果和真实值之间的均根方差;
[0050] 第二确定单元,用于将均根方差最小的点击通过率模型作为最终的点击通过率模型。
[0051] 可选的,所述装置还包括:
[0052] 影响度判断模块,用于根据待预测海报图像对应的美学特征向量和最终的点击通过率模型,判断每一种特征对海报图像的点击通过的影响度;
[0053] 第一调整模块,用于根据每种特征对应的影响度对所述预测海报图像进行调整。
[0054] 可选的,所述影响度判断模块包括:
[0055] 移除单元,用于每次移除待预测海报图像对应的美学特征向量中某一种特征对应的值,每次移除移除后得到一个部分美学特征向量;
[0056] 影响度确定单元,用于将每一次得到的部分美学特征向量输入到最终的点击通过率模型,得到一个点击通过率结果,并根据所述一个点击通过率结果确定该次移除的特征
对应的影响度。
[0057] 可选的,所述装置还包括:
[0058] 监测模块,用于海报投放后,监测待预测海报图像的实际点击通过率;
[0059] 第二调整模块,用于根据实际点击通过率与应用最终的点击通过率模型进行预测的海报点击率的比较结果进行模型的动态调整。
[0060] 为了实现上述目的,根据本申请的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述第
一方面中任意一项所述的基于美学特征的海报CTR预测方法。
[0061] 为了实现上述目的,根据本申请的第四方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所
述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使
所述至少一个处理器执行上述第一方面中任意一项所述的基于美学特征的海报CTR预测方
法。
[0062] 在本申请实施例中,基于美学特征的海报CTR预测方法及装置中,对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征;然后分别对
每张图像的多种美学特征中的类别型特征进行one‑hot处理;对于每张海报图像,将与其对
应的one‑hot处理后的特征与其他的美学特征进行横向合并,得到每张海报图像对应的美
学特征向量;将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进
行训练,得到三种点击通过率预测模型,三种监督学习模型为决策树模型、随机森林模型、
支持向量机SVM模型;根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,
选择其中一个预测模型确定为最终的点击通过率模型;将待预测海报图像对应的美学特征
向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果。从本申
请实施例,可以看出,可以基于海报图像的美学特征进行海报点击通过率的预测,与现有的
基于设计师的经验进行海报质量判断相比,本申请实施例中的预测方式对于投放后的效果
的预测更可控更可靠,而且可以建立海报图像的具体的特征与实际的点击通过率之间的关
系,根据建立的关系,可以找出部分影响点击通过率表现的设计因素,从而用可量化的客观
数据去指导海报设计。

附图说明

[0063] 构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不
构成对本申请的不当限定。在附图中:
[0064] 图1是根据本申请实施例提供的一种基于美学特征的海报CTR预测方法流程图;
[0065] 图2是根据本申请实施例提供的另一种基于美学特征的海报CTR预测方法流程图;
[0066] 图3根据本申请实施例提供的一种基于美学特征的海报CTR预测装置的组成框图;
[0067] 图4是根据本申请实施例提供的另一种基于美学特征的海报CTR预测装置的组成框图。

具体实施方式

[0068] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范
围。
[0069] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具
有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的
过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清
楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0070] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0071] 根据本申请实施例,提供了一种基于美学特征的海报CTR预测方法,如图1所示,该方法包括如下的步骤:
[0072] S101.对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征。
[0073] 预设数量的值是设置的,预设数量越大,最终训练得到的模型的准确性越高。
[0074] 海报图像可以通过商家从主流电商平台投放的banner广告数据获取到。也可以通过其他的途径获取到。
[0075] 具体的,本步骤中“对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征”可以为从:基础特征、元素特征、人物特征、颜色特征、文字
特征、显著性特征、风格特征、Logo特征8个维度去提取美学特征。实际应用中,还可以从更
多的维度或者更少的维度进行美学特征的提取。本实施中的8个维度是通过对所有的特征
的表现效果分析后确定。以上述8种维度为例,对每种维度的美学特征进行示例性说明:
[0076] 基础特征可以包括:图片色调、图片饱和度、图片明度、图片色值熵、图片色偏、图片的RGB色值、对比度、色温;
[0077] 元素特征可以包括:装饰元素的数量、装饰元素面积占比、装饰元素中心点坐标、主商品元素数量、主商品元素的面积占比、主商品元素的中心点坐标、文本元素数量、文本
元素的面积占比、文本元素的中心点坐标、文本元素和商品元素面积重叠占比;
[0078] 人物特征可以包括:模特平均年龄、模特表情类型、模特颜值;
[0079] 颜色特征可以包括:各颜色的占比(灰色、蓝色、青色、黄色、绿色、紫色、白色、红色、品红、橘黄等);
[0080] 文字特征可以包括:文字行数、文字中心点坐标、文字字数、主文案、主文案字数;
[0081] 显著性特征是通过显著性模型得出的图片像素级别的显著性分数,其特征可以包括:显著性均值、显著性标准差;
[0082] 风格特征是通过风格检测模型得出的各个风格程度的分数,其特征可以包括:干净程度、可爱程度、黑暗程度、时尚程度、极简程度、现代程度、流行程度、水彩程度;
[0083] Logo特征可以包括:Logo数量、Logo面积占比、Logo坐标、Logo名称。
[0084] 上述美学特征的提取,可以通过现有的任意的图像识别或者图像检测的方式提取到。每张海报都会进行上述美学特征的提取,因此提取后可以得到每张海报图像的多种美
学特征。
[0085] S102.分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理。
[0086] 对于上述步骤得到的美学特征,如果进行后续的模型训练,则需要对美学特征进行向量化的表示。数值类型的美学特征可以直接进行向量化的表示,而对于非数值型的美
学特征,比如类别型的美学特征,需要先对其进行one‑hot处理。具体的类别特征one‑hot处
理是要将离散型变量表示为数值型的。具体的处理过程以Logo名称为例进行说明:假设
Logo有三种类别,分别是【清扬、奥妙、立顿】,对这三个类别进行one‑hot编码,得到清扬编
码为[1,0,0],奥妙编码为[0,1,0],立顿编码为[0,0,1],这样我们就可以把离散型变量表
示为数值型,与其他数值型特征变量一起参与运算了。
[0087] S103.对于每张海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并,得到每张海报图像对应的美学特征向量。
[0088] 其他的美学特征是指除类别型之外的特征,将每张海报图像的类别型特征的数值型结果与其他数值型特征的数值表示结果进行横向合并,得到每张海报图像对应的美学特
征向量。
[0089] 可选的,在实际中考虑到特征数量过多会导致冗余特征干扰模型后续的运算,可能带来额外的计算开销,也可能干扰模型的精度,因此可以适当的剔除掉无效特征。本实施
例中,判定特征无效的一种依据是看该特征的方差是否够大,如果某个特征类型的方差小
于指定阈值,就将其剔除。具体的实现为:在将与其对应的one‑hot处理后的特征与其他的
美学特征进行横向合并之前,计算每种美学特征每种特征的方差值;移除方差值小于预设
阈值的特征。其中预设阈值是提前设置的。
[0090] 对于需要移除的特征,给出具体的示例进行说明,比如Logo数量这一特征的方差较小,因为绝大多数海报的logo只有一个,那么这就是一个无效特征,可以剔除。
[0091] S104.将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,三种监督学习模型为决策树模型、随机森林模
型、支持向量机SVM模型。
[0092] 其中,点击通过率(CTR)在获取海报图像时可以一起获取到。点击通过率是互联网广告常用的术语。可以理解为网络广告(图片广告/文字广告/关键词广告/排名广告/视频
广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数
量)除以广告的展现量。在本实施例中,海报图像的点击率可以为海报图像的实际点击次数
除以海报图像的展现量。
[0093] 将前述步骤中得到每张海报图像的美学特征向量与每张海报对应的点击通过率分别通过三种方式进行训练得到三种点击通过率预测模型。具体的三种方式分别是基于决
策树模型、随机森林模型、支持向量机SVM模型三种模型分别进行训练。在训练的过程中,会
对模型进行调参,以得到RMSE表现好的模型。具体的实现如下:
[0094] 首先,将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型的初始模型;
[0095] 其次,分别对每种初始模型的模型参数进行多次调节,观察预测结果和真实值之间的均根方差,将使预测结果和真实值之间的均根方差最小的模型参数组合作为对应的三
种点击通过率预测模型的最终参数组合;
[0096] 不同的模型对应的调节参数是不同的。若监督学习模型为决策树模型,则调节树的深度、叶节点所需的最小样本数;若监督学习模型为随机森林模型,则调节树的数量、每
棵树选择的样本数量、树的最大深度;若监督学习模型为支持向量机SVM模型,则调节惩罚
系数、gamma参数。
[0097] 预测结果和真实值可以是针对每张用于模型训练的海报图像的通过模型得到的点击通过率和真实获取到的点击功通过率。在进行每种模型的预测结果和真实值之间的均
根方差计算时,可以用所有用于训练的海报图像,也可以是部分的海报图像。在实际中,也
可以将预设数据的海报图像进行分类,一部分用于模型训练,一部分用于模型的调参。
[0098] 最后,根据每种最终参数组合确定三种点击通过率模型。
[0099] 将由每种最终参数组合确定为三种点击通过率模型的最终的模型参数,得到三种点击通过率模型。
[0100] S105.根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型。
[0101] 具体的,是将点击通过率预测模型中预测结果和真实值之间的均根方差最小的预测模型确定为最终的点击通过率模型。因为,预测结果和真实值之间的均根方差越小,即模
型的RMSE表现越好,模型预测的准确率越高。
[0102] S106.将待预测海报图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果。
[0103] 待预测海报图像为需要预测点击通过率的已经设计好的海报图像,对待预测海报图像进行处理得到对应的美学特征向量。具体得到待预测海报图像对应的美学特征向量与
前述步骤中训练模型所用的每张海报图像的美学特征向量的确定方式是相同的。此处不再
赘述。
[0104] 最终的点击通过率模型的输入为待预测海报图像对应的美学特征向量,输出结果待预测海报图像的点击通过率的结果。比如结果可以为5.32%等。
[0105] 另外,还可以将待预测海报图像对应的美学特征向量的确定流程整合到最终的点击通过率模型中,即最终的点击通过率模型的输入为海报图像,输出为待预测海报图像的
点击通过率的结果。
[0106] 从以上的描述中,可以看出,本申请实施例的基于美学特征的海报CTR预测方法中,对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美
学特征;然后分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理;对于每张
海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并,得到每张
海报图像对应的美学特征向量;将所有的美学特征向量与每张海报对应的点击通过率对三
种监督学习模型进行训练,得到三种点击通过率预测模型,三种监督学习模型为决策树模
型、随机森林模型、支持向量机SVM模型;根据三种点击通过率预测模型的预测结果和真实
值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型;将待预测海报
图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过
率预测结果。从本申请实施例,可以看出,可以基于海报图像的美学特征进行海报点击通过
率的预测,与现有的基于设计师的经验进行海报质量判断相比,本申请实施例中的预测方
式对于投放后的效果的预测更可控更可靠,而且可以建立海报图像的具体的特征与实际的
点击通过率之间的关系,根据建立的关系,可以找出部分影响点击通过率表现的设计因素,
从而用可量化的客观数据去指导海报设计。
[0107] 进一步的,作为上述实施例的细化或补充,本申请实施例还包括:
[0108] 根据待预测海报图像对应的美学特征向量和最终的点击通过率模型,判断每一种特征对海报图像的点击通过的影响度;根据每种特征对应的影响度对所述预测海报图像进
行调整。不同的美学特征对于海报的质量,即海报图像的点击通过率的影响度可能是不同
的。因此,如果设计出的海报图像在经过上述最终的点击通过率模型预测后,预测的结果较
低,不太理想的情况下。需要对海报图像进行调整,这个时候需要确定哪种美学特征的决定
性作用(即影响度)较大,然后进行针对性的调整。具体的判断确定哪种美学特征的决定性
作用(即影响度)较大的实现方式可以为:每次移除待预测海报图像对应的美学特征向量中
某一种特征对应的值,每次移除移除后得到一个部分美学特征向量;将每一次得到的部分
美学特征向量输入到最终的点击通过率模型,得到一个点击通过率结果,并根据所述一个
点击通过率结果确定该次移除的特征对应的影响度。需要说明的是,每次移除一个特征后
得到的一个点击通过率结果可以理解为是除了移除的特征外其他特征得到的点击通过率。
如果该点击通过率与没有移除之前相比相差较大,则表示该次移除的特征对点击通过率的
影响度较大,然后将相差最大的那次移除的特征确定为影响度最大的特征。在实际计算中,
可能会出现相差结果最大的对应多个特征的情况,此时会将多个特征都作为影响度较大的
特征。
[0109] 得到影响度较大的特征一个或多个特征后可以对海报进行针对性的调整,调整后再次进行点击通过率的预测,可以多次进行上述预测、调整过程,直到预测的点击通过率为
理想状态时为止。
[0110] 另外,还需要说明的是,在得到每种特征的影响度后,也可以根据影响度从大到小的顺序进行特征的排序,然后选择前n个特征进行针对性的修改,而不是只对影响度最大特
征进行调整。
[0111] 进一步的,当得到理想的海报图像后,投放到线上后,还需要监测收集用户实际点击行为,得到实际点击通过率。然后根据实际点击通过率与应用最终的点击通过率模型进
行预测的海报点击率的比较结果进行模型的动态调整。如果经过预设时段监测后,发现实
际点击通过率较低,并且与预测的结果相比相差比较大,则需要对最终的点击通过率模型
进行参数的调整。
[0112] 另外,海报图像是有时效性的,即在不同的时期不同的设计风格的受欢迎程度可能是不同的,因此对应的点击通过率也可能会发生较大的变化。因此,训练得到的最终的点
击通过率模型需要在一段时间后,需要重新增加或改变训练数据进行重新的训练,以适应
不同时期的变化。
[0113] 进一步的,本实施例结合图文,提供了一种基于美学特征的海报CTR预测方法的流程图,如图2所示:
[0114] 原始数据—特征提取—特征处理—构建模型—demo测试—发布上线。其中原始数据为预设数量的海报图像;其中特征提取对应上述步骤中的S101;其中特征处理对应前述
步骤的S102‑S103,具体的特征处理的流程,本申请中使用metaflow构建特征处理工作流;
其中构建模型对应前述步骤中的S104‑S105,本申请中使用sklearn进行建模。其中的demo
测试,是通过streamlit搭建可交互demo,给到用户进行体验。收集用户使用时的真实感受,
对算法进行调节,提升效果表现。当demo效果稳定,且符合发布标准时,将模型发布为线上
服务。
[0115] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不
同于此处的顺序执行所示出或描述的步骤。
[0116] 根据本申请实施例,还提供了一种用于实施上述图1方法的基于美学特征的海报CTR预测装置,如图3所示,该装置包括:
[0117] 提取模块21,用于对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美学特征;
[0118] 特征处理模块22,用于分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理;对于每张海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行
横向合并,得到每张海报图像对应的美学特征向量;
[0119] 模型训练模块23,用于将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型,所述三种监督学习模型为决策
树模型、随机森林模型、支持向量机SVM模型;
[0120] 模型确定模块24,用于根据三种点击通过率预测模型的预测结果和真实值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型;
[0121] 预测模块25,用于将待预测海报图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过率预测结果。
[0122] 从以上的描述中,可以看出,本申请实施例的基于美学特征的海报CTR预测装置中,对预设数量的海报图像分别进行多维度的特征提取,得到每张海报图像对应的多种美
学特征;然后分别对每张图像的多种美学特征中的类别型特征进行one‑hot处理;对于每张
海报图像,将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并,得到每张
海报图像对应的美学特征向量;将所有的美学特征向量与每张海报对应的点击通过率对三
种监督学习模型进行训练,得到三种点击通过率预测模型,三种监督学习模型为决策树模
型、随机森林模型、支持向量机SVM模型;根据三种点击通过率预测模型的预测结果和真实
值之间的均根方差,选择其中一个预测模型确定为最终的点击通过率模型;将待预测海报
图像对应的美学特征向量输入到最终的点击通过率模型,得到待预测海报图像的点击通过
率预测结果。从本申请实施例,可以看出,可以基于海报图像的美学特征进行海报点击通过
率的预测,与现有的基于设计师的经验进行海报质量判断相比,本申请实施例中的预测方
式对于投放后的效果的预测更可控更可靠,而且可以建立海报图像的具体的特征与实际的
点击通过率之间的关系,根据建立的关系,可以找出部分影响点击通过率表现的设计因素,
从而用可量化的客观数据去指导海报设计。
[0123] 进一步的,所述多种美学特征包括:
[0124] 基础特征、元素特征、人物特征、颜色特征、文字特征、显著性特征、风格特征、Logo特征,每种美学特征中至少包含一种特征。
[0125] 进一步的,所述特征处理模块22,还用于:
[0126] 在将与其对应的one‑hot处理后的特征与其他的美学特征进行横向合并之前,计算每种美学特征每种特征的方差值;移除方差值小于预设阈值的特征。
[0127] 进一步的,如图4所示,所述模型训练模块23,包括:
[0128] 训练单元231,用于将所有的美学特征向量与每张海报对应的点击通过率对三种监督学习模型进行训练,得到三种点击通过率预测模型的初始模型;
[0129] 调参单元232,用于分别对每种初始模型的模型参数进行调节,将使预测结果和真实值之间的均根方差最小的模型参数组合作为对应的三种点击通过率预测模型的最终参
数组合;
[0130] 第一确定单元233,用于根据每种最终参数组合确定三种点击通过率模型。
[0131] 进一步的,如图4所示,模型确定模块24包括:
[0132] 计算单元241,用于分别计算三种点击通过率预测模型的预测结果和真实值之间的均根方差;
[0133] 第二确定单元242,用于将均根方差最小的点击通过率模型作为最终的点击通过率模型。
[0134] 进一步的,如图4所示,所述装置还包括:
[0135] 影响度判断模块26,用于根据待预测海报图像对应的美学特征向量和最终的点击通过率模型,判断每一种特征对海报图像的点击通过的影响度;
[0136] 第一调整模块27,用于根据每种特征对应的影响度对所述预测海报图像进行调整。
[0137] 进一步的,如图4所示,所述影响度判断模块26包括:
[0138] 移除单元261,用于每次移除待预测海报图像对应的美学特征向量中某一种特征对应的值,每次移除移除后得到一个部分美学特征向量;
[0139] 影响度确定单元262,用于将每一次得到的部分美学特征向量输入到最终的点击通过率模型,得到一个点击通过率结果,并根据所述一个点击通过率结果确定该次移除的
特征对应的影响度。
[0140] 进一步的,如图4所示,所述装置还包括:
[0141] 监测模块28,用于海报投放后,监测待预测海报图像的实际点击通过率;
[0142] 第二调整模块29,用于根据实际点击通过率与应用最终的点击通过率模型进行预测的海报点击率的比较结果进行模型的动态调整。
[0143] 具体的,本申请实施例的装置中各单元、模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
[0144] 根据本申请实施例,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述方法实施例
中的基于美学特征的海报CTR预测方法。
[0145] 根据本申请实施例,还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执
行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器
执行上述方法实施例中的基于美学特征的海报CTR预测方法。
[0146] 显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成
的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储
在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们
中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的
硬件和软件结合。
[0147] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本申请的保护范围之内。