会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 广告服务器 / 推荐广告的方法及广告推荐服务器

推荐广告的方法及广告推荐服务器

申请号 CN201410268560.5 申请日 2014-06-16 公开(公告)号 CN104090919A 公开(公告)日 2014-10-08
申请人 华为技术有限公司; 发明人 涂丹丹; 张勇;
摘要 本发明实施例提供推荐广告的方法及广告推荐服务器。该方法包括:获取网页访问信息和广告点击信息,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告;根据网页访问信息和广告点击信息,预测m个用户中第i用户访问第j网页时x个广告的点击概率;确定x个广告分别对应的新颖性因子;根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告。本发明实施例能够提高广告的点击率并提升用户体验。
权利要求

1.一种推荐广告的方法,其特征在于,包括:

从用户访问互联网日志中获取网页访问信息和广告点击信息,所述网页访问信息用于指示m个用户所访问的n个网页,所述广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数;

根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数;

确定所述x个广告分别对应的新颖性因子,所述x个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度;

根据所述x个广告的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,其中,所述第i用户对所述p个广告的知晓程度低于所述第i用户对所述x个广告中除所述p个广告之外的广告的知晓程度,所述p个广告的点击概率高于所述x个广告中除所述p个广告之外的广告的点击概率,p为正整数且p≤x。

2.根据权利要求1所述的方法,其特征在于,所述确定所述x个广告分别对应的新颖性因子,包括:根据历史推荐信息,确定所述x个广告分别对应的新颖性因子,所述历史推荐信息用于指示向所述第i用户分别推荐所述x个广告的历史记录。

3.根据权利要求2所述的方法,其特征在于,所述根据历史推荐信息,确定所述x个广告分别对应的新颖性因子,包括:对于所述x个广告中的第k广告,

如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第一值;

如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第二值;

其中,所述第一值大于所述第二值,k为取值从1至x的正整数。

4.根据权利要求3所述的方法,其特征在于,所述确定所述第k广告对应的新颖性因子为第二值,包括:确定q天前向所述第i用户推荐过所述第k广告,q为正整数;

确定所述q天对应的艾宾浩斯遗忘曲线值;

确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。

5.根据权利要求1所述的方法,其特征在于,所述确定所述x个广告分别对应的新颖性因子,包括:对于所述x个广告中的第k广告,

确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度;

根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度,确定在所述x个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名;

对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权,以得到所述第k广告对应的新颖性因子;

其中,k为取值从1至x的正整数。

6.根据权利要求1所述的方法,其特征在于,所述确定所述x个广告分别对应的新颖性因子,包括:对于所述x个广告中的第k广告,

确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离;

根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离,确定所述第k广告对应的新颖性因子;

其中,k为取值从1至x的正整数。

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述x个广告分别对应的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,包括:对所述x个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权,确定所述x个广告分别对应的评分;

按照所述x个广告对应的评分从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;

将所述排序后的x个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。

8.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述x个广告分别对应的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,包括:按照点击概率从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;

按照新颖性因子从大到小的顺序,对所述排序后的x个广告中的前q个广告重新进行排序,得到重新排序后的q个广告;其中q为正整数且q大于p;

将所述重新排序后的q个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。

9.根据权利要求1至8中任一项所述的方法,其特征在于,所述根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述x个广告的点击概率,包括:根据所述网页访问信息和所述广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的第i行第j列对象表示所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录,所述广告-网页关联度矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至x的正整数;

对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量;

根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量,确定所述第i用户访问所述第j网页时所述第k广告的点击概率。

10.一种广告推荐服务器,其特征在于,包括:

获取单元,用于从用户访问互联网日志中获取网页访问信息和广告点击信息,所述网页访问信息用于指示m个用户所访问的n个网页,所述广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数;

预测单元,用于根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数;

确定单元,用于确定所述x个广告分别对应的新颖性因子,所述x个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度;

选择单元,用于根据所述x个广告的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,其中,所述第i用户对所述p个广告的知晓程度低于所述第i用户对所述x个广告中除所述p个广告之外的广告的知晓程度,所述p个广告的点击概率高于所述x个广告中除所述p个广告之外的广告的点击概率,p为正整数且p≤x。

11.根据权利要求10所述的广告推荐服务器,其特征在于,所述确定单元,具体用于:根据历史推荐信息,确定所述x个广告分别对应的新颖性因子,所述历史推荐信息用于指示向所述第i用户分别推荐所述x个广告的历史记录。

12.根据权利要求11所述的广告推荐服务器,其特征在于,在根据历史推荐信息,确定所述x个广告分别对应的新颖性因子的方面,所述确定单元,具体用于:对于所述x个广告中的第k广告,

如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第一值;

如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第二值;

其中,所述第一值大于所述第二值,k为取值从1至x的正整数。

13.根据权利要求12所述的广告推荐服务器,其特征在于,在确定所述第k广告对应的新颖性因子为第二值的方面,所述确定单元,具体用于:确定q天前向所述第i用户推荐过所述第k广告,q为正整数;

确定所述q天对应的艾宾浩斯遗忘曲线值;

确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。

14.根据权利要求10所述的广告推荐服务器,其特征在于,在确定所述x个广告分别对应的新颖性因子的方面,所述确定单元,具体用于:对于所述x个广告中的第k广告,

确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度;

根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度,确定在所述x个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名;

对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权,以得到所述第k广告对应的新颖性因子;

其中,k为取值从1至x的正整数。

15.根据权利要求10所述的广告推荐服务器,其特征在于,在确定所述x个广告分别对应的新颖性因子的方面,所述确定单元,具体用于:对于所述x个广告中的第k广告,

确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离;

根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离,确定所述第k广告对应的新颖性因子;

其中,k为取值从1至x的正整数。

16.根据权利要求10至15中任一项所述的广告推荐服务器,其特征在于,所述选择单元,具体用于:对所述x个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权,确定所述x个广告分别对应的评分;

按照所述x个广告对应的评分从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;

将所述排序后的x个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。

17.根据权利要求10至15中任一项所述的广告推荐服务器,其特征在于,所述选择单元,具体用于:按照点击概率从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;

按照新颖性因子从大到小的顺序,对所述排序后的x个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大于p;

将所述重新排序后的q个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。

18.根据权利要求10至17中任一项所述的广告推荐服务器,其特征在于,所述预测单元,具体用于:根据所述网页访问信息和所述广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的第i行第j列对象表示所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录,所述广告-网页关联度矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至x的正整数;

对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量;

根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量,确定所述第i用户访问所述第j网页时所述第k广告的点击概率。

说明书全文

推荐广告的方法及广告推荐服务器

技术领域

[0001] 本发明涉及信息处理领域,并且具体地,涉及推荐广告的方法及广告推荐服务器。

背景技术

[0002] 互联网在线广告已成为除电视和报纸之外的主要广告投放方式。在线广告的收益与广告的点击率密切相关,增加广告点击率是提高广告收益的有效途径之一。为了提高广告点击率,推荐广告之前需要预测用户点击广告的概率(以下称为广告的点击概率)。
[0003] 目前,主要通过两种算法预测广告的点击概率来向用户推荐广告。一种是基于内容过滤(Content-based Filtering,CBF)的推荐算法,另一种是基于用户或项目的协同过滤(Collaborative Filtering,CF)的推荐算法。
[0004] 具体而言,对于基于CBF的算法,主要是利用信息检索或信息过滤技术,根据广告和网页内容的相关性向目标用户推荐广告。即,与网页内容相关性越高的广告,认为其点击概率越高。因此,在相同的网页上往往会向用户推荐相同的广告。然而,这种算法未考虑用户的兴趣,导致广告的点击概率预测的准确性并不高,因此难以保证广告的点击率。
[0005] 对于基于用户的CF算法,主要根据用户的历史广告点击信息计算用户之间的相似性,然后根据与目标用户相似性较高的用户对广告的点击情况,预测目标用户对广告的喜好程度,然后根据喜好程度对目标用户进行推荐。对于基于项目的CF算法,主要通过计算广告之间的相似性,选择目标广告的最接近的广告集合,根据当前用户对最接近的广告的喜好程度来决定是否推荐目标广告。这两种CF算法均是利用用户的喜好程度预测广告的点击概率。可见,相比基于CBF的算法而言,虽然CF算法在一定程度上提高了广告的点击概率预测的准确性,能够提高广告的点击率,但是由于用户经常访问内容相似的网页,采用CF算法推荐给用户的广告往往和此用户熟悉的广告很相似,无法发现用户并不熟悉但潜在感兴趣的广告,导致广告的点击率不高,用户体验差。

发明内容

[0006] 本发明实施例提供推荐广告的方法及广告推荐服务器,能够提高广告的点击率,进而提升用户体验。
[0007] 第一方面,提供了一种推荐广告的方法,包括:从用户访问互联网日志中获取网页访问信息和广告点击信息,所述网页访问信息用于指示m个用户所访问的n个网页,所述广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数;根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数;确定所述x个广告分别对应的新颖性因子,所述x个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度;根据所述x个广告的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,其中,所述第i用户对所述p个广告的知晓程度低于所述第i用户对所述x个广告中除所述p个广告之外的广告的知晓程度,所述p个广告的点击概率高于所述x个广告中除所述p个广告之外的广告的点击概率,p为正整数且p≤x。
[0008] 结合第一方面,在第一种可能的实现方式中,所述确定所述x个广告分别对应的新颖性因子,包括:根据历史推荐信息,确定所述x个广告分别对应的新颖性因子,所述历史推荐信息用于指示向所述第i用户分别推荐所述x个广告的历史记录。
[0009] 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据历史推荐信息,确定所述x个广告分别对应的新颖性因子,包括:对于所述x个广告中的第k广告,如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第一值;如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第二值;其中,所述第一值大于所述第二值,k为取值从1至x的正整数。
[0010] 结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定所述第k广告对应的新颖性因子为第二值,包括:确定q天前向所述第i用户推荐过所述第k广告,q为正整数;确定所述q天对应的艾宾浩斯遗忘曲线值;确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。
[0011] 结合第一方面,在第四种可能的实现方式中,所述确定所述x个广告分别对应的新颖性因子,包括:对于所述x个广告中的第k广告,确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度;根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度,确定在所述x个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名;对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权,以得到所述第k广告对应的新颖性因子;其中,k为取值从1至x的正整数。
[0012] 结合第一方面,在第五种可能的实现方式中,所述确定所述x个广告分别对应的新颖性因子,包括:对于所述x个广告中的第k广告,确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离;根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离,确定所述第k广告对应的新颖性因子;其中,k为取值从1至x的正整数。
[0013] 结合第一方面或上述任一实现方式,在第六种可能的实现方式中,所述根据所述x个广告分别对应的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,包括:对所述x个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权,确定所述x个广告分别对应的评分;按照所述x个广告对应的评分从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;将所述排序后的x个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。
[0014] 结合第一方面或第一种可能的实现方式至第五种可能的实现方式中任一方式,在第七种可能的实现方式中,所述根据所述x个广告分别对应的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,包括:按照点击概率从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;按照新颖性因子从大到小的顺序,对所述排序后的x个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大于p;将所述重新排序后的q个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。
[0015] 结合第一方面或上述任一实现方式,在第八种可能的实现方式中,所述根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述x个广告的点击概率,包括:根据所述网页访问信息和所述广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的第i行第j列对象表示所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录,所述广告-网页关联度矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至x的正整数;对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量;根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量,确定所述第i用户访问所述第j网页时所述第k广告的点击概率。
[0016] 第二方面,提供了一种广告推荐服务器,包括:获取单元,用于从用户访问互联网日志中获取网页访问信息和广告点击信息,所述网页访问信息用于指示m个用户所访问的n个网页,所述广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数;预测单元,用于根据所述网页访问信息和所述广告点击信息,预测所述m个用户中第i用户访问第j网页时所述x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数;确定单元,用于确定所述x个广告分别对应的新颖性因子,所述x个广告中每个广告对应的新颖性因子用于表示所述第i用户对所述每个广告的知晓程度;选择单元,用于根据所述x个广告的点击概率和所述x个广告分别对应的新颖性因子,在所述x个广告中确定待向所述第i用户推荐的p个广告,其中,所述第i用户对所述p个广告的知晓程度低于所述第i用户对所述x个广告中除所述p个广告之外的广告的知晓程度,所述p个广告的点击概率高于所述x个广告中除所述p个广告之外的广告的点击概率,p为正整数且p≤x。
[0017] 结合第二方面,在第一种可能的实现方式中,所述确定单元,具体用于:根据历史推荐信息,确定所述x个广告分别对应的新颖性因子,所述历史推荐信息用于指示向所述第i用户分别推荐所述x个广告的历史记录。
[0018] 结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述确定单元,具体用于:对于所述x个广告中的第k广告,如果所述历史推荐信息指示未向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第一值;如果所述历史推荐信息指示过去向所述第i用户推荐过所述第k广告,则确定所述第k广告对应的新颖性因子为第二值;其中,所述第一值大于所述第二值,k为取值从1至x的正整数。
[0019] 结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述确定单元,具体用于:确定q天前向所述第i用户推荐过所述第k广告,q为正整数;确定所述q天对应的艾宾浩斯遗忘曲线值;确定所述第k广告对应的新颖性因子为所述第一值与所述艾宾浩斯遗忘曲线值之间的差值。
[0020] 结合第二方面,在第四种可能的实现方式中,所述确定单元,具体用于:对于所述x个广告中的第k广告,确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度;根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的相似度,确定在所述x个广告中所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名;对所述第k广告对应的相似性排名和所述第k广告对应的不相似性排名进行加权,以得到所述第k广告对应的新颖性因子;其中,k为取值从1至x的正整数。
[0021] 结合第二方面,在第五种可能的实现方式中,所述确定单元,具体用于:对于所述x个广告中的第k广告,确定所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离;根据所述第k广告分别与所述x个广告中除所述第k广告之外的其它广告之间的多样性距离,确定所述第k广告对应的新颖性因子;其中,k为取值从1至x的正整数。
[0022] 结合第二方面或上述任一实现方式,在第六种可能的实现方式中,所述选择单元,具体用于:对所述x个广告中每个广告对应的点击概率和所述每个广告对应的新颖性因子进行加权,确定所述x个广告分别对应的评分;按照所述x个广告对应的评分从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;将所述排序后的x个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。
[0023] 结合第二方面或第一种可能的实现方式至第五种可能的实现方式中任一方式,在第七种可能的实现方式中,所述选择单元,具体用于:按照点击概率从大到小的顺序,对所述x个广告进行排序,得到排序后的x个广告;按照新颖性因子从大到小的顺序,对所述排序后的x个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大于p;将所述重新排序后的q个广告中的前p个广告确定为待向所述第i用户推荐的p个广告。
[0024] 结合第二方面或上述任一实现方式,在第八种可能的实现方式中,所述预测单元,具体用于:根据所述网页访问信息和所述广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,所述用户-网页访问矩阵的第i行第j列对象表示所述第i用户对所述第j网页的访问记录,所述用户-广告点击矩阵的第i行第k列对象表示所述第i用户对第k广告的点击记录,所述广告-网页关联度矩阵的第j行第k列对象表示所述第j网页与所述第k广告之间的关联度,k为取值从1至x的正整数;对所述用户-网页访问矩阵、所述用户-广告点击矩阵和所述广告-网页关联度矩阵进行联合概率矩阵分解,得到所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量;根据所述第i用户的用户隐含特征向量、所述第j网页的网页隐含特征向量和所述第k广告的广告隐含特征向量,确定所述第i用户访问所述第j网页时所述第k广告的点击概率。
[0025] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页时x个广告的点击概率,根据历史推荐信息确定x个广告分别对应的新颖性因子,并根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告,其中第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提升用户体验。

附图说明

[0026] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027] 图1是根据本发明实施例的推荐广告的方法的示意性流程图。
[0028] 图2是根据本发明实施例的推荐广告的方法的过程的示意性流程图。
[0029] 图3是根据本发明实施例的AdRec模型的示意图。
[0030] 图4是根据本发明实施例的广告推荐服务器的示意性框图。
[0031] 图5是根据本发明实施例的广告推荐服务器的示意性框图。
[0032] 图6是根据本发明实施例的广告推荐系统的示意框图。

具体实施方式

[0033] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0034] 本发明实施例可以应用于各种对象的推荐场景,例如商品、应用(Application)或歌曲等对象的推荐。因此,本发明实施例中,广告可以是这些推荐对象的载体,被推荐对象的信息可以通过广告页面来显示。
[0035] 本发明实施例的方法可以由广告推荐服务器来执行。广告推荐服务器可以存储广告主发布的广告,对广告主发布的广告进行管理,并可以向用户提供广告服务。具体地,广告推荐服务器可以统计用户对广告的点击记录以及用户对网页的点击记录等信息,可以基于这些信息向用户推荐广告。
[0036] 图1是根据本发明实施例的推荐广告的方法的示意性流程图。图1的方法可由广告推荐服务器执行。
[0037] 110,从用户访问互联网日志中获取网页访问信息和广告点击信息,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数。
[0038] 120,根据网页访问信息和广告点击信息,预测m个用户中第i用户访问第j网页时x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数。
[0039] 130,根据历史推荐信息,确定x个广告分别对应的新颖性因子,历史推荐信息用于指示向第i用户分别推荐x个广告的历史记录,x个广告中每个广告的新颖性因子用于表示第i用户对该广告的知晓程度。
[0040] 140,根据x个广告的点击概率和x个广告分别对应的新颖性因子,在x个广告中确定待向第i用户推荐的p个广告,其中,第i用户对p个广告的知晓程度低于第i用户对x个广告中除所述p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率,p为正整数且p≤x。
[0041] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页时x个广告的点击概率,根据历史推荐信息确定x个广告分别对应的新颖性因子,并根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告,其中第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提升用户体验。
[0042] 具体而言,现有的广告推荐算法中,均是利用二维信息预测广告的点击概率,例如广告和网页的相关信息或者用户和广告的相关信息。此外,基于现有的基于CBF的算法或CF算法,向用户推荐的广告往往和该用户熟悉的广告很相似。用户不熟悉但具有潜在兴趣的广告却难以被推荐给用户。
[0043] 本发明实施例中,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告,因此,根据网页访问信息和广告点击信息预测广告的点击概率,也就是利用用户、网页以及广告这三个维度的信息预测x个广告的点击概率,从而能够提高广告的点击概率预测的准确性。此外,根据用于指示向第i用户推荐x个广告的历史记录的历史推荐信息,确定x个广告分别对应的新颖性因子。这样,在根据x个广告的点击概率和x个广告分别对应的新颖性因子确定待向第i用户推荐的p个广告时,同时考虑了广告的点击概率预测的准确性和广告的新颖性两方面,因此不仅能够提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,并提升用户体验。
[0044] 应理解,本发明实施例中,第i用户可以是m个用户中任意一个用户,第j网页可以是n个网页中任意一个网页。
[0045] 可选地,作为一个实施例,上述x个广告可以是广告推荐服务器中存储的所有广告或部分广告。
[0046] 可选地,作为另一实施例,在步骤120中,可以根据网页访问信息和广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,用户-网页访问矩阵的第i行第j列对象表示第i用户对第j网页的访问记录,用户-广告点击矩阵的第i行第k列对象表示第i用户对第k广告的点击记录,广告-网页关联度矩阵的第j行第k列对象表示第j网页与第k广告之间的关联度,k为取值从1至x的正整数。然后可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行联合概率矩阵分解,得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。最后可以根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量,确定第i用户访问第j网页时第k广告的点击概率。
[0047] 通常网页的数量非常大,可以将网页按照进行分类后,再将网页访问信息和广告点击信息转化为用户-网页访问矩阵、用户-广告点击矩阵以及网页和广告同时出现时广告的点击率矩阵。例如,可以按照域名对网页进行分类。此外,可以从网页访问信息和广告点击信息中提取网页与广告的相似度信息。基于网页和广告同时出现时广告的点击率矩阵以及网页与广告的相似度信息,可以得到广告-网页关联度矩阵。
[0048] 利用联合概率矩阵分解(Unified Probabilistic Matrix Factorization,UPMF)算法,可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行分解,从而得到第i用户访问第j网页时x个广告的点击概率。
[0049] 用户-网页访问矩阵和用户-广告点击矩阵可以反映用户的的兴趣,而广告-网页关联度矩阵可以反映网页与广告之间的相关性,可见,本实施例中,同时考虑了用户的兴趣以及网页与广告之间的相关性,预测各个广告的点击概率。因此,能够提高广告的点击概率预测的准确性,从而能够保证广告的点击率。
[0050] 目前,由于网页数量和用户数量很大,用户对网页的访问数据以及用户对广告的点击数据十分稀疏。这种现象也可以称为数据稀疏。这种情况下,采用基于CBF的算法或者CF算法预测广告的点击概率的准确率会大大降低。而本发明实施例中,利用联合概率矩阵分解算法,根据用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵这三个矩阵预测广告的点击概率,虽然这三个矩阵可能均为稀疏矩阵,但由于并非仅仅基于其中某一个矩阵预测点击概率,从而在数据稀疏的情况下也能够保证广告的点击概率预测的准确性。稀疏矩阵可以指行或列的数据缺失较多的矩阵。
[0051] 具体而言,在第i用户访问第j网页时,对于x个广告中的第k广告,可以以最大化联合后验概率为目标函数,基于梯度下降法,对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行分解,得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。可以利用,根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量,预测第k广告的点击概率。
[0052] 具体地,以最大化联合后验概率为目标函数,基于梯度下降法,根据上述三个矩阵得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量,可以分别确定第一向量、第二向量和第三向量,第一向量可以表示第i用户对第j网页的感兴趣程度,第二向量可以表示第i用户对第k广告的感兴趣程度,第三向量可以表示第j网页与第k广告的关联程度。可以将第一向量、第二向量以及第三向量的线性组合映射到[0,1],从而可以得到在第i用户访问第j网页时第k广告的点击概率。
[0053] 第k广告可以是x个广告中的任一广告。对于每个广告而言,均可以按照上述过程计算在第i用户访问第j网页时其点击概率。这样可以得到在第i用户访问第j网页时x个广告的点击概率。
[0054] 目前,由于网页数量和用户数量的规模较大,因此推荐算法的复杂度是需要重点关注的因素。本实施例中,计算过程的开销主要来源于梯度下降法。算法复杂度随三个矩阵中数据量增加而线性增长。因此,本实施例适用于大规模数据的处理。
[0055] 可选地,作为另一实施例,在步骤130中,对于x个广告中的第k广告,如果历史推荐信息指示未向第i用户推荐过第k广告,则可以确定第k广告对应的新颖性因子为第一值;如果历史推荐信息指示过去向第i用户推荐过第k广告,则可以确定第k广告对应的新颖性因子为第二值。
[0056] 其中,第一值大于第二值,k为取值从1至x的正整数。
[0057] 具体而言,上述第k广告可以是x个广告中的任意一个广告。每个广告可以对应一个新颖性因子。每个广告对应的新颖性因子可以用于表示对第i用户而言该广告的新颖性。对于每个广告而言,在未向第i用户推荐过的情况下的新颖性因子大于在向第i用户已经推荐过的情况下的新颖性因子。广告对应的新颖性因子越大,则可以表明对于第i用户来说该广告的新颖性越高,换句话说,第i用户对该广告不熟悉或者未见过该广告。
[0058] 可见,本实施例中,对于每个广告而言,在未向第i用户推荐过的情况下的新颖性因子大于在向第i用户已经推荐过的情况下的新颖性因子,这样,能够提升所推荐的广告的新颖性,从而提升用户体验。
[0059] 第一值和第二值可以是预先设定的,例如,第一值可以预设为1,第二值可以预设为0.5。或者,第二值可以是根据历史推荐信息和艾宾浩斯遗忘曲线得到的。
[0060] 可选地,作为另一实施例,在步骤130中,可以确定q天前向第i用户推荐过第k广告,q为正整数,确定q天对应的艾宾浩斯遗忘曲线值,并确定第k广告对应的新颖性因子为第一值与艾宾浩斯遗忘曲线值之间的差值。
[0061] 例如,第一值可以预设为1,第二值为1-艾宾浩斯遗忘曲线值。
[0062] 对于向第i用户推荐过的广告而言,可以基于艾宾浩斯遗忘曲线来确定该广告对应的新颖性因子。这样能够提高新颖性因子的准确度,从而能够提升向用户推荐的广告的新颖性,并提升用户体验。需要说明的是,基于艾宾浩斯遗忘曲线值来确定该广告对应的新颖性因子只是本发明采用的一种较佳的实施方式,可以理解的是,将艾宾浩斯遗忘曲线值替换成与q相关的权重值,也可以实现本发明方案。
[0063] 可选地,作为另一实施例,在步骤130中,对于x个广告中的第k广告,可以确定第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度。可以根据第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度,确定在x个广告中第k广告对应的相似性排名和第k广告对应的不相似性排名。可以对第k广告对应的相似性排名和第k广告对应的不相似性排名进行加权,以得到第k广告对应的新颖性因子,其中,k为取值从1至x的正整数。
[0064] 具体而言,可以根据领域分类体系的评价指标——列表内部相似度(Intra-list Similarity)来确定各个广告对应的新颖性因子。针对x个广告,可以确定两两广告之间的相似度。例如,可以根据余弦相似性算法或皮尔森(Pearson)相似性算法,确定两两广告之间的相似度。这样,对于每个广告,可以利用其与其它广告之间的相似度,确定在x个广告中该广告对应的相似性排名RS和不相似性排名NRS。然后可以对该广告对应的相似性排名和不相似性排名进行加权,从而得到该广告对应的新颖性因子。例如,该广告的新颖性因子=W*RS+(1-W)*NRS,其中W为权重值。
[0065] 本实施例能够提高新颖性因子的准确度,从而能够提升向用户推荐的广告的新颖性,并提升用户体验。
[0066] 可选地,作为另一实施例,在步骤130中,对于x个广告中的第k广告,确定第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离;根据第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离,确定第k广告对应的新颖性因子;其中,k为取值从1至x的正整数。
[0067] 具体地,可以基于推荐多样性原理来确定x个广告分别对应的新颖性因子。对于x个广告,可以确定两两广告之间的多样性距离。例如,可以基于Jaccard多样性距离计算方式,来得到两两广告之间的多样性距离。
[0068] 因此,对于每个广告,可以计算出其与其它各个广告之间的多样性距离。根据该广告与其它各个广告之间的多样性距离,确定该广告对应的新颖性因子。例如,可以将该广告与其它各个广告之间的多样性距离进行求和,得到该广告对应的新颖性因子。本实施例能够提高新颖性因子的准确度,从而能够提升向用户推荐的广告的新颖性,并提升用户体验。
[0069] 可选地,作为另一实施例,在步骤140中,可以对x个广告中每个广告对应的点击概率和每个广告对应的新颖性因子进行加权,确定x个广告分别对应的评分。可以按照x个广告对应的评分从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。可以将排序后的x个广告中的前p个广告确定为待向第i用户推荐的p个广告。
[0070] 具体地,可以通过加权算法,对点击概率和新颖性因子进行加权,来得到各个广告对应的评分。例如,对于每个广告,可以为其点击概率和新颖性因子分配相应的权重,利用所分配的权重对该广告的点击概率和新颖性因子进行加权,从而得到该广告对应的评分。可以按照评分从大到小的顺序对x个广告进行排序,将排序后的x个广告中前p个广告作为待向第i用户推荐的广告。可见,在确定要向第i用户推荐的广告时,同时考虑了点击概率和新颖性因子两方面因素,从而能够提高广告的点击率并提升用户体验。
[0071] 可选地,作为另一实施例,在步骤140中,可以按照点击概率从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。可以按照新颖性因子从大到小的顺序,对排序后的x个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大于p。可以将重新排序后的q个广告中前p个广告确定为待向第i用户推荐的p个广告。
[0072] 例如,可以基于上述这种漏斗形的过滤加权方式得到广告推荐列表。q优选为p的2倍。可见,在确定待向第i用户推荐的广告时,同时考虑了点击概率和新颖性因子两方面因素,从而能够提高广告的点击率并提升用户体验。
[0073] 可选地,作为另一实施例,在步骤110中,可以实时地从用户访问互联网日志中获取网页访问信息和广告点击信息。广告点击信息可以包含用户对推荐的p个广告的点击信息。也就是说,用户对推荐的p个广告的点击信息会被实时地反馈回来,这样结合实时的信息能够自适应地调整广告的点击概率,从而进一步提高广告的点击概率预测的准确性。
[0074] 下面将结合具体例子详细描述本发明实施例的过程。应理解,下面的例子仅是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
[0075] 图2是根据本发明实施例的推荐广告的方法的过程的示意性流程图。
[0076] 201,从用户访问互联网的日志中获取网页访问信息和广告点击信息,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数。
[0077] 202,根据网页访问信息和广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵。
[0078] (I)用户-网页访问矩阵
[0079] B可以表示用户-网页访问矩阵。B中的元素bij(bij∈[0,1])表示用户ui对网页wj的访问记录,也可以认为是用户ui对网页wj的感兴趣程度。显然地,用户浏览网页的次数越多,可以表明用户对此网页内容越感兴趣。bij可以由公式(1)计算得到:
[0080] bij=g(f(ui,wj)) (1)
[0081] 其中,g(·)是逻辑斯蒂(Logistic Function)函数,用于归一化。f(ui,wj)表示用户ui浏览网wj的次数。
[0082] (II)用户-广告点击矩阵
[0083] C可以表示用户-广告点击矩阵。C中的元素cik表示用户ui对广告ak的感兴趣程度。显然地,用户点击广告,可以表明用户对该广告感兴趣。cik可以由公式(2)得到:
[0084] cik=g(f(ui,ak)) (2)
[0085] 其中,f(ui,ak)表示用户ui点击广告ak的次数。
[0086] (III)广告-网页关联度矩阵
[0087] R可以表示广告-网页关联度矩阵。R中的元素rjk表示网页wj与广告ak之间的关联度。同一广告在不同网页上显示时,具有不同的点击率。广告和网页的内容越相关,广告被点击的可能性越大。此处结合网页-广告同时出现时广告的点击率以及网页和广告之间的相似度,确定广告-网页关联度矩阵,这样能够提高广告-网页关联度矩阵的准确度。
[0088] rjk可以由公式(3)得到:
[0089] rjk=αdjk+(1-α)hjk (3)
[0090] 其中,djk可以表示网页wj与广告ak之间的相似度,hjk表示在网页wj上广告ak的点击率。
[0091] djk可以按照概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)方法或潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)算法得到。
[0092] hjk可以等于网页wj上广告ak被点击的次数除以广告ak在网页wj上总的投放次数。
[0093] 203,根据用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,确定用户ui的用户隐含特征向量、网页wj的网页隐含特征向量和x个广告各自的广告隐含特征向量。
[0094] 用户对网页的访问历史和对广告的点击历史均能反映用户的兴趣或偏好。而广告点击率与用户兴趣及广告与网页关联度密切相关。本实施例中,通过利用AdRec模型将用户兴趣及广告与网页关联度相结合。
[0095] 下面将以x个广告中的广告ak为例进行描述。应理解,广告ak可以是x个广告中任一广告。
[0096] 具体地,可以基于AdRec模型确定这三个隐含特征向量。图3是根据本发明实施例的AdRec模型的示意图。如图3所示,用户-网页访问矩阵与用户-广告点击矩阵共享用户隐含特征向量Ui,用户-广告点击矩阵与广告-网页关联度矩阵共享广告隐含特征向量Ak。
[0097] AdRec模型基于如下假设:
[0098] (I)假设Ui、Wj和Ak先验服从正态分布且相互独立,即
[0099]
[0100]
[0101]
[0102] (II)在给定用户ui的用户隐含特征向量Ui、网页wj的网页隐含特征向量Wj(其中,Ui和Wj的维数均为l)后,bij满足均值为g(UiTWj)、方差为 的正态分布且相互独立。用户-网页访问矩阵B的条件概率分布如下:
[0103]
[0104] 其中, 是指示函数,g(·)是逻辑斯蒂函数。
[0105] 当用户ui访问过网页wj, 否则,
[0106] g(·)的具体表现形式为g(z)=1/(1+e-z),用于将 映射到[0,1]。由于UPMF算法引入概率思想,因此矩阵中各元素的值应属于[0,1]。
[0107] (III)cik满足均值为g(UiTAk)、方差为 的正态分布且互相独立。用户-广告点击矩阵C的条件概率分布如下:
[0108]
[0109] 其中, 是指示函数,g(·)是逻辑斯蒂函数。
[0110] 当用户ui点击过广告ak时, 否则,
[0111] g(·)的具体表现形式如上所述,用于将 值映射到[0,1]。
[0112] (IV)rjk满足均值为g(WjTAk)、方差为 的正态分布且互相独立。广告-网页关联度矩阵R的条件概率分布如下:
[0113]
[0114] 其中, 是指示函数,g(·)是逻辑斯蒂函数。
[0115] 当网页wj与广告ak有关联时,即rjk大于0时, 否则,
[0116] g(·)的具体表现形式如上所述,用于将 值映射到[0,1]。
[0117] (V)根据上述等式(4)至(9),可以推导出U、W和A的后验分布函数。后验分布函数的log函数如下:
[0118]
[0119] 其中,T是常量。等式(10)可以视为无约束优化问题。等式(11)等价于等式(10)。
[0120]
[0121] 其中,
[0122] 等式(11)的局部最小值可基于梯度下降法得到。Ui、Wj和Ak的梯度下降公式如下所示:
[0123]
[0124]
[0125]
[0126] 根据上述公式(12)至(14)可以得到Ui、Wj和Ak。
[0127] (VI)时间复杂度分析
[0128] 梯度下降法的计算开销主要来自于目标函数E和对应的梯度下降公式。由于矩阵B、C和R属于稀疏矩阵,等式(10)中目标函数时间复杂度可以为O(nBl+nCl+nRl),其中nB、nC和nR分别表示矩阵B、C和R中非零元素个数。
[0129] 同理可以推导出等式(12)至(14)的时间复杂度。因此每次迭代的总时间复杂度为O(nBl+nCl+nRl),即算法时间复杂度随三个稀疏矩阵中观测数据数量增加成线性增长。因此本发明实施例可应用于大规模数据的处理。
[0130] 可以按照上述过程,得到x个广告中每个广告的广告特征向量。
[0131] 204,根据用户ui的用户隐含特征向量、网页wj的网页隐含特征向量和x个广告各自的广告隐含特征向量,预测在用户ui访问网页wj时x个广告的点击概率。
[0132] 下面仍以广告ak为例进行描述。
[0133] 在用户ui访问网页wj时,广告ak的点击概率可以使用实数 表示,可以按照等式(15)得到:
[0134]
[0135] 其中,h(·)是参数为 和 的函数。
[0136] 可以表示用户ui对网页wj的感兴趣程度, 可以表示用户ui对广告ak的感兴趣程度, 可以表示广告ak与网页wj的关联程度。
[0137] 按照等式(15),可以得到在用户ui访问网页wj时x个广告的点击概率。
[0138] 205,根据x个广告的历史推荐信息,确定x个广告分别对应的新颖性因子。
[0139] 下面仍以广告ak为例进行描述。
[0140] 广告ak对应的新颖性因子 可以根据等式(16)确定:
[0141]
[0142] 其中,q为正整数。基于q的取值,可以得到q对应的艾宾浩斯遗忘曲线值。
[0143] 这样,可以根据等式(16)得到x个广告中的每个广告对应的新颖性因子。
[0144] 206,对x个广告的点击概率和x个广告分别对应的新颖性因子进行加权,得到x个广告分别对应的评分。
[0145] 例如,可以向每个广告的点击概率和其新颖性因子分配相应的权重,利用所分配的权重对该广告的点击概率和新颖性因子进行加权,得到该广告对应的评分。其中,每个广告的点击概率的权重与自己的新颖性因子的权重之和为1。
[0146] 207,按照x个广告对应的评分从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。
[0147] 208,在用户ui访问网页wj时,向用户ui推荐排序后的x个广告中的前p个广告,p为正整数。
[0148] 具体地,可以在用户ui访问网页wj时,在网元wj上呈现p个广告的信息。
[0149] 此外,在得到x个广告的点击概率和x个广告分别对应的新颖性因子后,可以通过除步骤206和207之外的其它方式确定待向用户ui推荐的p个广告。例如,可以基于漏斗形的过滤加权方式得到待向用户ui推荐的p个广告。具体而言,可以按照点击概率从大到小的顺序对x个广告进行排序,得到排序后的x个广告。然后,可以按照新颖性因子从大到小的顺序对排序后的x个广告中前q个广告重新进行排序,得到重新排序后的q个广告。然后可以将重新排序后的q个广告中前p个广告推荐给用户ui。例如,q可以是p的2倍。
[0150] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页时x个广告的点击概率,根据历史推荐信息确定x个广告分别对应的新颖性因子,并根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告,其中第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提升用户体验。
[0151] 图4是根据本发明实施例的广告推荐服务器的示意性框图。图4的广告推荐服务器400包括获取单元410、预测单元420、确定单元430和选择单元440。
[0152] 获取单元410从用户互联网日志中获取网页访问信息和广告点击信息,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数。预测单元420根据网页访问信息和广告点击信息,预测m个用户中第i用户访问第j网页时x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数。确定单元430确定x个广告分别对应的新颖性因子,x个广告中每个广告对应的新颖性因子用于表示第i用户对该广告的知晓程度。选择单元440根据x个广告的点击概率和x个广告分别对应的新颖性因子,在x个广告中确定待向第i用户推荐的p个广告,其中,第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率,p为正整数且p≤x。
[0153] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页时x个广告的点击概率,根据历史推荐信息确定x个广告分别对应的新颖性因子,并根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告,其中第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提升用户体验。
[0154] 可选地,作为一个实施例,确定单元430可以根据历史推荐信息,确定x个广告分别对应的新颖性因子,历史推荐信息用于指示向第i用户分别推荐x个广告的历史记录。
[0155] 可选地,作为另一实施例,对于x个广告中的第k广告,如果历史推荐信息指示未向第i用户推荐过第k广告,则确定单元430可以确定第k广告对应的新颖性因子为第一值。如果历史推荐信息指示过去向第i用户推荐过第k广告,则确定单元430确定第k广告对应的新颖性因子为第二值。
[0156] 其中,第一值大于第二值,k为取值从1至x的正整数。
[0157] 可选地,作为另一实施例,确定单元430可以确定q天前向第i用户推荐过第k广告,q为正整数。确定单元430可以确定q天对应的艾宾浩斯遗忘曲线值。确定单元430可以确定第k广告对应的新颖性因子为第一值与艾宾浩斯遗忘曲线值之间的差值。
[0158] 可选地,作为另一实施例,对于x个广告中的第k广告,确定单元430可以确定第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度。确定单元430可以根据第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度,确定在x个广告中第k广告对应的相似性排名和第k广告对应的不相似性排名。确定单元430可以对第k广告对应的相似性排名和第k广告对应的不相似性排名进行加权,以得到第k广告对应的新颖性因子。其中,k为取值从1至x的正整数。
[0159] 可选地,作为另一实施例,对于x个广告中的第k广告,确定单元430可以确定第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离。确定单元430可以根据第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离,确定第k广告对应的新颖性因子。其中,k为取值从1至x的正整数。
[0160] 可选地,作为另一实施例,选择单元440可以对x个广告中每个广告对应的点击概率和每个广告对应的新颖性因子进行加权,确定x个广告分别对应的评分,并可以按照x个广告对应的评分从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。然后选择单元440可以将排序后的x个广告中的前p个广告确定为待向第i用户推荐的p个广告。
[0161] 可选地,作为另一实施例,选择单元440可以按照点击概率从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。选择单元440可以按照新颖性因子从大到小的顺序,对排序后的x个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大于p。选择单元440还可以将重新排序后的q个广告中的前p个广告确定为待向第i用户推荐的p个广告。
[0162] 可选地,作为另一实施例,预测单元420可以根据网页访问信息和广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,用户-网页访问矩阵的第i行第j列对象表示第i用户对第j网页的访问记录,用户-广告点击矩阵的第i行第k列对象表示第i用户对第k广告的点击记录,广告-网页关联度矩阵的第j行第k列对象表示第j网页与第k广告之间的关联度,k为取值从1至x的正整数。预测单元420可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行联合概率矩阵分解,得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。然后预测单元420可以根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量,确定第i用户访问第j网页时第k广告的点击概率。
[0163] 图4的广告推荐服务器400的其它功能和操作可以参照上述图1至图3的方法实施例的过程,为了避免重复,此处不再赘述。
[0164] 图5是根据本发明实施例的广告推荐服务器的示意性框图。图5的广告推荐服务器500可以包括存储器510和处理器520。
[0165] 存储器510可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等。处理器520可以是中央处理器(Central Processing Unit,CPU)。
[0166] 存储器510用于存储可执行指令。处理器520可以执行存储器510中存储的可执行指令,用于:从用户访问互联网日志中获取网页访问信息和广告点击信息,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数;根据网页访问信息和广告点击信息,预测m个用户中第i用户访问第j网页时x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数;确定x个广告分别对应的新颖性因子,x个广告中每个广告对应的新颖性因子用于表示第i用户对该广告的知晓程度;根据x个广告的点击概率和x个广告分别对应的新颖性因子,在x个广告中确定待向第i用户推荐的p个广告,其中,第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率,p为正整数且p≤x。
[0167] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页时x个广告的点击概率,根据历史推荐信息确定x个广告分别对应的新颖性因子,并根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告,其中第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提升用户体验。
[0168] 可选地,作为一个实施例,处理器520可以根据历史推荐信息,确定x个广告分别对应的新颖性因子,历史推荐信息用于指示向第i用户分别推荐x个广告的历史记录。
[0169] 可选地,作为另一实施例,对于x个广告中的第k广告,如果历史推荐信息指示未向第i用户推荐过第k广告,则处理器520可以确定第k广告对应的新颖性因子为第一值。如果历史推荐信息指示过去向第i用户推荐过第k广告,则处理器520确定第k广告对应的新颖性因子为第二值。
[0170] 其中,第一值大于第二值,k为取值从1至x的正整数。
[0171] 可选地,作为另一实施例,处理器520可以确定q天前向第i用户推荐过第k广告,q为正整数。处理器520可以确定q天对应的艾宾浩斯遗忘曲线值。处理器520可以确定第k广告对应的新颖性因子为第一值与艾宾浩斯遗忘曲线值之间的差值。
[0172] 可选地,作为另一实施例,对于x个广告中的第k广告,处理器520可以确定第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度。处理器520可以根据第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度,确定在x个广告中第k广告对应的相似性排名和第k广告对应的不相似性排名。处理器520可以对第k广告对应的相似性排名和第k广告对应的不相似性排名进行加权,以得到第k广告对应的新颖性因子。其中,k为取值从1至x的正整数。
[0173] 可选地,作为另一实施例,对于x个广告中的第k广告,处理器520可以确定第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离。处理器520可以根据第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离,确定第k广告对应的新颖性因子。其中,k为取值从1至x的正整数。
[0174] 可选地,作为另一实施例,处理器520可以对x个广告中每个广告对应的点击概率和每个广告对应的新颖性因子进行加权,确定x个广告分别对应的评分,并可以按照x个广告对应的评分从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。然后处理器520可以将排序后的x个广告中的前p个广告确定为待向第i用户推荐的p个广告。
[0175] 可选地,作为另一实施例,处理器520可以按照点击概率从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。处理器520可以根据新颖性因子从大到小的顺序,对排序后的x个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大于p。处理器520可以将重新排序后的q个广告中的前p个广告确定为待向第i用户推荐的p个广告。
[0176] 可选地,作为另一实施例,处理器520可以根据网页访问信息和广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,用户-网页访问矩阵的第i行第j列对象表示第i用户对第j网页的访问记录,用户-广告点击矩阵的第i行第k列对象表示第i用户对第k广告的点击记录,广告-网页关联度矩阵的第j行第k列对象表示第j网页与第k广告之间的关联度,k为取值从1至x的正整数。处理器520可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行联合概率矩阵分解,得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。然后处理器520可以根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量,确定第i用户访问第j网页时第k广告的点击概率。
[0177] 图5的广告推荐服务器500的其它功能和操作可以参照上述图1至图3的方法实施例的过程,为了避免重复,此处不再赘述。
[0178] 图6是根据本发明实施例的广告推荐系统的示意框图。图6的广告推荐系统600包括广告推荐服务器610和用户设备(User Equipment,UE)620。
[0179] UE)620可以是能够访问互联网的各种形态的终端,例如台式电脑、平板电脑或手机等。
[0180] 广告推荐服务器610可以向UE620推荐广告。
[0181] 具体地,广告推荐服务器610可以包括存储器610a和处理器610b。
[0182] 存储器610a用于存储可执行指令。处理器610b可以执行存储器610a中存储的可执行指令,用于:从用户访问互联网日志中获取网页访问信息和广告点击信息,网页访问信息用于指示m个用户所访问的n个网页,广告点击信息用于指示m个用户在n个网页上点击的x个广告,n、m和x均为大于1的正整数;根据网页访问信息和广告点击信息,预测m个用户中第i用户访问第j网页时x个广告的点击概率,其中i为取值从1至m的正整数,j为取值从1至n的正整数;确定x个广告分别对应的新颖性因子,x个广告中每个广告对应的新颖性因子用于表示第i用户对该广告的知晓程度;根据x个广告的点击概率和x个广告分别对应的新颖性因子,在x个广告中确定待向第i用户推荐的p个广告,其中,第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率,p为正整数且p≤x。
[0183] 可选地,作为一个实施例,处理器610b可以根据历史推荐信息,确定x个广告分别对应的新颖性因子,历史推荐信息用于指示向第i用户分别推荐x个广告的历史记录。
[0184] 可选地,作为一个实施例,对于x个广告中的第k广告,如果历史推荐信息指示未向第i用户推荐过第k广告,则处理器610b可以确定第k广告对应的新颖性因子为第一值。如果历史推荐信息指示过去向第i用户推荐过第k广告,则处理器610b确定第k广告对应的新颖性因子为第二值。
[0185] 其中,第一值大于第二值,k为取值从1至x的正整数。
[0186] 可选地,作为另一实施例,处理器610b可以确定q天前向第i用户推荐过第k广告,q为正整数。处理器610b可以确定q天对应的艾宾浩斯遗忘曲线值。处理器610b可以确定第k广告对应的新颖性因子为第一值与艾宾浩斯遗忘曲线值之间的差值。
[0187] 可选地,作为另一实施例,对于x个广告中的第k广告,处理器610b可以确定第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度。处理器610b可以根据第k广告分别与x个广告中除第k广告之外的其它广告之间的相似度,确定在x个广告中第k广告对应的相似性排名和第k广告对应的不相似性排名。处理器610b可以对第k广告对应的相似性排名和第k广告对应的不相似性排名进行加权,以得到第k广告对应的新颖性因子。其中,k为取值从1至x的正整数。
[0188] 可选地,作为另一实施例,对于x个广告中的第k广告,处理器610b可以确定第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离。处理器610b可以根据第k广告分别与x个广告中除第k广告之外的其它广告之间的多样性距离,确定第k广告对应的新颖性因子。其中,k为取值从1至x的正整数。
[0189] 可选地,作为另一实施例,处理器610b可以对x个广告中每个广告对应的点击概率和每个广告对应的新颖性因子进行加权,确定x个广告分别对应的评分,并可以按照x个广告对应的评分从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。然后处理器610b可以将排序后的x个广告中的前p个广告确定为待向第i用户推荐的p个广告。
[0190] 可选地,作为另一实施例,处理器610b可以按照点击概率从大到小的顺序,对x个广告进行排序,得到排序后的x个广告。处理器610b可以根据新颖性因子从大到小的顺序,对排序后的x个广告中的前q个广告进行排序,得到重新排序后的q个广告,其中q为正整数且q大于p。处理器610b可以将重新排序后的q个广告中的前p个广告确定为待向第i用户推荐的p个广告。
[0191] 可选地,作为另一实施例,处理器610b可以根据网页访问信息和广告点击信息,生成用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵,其中,用户-网页访问矩阵的第i行第j列对象表示第i用户对第j网页的访问记录,用户-广告点击矩阵的第i行第k列对象表示第i用户对第k广告的点击记录,广告-网页关联度矩阵的第j行第k列对象表示第j网页与第k广告之间的关联度,k为取值从1至x的正整数。处理器610b可以对用户-网页访问矩阵、用户-广告点击矩阵和广告-网页关联度矩阵进行联合概率矩阵分解,得到第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量。然后处理器610b可以根据第i用户的用户隐含特征向量、第j网页的网页隐含特征向量和第k广告的广告隐含特征向量,确定第i用户访问第j网页时第k广告的点击概率。
[0192] 本发明实施例中,根据网页访问信息和广告点击信息预测第i用户访问第j网页时x个广告的点击概率,根据历史推荐信息确定x个广告分别对应的新颖性因子,并根据x个广告的点击概率和x个广告分别对应的新颖性因子在x个广告中确定待向第i用户推荐的p个广告,其中第i用户对p个广告的知晓程度低于第i用户对x个广告中除p个广告之外的广告的知晓程度,p个广告的点击概率高于x个广告中除p个广告之外的广告的点击概率。由于综合考虑了用户、网页和广告三方面的信息来预测广告的点击概率,从而能够提升广告的点击概率预测的准确性,并且由于考虑了广告的新颖性,从而能够避免长时间向用户推荐同一类型而未考虑用户潜在兴趣的广告,因此能够提高广告的点击率,进而提升用户体验。
[0193] 广告推荐服务器610的其它功能和操作可以参照上面图1至图3的方法实施例的过程,为了避免重复,此处不再赘述。
[0194] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0195] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0196] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0197] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0198] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0199] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0200] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。