会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 多媒体工具与应用 / 广告媒体 / 一种面向大规模媒体数据的在线广告推荐系统及方法

一种面向大规模媒体数据的在线广告推荐系统及方法

阅读:1088发布:2021-02-26

IPRDB可以提供一种面向大规模媒体数据的在线广告推荐系统及方法专利检索,专利查询,专利分析的服务。并且一种面向大规模媒体数据的在线广告推荐系统及方法,涉及计算广告学技术领域。本发明在线广告推荐系统中的广告调度引擎模块分别与用户端、广告管理模块、流量分析模块连接。流量分析模块分别与广告检索模块、用户行为模块、网页管理模块之间进行参数交换。用户行为挖掘模块分别与广告管理模块、用户行为模块连接,且广告管理模块还与广告检索模块连接。本发明在线广告推荐方法,完成了当用户访问网页时,根据用户信息识别用户,查询用户兴趣和理解用户行为,并根据预测的用户行为检索匹配广告,最终将在线广告推荐给用户。本发明具有良好的自学习能力,能有效提升广告推荐的智能水平,适合大数据背景下的在线广告推荐。,下面是一种面向大规模媒体数据的在线广告推荐系统及方法专利的具体信息内容。

1.一种面向大规模媒体数据的在线广告推荐系统,其特征在于:包括广告管理模块(1)、广告检索模块(2)、用户行为挖掘模块(3)、用户行为模块(4)、网页管理模块(5)、流量分析模块(6)以及广告调度引擎模块(7);所述广告调度引擎模块(7)分别与用户端、广告管理模块(1)、流量分析模块(6)连接,用于完成整个广告调度执行的环境引导;所述流量分析模块(6)分别与广告检索模块(2)、用户行为模块(4)、网页管理模块(5)之间进行参数交换,并完成广告排序;所述用户行为挖掘模块(3)分别与广告管理模块(1)、用户行为模块(4)连接,用于对用户的行为进行分析及预测;所述广告检索模块(2)与广告管理模块(1)连接,用于完成广告数据索引的构建,并对广告数据索引进行检索;所述广告管理模块(1),用于存储最新的广告投放策略集合;所述用户行为模块(4),用于完成用户行为信息的查询;所述网页管理模块(5),用于完成网页数据的管理。

2.如权利要求1所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述用户行为挖掘模块(3)包括策略更新部分和行为流检测部分;所述策略更新部分通过在线构造双Buffer动态数据区来完成最新策略的实时更新和并发使用;所述行为流检测部分用于以web服务的形式接收在线日志,并通过建立基于倒排表的索引结构来完成用户行为倾向性的预测。

3.如权利要求2所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述在线日志包含用户的最新点击行为或者搜索行为。

4.如权利要求2所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。

5.如权利要求4所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述倒排索引的每一个支持向量通过ID进行唯一标识,其中支持向量ID是一个无符号64bit的整数,高32bit用于存储支持向量所在的分类器ID,低32bit用于存储该支持向量在对应的分类器中的相对ID。

6.一种基于权利要求1所述的面向大规模媒体数据的在线广告推荐方法,其特征在于,包括如下步骤:S1:当用户访问网页时,广告调度引擎模块(7)从用户端获取用户的ip、ua、url、region信息,并将所述信息传递给流量分析模块(6)的请求端;

S2:网页管理模块(5)和用户行为模块(4)分别从流量分析模块(6)处获取所需的用户参数,并按专家知识权重归并计算,完成用户兴趣的查询和近期行为的理解;

S3:广告检索模块(2)根据广告基础分类体系,联合用户行为挖掘模块(3)在线预测的结果,对广告数据索引进行检索,得到满足投放条件的广告列表;

S4:流量分析模块(6)获取到满足投放条件的广告列表后,完成广告预测排序,并返回给广告调度引擎模块(7);

S5:广告调度引擎模块(7)将最终的广告排序返回给用户端并进行展示。

7.如权利要求6所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:步骤S3中,所述用户行为挖掘模块(3)在线预测结果的步骤为:S31:用户行为挖掘模块(3)对所接收的用户在线日志按照词典进行快速的分词;

S32:依次获取到每一个词,按照其在词典中的词典序,在所建立的索引结构中进行检索,得到包含该词的所有支持向量;

S33:按照公式 计算出最终的类别标签,其中,h(z)为类别

预测结果函数,sgn为判断函数,SV为支持向量集合,N为SV集合规模,ai为第i向量的权重系数,yi为第i向量的类别值,b为平衡分量,K(xi,z)为核函数。

8.如权利要求7所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:所述步骤S32中,所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。

9.如权利要求8所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:所述索引结构是通过以下步骤离线建立的:S321:基于一定时间内所截获的大量用户的原始浏览和搜索行为数据,按照蒙特卡洛分布比例进行样本随机抽取,得到一个SVM分类器的训练样本集,基于这种方式在每一个训练样本集中均能训练出一个SVM分类器;

S322:将训练得到的一个SVM分类器按照支持向量进行提取,按照每一个支持向量包含的词,插入到倒排索引中;

S323:判断当前分类器的支持向量是否全部插入,如果是,转入S326,如果否,转入S324;

S324:判断倒排索引中哈希表的槽位冲突比是否超过λ,如果是,转入S325,如果否,转入S322;

S325:自动调整哈希表来完成倒排索引的重构,之后转入S322;

S326:将该分类器的信息插入到分类器级别的信息列表中;

S327:判断所有分类器是否全部插入,如果是,结束,如果否,转入S322。

10.如权利要求9所述的面向大规模媒体数据的在线广告推荐方法,其特征在于:所述索引结构建立以后,根据分类器的ID,获取到分类器中包含的第一个支持向量地址p;当指针p为非空时,沿着指针p依次进行删除操作,当支持向量列表为空,删除该key对应的支持向量链,当支持向量列表为非空,将该支持向量从双向链表中摘除;当指针p为空时,删除相应的分类器信息。

说明书全文

一种面向大规模媒体数据的在线广告推荐系统及方法

技术领域

[0001] 本发明涉及计算广告学技术领域,具体来讲是一种面向大规模媒体数据的在线广告推荐系统及方法。

背景技术

[0002] 利用网站上的广告横幅、文本链接、多媒体等在互联网刊登或发布广告,并通过网络传递到互联网用户的广告运作方式,与传统的四大传播媒体(报纸、杂志、电视、广播)广告相比,互联网广告具有得天独厚的优势,是实施现代营销媒体战略的重要手段。
[0003] 目前,互联网广告的代表性广告形式为电子商务个性化推荐广告。该广告形式主要通过将用户的浏览历史构建精准匹配表来预测用户可能的点击倾向性。这种广告投放方法是基于文本精确匹配技术的扫描策略,尽管该方法处理速度快,但是其存在模糊识别能力不强、学习能力不足的缺点。近年来,随着媒体数据规模的爆炸式增长以及用户规模的急剧攀升,该缺点引发的问题越来越突出。例如,将随机抽取一天中100万电信运营商客户的浏览数据作为采样,发现浏览器的访问请求地址在2亿7千万条。在这种规模下,几乎无法用传统的精确匹配方式来在线推荐广告。因此,传统的精确匹配查询方式不适合大数据背景下的在线广告推荐。

发明内容

[0004] 针对现有技术中存在的缺陷,本发明的目的在于提供一种面向大规模媒体数据的在线广告推荐系统及方法,具有良好的自学习能力,能在不降低广告预测准确度的前提下,有效提升广告推荐的智能水平,适合大数据背景下的在线广告推荐。
[0005] 为达到以上目的,本发明提供一种面向大规模媒体数据的在线广告推荐系统,包括广告管理模块、广告检索模块、用户行为挖掘模块、用户行为模块、网页管理模块、流量分析模块以及广告调度引擎模块。所述广告调度引擎模块分别与用户端、广告管理模块、流量分析模块连接,用于完成整个广告调度执行的环境引导。所述流量分析模块分别与广告检索模块、用户行为模块、网页管理模块之间进行参数交换,并完成广告排序。所述用户行为挖掘模块分别与广告管理模块、用户行为模块连接,用于对用户的行为进行分析及预测。所述广告检索模块与广告管理模块连接,用于完成广告数据索引的构建,并对广告数据索引进行检索。所述广告管理模块,用于存储最新的广告投放策略集合。所述用户行为模块,用于完成用户行为信息的查询。所述网页管理模块,用于完成网页数据的管理。
[0006] 在上述技术方案的基础上,所述用户行为挖掘模块包括策略更新部分和行为流检测部分。所述策略更新部分通过在线构造双Buffer动态数据区来完成最新策略的实时更新和并发使用。所述行为流检测部分用于以web服务的形式接收在线日志,并通过建立基于倒排表的索引结构来完成用户行为倾向性的预测。
[0007] 在上述技术方案的基础上,所述在线日志包含用户的最新点击行为或者搜索行为。
[0008] 在上述技术方案的基础上,所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。
[0009] 在上述技术方案的基础上,所述倒排索引的每一个支持向量通过ID进行唯一标识,其中支持向量ID是一个无符号64bit的整数,高32bit用于存储支持向量所在的分类器ID,低32bit用于存储该支持向量在对应的分类器中的相对ID。
[0010] 本发明还提供一种面向大规模媒体数据的在线广告推荐方法,具有如下步骤:
[0011] S1:当用户访问网页时,广告调度引擎模块从用户端获取用户ip、ua、url、region信息,并将所述信息传递给流量分析模块的请求端。
[0012] S2:网页管理模块和用户行为模块分别从流量分析模块处获取所需的用户参数,并按专家知识权重归并计算,完成用户兴趣的查询和近期行为的理解。
[0013] S3:广告检索模块根据广告基础分类体系,联合用户行为挖掘模块在线预测的结果,对广告数据索引进行检索,得到满足投放条件的广告列表。
[0014] S4:流量分析模块获取到满足投放条件的广告列表后,完成广告预测排序,并返回给广告调度引擎模块。
[0015] S5:广告调度引擎模块将最终的广告排序返回给用户端并进行展示。
[0016] 在上述技术方案的基础上,步骤S3中,所述用户行为挖掘模块在线预测结果的步骤为:
[0017] S31:用户行为挖掘模块对所接收的用户在线日志按照词典进行快速的分词。
[0018] S32:依次获取到每一个词,按照其在词典中的词典序,在所建立的索引结构中进行检索,得到包含该词的所有支持向量。
[0019] S33:按照公式 计算出最终的类别标签,其中,h(z)为类别预测结果函数,sgn为判断函数,SV为支持向量集合,N为SV集合规模,ai为第i向量的权重系数,yi为第i向量的类别值,b为平衡分量,K(xi,z)为核函数。
[0020] 在上述技术方案的基础上,所述步骤S32中,所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。
[0021] 在上述技术方案的基础上,所述索引结构是通过以下步骤离线建立的:
[0022] S321:基于一定时间内所截获的大量用户的原始浏览和搜索行为数据,按照蒙特卡洛分布比例进行样本随机抽取,得到一个SVM分类器的训练样本集,基于这种方式在每一个训练样本集中均能训练出一个SVM分类器。
[0023] S322:将训练得到的一个SVM分类器按照支持向量进行提取,按照每一个支持向量包含的词,插入到倒排索引中。
[0024] S323:判断当前分类器的支持向量是否全部插入,如果是,转入S326;如果否,转入S324。
[0025] S324:判断倒排索引中哈希表的槽位冲突比是否超过λ,如果是,转入S325;如果否,转入S322。
[0026] S325:自动调整哈希表来完成倒排索引的重构,之后转入S322。
[0027] S326:将该分类器的信息插入到分类器级别的信息列表中。
[0028] S327:判断所有分类器是否全部插入,如果是,结束;如果否,转入S322。
[0029] 在上述技术方案的基础上,所述索引结构建立以后,根据分类器的ID,获取到分类器中包含的第一个支持向量地址p;当指针p为非空时,沿着指针p依次进行删除操作,当支持向量列表为空,删除该key对应的支持向量链,当支持向量列表为非空,将该支持向量从双向链表中摘除;当指针p为空时,删除相应的分类器信息。
[0030] 本发明的有益效果在于:
[0031] 1、本发明将基于大规模媒体数据的广告精准投放问题映射为大规模在线数据的点击行为预测问题,即数据分类问题。利用准确度较高的集成模型来对用户在线媒体浏览行为进行行为类别预测,提升了广告推荐系统的自学习能力和智能水平。并且,基于集成模型索引的思想,还设计了本系统集成模型专用索引结构和相应的预测算法,使得本发明能应用到大数据背景下的在线广告推荐中。
[0032] 2、基于所建立的索引,本方法采用了亚线性的在线预测。与传统的线性预测方法相比,由于通过倒排表将支持向量按照词进行聚集,其预测速度得到明显的提升,预测时间仅为传统方法的3%,能满足大规模数据处理的要求。
[0033] 3、本系统将实时要求不高的业务从实时业务系统中剥离,解决离线数据分析进行用户数据深度挖掘和实时在线服务需求的冲突问题,缓解了系统压力,以及在进行实时推送服务的同时,保障了数据分析的准确性。

附图说明

[0034] 图1为本发明在线广告推荐系统的示意图;
[0035] 图2为本发明中基于倒排表的索引结构的示意图;
[0036] 图3为图2中倒排索引的支持向量ID的结构示意图;
[0037] 图4为本发明在线广告推荐方法的流程图;
[0038] 图5为用户行为挖掘模块实现在线预测的流程图;
[0039] 图6为离线建立索引结构的流程图;
[0040] 图7为支持向量进行定期删除的流程图。
[0041] 附图标记:
[0042] 广告管理模块1,广告检索模块2,用户行为挖掘模块3,用户行为模块4,网页管理模块5,流量分析模块6,广告调度引擎模块7。

具体实施方式

[0043] 以下结合附图对本发明的实施例作进一步详细说明。
[0044] 如图1所示,本发明一种面向大规模媒体数据的在线广告推荐系统,包括广告管理模块1、广告检索模块2、用户行为挖掘模块3、用户行为模块4、网页管理模块5、流量分析模块6以及与用户端连接的广告调度引擎模块7。广告调度引擎模块7分别与用户端、广告管理模块1、流量分析模块6连接。流量分析模块6分别与广告检索模块2、用户行为模块4、网页管理模块5之间进行参数交换。用户行为挖掘模块3分别与广告管理模块1、用户行为模块4连接,且广告管理模块1还与广告检索模块2连接。
[0045] 其中,广告管理模块1,用于存储最新的广告投放策略集合,并将该数据集合提供给广告检索模块2、用户行为挖掘模块3、广告调度引擎模块7使用。
[0046] 广告检索模块2,通过获取广告管理模块1的数据及流量分析模块6传送的stg(标签)及fea(特性)参数信息,完成广告数据索引的构建,并对广告数据索引进行检索,将ad_list(命中广告列表id)参数返回给流量分析模块6。
[0047] 用户行为挖掘模块3,用于实时获取广告管理模块1的数据,并对用户的行为进行分析及预测,包括策略更新和行为流检测两个部分。所述策略更新部分通过在线构造双Buffer动态数据区来完成最新策略的实时更新和并发使用。所述行为流检测部分用于以web服务的形式接收包含用户的最新点击行为或者搜索行为的在线日志,并通过建立基于倒排表的索引结构来完成用户行为倾向性的预测。
[0048] 用户行为模块4,获取了用户行为挖掘模块3提供的类别标签及流量分析模块6传送的用户ip及ua(用户浏览器的总类及版本号)参数,完成用户行为信息的查询,并将userinfo(用户信息)及policy(策略)参数返回给流量分析模块6。
[0049] 网页管理模块5,通过获取流量分析模块6传送的url参数及网页信息,完成网页数据的管理,并将urlinfo(url信息)返回给流量分析模块6。
[0050] 流量分析模块6,用于完成广告排序,并将排序后的adid(广告id),score(广告评分)及expid(过期id)返回给广告调度引擎模块7。
[0051] 广告调度引擎模块7,作为请求应用容器,用于完成整个广告调度执行的环境引导,并将最终的ad_list(命中广告列表id)及expid(过期id)返回给用户端,进行展示。
[0052] 如图2所示,用户行为挖掘模块3中,所述基于倒排表的索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。如图3所示,所述倒排索引的每一个支持向量通过ID进行唯一标识,其中支持向量ID是一个无符号64bit的整数,高32bit用于存储支持向量所在的分类器ID,低32bit用于存储该支持向量在对应的分类器中的相对ID。
[0053] 如图4所示,一种面向大规模媒体数据的在线广告推荐方法,包括如下步骤:
[0054] S1:当用户访问网页时,广告调度引擎模块7从用户端获取用户的ip、ua、url、region信息,并将所述信息传递给流量分析模块6的请求端。
[0055] S2:网页管理模块5从流量分析模块6处获取url参数,用户行为模块4从流量分析模块6处获取ip、ua参数,并将url维度的类别信息和ip,ua维度的类别维度按专家知识权重进行归并计算,完成用户兴趣的查询和近期行为的理解。
[0056] S3:广告检索模块2根据广告基础分类体系,联合用户行为挖掘模块3在线预测的结果,对广告数据索引进行检索,得到满足投放条件的广告列表。
[0057] 在该步骤中,广告检索模块2将优先考虑用户行为挖掘模块3在线精准预测的结果。如果没有精准结果,则将参考用户行为模块4的查询结果。
[0058] S4:流量分析模块6获取到满足投放条件的广告序列后,完成广告预测排序,并返回给广告调度引擎模块7。
[0059] S5:广告调度引擎模块7将最终的广告排序返回给用户端并进行展示。
[0060] 如图5所示,所述用户行为挖掘模块3在线预测的结果,通过以下步骤完成:
[0061] S31:用户行为挖掘模块3中的行为流检测部分对所接收的用户在线日志按照词典进行快速的分词。
[0062] S32:依次获取到每一个词,按照其在词典中的词典序,在所建立的索引结构中进行检索,得到包含该词的所有支持向量。
[0063] S33:联合每个支持向量所在分类器的信息,按照公式计算出最终的类别标签,其中,h(z)为类别预测结果函数,sgn为判断函数,SV为支持向量集合,N为SV集合规模,ai为第i向量的权重系数,yi为第i向量的类别值,b为平衡分量,K(xi,z)为核函数。
[0064] 如图6所示,步骤S32中,所述索引结构是通过以下步骤离线建立的:
[0065] S321:基于一定时间内所截获的大量用户的原始浏览和搜索行为数据,按照蒙特卡洛分布比例进行样本随机抽取,得到一个SVM(Support Vector Machine)分类器的训练样本集,基于这种方式在每一个训练样本集中均能训练出一个SVM分类器。
[0066] S322:将训练得到的一个SVM分类器按照支持向量进行提取,并按照每一个支持向量包含的词,插入到倒排索引中。
[0067] S323:判断当前SVM分类器的支持向量是否全部插入,如果是,转入S326;如果否,转入S324。
[0068] S324:判断倒排索引中哈希表的槽位冲突比是否超过λ,如果是,转入S325;如果否,转入S322。
[0069] S325:自动调整哈希表来完成倒排索引的重构,之后转入S322。
[0070] S326:将该分类器的信息插入到分类器级别的信息列表中。
[0071] S327:判断所有分类器是否全部插入,如果是,结束;如果否,转入S322。
[0072] 如图7所示,所述索引结构建立以后,随着数据积累,将按照天、周等时间点对分类器相应支持向量进行定期删除,具体操作如下:
[0073] S301:根据分类器的ID,获取到分类器中包含的第一个支持向量地址p。
[0074] S302:判断支持向量地址指针p是否为空,如果是,转到S307;如果否,转入S303。
[0075] S303:查找指针p所指向的支持向量列表。
[0076] S304:判断支持向量列表是否为空,如果是,转到S305;如果否,转入S306。
[0077] S305:删除key对应的支持向量链。
[0078] S306:将该支持向量从双向链表中摘除。
[0079] S307:删除相应的分类器信息。
[0080] 本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用