一种基于群体用户行为分析的个性化推荐方法转让专利

申请号 : CN201510220814.0

文献号 : CN104866540B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 谢夏何林海金海

申请人 : 华中科技大学

摘要 :

本发明公开了一种基于群体用户行为分析的个性化推荐方法,属于计算机网络应用技术领域。本发明提出了一套基于群体用户兴趣变化的个性化推荐方法,通过聚合海量个体用户对商品的时序动态兴趣度从而快速有效的获得准确度更高的推荐列表。另外再定量分析时间因素对用户兴趣度的影响权重,通过拟合大众用户从接触商品到购买的时间及不同时间段购买用户数量分布图,从而提高推荐的准确性。在充分分析用户行为数据及归纳总结出用户的兴趣后,计算出商品与用户之间的兴趣相关性。

权利要求 :

1.一种基于群体用户行为分析的个性化推荐方法,其特征在于,包括:步骤1通过数据分析及过滤原则对用户日志行为数据进行噪音过滤;

步骤2根据用户u在一段时间内的对商品j的操作行为数据,分析统计出用户u对商品j的操作行为分布,再采用朴素贝叶斯规则的条件概率方法,计算用户u对商品j的时序动态兴趣度pts(buy|user=u,item=j);

步骤3根据群体用户在整个时间段的操作行为数据分析时序特征,采用统计的方式拟合用户u对商品j的时间遗忘曲线f(t);

ts

步骤4根据用户u在不同时间段对商品j的时序动态兴趣度p (buy|user=u,item=j)以及用户u对商品j的遗忘的时间曲线f(t),聚合用户u在不同时间段对商品j的兴趣度来预测用户的当前兴趣度Auj(t),计算公式如下:其中,Auj(t)是带权时序二分网络图,每一个元素表示用户u在时间t对商品j的兴趣度;

ts表示一时间段;

步骤5采用群体性过滤方法,通过分析与用户兴趣类似的其他用户的喜好来为用户进行个性化推荐,然后再利用随机游走进行资源分配,以用户对商品的评分值作为二部图的权重的加权网络推断,预测用户u对商品j的潜在兴趣度Fuj(t);

步骤6根据所述潜在兴趣度Fuj(t),聚合群体用户的兴趣度Rj(t);

步骤7联合所述群体用户的兴趣度Rj(t)和所述潜在兴趣度Fuj(t),预测和推荐用户u在t时刻的商品偏好WRu(t),得出用户感兴趣的商品的排名结果:其中,δ表示调节参数;S为平滑参数,表示用户u虚拟交互次数;|Fuj|表示用户u交互商品集合的个数;c和d均为控制所述调节参数δ的参数。

2.如权利要求1所述的方法,其特征在于,所述步骤2包括以下子步骤:(2-1)计算每个用户u在一定时间段ts内已交互商品的操作行为分布:其中, 表示用户u对商品j在时间段ts内进行e类型行为的次数;

表示用户u对所有商品在所述时间段ts内进行e类型行为的总次数;其中,用户对商品在t时刻的时序二部图网络定义为Gt=(Ut,Ot,E),Ut={u1,u2,...,ur}、Ot={o1,o2,...,on}分别表示网络中t时刻所有的r个用户集合、n个商品节点集合;E表示网络中所有节点之间多类型关系链接集合;r×n×E维时序二部图邻接矩阵数据结构定义为B(t),其中元素Buje(t)表示用户u在t时刻对商品j的e类型操作,且u∈Ut、j∈Ot、e∈E;

(2-2)用户u在所述时间段ts内对商品j的兴趣度可以定义为用户将会购买商品j的概率pts(buy|user=u,item=j),根据朴素贝叶斯规则的条件概率原理,计算公式如下:其中,pts(user=u,item=j|e)=D(u,e,ts)[j]表示用户u以任意e行为操作商品j的概率;pts(e)表示用户u的所有行为以e行为为类型的概率;pts(user=u,item=j)表示用户u所有交互的商品中属于商品j的概率;λe表示操作类型的权重参数。

3.如权利要求1或2所述的方法,其特征在于,所述步骤3包括以下子步骤:(3-1)统计所有用户在整个时间段内从接触商品到购买商品的时间段及不同时间段内用户计数;

(3-2)采用指数曲线拟合用户对商品遗忘的时间曲线f(t),计算公式如下:f(t)=θ×(tcur-th)b

其中,tcur表示当前时间;th表示用户与商品的历史交互时间;θ表示遗忘系数;b表示控制曲线衰减的速度。

4.如权利要求1或2所述的方法,其特征在于,所述步骤5包括以下子步骤:(5-1)根据用户的当前兴趣度Auj(t),采用随机游走模型计算商品与商品之间的资源分配转移矩阵Wpq(t),计算公式如下:其中,kop、koq分别表示与商品p、q连接所有用户的边权之和;kuu表示与用户u连接的所有商品的边的权重之和;aup、auq分别表示所述当前兴趣度Auj(t)的对应元素值,μ是混合调节参数;

(5-2)根据资源分配转移矩阵W(t)计算用户u对商品j的潜在兴趣度:Fuj(t)=fu(t)[j],u∈Ut

其中, 是用户u对任意商品的兴趣度评分向量。

5.如权利要求1或2所述的方法,其特征在于,所述步骤6包括以下子步骤:(6-1)计算用户u初始差异性 其中,Ou表示用户u交互的所有商品的集合;参数λ表示保证迭代的收敛;计算商品j的初始排序值 其中,Ij表示所有购买商品j的用户集合;

(6-2)迭代计算用户的差异性和商品的排序,当两个连续不同迭代的商品排序距离小于给定阈值时,执行所述步骤7,在迭代计算第k次用户u的差异性 和商品j的排序 的公式如下:

说明书 :

一种基于群体用户行为分析的个性化推荐方法

技术领域

[0001] 本发明属于计算机网络应用技术领域,更具体地,涉及一种基于群体用户行为分析的个性化推荐方法。

背景技术

[0002] 近年来,随着电子商务的蓬勃发展,在整个社会商品零售额中,线上消费的占比越来越高。网络购物给消费者提供的巨大的购物优势主要体现在突破时空限制、购物方便、更多的商品选择、有竞争力的价格、丰富的商品信息、个性化和定制化上。同时,与线下消费相比,电商平台和广告主能更方便、更准确地记录用户的浏览路径和购买历史,从而积累海量的用户行为数据。用户在电商平台的行为有多种类型例如点击、加入购物车、购买、评价或者收藏。如何利用这些数据以提高电商运营和广告投放效率,被越来越多的电商企业和广告主所关注。而其中,用户消费行为预测就是一大研究热点。电商消费行为预测是指利用大数据和云计算技术,从海量的用户行为数据中,挖掘用户消费模式,对每一个用户精准地预测其消费需求和兴趣,从而为商品推荐系统、精准广告投放等提供依据。
[0003] 用户行为预测的推荐算法与业务场景紧密联系,推荐音乐视频和电子商务中的推荐商品的场景完全不一样。在电商推荐系统领域,只要用户够买了一个东西没有退货,那么有很大的概率可以相信用户是喜欢这个东西的。然而,对于音乐和视频,却不能通过用户听了这首歌或是看了这个视频就武断地觉得用户是喜欢这首歌和这个视频的。用户行为预测的推荐算法在电商领域预测的目的是推断用户购买某商品的概率。用户的购买行为预测与用户的行为类型也非常相关,用户在电商平台上对商品的点击、加入购物车、购买、评价或者收藏都是不同程度的反应用户对商品的偏好兴趣。用户对商品的兴趣度随着时间和环境的改变,具有非线性的遗忘特性,需要度量时间因素对兴趣度变化的影响程度。
[0004] 推荐预测是一种按不同维度排序的算法,一般分为共性化推荐和个性化推荐。共性化推荐一般是推荐流行的东西,也许是大众用户喜好的,但也许会是用户已知的东西。个性化推荐需要分析用户的个体喜好,推荐的物品都是符合用户偏好的,但是用户的偏好会随着时间和环境所改变。传统的协同过滤算法利用用户商品评分矩阵来进行推荐计算,未考虑用户访问项目的具体时间,未反应用户兴趣随时间的变化过程。当用户兴趣发生改变时,现有的推荐系统不能及时反应,导致推荐的列表偏离了用户的真实喜好。混合算法可以通过一个单参数调节推荐结果的多样性和热门程度,在这种情况下就给不同用户赋予不同参数(从算法结果的个性化到算法本身的个性化)。尽管从理论上有很多种推荐组合方法,但在某一具体问题中并不见得都有效,组合方式的选取也具有较大的挑战。

发明内容

[0005] 针对现有技术的以上缺陷或改进需求,本发明提供一种基于群体用户行为分析的个性化推荐方法,针对现有推荐算法中没有学习群体用户行为的知识而导致推荐准确度不高以及对用户兴趣度的时序特征考虑不周全存在的问题,提出了一套基于群体用户兴趣变化的个性化推荐方法,采用通过聚合海量个体用户对商品的动态兴趣从而快速有效的获得更高准确度的推荐列表。另外在定量分析时间因素对用户兴趣度的影响权重时,通过拟合大众用户从接触商品到购买的时间分布曲线提高推荐的准确性。
[0006] 本发明提供一种基于群体用户行为分析的个性化推荐方法,包括以下步骤:
[0007] 步骤1通过数据分析及过滤原则对用户日志行为数据进行噪音过滤;
[0008] 步骤2根据用户u在一段时间内的对商品j的操作行为数据,分析统计出用户u对商品j的操作行为分布,再采用朴素贝叶斯规则的条件概率方法,计算用户u对商品j的时序动ts态兴趣度p (buy|user=u,item=j);
[0009] 步骤3根据群体用户在整个时间段的操作行为数据分析时序特征,采用统计的方式拟合用户u对商品j的时间遗忘曲线f(t);
[0010] 步骤4根据用户u在不同时间段对商品j的时序动态兴趣度pts(buy|user=u,item=j)以及用户u对商品j的遗忘的时间曲线f(t),聚合用户u在不同时间段对商品j的兴趣度来预测用户的当前兴趣度Auj(t),计算公式如下:
[0011]
[0012] 其中,Auj(t)是带权时序二分网络图,每一个元素表示用户u在时间t对商品j的兴趣度;ts表示一时间段;
[0013] 步骤5采用群体性过滤方法,通过分析与用户兴趣类似的其他用户的喜好来为用户进行个性化推荐,然后再利用随机游走进行资源分配,以用户对商品的评分值作为二部图的权重的加权网络推断,预测用户u对商品j的潜在兴趣度Fuj(t);
[0014] 步骤6根据所述潜在兴趣度Fuj(t),聚合群体用户的兴趣度Rj(t);
[0015] 步骤7联合所述群体用户的兴趣度Rj(t)和所述潜在兴趣度Fuj(t),预测和推荐用户u在t时刻的商品偏好WRu(t),得出用户感兴趣的商品的排名结果:
[0016]
[0017] 其中,δ表示调节参数;S表示平滑参数表示用户u虚拟交互次数;|Fuj|表示用户u交互商品集合的个数;c和d均为控制所述调节参数δ的参数。
[0018] 总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
[0019] (1)高精确性:采用步骤2中挖掘用户行为模式,聚合海量个体用户对商品的动态兴趣从而快速有效的获得更高准确度的推荐列表,并定量分析时间因素对用户兴趣度的影响权重。从而充分获取用户对商品的时序动态兴趣度,使得推荐结果的准确度得以提高;
[0020] (2)实时性:在步骤3中统计分析了大众用户从接触商品到购买的时间分布,并拟合点击到购买的时序权重。使得排名结果充分结合用户对商品的时序特征,并根据时序权重动态的调整排名结果;
[0021] (3)冷启动:通过采用步骤7中联合基于群体兴趣度和用户个体兴趣度,从而适应新用户与新商品的推荐的冷启动。

附图说明

[0022] 图1为本发明基于群体用户行为分析的个性化推荐方法的流程图;
[0023] 图2为本发明拟合定量分析时间因素对用户兴趣度的影响权重曲线的示意图。

具体实施方式

[0024] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0025] 本发明通过聚合海量个体用户对商品的动态兴趣从而快速有效的获得更高准确度的推荐列表。另外在定量分析时间因素对用户兴趣度的影响权重时,通过拟合大众用户从接触商品到购买的时间分布曲线提高推荐的准确性。本发明通过理解用户行为数据,从中归纳用户兴趣,计算商品和用户兴趣的相关性,从而联合群体兴趣度及用户个性化兴趣应用到自适应的商品推荐。
[0026] 图1所示为本发明基于群体用户行为分析的个性化推荐方法的流程图,具体包括以下步骤:
[0027] 步骤1过滤噪音数据。通过数据分析及自定义过滤原则对用户日志行为数据进行噪音过滤,主要是对用户进行过滤。在本发明实施例中,过滤原则包括:过滤只有点击而从未有购买行为的并疑似爬虫的用户、对某商品大量的点击但是没有购买的观望用户。
[0028] 在本发明实施例中,用户对商品在t时刻的时序二部图网络定义为Gt=(Ut,Ot,E),其中,Ut={u1,u2,...,ur}、Ot={o1,o2,...,on}分别表示网络中t时刻所有的r个用户集合、n个商品节点集合;E表示网络中所有节点之间多类型关系链接集合(在本发明实施例中,关系链接类型有:点击、购买、收藏和加入购物车)。r×n×E维时序二部图邻接矩阵数据结构定义为B(t),其中元素Buje(t)表示用户u(u∈Ut)在t时刻对商品j(j∈Ot)的e类型操作,且e∈E。
[0029] 步骤2计算用户对商品时序动态兴趣度。根据用户在一段时间内的对商品的操作行为数据,分析统计出用户对商品的操作行为分布,再采用朴素贝叶斯规则的条件概率方法,计算用户对商品的时序动态兴趣度。步骤2具体包括以下子步骤:
[0030] (2-1)计算每个用户u在某一定时间段ts内已交互商品的操作行为分布:
[0031]
[0032] 其中, 表示用户u对商品j在时间段ts内进行e类型行为的次数;表示用户u对所有商品在时间段ts内进行e类型行为的总次数;e表示操
作类型,且e∈E;
[0033] (2-2)用户u在时间段ts内对商品j的时序动态兴趣度可以定义为用户u将会购买商品j的概率pts(buy|user=u,item=j),根据朴素贝叶斯规则的条件概率原理,公式具体如下:
[0034]
[0035] 其中,pts(user=u,item=j|e)=D(u,e,ts)[j]表示用户u以任意e(e∈E)行为操作商品j的概率;pts(e)表示用户u的所有行为以e行为为类型的概率;pts(user=u,item=j)表示用户u所有交互的商品中属于商品j的概率;λe表示操作类型的权重参数。在本发明实施例中,用户不同类型操作的权重参数通过多次独立样本训练选择最优参数。
[0036] 步骤3分析时序特征,拟合用户对商品的时间遗忘曲线。根据所有群体用户在整个时间段的操作行为数据分析时序特征,采用统计的方式感知度量用户对商品兴趣度随时间变化的趋势,也即用户对商品的时间遗忘曲线。步骤3具体包括以下子步骤:
[0037] (3-1)统计所有群体用户在整个时间段内从接触商品到购买商品的时间段及不同时间段内用户计数的分布图。图2所示为本发明拟合定量分析时间因素对用户兴趣度的影响权重曲线的示意图,图2中横坐标是用户对购买商品从点击到购买的时间长度,单位是天;纵坐标是相同时间间隔购买的用户数量统计。
[0038] (3-2)观察用户在整个时间段内从接触商品到购买商品的时间段及不同时间段内用户计数的分布图,符合power-law规律,因此采用指数曲线拟合用户对商品遗忘的时间曲线f(t),具体采用如下公式计算:
[0039] f(t)=θ×(tcur-th)b
[0040] 其中,tcur表示当前时间;th表示用户与商品的历史交互时间;θ表示遗忘系数,其值越大表明用户的近期行为所占比重较大;b表示控制曲线衰减的速度。在本发明实施例中通过MATLAB的cftool工具拟合,取平方根误差最小的参数θ和b。
[0041] 步骤4时序加权聚合用户当前商品兴趣度Auj(t)。根据用户u在不同时间段对商品j的时序兴趣度pts(buy|user=u,item=j)以及用户u对商品j的遗忘的时间曲线f(t),聚合用户u在不同时间段对商品j的兴趣度来预测用户的当前兴趣度Auj(t),具体采用如下公式计算:
[0042]
[0043] 其中,Auj(t)是一个带权时序二分网络图,表示的是所有用户的当前兴趣度,每一个元素表示用户u在时间t对商品j的兴趣度。
[0044] 步骤5加权网络推断预测用户潜在兴趣度Fuj(t)。基于统计学的思想,采用群体性过滤方法,通过分析与用户兴趣类似的其他用户的喜好来为用户进行个性化推荐。然后再利用随机游走进行资源分配,以用户对商品的评分值作为二部图的权重的加权网络推断,预测用户潜在兴趣度。具体包括以下子步骤:
[0045] (5-1)计算资源分配转移矩阵Wpq(t)。根据用户的当前兴趣度Auj(t),采用随机游走模型计算商品与商品之间的转移概率矩阵,具体采用如下公式计算:
[0046]
[0047] 其中,kop、koq分别表示与商品p、q连接所有用户的边权之和;kuu表示与用户u连接的所有商品的边的权重之和;aup、auq分别表示当前兴趣度Auj(t)的对应元素值,μ是混合调节参数;
[0048] (5-2)计算每个用户对未交互商品的潜在兴趣度Fuj(t)。根据资源分配转移矩阵W(t)计算单个用户u对商品j的潜在兴趣度:
[0049]
[0050] 其中,fu(t)是用户u对任意商品的兴趣度评分向量,元素fu(t)[j]表示用户u对商品j的兴趣度。则任意用户u对任意商品j的潜在兴趣度为Fuj(t)=fu(t)[j],u∈Ut。
[0051] 步骤6聚合群体用户兴趣度Rj(t)。根据所有用户对商品的潜在兴趣度Fuj(t),聚合当前群体用户感兴趣的热门商品,类似于排序问题。传统方法基于流行度出度相加未考虑用户之间的差异性。本发明使用用户对商品的评分与商品总体评分的偏差来衡量用户之间的差异性,用户差异性也同时影响对商品评分的权重。具体包括以下子步骤:
[0052] (6-1)计算用户u初始差异性 其中,Ou表示用户u交互的所有商品的集合,参数λ表示保证迭代的收敛;计算商品j的初始排序值 其中,Ij表示所有购买商品j的用户集合;
[0053] (6-2)迭代计算用户的差异性和商品的排序。用户的差异性影响用户交互商品的排序值,同样的商品的排序值也影响其用户之间的差异性。当两个连续不同迭代的商品排序距离小于给定阈值时,算法收敛结束。在迭
[0054] 代计算第k次用户u的差异性 和商品j的排序 的公式如下:
[0055]
[0056] 步骤7联合基于群体兴趣度Rj(t)和用户潜在兴趣度Fuj(t),从而预测和推荐用户u在t时刻的商品偏好WRu(t)。用户对商品的兴趣度受自身偏好和当前的热门影响,通过一个单参数调节推荐结果的多样性和热门程度,在这种情况下就给不同用户赋予不同参数。计算用户u在t时刻的商品偏好WRu(t)公式如下:
[0057]
[0058] 其中,δ表示调节参数;S表示平滑参数表示用户u虚拟交互次数;|Fuj|表示用户u交互商品集合的个数,当新用户进来时,历史交互次数较少,系统就会推荐当前群体感兴趣的热门商品,随着用户自身对商品的兴趣偏好的逐渐明确,则联合基于群体兴趣度和用户个体兴趣度的推荐。c和d均为控制δ的参数。得出所有用户感兴趣的商品的排名结果,流程结束。
[0059] 本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。