基于用户短期兴趣的新闻推荐方法、装置及介质转让专利

申请号 : CN201910379183.5

文献号 : CN110275952A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王健宗贾雪丽

申请人 : 平安科技(深圳)有限公司

摘要 :

本发明涉及数据分析,提供一种基于用户短期兴趣的新闻推荐方法,包括:采集用户对新闻的行为数据;获得新闻矩阵对应的词向量矩阵;词向量矩阵进行聚类得到每个新闻分群的新闻组;通过每个用户对每个新闻长期行为数据和短期行为数据获得每个用户长期画像和短期画像;分析每个用户长期画像与每个新闻组之间第一相似度;按照第一相似度降序对每个用户的新闻组排序,取排序靠前第一设定数量的新闻组;分析每个用户最近短期画像与第一设定数量新闻组中每个新闻的第二相似度;根据第二相似度构建用户-新闻二分图;在二分图上使用吸收随机游走方法选取被推荐新闻。本发明还提供一种电子装置及存储介质。本发明适用于离散值较多的离散变量。

权利要求 :

1.一种基于用户短期兴趣的新闻推荐方法,其特征在于,包括:

步骤S1,采集用户对新闻的行为数据,所述行为数据包括新闻矩阵;

步骤S2,根据所述新闻矩阵获得对应的词向量矩阵;

步骤S3,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组;

步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期画像和短期画像用于表征用户对新闻包含的词对应的词向量的偏好;

步骤S5,分析每个用户的长期画像与不同新闻组之间的相似度,得到多个第一相似度;

步骤S6,按照降序对所述多个第一相似度进行排序,基于排序的结果得到每个用户对应的第一设定数量的新闻组;

步骤S7,分析每个用户最新的短期画像与所述第一设定数量的新闻组中每个新闻之间的第二相似度;

步骤S8,根据所述第二相似度构建用户新闻二分图;

步骤S9,在所述用户新闻二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。

2.根据权利要求1所述的基于用户短期兴趣的新闻推荐方法,其特征在于,在步骤S3中,对所述词向量矩阵进行聚类的步骤包括:对词向量矩阵进行层次聚类,得到层次聚类树状图,所述层次聚类树状图的一个叶结点对应一个新闻;

获得层次聚类每一次聚类结果对应的邓恩指数,在邓恩指数最大值对应的层对所述层次聚类树状图进行切割,获得最佳层次聚类树状图,最佳层次聚类树状图中属于同一父节点的叶结点对应的新闻属于同一新闻组,从而获得每个新闻的新闻分组。

3.根据权利要求2所述的基于用户短期兴趣的新闻推荐方法,其特征在于,在步骤S2中,对词向量矩阵使用线性判别分析方法进行分析,获得每个新闻的多个主题的主题概率矩阵及每个主题对应的不同的词向量的词概率矩阵,通过每个新闻的主题概率矩阵、词概率矩阵、词向量矩阵组合获得每个新闻的主题值,每个新闻的主题值构成主题矩阵;

在步骤S3中,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组,从而得到每个新闻组的新闻的主题值构成的主题向量;

在步骤S4中,使用线性判别分析方法作为检测潜在主题的语言模型,得到每个用户的长期画像和短期画像;

在步骤S5中,采用向量相似度度量方法确定用户长期画像与每个新闻组的第一相似度;

在步骤S7中,采用向量相似度度量方法确定用户短期画像与所述第一设定数量的每个新闻组的第二相似度;

在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻组进行排序,取前第二设定数量的新闻组,得到每个用户的所述第二设定数量的新闻组,根据每个用户与各自的第二设定数量的新闻组中的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定,评分越高,边线的权重越大。

4.根据权利要求3所述的基于用户短期兴趣的新闻推荐方法,其特征在于,在步骤S1中,所述行为数据还包括用户矩阵和行为矩阵,所述行为矩阵为用户矩阵中的每个用户对新闻矩阵中的每个新闻的行为指标构成的矩阵;

在步骤S4中,使用线性判别分析方法作为检测潜在主题的语言模型,得到每个用户的长期画像和短期画像的方法包括:对词向量矩阵使用线性判别分析方法进行分析,获得每个新闻的多个主题的主题概率矩阵及每个主题对应的不同的词向量的词概率矩阵;

通过每个新闻的主题概率矩阵、词概率矩阵和行为矩阵根据下式获得长期画像和短期画像,其中,将用户对新闻的行为指标作为用户对新闻中每个词向量的行为指标其中,unab(c)=[unab,unab,…,unab]T,unab(c)表示第a个用户对第b个新闻中c个词向量的长期或短期的行为向量,zab为第a个用户对第b个新闻的长期或短期的主题值,za=[za1,za2,…,zab],za为第a个用户的长期画像或短期画像。

5.根据权利要求4所述的基于用户短期兴趣的新闻推荐方法,其特征在于,在步骤S4中,短期画像通过下式获得在步骤S7中,采用相似度度量方法确定用户短期画像与所述第一设定数量的每个新闻组的每个新闻的第二相似度;

在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻进行排序,取前第三设定数量的新闻,得到每个用户的所述第三设定数量的新闻,根据每个用户与各自的第三设定数量的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定。

6.根据权利要求5所述的基于用户短期兴趣的新闻推荐方法,其特征在于,在步骤S8中,将第二相似度作为二分图上边线的权重构建用户-新闻二分图,进行第二相似度的排序或不进行第二相似度的排序构建用户-新闻二分图。

7.根据权利要求1所述的基于用户短期兴趣的新闻推荐方法,其特征在于,所述通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像的步骤包括:设定时间帧,将所述时间帧作为短期,长期包括多个时间帧;

根据用户在每个时间帧内对新闻的各词向量的行为数据获得用户在每个时间帧的用户画像,从而获得每个时间帧的用户短期画像;

根据用户在每个时间帧的用户画像采用加权的方式获得用户的长期画像,其中,距离分析时刻越近的用户短期画像的权重越大。

8.根据权利要求7所述的基于用户短期兴趣的新闻推荐方法,其特征在于,所述根据用户在每个时间帧的用户画像采用加权的方式获得用户的长期画像的步骤包括:采用时间方程将多个用户短期画像加权组合为用户长期画像

其中,Pu代表长期画像, 代表第g个时间帧tg对应的短期画像,f(t)为时间方程f(t)=e-λt,其中λ为时间方程的常数参数。

9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器中存储有基于用户短期兴趣的新闻推荐程序,所述基于用户短期兴趣的新闻推荐程序被所述处理器执行时实现如下步骤:步骤S1,采集用户对新闻的行为数据,所述行为数据包括新闻矩阵;

步骤S2,根据所述新闻矩阵获得对应的词向量矩阵;

步骤S3,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组;

步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期画像和短期画像用于表征用户对新闻包含的词对应的词向量的偏好;

步骤S5,分析每个用户的长期画像与不同新闻组之间的相似度,得到多个第一相似度;

步骤S6,按照降序对所述多个第一相似度进行排序,基于排序的结果得到每个用户对应的第一设定数量的新闻组;

步骤S7,分析每个用户最新的短期画像与所述第一设定数量的新闻组中每个新闻之间的第二相似度;

步骤S8,根据所述第二相似度构建用户新闻二分图;

步骤S9,在所述用户新闻二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括有基于用户短期兴趣的新闻推荐程序,所述基于用户短期兴趣的新闻推荐程序被处理器执行时,实现如权利要求1至8中任一项权利要求所述基于用户短期兴趣的新闻推荐方法的步骤。

说明书 :

基于用户短期兴趣的新闻推荐方法、装置及介质

技术领域

[0001] 本发明涉及数据分析技术领域,更为具体地,涉及一种基于用户短期兴趣的新闻推荐方法、装置及介质。

背景技术

[0002] 在推荐新闻时参考用户的阅读历史是至关重要的。根据内容描绘出一个用户的轮廓被称为用户画像。基于内容的新闻推荐的关键问题是如何根据用户的阅读历史构建用户画像。在处理这个问题时,大多数基于内容的推荐系统将用户的阅读历史考虑为一个整体。一个用户的长期兴趣可能相对稳定,但是从短期来看,用户关注的内容会发生变化。比如一个体育运动爱好者,他的关注点可能会随着不同项目的比赛而改变。因此,采用长期阅读历史确定用户的偏好,并不能准确的为他推荐新闻,也无法更好的激发用户的阅读兴趣。

发明内容

[0003] 鉴于上述问题,本发明的目的是提供一种结合用户长期与短期的偏好来给用户推荐新闻的基于用户短期兴趣的新闻推荐方法、电子装置及存储介质。
[0004] 为了实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器和处理器,所述存储器中包括基于用户短期兴趣的新闻推荐程序,所述基于用户短期兴趣的新闻推荐程序被所述处理器执行时实现如下步骤:
[0005] 步骤S1,采集用户对新闻的行为数据,所述行为数据包括新闻矩阵;
[0006] 步骤S2,根据所述新闻矩阵获得对应的词向量矩阵;
[0007] 步骤S3,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组;
[0008] 步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期画像和短期画像用于表征用户对新闻包含的词对应的词向量的偏好;
[0009] 步骤S5,分析每个用户的长期画像与不同新闻组之间的相似度,得到多个第一相似度;
[0010] 步骤S6,按照降序对所述多个第一相似度进行排序,基于排序的结果得到每个用户对应的第一设定数量的新闻组;
[0011] 步骤S7,分析每个用户最新的短期画像与所述第一设定数量的新闻组中每个新闻之间的第二相似度;
[0012] 步骤S8,根据所述第二相似度构建用户新闻二分图;
[0013] 步骤S9,在所述用户新闻二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。
[0014] 此外,为了实现上述目的,本发明还提供一种基于用户短期兴趣的新闻推荐方法,包括:
[0015] 步骤S1,采集用户对新闻的行为数据,所述行为数据包括新闻矩阵;
[0016] 步骤S2,根据所述新闻矩阵获得对应的词向量矩阵;
[0017] 步骤S3,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组;
[0018] 步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期画像和短期画像用于表征用户对新闻包含的词对应的词向量的偏好;
[0019] 步骤S5,分析每个用户的长期画像与不同新闻组之间的相似度,得到多个第一相似度;
[0020] 步骤S6,按照降序对所述多个第一相似度进行排序,基于排序的结果得到每个用户对应的第一设定数量的新闻组;
[0021] 步骤S7,分析每个用户最新的短期画像与所述第一设定数量的新闻组中每个新闻之间的第二相似度;
[0022] 步骤S8,根据所述第二相似度构建用户新闻二分图;
[0023] 步骤S9,在所述用户新闻二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。
[0024] 优选地,在步骤S3中,对所述词向量矩阵进行聚类的步骤包括:
[0025] 对词向量矩阵进行层次聚类,得到层次聚类树状图,所述层次聚类树状图的一个叶结点对应一个新闻;
[0026] 获得层次聚类每一次聚类结果对应的邓恩指数,在邓恩指数最大值对应的层对所述层次聚类树状图进行切割,获得最佳层次聚类树状图,最佳层次聚类树状图中属于同一父节点的叶结点对应的新闻属于同一新闻组,从而获得每个新闻的新闻分组。
[0027] 优选地,在步骤S2中,对词向量矩阵使用线性判别分析方法进行分析,获得每个新闻的多个主题的主题概率矩阵及每个主题对应的不同的词向量的词概率矩阵,通过每个新闻的主题概率矩阵、词概率矩阵、词向量矩阵组合获得每个新闻的主题值,每个新闻的主题值构成主题矩阵;
[0028] 在步骤S3中,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组,从而得到每个新闻组的新闻的主题值构成的主题向量;
[0029] 在步骤S4中,使用线性判别分析方法作为检测潜在主题的语言模型,得到每个用户的长期画像和短期画像;
[0030] 在步骤S5中,采用向量相似度度量方法确定用户长期画像与每个新闻组的第一相似度;
[0031] 在步骤S7中,采用向量相似度度量方法确定用户短期画像与所述第一设定数量的每个新闻组的第二相似度;
[0032] 在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻组进行排序,取前第二设定数量的新闻组,得到每个用户的所述第二设定数量的新闻组,根据每个用户与各自的第二设定数量的新闻组中的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定,评分越高,边线的权重越大。
[0033] 优选地,在步骤S1中,所述行为数据还包括用户矩阵和行为矩阵,所述行为矩阵为用户矩阵中的每个用户对新闻矩阵中的每个新闻的行为指标构成的矩阵;
[0034] 在步骤S4中,使用线性判别分析方法作为检测潜在主题的语言模型,得到每个用户的长期画像和短期画像的方法包括:
[0035] 对词向量矩阵使用线性判别分析方法进行分析,获得每个新闻的多个主题的主题概率矩阵及每个主题对应的不同的词向量的词概率矩阵;
[0036] 通过每个新闻的主题概率矩阵、词概率矩阵和行为矩阵根据下式获得长期画像和短期画像,其中,将用户对新闻的行为指标作为用户对新闻中每个词向量的行为指标[0037]
[0038] 其中,unab(c)=[unab,unab,…,unab]T,unab(c)表示第a个用户对第b个新闻中c个词向量的长期或短期的行为向量,zab为第a个用户对第b个新闻的长期或短期的主题值,za=[za1,za2,…,zab],za为第a个用户的长期画像或短期画像。
[0039] 此外,优选地,在步骤S4中,短期画像通过下式获得
[0040]
[0041] 在步骤S7中,采用相似度度量方法确定用户短期画像与所述第一设定数量的每个新闻组的每个新闻的第二相似度;
[0042] 在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻进行排序,取前第三设定数量的新闻,得到每个用户的所述第三设定数量的新闻,根据每个用户与各自的第三设定数量的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定。
[0043] 此外,优选地,在步骤S8中,将第二相似度作为二分图上边线的权重构建用户-新闻二分图,进行第二相似度的排序或不进行第二相似度的排序构建用户-新闻二分图。
[0044] 优选地,所述通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像的步骤包括:
[0045] 设定时间帧,将所述时间帧作为短期,长期包括多个时间帧;
[0046] 根据用户在每个时间帧内对新闻的各词向量的行为数据获得用户在每个时间帧的用户画像,从而获得每个时间帧的用户短期画像;
[0047] 根据用户在每个时间帧的用户画像采用加权的方式获得用户的长期画像,其中,距离分析时刻越近的用户短期画像的权重越大。
[0048] 进一步,优选地,所述根据用户在每个时间帧的用户画像采用加权的方式获得用户的长期画像的步骤包括:
[0049] 采用时间方程将多个用户短期画像加权组合为用户长期画像
[0050]
[0051] 其中,Pu代表长期画像, 代表第g个时间帧tg对应的短期画像,f(t)为时间方程f(t)=e-λt,其中λ为时间方程的常数参数。
[0052] 此外,为了实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于用户短期兴趣的新闻推荐程序,所述基于用户短期兴趣的新闻推荐程序被处理器执行时,实现上述的基于用户短期兴趣的新闻推荐方法的步骤。
[0053] 本发明所述基于用户短期兴趣的新闻推荐方法、电子装置及存储介质建立了基于长期和短期用户画像的用户-物品二分图,将长期和短期用户无缝集成表示成用户的阅读偏好,通过吸收随机游走方法算法来在不同的主题中选择新闻,不仅可以提供相关的关于用户兴趣的新闻文章,也可以通过引入不同主题的文章来拓展用户的偏好。

附图说明

[0054] 图1是本发明基于用户短期兴趣的新闻推荐方法较佳实施例的应用环境示意图;
[0055] 图2是图1中基于用户短期兴趣的新闻推荐程序较佳实施例的模块示意图;
[0056] 图3是本发明基于用户短期兴趣的新闻推荐方法较佳实施例的流程图。

具体实施方式

[0057] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0058] 以下将结合附图对本发明的具体实施例进行详细描述。
[0059] 本发明提供一种基于用户短期兴趣的新闻推荐方法,应用于一种电子装置1。参照图1所示,为本发明基于用户短期兴趣的新闻推荐方法较佳实施例的应用环境示意图。
[0060] 在本实施例中,电子装置1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端客户端。
[0061] 存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
[0062] 在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于用户短期兴趣的新闻推荐程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
[0063] 处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于用户短期兴趣的新闻推荐程序10等。
[0064] 网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子客户端之间建立通信连接。
[0065] 通信总线14用于实现这些组件之间的连接通信。
[0066] 图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
[0067] 可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的客户端、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
[0068] 可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。
[0069] 在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
[0070] 可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
[0071] 可选地,该电子装置1还可以包括逻辑门电路,传感器、音频电路等等,在此不再赘述。
[0072] 在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统以及基于用户短期兴趣的新闻推荐程序10;处理器12执行存储器11中存储的基于用户短期兴趣的新闻推荐程序10时实现如下步骤:
[0073] 步骤S1,采集用户对新闻的行为数据,所述行为数据包括新闻矩阵;
[0074] 步骤S2,根据所述新闻矩阵获得对应的词向量矩阵;
[0075] 步骤S3,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组;
[0076] 步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期画像和短期画像用于表征用户对新闻包含的词对应的词向量的偏好;
[0077] 步骤S5,分析每个用户的长期画像与不同新闻组之间的相似度,得到多个第一相似度;
[0078] 步骤S6,按照降序对所述多个第一相似度进行排序,基于排序的结果得到每个用户对应的第一设定数量的新闻组;
[0079] 步骤S7,分析每个用户最新的短期画像与所述第一设定数量的新闻组中每个新闻之间的第二相似度;
[0080] 步骤S8,根据所述第二相似度构建用户新闻二分图;
[0081] 步骤S9,在所述用户新闻二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。
[0082] 在其他实施例中,所述基于用户短期兴趣的新闻推荐程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于用户短期兴趣的新闻推荐程序10较佳实施例的功能模块图。所述基于用户短期兴趣的新闻推荐程序10可以被分割为:
[0083] 采集模块110,采集用户对新闻的行为数据,所述行为数据包括用户矩阵、新闻矩阵和行为矩阵,所述行为矩阵为用户矩阵中的每个用户对新闻矩阵中的每个新闻的行为指标构成的矩阵;
[0084] 词向量矩阵模块120,根据所述新闻矩阵获得对应的词向量矩阵,新闻矩阵中每个新闻中的各词对应的词向量构成的词向量矩阵;
[0085] 聚类模块130,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组;
[0086] 用户画像获得模块140,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期包括多个所述短期,所述长期画像和短期画像用于表征用户对新闻包含的词对应的词向量的偏好;
[0087] 第一相似度获得模块150,分别分析每个用户的长期画像与每个新闻组之间的词向量的第一相似度;
[0088] 有偏好新闻组获得模块160,按照第一相似度降序对每个用户的每个新闻组进行排序,取前第一设定数量的新闻组,得到每个用户的所述第一设定数量的新闻组;
[0089] 第二相似度获得模块170,分别分析每个用户最接近分析时刻的短期画像与所述第一设定数量的新闻组中每个新闻之间的词向量的第二相似度;
[0090] 二分图构建模块180,根据所述第二相似度构建用户-新闻二分图;
[0091] 推荐模块190,在所述二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。
[0092] 上述电子装置获得用户长期画像的同时还对用户短期阅读偏好进行建模,根据短期阅读偏好,推荐可以引起用户阅读兴趣的文章以此来扩大用户的阅读量。
[0093] 此外,本发明还提供一种基于用户短期兴趣的新闻推荐方法。参照图3所示,为本发明基于用户短期兴趣的新闻推荐方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
[0094] 在本实施例中,基于用户短期兴趣的新闻推荐方法包括:
[0095] 步骤S1,采集用户对新闻的行为数据,所述行为数据包括用户矩阵、新闻矩阵和行为矩阵,所述行为矩阵为用户矩阵中的每个用户对新闻矩阵中的每个新闻的行为指标构成的矩阵
[0096] U=[u1,u2,…,ua]
[0097] N=[n1,n2,…,nb]
[0098]
[0099] 其中,U为用户矩阵,a为用户总数,N为新闻矩阵,b为新闻总数,UN为每个用户对每个新闻的行为指标构成的行为矩阵,UNa为第a个用户的行为向量,unab为第a个用户对第b个新闻的行为指标,行为指标包括点击次数、阅读次数、点赞次数、评价次数、阅读时长、点击频次(单位时间的点击次数)、阅读频次、点赞频次和评价频次中的一个或多个,例如,通过网络爬虫技术采集新闻网站的用户浏览历史,将用户标识符排序组成用户矩阵,将新闻网站中的新闻标识符排序组成新闻矩阵,将任一用户对任一新闻的点击次数作为所述用户对所述新闻行为指标,当用户没有浏览新闻时,所述用户对所述新闻的点击次数为0,构成行为矩阵;
[0100] 步骤S2,根据新闻矩阵获得对应的词向量矩阵,也就是说,将新闻矩阵中每个新闻中的词语转化为词向量构成对应的词向量矩阵
[0101]
[0102] 其中,W为所有新闻的词向量矩阵,c为新闻中最长词向量的个数,wbc表示第b个新闻中第c个词的词向量,当新闻词向量个数不够c个时,用零填充,Wb为第b个新闻的词向量矩阵;
[0103] 步骤S3,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组,所述新闻组表示新闻聚类的分群;
[0104] 步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期和短期是针对时间而言(例如,长期可以为一个月,短期可以为一周),所述长期包括多个所述短期,所述长期画像和短期画像表示了用户对新闻包含的词对应的词向量的偏好;
[0105] 步骤S5,分别分析每个用户的长期画像与每个新闻组之间的词向量的第一相似度;
[0106] 步骤S6,按照降序对所述多个第一相似度进行排序,基于排序的结果得到每个用户对应的第一设定数量的新闻组;
[0107] 步骤S7,分别分析每个用户最接近分析时刻的短期画像与所述第一设定数量的新闻组中每个新闻之间的词向量的第二相似度;
[0108] 步骤S8,根据所述第二相似度构建用户-新闻二分图;
[0109] 步骤S9,在所述二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。
[0110] 上述基于用户短期兴趣的新闻推荐方法在建立用户画像时强调用户兴趣演变的影响,将长期和短期用户无缝集成表示成用户的阅读偏好,建立特定新闻和用户之间的关系图,然后在这个图上执行吸收随机游走方法以选择具有不同主题的新闻文章。
[0111] 在本发明的一个实施例中,上述基于用户短期兴趣的新闻推荐方法包括:
[0112] 在步骤S4中,将每个新闻的词向量作为标签,所述长期画像和短期画像是用户对每个标签的偏好权重,
[0113]
[0114]
[0115] 其中,P为一个用户的短期画像,P'为一个用户的长期画像,Pb表示所述用户对第b个新闻的短期的权重向量,pbc为所述用户对第b个新闻中第c个词向量的短期的权重;
[0116] 在步骤S5中,采用矩阵相似度度量方法确定用户长期画像与每个新闻组的第一相似度,例如,采用矩阵的相关系数、空间矢量的余弦定理等或者新闻组中新闻的词向量组成的新闻组矩阵与对应的长期画像子矩阵(包括新闻组的新闻的词向量的偏好)的相似度,又如,利用余弦函数将新闻组矩阵和长期画像子矩阵展平,采用向量相似度的方法获得第一相似度,再如,将新闻组矩阵和长期画像子矩阵相减之后的元素去平方再求和获得第一相似度;
[0117] 在步骤S7中,采用矩阵相似度度量方法确定用户短期画像与所述第一设定数量的每个新闻组的第二相似度;
[0118] 在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻组进行排序,取前第二设定数量(小于第一设定数量)的新闻组,得到每个用户的所述第二设定数量的新闻组,根据每个用户与各自的第二设定数量的新闻组中的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定,评分越高,权重越大。
[0119] 上述基于用户短期兴趣的新闻推荐方法通过用户长期画像和短期画像对新闻组进行了筛选,使得筛选出来的新闻组不仅符合用户的长期偏好而且符合用户的短期兴趣,使得新闻推荐准确性提高
[0120] 在另一个实施例中,上述步骤S7中,采用欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德距离&杰卡德相似系数、相关系数&相关距离等向量相似性度量方法获得用户短期画像与第一设定数量的新闻组中的每个新闻的第二相似度,例如,经过用户长期画像过滤后的第一设定数量的新闻组中的一个新闻组的一个新闻ni的词向量为Wi=[w11,w12,…,w1c],对应的用户短期画像的向量Pi=[p11,p12,…,p1c]为以欧式距离为例进行获得第二相似度的说明,[0121]
[0122] 其中,d(Pi,Wi)为用户与新闻ni的第二相似度;
[0123] 在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻进行排序,取前第三设定数量的新闻,得到每个用户的所述第三设定数量的新闻,根据每个用户与各自的第三设定数量的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定,优选地,在步骤S8中,将第二相似度作为二分图上边线的权重构建用户-新闻二分图,也可以不进行第二相似度的排序直接构建用户-新闻二分图。
[0124] 上述基于用户短期兴趣的新闻推荐方法在新闻选择时共有两个阶段,首先利用长期画像来区分新闻组是否符合用户偏好,然后是通过短期画像来过滤特定新闻文章给用户,使得用户长期偏好和短期偏好无缝连接,提高了推荐的准确率。
[0125] 在本发明的第二实施例中,基于用户短期兴趣的新闻推荐方法包括:
[0126] 在步骤S2中,对词向量矩阵使用LDA(Latent Dirichlet Allocation,线性判别分析)进行分析,得到每个新闻的主题值,从而得到主题矩阵,具体地,包括:通过LDA获得新闻矩阵中的每个新闻的多个主题的主题概率矩阵及每个主题对应的不同的词向量的词概率矩阵
[0127]
[0128]
[0129] 其中,θb为第b个新闻的主题概率矩阵, 为第b个新闻对应第d个主题的概率,为第b个新闻的词概率矩阵, 表示第d个主题生成第b个新闻中第c个词向量的概率;
[0130] 通过每个新闻的主题概率矩阵、词概率矩阵、词向量矩阵组合获得每个新闻的主题值
[0131]
[0132] 其中,Tb为第b个新闻的主题值,“.”表示矩阵相乘;
[0133] 每个新闻的主题值构成主题矩阵Z=[z1,z2,…,zb]。
[0134] 步骤S3中,对所述词向量矩阵进行聚类,得到每个新闻所属的新闻组,从而得到每个新闻组的主题向量,例如,一个新闻组为[ni,nj],对应的主题向量为[zi,zj]。
[0135] 在步骤S4中,使用LDA作为检测潜在主题的语言模型,得到每个用户的长期画像和短期画像,具体地:通过每个新闻的主题概率矩阵、词概率矩阵和行为矩阵获得长期画像和短期画像,其中,将用户对新闻的行为指标作为用户对新闻中每个词向量的行为指标,[0136] unab(c)=[unab,unab,…,unab]T
[0137]
[0138] za=[za1,za2,…,zab]
[0139] 其中,unab(c)表示第a个用户对第b个新闻中c个词向量的行为向量,也就是说,unab(c)由c个unab构成,zab为第a个用户对第b个新闻的主题值,za为第a个用户的长期画像或短期画像。
[0140] 在步骤S5中,采用相似度度量方法确定用户长期画像与每个新闻组的第一相似度,优选地,采用余弦相似度的方法得到所述第一相似度
[0141]
[0142] 其中,sm,n表示第m个长期画像与第n个新闻组的相似度,(x1,x2,...,xb)为第m个长期画像的主题向量,(y1,y2,...,yb)为第n个新闻组主题向量,例如,一个新闻组X包括第一个新闻和第三个新闻,新闻组的主题向量为(z1,z3),对应的第a个用户的长期画像向量为(Za1,Za3),
[0143] 在步骤S7中,采用步骤S5的相似度度量方法确定用户短期画像与所述第一设定数量的每个新闻组的第二相似度。
[0144] 在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻组进行排序,取前第二设定数量(小于第一设定数量)的新闻组,得到每个用户的所述第二设定数量的新闻组,根据每个用户与各自的第二设定数量的新闻组中的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定。
[0145] 上述基于用户短期兴趣的新闻推荐方法通过LDA分析获得每个新闻的主题向量和用户短期画像和长期画像向量,通过相似度对新闻组进行筛选,在降低计算量的同时,保证了推荐的准确性。
[0146] 在一个可选实施例中,上述基于用户短期兴趣的新闻推荐方法中:
[0147] 在步骤S4中,长期画像通过公式(3)获得,短期画像通过下式(6)获得[0148]
[0149] 在步骤S7中,采用相似度度量方法确定用户短期画像与所述第一设定数量的每个新闻组的每个新闻的第二相似度,优选地,采用余弦相似度的方法得到所述第一相似度[0150]
[0151] 其中,sm,n表示第m个短期画像与第n个新闻的相似度,(x1,x2,...,xc)为第m个短期画像的主题向量,(y1,y2,...,yc)为第n个新闻的词向量,均为1×c的向量。
[0152] 在步骤S8中,在每个用户的第二相似度中按照降序对每个新闻进行排序,取前第三设定数量的新闻,得到每个用户的所述第三设定数量的新闻,根据每个用户与各自的第三设定数量的新闻构建用户-新闻二分图,其中,二分图上边线的权重根据用户对新闻的评分设定,优选地,在步骤S8中,将第二相似度作为二分图上边线的权重构建用户-新闻二分图,也可以不进行第二相似度的排序直接构建用户-新闻二分图。
[0153] 上述基于用户短期兴趣的新闻推荐方法通过LDA分析获得每个新闻的主题向量和用户短期画像和长期画像向量,分别对新闻组和新闻进行了筛选,降低计算量,提高推荐速度的同时提高了推荐的准确性。
[0154] 优选地,在步骤S2中,对词向量矩阵使用LDA进行分析,通过下式(5)得到每个新闻的主题向量
[0155]
[0156] 在步骤S7中,通过每个用户短期画像与每个新闻的主题向量的相似度获得每个用户短期画像与每个新闻的第二相似度。
[0157] 在上述各实施例中,在步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像的步骤还包括:
[0158] 设定时间帧,将所述时间帧作为短期,长期包括多个时间帧;
[0159] 根据用户在每个时间帧内对新闻的各词向量的行为数据获得用户在每个时间帧的用户画像,从而获得每个时间帧的用户短期画像;
[0160] 根据用户在每个时间帧的用户画像采用加权的方式获得用户的长期画像,其中,距离分析时刻越近的用户短期画像的权重越大。
[0161] 优选地,采用时间方程将多个用户短期画像加权组合为用户长期画像[0162]
[0163] 其中,Pu代表长期画像, 代表第g个时间帧tg对应的短期画像,f(t)为时间方程f(t)=e-λt,其中λ为时间方程的常数参数。
[0164] 上述基于用户短期兴趣的新闻推荐方法首先构建了一个基于时间敏感加权的给定用户长期画像,然后通过分析用户最新的阅读历史来分析他的短期偏好。在推荐时,我们建立一个基于长期和短期用户画像的用户-物品二分图,然后通过吸收随机游走方法算法来在不同的主题中选择新闻,不仅可以提供相关的关于用户兴趣的新闻文章,也可以通过引入不同主题的文章来拓展用户的偏好。
[0165] 在上述各实施例中,在步骤S3中,所述对所述词向量矩阵进行聚类步骤包括:
[0166] 对词向量矩阵进行层次聚类,得到层次聚类树状图,所述层次聚类树状图的一个叶结点对应一个新闻;
[0167] 获得层次聚类每一次聚类结果对应的邓恩指数,在邓恩指数最大值对应的层对上述层次聚类树状图进行切割,获得最佳层次聚类树状图,最佳层次聚类树状图中属于同一父节点的叶结点对应的新闻属于同一新闻组,从而获得每个新闻的新闻分组。上述对所述词向量矩阵进行聚类方法首先使用分层凝聚聚类算法构建纯粹基于新闻文章内容的新闻层次结构,然后使用Dunn的有效性指数决定最佳层次树状图,避免了决定簇的数量。邓恩指数计算任意两个簇元素之间的最短距离(类间)除以任意簇中的最大距离(类内),指数越大说明类间距离越大,类内距离越小,使用邓恩指数决定在哪一层对树状图进行切割,获得新闻分组之后,可以对每一组使用LDA进行分析,并将每个组的主题用主题向量表示,以便配合长期用户画像进行组过滤。
[0168] 在上述各实施例中,在步骤S9中,通过吸收随机游走方法在不同的主题中选择新闻。吸收随机游走方法首选选择一个初始点,然后以p的概率随机跳到图上任意一点,剩下1-p的概率会按边的权重分配给相邻点,之后每一次都以相同的概率跳到随机点或者相邻点,采用转移矩阵来计算跳转概率,经过几次迭代之后,跳转概率趋于稳定,转移概率最高的新闻将会被推荐,之后吸收随机游走方法会将降低该文章同类文章的跳转概率,以此来达到选择更多种类新闻的目的。这样,本发明所述基于用户短期兴趣的新闻推荐方法不仅可以提供相关的关于用户兴趣的新闻文章,也可以通过引入不同主题的文章来拓展用户的偏好。
[0169] 此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于用户短期兴趣的新闻推荐程序,所述基于用户短期兴趣的新闻推荐程序被处理器执行时实现如下步骤:
[0170] 步骤S1,采集用户对新闻的行为数据,所述行为数据包括用户矩阵、新闻矩阵和行为矩阵,所述行为矩阵为用户矩阵中的每个用户对新闻矩阵中的每个新闻的行为指标构成的矩阵;
[0171] 步骤S2,根据所述新闻矩阵获得对应的词向量矩阵;
[0172] 步骤S3,对所述词向量矩阵进行聚类,得到每个新闻的分群结果,根据所述分群结果将每个新闻分群到对应的新闻组;
[0173] 步骤S4,通过每个用户对每个新闻的长期行为数据和短期行为数据分别获得每个用户的长期画像和短期画像,所述长期画像和短期画像用于表征用户对新闻包含的词对应的词向量的偏好;
[0174] 步骤S5,分析每个用户的长期画像与不同新闻组之间的相似度,得到多个第一相似度;
[0175] 步骤S6,按照降序对所述多个第一相似度进行排序,基于排序的结果得到每个用户对应的第一设定数量的新闻组;
[0176] 步骤S7,分析每个用户最新的短期画像与所述第一设定数量的新闻组中每个新闻之间的第二相似度;
[0177] 步骤S8,根据所述第二相似度构建用户新闻二分图;
[0178] 步骤S9,在所述用户新闻二分图上使用吸收随机游走方法选取被推荐的新闻,从而得到每个用户的推荐新闻。
[0179] 本发明之计算机可读存储介质的具体实施方式与上述基于用户短期兴趣的新闻推荐方法、电子装置的具体实施方式大致相同,在此不再赘述。
[0180] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0181] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端客户端(可以是手机,计算机,服务器,或者网络客户端等)执行本发明各个实施例所述的方法。
[0182] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。