会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 专利权 / 第I章 / 一种基于并行LDA的大数据新闻推荐方法、系统及装置

一种基于并行LDA的大数据新闻推荐方法、系统及装置

阅读:407发布:2021-02-22

IPRDB可以提供一种基于并行LDA的大数据新闻推荐方法、系统及装置专利检索,专利查询,专利分析的服务。并且本发明公开了一种基于并行LDA的大数据新闻推荐方法、系统及装置,通过并行隐含狄利克雷方法对大规模文档进行快速有效训练,以及通过logistic回归求取最优系数,从而计算新文档权重得分,充分考虑了文章的主题分布并结合用户个性行为,进而为用户提供个性化推荐,而且相比较基于文档的相似度方法,其算法复杂度大大减少,有效提高了执行效率,减少占用的内存空间,并且降低了模型误差,大大提高准确率。本发明可广泛应用于新闻推荐中。,下面是一种基于并行LDA的大数据新闻推荐方法、系统及装置专利的具体信息内容。

1.一种基于并行LDA的大数据新闻推荐方法,其特征在于,包括以下步骤:搜集用户的浏览新闻数据,得到新闻集数据;

对获得的新闻集数据进行预处理,得到语料库;

对得到的语料库进行LDA建模;

通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;

根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。

2.根据权利要求1所述的一种基于并行LDA的大数据新闻推荐方法,其特征在于:所述的搜集用户的浏览新闻数据,得到新闻集数据,这一步骤具体包括:搜集用户的基本信息,通过聚类方法对兴趣相似的用户进行分类;

对需要推荐的该类的用户,对浏览过的新闻标记为1,对未浏览过的新闻标记为0,得到浏览新闻集和未浏览新闻集,即得到新闻集数据。

3.根据权利要求1所述的一种基于并行LDA的大数据新闻推荐方法,其特征在于:所述的对获得的新闻集数据进行预处理,得到语料库,这一步骤具体包括:对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;

将得到的词根据预设的停留词表进行去停留词处理,得到语料库。

4.根据权利要求1所述的一种基于并行LDA的大数据新闻推荐方法,其特征在于:所述的对得到的语料库进行LDA建模,这一步骤具体包括:根据语料库,进行LDA建模得到LDA模型;

对LDA模型中的参数进行优化计算;

根据建立的LDA模型进行参数估计。

5.根据权利要求4所述的一种基于并行LDA的大数据新闻推荐方法,其特征在于:所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:w~Multinomial(θ),

其中,主题分布θ服从超参数为α的狄利克雷,词分布 服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为 的多项式分布。

6.根据权利要求4所述的一种基于并行LDA的大数据新闻推荐方法,其特征在于:所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:其中, 表示优化后的参数α, 表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β, 为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。

7.根据权利要求5所述的一种基于并行LDA的大数据新闻推荐方法,其特征在于:所述的根据建立的LDA模型进行参数估计,这一步骤的具体计算公式为:其中, 表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率,表示主题k下关于词t的计数, 表示第m篇文档下关于词t的计数,αt表示关于词t的参数α,βt表示关于词t的参数β。

8.根据权利要求1所述的一种基于并行LDA的大数据新闻推荐方法,其特征在于:所述权重得分的计算公式为:Score(i)=c1*Topic1+c2*Topic2+……+ck*TopicK;

其中,i表示第i篇文档,k表示第k个主题,TopicK表示第k个主题的分布概率,[c1,c2,....,ck]表示通过Logistic回归算法算得的对应各个主题的最优的回归系数值。

9.一种基于并行LDA的大数据新闻推荐系统,其特征在于,包括:搜集单元,用于搜集用户的浏览新闻数据,得到新闻集数据;

预处理单元,用于对获得的新闻集数据进行预处理,得到语料库;

建模单元,用于对得到的语料库进行LDA建模;

采集单元,用于通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;

权重计算单元,用于根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。

10.一种基于并行LDA的大数据新闻推荐装置,其特征在于,包括:存储器,用于存放程序;

处理器,用于执行所述程序以用于:

搜集用户的浏览新闻数据,得到新闻集数据;

对获得的新闻集数据进行预处理,得到语料库;

对得到的语料库进行LDA建模;

通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;

根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。

说明书全文

一种基于并行LDA的大数据新闻推荐方法、系统及装置

技术领域

[0001] 本发明涉及文本分类技术领域,尤其涉及一种基于并行LDA的大数据新闻推荐方法、系统及装置。

背景技术

[0002] 随着互联网发展的日新月异,各类新闻网站如雨后春笋。与此同时,人们分享实时新闻也成一种新浪潮。也由此,人们每天都获取大量新闻,鱼龙混杂。因此,根据个人浏览新闻的喜好,为其推荐感兴趣的新闻话题,既节省时间,也更具针对性。实现新闻自动准确的推荐,方便读者快速找到感兴趣的新闻乃是大势所趋。
[0003] 在新闻推荐领域,已有的技术包括基于多维相似度的新闻推荐方法,协同过滤的推荐算法,基于人工智能如神经网络等方法的新闻推荐算法。这些方法虽各有所长,但普遍存在以下缺点:计算文本之间的相似性,对于大文档集来说时间消耗非常高;而神经网络处理大文本复杂度较高;基于协同过滤等经典的推荐算法,主要针对用户信息,并未充分考虑所推荐新闻内容的主题,因此推荐的准确性不高。

发明内容

[0004] 为了解决上述技术问题,本发明的目的是提供一种能降低复杂度的基于并行LDA的大数据新闻推荐方法、系统及装置。
[0005] 本发明所采取的技术方案是:
[0006] 一种基于并行LDA的大数据新闻推荐方法,包括以下步骤:
[0007] 搜集用户的浏览新闻数据,得到新闻集数据;
[0008] 对获得的新闻集数据进行预处理,得到语料库;
[0009] 对得到的语料库进行LDA建模;
[0010] 通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;
[0011] 根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。
[0012] 作为所述的一种基于并行LDA的大数据新闻推荐方法的进一步改进,所述的搜集用户的浏览新闻数据,得到新闻集数据,这一步骤具体包括:
[0013] 搜集用户的基本信息,通过聚类方法对兴趣相似的用户进行分类;
[0014] 对需要推荐的该类的用户,对浏览过的新闻标记为1,对未浏览过的新闻标记为0,得到浏览新闻集和未浏览新闻集,即得到新闻集数据。
[0015] 作为所述的一种基于并行LDA的大数据新闻推荐方法的进一步改进,所述的对获得的新闻集数据进行预处理,得到语料库,这一步骤具体包括:
[0016] 对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
[0017] 将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
[0018] 作为所述的一种基于并行LDA的大数据新闻推荐方法的进一步改进,所述的对得到的语料库进行LDA建模,这一步骤具体包括:
[0019] 根据语料库,进行LDA建模得到LDA模型;
[0020] 对LDA模型中的参数进行优化计算;
[0021] 根据建立的LDA模型进行参数估计。
[0022] 作为所述的一种基于并行LDA的大数据新闻推荐方法的进一步改进,所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:
[0023]
[0024]
[0025] 其中,主题分布θ服从超参数为α的狄利克雷,词分布 服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为 的多项式分布。
[0026] 作为所述的一种基于并行LDA的大数据新闻推荐方法的进一步改进,所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:
[0027]
[0028]
[0029] 其中, 表示优化后的参数α, 表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β, 为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
[0030] 作为所述的一种基于并行LDA的大数据新闻推荐方法的进一步改进,所述的根据建立的LDA模型进行参数估计,这一步骤的具体计算公式为:
[0031]
[0032]
[0033] 其中, 表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率, 表示主题k下关于词t的计数, 表示第m篇文档下关于词t的计数,αt表示关于词t的参数α,βt表示关于词t的参数β。
[0034] 作为所述的一种基于并行LDA的大数据新闻推荐方法的进一步改进,所述权重得分的计算公式为:
[0035] Score(i)=c1*Topic1+c2*Topic2+……+ck*TopicK;
[0036] 其中,i表示第i篇文档,k表示第k个主题,TopicK表示第k个主题的分布概率,[c1,c2,....,ck]表示通过Logistic回归算法算得的对应各个主题的最优的回归系数值。
[0037] 本发明所采用的另一个技术方案是:
[0038] 一种基于并行LDA的大数据新闻推荐系统,包括:
[0039] 搜集单元,用于搜集用户的浏览新闻数据,得到新闻集数据;
[0040] 预处理单元,用于对获得的新闻集数据进行预处理,得到语料库;
[0041] 建模单元,用于对得到的语料库进行LDA建模;
[0042] 采集单元,用于通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;
[0043] 权重计算单元,用于根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。
[0044] 本发明所采用的再一个技术方案是:
[0045] 一种基于并行LDA的大数据新闻推荐装置,包括:
[0046] 存储器,用于存放程序;
[0047] 处理器,用于执行所述程序以用于:
[0048] 搜集用户的浏览新闻数据,得到新闻集数据;
[0049] 对获得的新闻集数据进行预处理,得到语料库;
[0050] 对得到的语料库进行LDA建模;
[0051] 通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;
[0052] 根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。
[0053] 本发明的有益效果是:
[0054] 本发明一种基于并行LDA的大数据新闻推荐方法、系统及装置通过并行隐含狄利克雷方法对大规模文档进行快速有效训练,以及通过logistic回归求取最优系数,从而计算新文档权重得分,充分考虑了文章的主题分布并结合用户个性行为,进而为用户提供个性化推荐,而且相比较基于文档的相似度方法,其算法复杂度大大减少,有效提高了执行效率,减少占用的内存空间,并且降低了模型误差,大大提高准确率。

附图说明

[0055] 图1是本发明一种基于并行LDA的大数据新闻推荐方法的步骤流程图;
[0056] 图2是本发明一种基于并行LDA的大数据新闻推荐系统的模块方框图。

具体实施方式

[0057] 下面结合附图对本发明的具体实施方式作进一步说明:
[0058] 参考图1,本发明一种基于并行LDA的大数据新闻推荐方法,包括以下步骤:
[0059] 搜集用户的浏览新闻数据,得到新闻集数据;
[0060] 对获得的新闻集数据进行预处理,得到语料库;
[0061] 对得到的语料库进行LDA建模;
[0062] 通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;
[0063] 根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。
[0064] 进一步作为优选的实施方式,所述的搜集用户的浏览新闻数据,得到新闻集数据,这一步骤具体包括:
[0065] 搜集用户的基本信息,通过聚类方法对兴趣相似的用户进行分类;
[0066] 对需要推荐的该类的用户,对浏览过的新闻标记为1,对未浏览过的新闻标记为0,得到浏览新闻集和未浏览新闻集,即得到新闻集数据。
[0067] 本实施例中,搜集浏览新闻网站的用户的基本信息,通过聚类分析方法把兴趣相似的用户归为一类。对某类用户浏览的新闻记为1(表示用户对该新闻的感兴趣),对感兴趣新闻的上下篇文章,用户未点击浏览的新闻记为0(表示该用户对该新闻不感兴趣)。获取新闻集的ID,以及用户停留时间。本实施例中,对于用户浏览新闻网站,时长小于2s的情况认为该用户对该新闻不感兴趣,点击标记为0,得到具体情况如下表1所示:
[0068]浏览情况 新闻集
0 恒丰银行,已经成为中国银行业戏剧般的存在……
1 据美国广播公司(ABC)消息,美国总统特朗普……
0 日本东芝公司的核能业务近期导致了一桩会计丑闻……
0 全球市场波澜不惊,美元指数仍然受空头回补……
1 …….
[0069] 表1
[0070] 进一步作为优选的实施方式,所述的对获得的新闻集数据进行预处理,得到语料库,这一步骤具体包括:
[0071] 对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
[0072] 将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
[0073] 本发明实施例中,所述分词处理采用结巴分词,并根据隐含马尔科夫模型对未登录词进行识别,自定义词典,对专有词及热门词设定一定的权重,确保分词时,该词能被准确分割。根据停用词表自动过滤掉没有实际意义的词汇,如介词、冠词、语气助词、副词、介词、连接词以及标点等。
[0074] 本实施例中得到的语料库表如下表2:
[0075]浏览情况 新闻集
0 恒丰银行已经成为中国银行……
1 据美国广播公司消息美国……
0 日本东芝公司的核能业务近期导致……
0 全球市场波澜不惊美元指数仍然……
1 …….
[0076] 表2
[0077] 进一步作为优选的实施方式,所述的对得到的语料库进行LDA建模,这一步骤具体包括:
[0078] 根据语料库,进行LDA建模得到LDA模型;
[0079] 对LDA模型中的参数进行优化计算;
[0080] 根据建立的LDA模型进行参数估计。
[0081] 进一步作为优选的实施方式,所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:
[0082]
[0083]
[0084] 其中,主题分布θ服从超参数为α的狄利克雷,词分布 服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为 的多项式分布。
[0085] 进一步作为优选的实施方式,所述的根据建立的LDA模型进行参数估计,这一步骤的具体计算公式为:
[0086]
[0087]
[0088] 其中, 表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率, 表示主题k下关于词t的计数, 表示第m篇文档下关于词t的计数,αt表示关于词t的参数α,βt表示关于词t的参数β。
[0089] 本实施例中,据变量之间的依赖关系,可得联合概率密度公式如下:
[0090]
[0091] 为少计算误差,分别对θ和 求积分,最后公式简化为
[0092] p(w,z|α,β)=p(w|z,β)p(z|α);
[0093] 由此可得出p(w,z),通过Collapsed Gibbs Sampling,在设定的迭代次数之内循环抽取当前词的主题,直到词的主题分布达到收敛。具体实现公式如下:
[0094]
[0095] 接下来,利用后验概率估计,求出主题分布,和词分布分别,且两者服从狄利克雷分布。根据狄利克雷分布性质可得出词分布概率,和主题分布概率值,即:
[0096]
[0097] 其中, 表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率, 表示主题k下关于词t的计数, 表示第m篇文档下关于词t的计数。
[0098] 进一步作为优选的实施方式,所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:
[0099]
[0100]
[0101] 其中, 表示优化后的参数α, 表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β, 为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
[0102] 本实施例中,计算k取不同值时,模型困惑度perplexity的变化,然后将困惑度最小的主题个数作为模型对数据拟合的最佳主题个数。对给定的语料数据D,其困惑度为:
[0103]
[0104] 其中wm表示第m篇文档的词,Nm表示第m篇文档的长度。当主题个数K=40时,困惑度最低,因此最有主题个数设为40。
[0105] 本发明实施例中,对于参数α和参数β的优化:
[0106]
[0107]
[0108] 其中, 表示优化后的参数α, 表示优化后的参数β, 为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
[0109] 基于上述方法,新文档与原训练集文档共享同样的主题,最终可得新文档的主体分布情况,如表3:
[0110]文档-主题 Topic1 Topic2 …… TopicK
新闻1 0.2 0.4 …… 0.2
新闻2 0.21 0.14 …… 0.09
…… …… …… …… ……
[0111] 表3
[0112] 本实施例中,进行并行化Gibbs Sampling采集处理时,将原数据集按无冲突的数据分割方法,分成P*P个部分(P为设置的并发数),把分割好的数据块重新排序,最后合成P个数据块,放在各个机器上执行。这样再对每个数据集进行采样。在组内并行,组间串行。常用策略为对角法,由于同一行或同一列不能被同时选择,因此选择对角线进行计算。小组内并行执行一次迭代后,把小组文档,词的计数等统计量同步到下一组,而组内各个块内sampling与单机版的Gibbs Sampling是一样的方法,而后合并。
[0113] 为减少数据传输量,采用的方法是,把分割好的数据中行编号一样的数据块放在同一个计算机节点上。尽量将词表V的数据平分,以减少网络传输量。再在各个计算机节点上Gibbs Sampling,最后合并。至此并行化采样结束。最后得到主题分布概率矩阵如下表4:
[0114]
[0115]
[0116] 表4
[0117] 进一步作为优选的实施方式,所述权重得分的计算公式为:
[0118] Score(i)=c1*Topic1+c2*Topic2+……+ck*TopicK;
[0119] 其中,i表示第i篇文档,k表示第k个主题,TopicK表示第k个主题的分布概率,[c1,c2,....,ck]表示通过Logistic回归算法算得的对应各个主题的最优的回归系数值。
[0120] 本实施例中,采用Logistic回归算法时,将输出界定在0和1之间,即:0≤hθ(x)≤1。而线性回归无法做到,这里引入一个函数g,令逻辑回归的Hypothesis表示为:hu(x)=gT
(ux)这里g称为Sigmoid function或者Logistic function,具体表达式为:
[0121] g(z)=1/(1+exp(-z)),hu(x)=g(uTx)=1/(1+exp(-uTx)),其中u是参数。
[0122] 对u参数的优化,即最小化逻辑回归的对数似然损失函数cost function。
[0123] 采用梯度下降法求最小化损失函数,取得最优值,经过第n次迭代参数更新的情况如下:
[0124]
[0125] 直到参数u收敛,即最终求得的回归系数值,是最小化损失函数的最优解。其中uj表示第j个参数,xi表示第i个分量,yi表示第i个变量的估计值。
[0126] 本实施例中,把训练集文档的主题分布矩阵中,各个主题当成自变量x,用户点击与否的信息当成因变量h(x),结合逻辑回归算法,之后求得最优的回归系数值[c1,c2,....,ck],再后结合新文档的主题分布概率值如表4所示。计算每篇新闻档的得分Score(i)=c1*Topic1+c2*Topic2+……+ck*TopicK,i表示第i篇文档。最后按照新新闻文档得分的高低,取前n篇得分高的文档作为对该用户的推荐。
[0127] 参考图2,本发明一种基于并行LDA的大数据新闻推荐系统,包括:
[0128] 搜集单元,用于搜集用户的浏览新闻数据,得到新闻集数据;
[0129] 预处理单元,用于对获得的新闻集数据进行预处理,得到语料库;
[0130] 建模单元,用于对得到的语料库进行LDA建模;
[0131] 采集单元,用于通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;
[0132] 权重计算单元,用于根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。
[0133] 本发明一种基于并行LDA的大数据新闻推荐装置,包括:
[0134] 存储器,用于存放程序;
[0135] 处理器,用于执行所述程序以用于:
[0136] 搜集用户的浏览新闻数据,得到新闻集数据;
[0137] 对获得的新闻集数据进行预处理,得到语料库;
[0138] 对得到的语料库进行LDA建模;
[0139] 通过并行化Gibbs Sampling对新闻集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;
[0140] 根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的新闻文档的权重得分。
[0141] 从上述内容可知,本发明一种基于并行LDA的大数据新闻推荐方法、系统及装置通过并行隐含狄利克雷方法对大规模文档进行快速有效训练,以及通过logistic回归求取最优系数,从而计算新文档权重得分,充分考虑了文章的主题分布并结合用户个性行为,进而为用户提供个性化推荐,而且相比较基于文档的相似度方法,其算法复杂度大大减少,有效提高了执行效率,减少占用的内存空间,并且降低了模型误差,大大提高准确率。
[0142] 以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用