一种自媒体内容热度预测方法转让专利

申请号 : CN202310094440.7

文献号 : CN115827988B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 谢丽菁邓翼童颖何以然

申请人 : 成都桉尼维尔信息科技有限公司

摘要 :

本发明公开了一种自媒体内容热度预测方法,涉及文本分析技术领域,该方法包括:构建停用词词典,爬取平台数据得到数据集输入到第一模型,对第一模型训练得到第二模型;获取第一文章关键词;爬取预设平台的若干第二文章及热度评价数据;构造第二文章的热度距离特征向量和波动特征向量;将第二文章及热度评价数据输入第二模型,第二模型对输入的数据进行处理得到词向量数据集,将词向量数据与热度距离特征向量数据和波动特征向量数据拼接得到第一向量数据集,将第一向量数据集输入神经网络模型,再对该模型训练得到第三模型;通过第三模型对第一文章进行热度预测。本发明通过构造中文预训练模型来对发布的自媒体内容进行热度预测。

权利要求 :

1.一种自媒体内容热度预测方法,其特征在于,所述方法包括以下步骤:获取平台信息,基于所述平台信息构建对应的停用词词典,爬取若干平台数据得到数据集,将所述数据集输入到第一中文预训练模型,并对所述第一中文预训练模型进行训练得到第二中文预训练模型;

获取用户第一文章中的关键词;

基于所述关键词,获取预设条件,基于所述预设条件,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据;

基于所述关键词和所述预设平台的目标词,构造所述第二文章热度距离特征向量;

构造所述第二文章波动特征向量;

将所有第二文章及对应的热度评价数据输入到所述第二中文预训练模型,所述第二中文预训练模型对第二文章及对应的热度评价数据进行处理得到第二文章内容的词向量数据集,并将所述词向量数据集对应数据与所述热度距离特征向量的数据集对应数据和所述波动特征向量的数据集对应数据进行拼接得到第一向量数据集,将所述第一向量数据集输入到预设神经网络模型,并对所述预设神经网络模型进行训练得到第三中文预训练模型;

将所述第一文章输入到所述第三中文预训练模型中进行分析得到分析结果,基于所述分析结果,对所述第一文章进行热度评分;

构造所述第二文章热度距离特征向量包括:

构造无向图,所述无向图中的节点为所述关键词和所述预设平台目标词;

判断所述关键词和所述预设平台目标词中是否有任意两个词在一篇文章出现,若是,则对所述两个词对应的两个节点进行连边并计算连边的权重值得到第一计算结果;

基于所述第一计算结果,计算所述预设平台目标词节点与所述第二文章关键词节点之间的距离得到第二计算结果;

基于所述第二计算结果,构造所述第二文章热度距离特征向量;

构造所述第二文章波动特征向量包括构造情感起伏波动特征向量:获取情感分析模型,并基于所述情感分析模型,分析得到所述第二文章每段情感得分;

基于多项式拟合的方法,将所述第二文章每段情感得分拟合成第一曲线;

基于奈奎斯特采样定理,在所述第一曲线上选取第一预设数量的采样点采样,采样得到的若干离散点为所述第二文章的情感起伏波动特征向量;

构造所述第二文章波动特征向量还包括构造关键词次数波动特征向量:获取关键词次数统计模型,并基于所述关键词次数统计模型,统计得到所述第二文章每段关键词次数;

基于多项式拟合的方法,将所述第二文章每段关键词次数拟合成第二曲线;

基于奈奎斯特采样定理,在所述第二曲线上选取第二预设数量的采样点采样,采样得到的若干离散点为所述第二文章的关键词次数波动特征向量;

构造所述第二文章波动特征向量还包括构造段落字数波动特征向量:获取段落字数统计模型,并基于所述段落字数统计模型,统计得到所述第二文章每段段落字数;

基于多项式拟合的方法,将所述第二文章每段段落字数拟合成第三曲线;

基于奈奎斯特采样定理,在所述第三曲线上选取第三预设数量的采样点采样,采样得到的若干离散点为所述第二文章的段落字数波动特征向量。

2.根据权利要求1所述的一种自媒体内容热度预测方法,其特征在于,获取用户第一文章中的关键词包括:对所述第一文章中每个句子进行分词得到若干单词并对所述若干单词进行词性标注;

获取预设词性,将所述若干单词的词性与所述预设词性进行匹配,将与所述预设词性匹配成功的词性对应的单词进行保留得到若干第一单词,将与所述预设词性匹配失败的词性对应的单词进行过滤;

将所述第一单词与所述预设平台的停用词词典中的单词进行匹配,将与所述停用词词典中的单词匹配成功对应的所述第一单词进行过滤,将与所述停用词词典中的单词匹配失败对应的所述第一单词进行保留得到若干第二单词;

获取所述第二单词长度和预设单词长度范围,将位于所述预设单词长度范围内对应的所述第二单词进行过滤,将超过所述预设单词长度范围对应的所述第二单词进行保留得到若干第三单词;

基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛;

对所述关键词图中各节点的权重值进行倒序排序,得到预设个数节点对应的单词,作为所述第一文章的关键词。

3.根据权利要求2所述的一种自媒体内容热度预测方法,其特征在于,基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛包括:构造关键词图G=(V,E),G为关键词图,V为所述第三单词构成的节点集合,E为所述节点集合中两点之间连边的集合;

采用下列公式迭代计算所述关键词图中各节点的权重值直至收敛:, 为节点 的权重值,

为节点 的权重值, 为节点 的前驱节点集合, 为节点

的后继节点集合,d为阻尼系数, 为节点 和节点 的连边权重值, 为节点 和节点 连边权重值。

4.根据权利要求1所述的一种自媒体内容热度预测方法,其特征在于,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据包括:获取所述预设平台类型信息,基于所述预设平台类型信息,获取用于爬取所述预设平台数据的爬虫和所述预设平台热度评价因子,基于所述预设平台热度评价因子,所述爬虫爬取所述第二文章及所述第二文章对应的热度评价数据并存储在关系数据库中。

5.根据权利要求1所述的一种自媒体内容热度预测方法,其特征在于,计算连边的权重值采用如下计算公式:, 为节点p和节点u的连边权重值,n为选取文章的篇数,为第t 篇文章中 节点p 和节点 u在一个 段落中 共同出现的 次数 ,, 为第t篇文章的热度权重值, 计算方

式如下:

, 为第b篇文章的初始热度值, 为第t篇文章的初始热度值;

计算所述预设平台目标词节点与所述第二文章关键词节点之间的距离采用如下计算公式:, 为所述关键词节点p与所述目标词节点q之间的距离,R为所述关键词节点p到所述目标词节点q之间的最短距离,节点u为所述关键词节点p到所述目标词节点q单向路径上的第u个中间节点, 为所述关键词节点p与所述节点u之间的最短距离;

获取所述预设平台Q个目标词节点和所述第二文章的P个关键词节点,构造P行Q列的矩阵,基于所述预设平台目标词节点与所述第二文章关键词节点之间的距离的计算公式,循环计算第1列至第Q列的所述第二文章的P个关键词节点到所述预设平台第z个目标词节点的距离并将计算结果进行拼接,1≦z≦Q,直至所述预设平台Q个目标词节点与所述第二文章的P个关键词节点距离计算完成,得到所述第二文章的热度距离特征向量。

6.根据权利要求1所述的一种自媒体内容热度预测方法,其特征在于,基于交叉验证和网格搜索的方法,对所述预设神经网络模型进行训练。

说明书 :

一种自媒体内容热度预测方法

技术领域

[0001] 本发明涉及文本分析技术领域,具体地,涉及一种自媒体内容热度预测方法。

背景技术

[0002] 自媒体运营者在运营自媒体时,通常的步骤是熟悉平台规则、分析平台用户特征和喜好、分析爆款文章优点、选取合适的标题和配图、对文章内容进行润色和选取合适的时机进行发表等等。以上每个步骤都对一篇文章是否能获得大量的关注和热度是至关重要,通常评价一篇自媒体文章的好坏,包括有主观评价和客观评价,而现有自媒体运营者对即将发表的文章进行热度预测主要是依靠主观评价,但由于主观评价无法量化且热度评价结果因为不同评价人所带来的差异也较大,因此如何能帮助自媒体运营者对自己即将发表的文章准确的进行热度预测,并根据热度预测结果进行修改来提高文章的热度成为亟待解决的问题。

发明内容

[0003] 为能更准确的预测自媒体内容热度,本发明提供了一种自媒体内容热度预测方法,所述方法包括:
[0004] 获取平台信息,基于所述平台信息构建对应的停用词词典,爬取若干平台数据得到数据集,将所述数据集输入到第一中文预训练模型,并对所述第一中文预训练模型进行训练得到第二中文预训练模型;
[0005] 获取用户第一文章中的关键词;
[0006] 基于所述关键词,获取预设条件,基于所述预设条件,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据;
[0007] 基于所述关键词和所述预设平台的目标词,构造所述第二文章热度距离特征向量;
[0008] 构造所述第二文章波动特征向量;
[0009] 将所有第二文章及对应的热度评价数据输入到所述第二中文预训练模型,所述第二中文预训练模型对第二文章及对应的热度评价数据进行处理得到第二文章内容的词向量数据集,并将所述词向量数据集对应数据与所述热度距离特征向量的数据集对应数据和所述波动特征向量的数据集对应数据进行拼接得到第一向量数据集,将所述第一向量数据集输入到预设神经网络模型,并对所述预设神经网络模型进行训练得到第三中文预训练模型;
[0010] 将所述第一文章输入到所述第三中文预训练模型中进行分析得到分析结果,基于所述分析结果,对所述第一文章进行热度评分。
[0011] 发明原理:基于平台信息构造对应的停用词词典,因为不同的自媒体平台规则不同,停用词也不同,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后自动过滤掉某些字或词。爬取若干平台数据得到数据集,平台数据包括文章内容及对应的热度指标,将所述数据集输入到第一中文预训练模型,并对所述第一中文预训练模型进行训练得到第二中文预训练模型,通过对第一中文预训练模型进行训练,来得到热度高和热度低的文章潜在的模式特征。提取用户第一文章中的关键词,基于所述关键词,获取预设条件,预设条件包括关键词、日期、粉丝数量等条件因素,基于所述预设条件,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据,通过提取关键词并获取预设条件,来爬取与第一文章接近的第二文章及对应的热度评价数据,并将爬取的第二文章内容及对应的热度评价数据输入到第二中文预训练模型中,第二中文预训练模型对第二文章及对应的热度评价数据进行处理得到代表第二文章的词向量数据集,词向量数据集代表了第二文章的内容,之所以将词向量数据集中对应数据与热度距离特征向量数据集数据和波动特征向量数据集数据进行拼接,是因为热度距离特征向量数据集数据表示第二文章与预设平台目标词(热词)的热度距离,而波动特征向量数据集数据表示第二文章波动特征的相关数据(在第一中文预训练模型中得到了热度高和热度低的文章潜在的模式特征),将拼接后的第一向量数据集输入到预设神经网络模型,并对所述神经网络模型进行训练得到第三中文预训练模型,该第三中文预训练模型适用于预设平台的自媒体内容预测。用户将文章送入第三中文预训练模型中进行分析得到分析结果,基于分析结果,对该文章进行热度评分。本发明通过构建预设平台的第三中文预训练模型,能准确预测用户发布的自媒体内容热度,用户再根据预测结果去修改自己的自媒体内容,从而让用户能发表热度高的自媒体内容,帮助用户更好的运营自媒体。
[0012] 优选的,获取用户第一文章中的关键词包括:
[0013] 对所述第一文章中每个句子进行分词得到若干单词并对所述若干单词进行词性标注;
[0014] 获取预设词性,将所述若干单词的词性与所述预设词性进行匹配,将与所述预设词性匹配成功的词性对应的单词进行保留得到若干第一单词,将与所述预设词性匹配失败的词性对应的单词进行过滤;
[0015] 将所述第一单词与所述预设平台的停用词词典中的单词进行匹配,将与所述停用词词典中的单词匹配成功对应的所述第一单词进行过滤,将与所述停用词词典中的单词匹配失败对应的所述第一单词进行保留得到若干第二单词;
[0016] 获取所述第二单词长度和预设单词长度范围,将位于所述预设单词长度范围内对应的所述第二单词进行过滤,将超过所述预设单词长度范围对应的所述第二单词进行保留得到若干第三单词;
[0017] 基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛;
[0018] 对所述关键词图中各节点的权重值进行倒序排序,得到预设个数节点对应的单词,作为所述第一文章的关键词。
[0019] 上述步骤解释了如何获取用户第一文章中的关键词,首选对第一文章中的句子进行分词,并对每个分词后的单词进行词性标注,然后根据预设词性、预设单词长度范围和停用词词典,将单词进行过滤得到第三单词,然后基于第三单词,采用图方法构建关键词图,关键词图中不仅包含了第三单词还包括了第三单词中两个单词之间的连接关系,然后利用文本排序公式计算关键词图中每个节点的权重值一直到收敛,对关键词图中各节点的权重值进行倒序排序,得到最重要的若干个单词,将这些单词作为第一文章的关键词。
[0020] 优选的,基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛包括:
[0021] 构造关键词图G=(V,E),G为关键词图,V为所述第三单词构成的节点集合,E为所述节点集合中两点之间连边的集合;
[0022] 采用下列公式迭代计算所述关键词图中各节点的权重值直至收敛:
[0023]
[0024] 为节点 的权重值, 为节点 的权重值,为节点 的前驱节点集合, 为节点 的后继节点集合,d为阻尼系数,
为节点 和节点 的连边权重值, 为节点 和节点 连边权重值。
[0025] 构造关键词图G=(V,E),V就是所述第三单词构成的节点集合,而E为节点集合中两点间连边的集合,对于节点集合中两点连边采用共现关系来确定,即在一个给定大小的滑动窗口内的词,认为是共同出现的,而这些单词间也就存在着连边。而通过上述文本排序公式可以迭代准确计算出关键词图中每个节点的权重值直至收敛。
[0026] 优选的,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据包括:获取所述预设平台类型信息,基于所述预设平台类型信息,获取用于爬取所述预设平台数据的爬虫和所述预设平台热度评价因子,基于所述预设平台热度评价因子,所述爬虫爬取所述第二文章及所述第二文章对应的热度评价数据并存储在关系数据库中。根据预设平台类型信息,得到预设平台的爬虫(采用定制化爬虫,不需要自媒体运营者知晓爬虫知识即可获得定制化数据),由于每个平台的热度评价因子存在差异,因此对每个平台来说需要爬取的因素也不相同,所以也需要基于平台类型信息获取各个平台的热度评价因子,再利用获取的爬虫根据预设平台的热度评价因子来爬取相应的自媒体内容并存放在关系数据库中,以便后续将爬取的数据送入第二中文预训练中文模型中。
[0027] 优选的,构造所述第二文章热度距离特征向量包括:
[0028] 构造无向图,所述无向图中的节点为所述关键词和所述预设平台目标词;
[0029] 判断所述关键词和所述预设平台目标词中是否有任意两个词在一篇文章出现,若是,则对所述两个词对应的两个节点进行连边并计算连边的权重值得到第一计算结果;
[0030] 基于所述第一计算结果,计算所述预设平台目标词节点与所述第二文章关键词节点之间的距离得到第二计算结果;
[0031] 基于所述第二计算结果,构造所述第二文章热度距离特征向量。
[0032] 无向图也就是图中每条边都没有方向,边仅仅是两个节点之间的连接,因为是计算第二文章的热度距离特征向量,就需要计算代表第二文章的关键词和代表预设平台的目标词(热词,即热高较高的词)之间的距离,因此将关键词与预设平台目标词作为无向图中的节点,再判断关键词与目标词是否有任意两个词在一篇文章出现,若是,则表示其他用户在进行目标词的搜索时该篇文章的关键词也有可能被观察到,因此将出现在同一篇文章中的关键词和目标词进行连边并计算连边的权重值,再基于连边权重值计算结果,计算得到若干目标词与若干关键词之间的若干距离结果,最后基于若干距离结果,来构造第二文章热度距离特征向量。
[0033] 优选的,计算连边的权重值采用如下计算公式:
[0034]
[0035] 为节点p和节点u的连边权重值,n为选取文章的篇数, 为第t篇文章中节点p和节点u在一个段落中共同出现的次数,
, 为第t篇文章的热度权重值, 计算方
式如下:
[0036]
[0037] 为第b篇文章的初始热度值, 为第t篇文章的初始热度值;
[0038] 计算所述预设平台目标词节点与所述第二文章关键词节点之间的距离采用如下计算公式:
[0039]
[0040] 为所述关键词节点p与所述目标词节点q之间的距离,R为所述关键词节点p到所述目标词节点q之间的最短距离,节点u为所述关键词节点p到所述目标词节点q单向路径上的第u个中间节点, 为所述关键词节点p与所述节点u之间的最短距离;
[0041] 获取所述预设平台Q个目标词节点和所述第二文章的P个关键词节点,构造P行Q列的矩阵,基于所述预设平台目标词节点与所述第二文章关键词节点之间的距离的计算公式,循环计算第1列至第Q列的所述第二文章的P个关键词节点到所述预设平台第z个目标词节点的距离并将计算结果进行拼接,1≦z≦Q,直至所述预设平台Q个目标词节点与所述第二文章的P个关键词节点距离计算完成,得到所述第二文章的热度距离特征向量。
[0042] 通过连边计算公式可以准确计算出两个节点之间的连边权重值,而通过文章的热度权重值计算公式可以准确计算出每篇文章的热度权重值,最后通过目标词节点与关键词节点之间的距离计算公式可以准确计算出目标词节点与关键词节点之间的距离。通过获取预设平台Q个目标词节点和第二文章的P个关键词节点,构造一个P行Q列的矩阵,然后计算第1列中P个关键词节点与预设平台第一个目标词节点间的距离作为第1列的数据,再计算第2列中P个关键词节点与预设平台第二个目标词节点间的距离作为第2列的数据,直至计算到第Q列中P个关键词节点与预设平台第Q个目标词节点间的距离作为第Q列的数据,此时所述P行Q列的矩阵就为所述第二文章的热度距离特征向量。
[0043] 优选的,构造所述第二文章波动特征向量包括构造情感起伏波动特征向量:
[0044] 获取情感分析模型,并基于所述情感分析模型,分析得到所述第二文章每段情感得分;
[0045] 基于多项式拟合的方法,将所述第二文章每段情感得分拟合成第一曲线;
[0046] 基于奈奎斯特采样定理,在所述第一曲线上选取第一预设数量的采样点采样,采样得到的若干离散点为所述第二文章的情感起伏波动特征向量。
[0047] 首先通过情感分析模型可以准确获取到第二文章每段的情感得分,通过多项式拟合的方法拟合成一段连续的曲线(多项式拟合原理也就是用一个多项式展开去拟合包含数个分析格点的一小块分析区域中的所有观测点,得到观测数据的客观分析场),然后通过奈奎斯特采样定理(定理内容:如果一个系统以超过信号最高赔率至少两倍的速率对模拟信号进行均匀采样,那么原始模拟信号就能从采样产生的离散值中完全恢复)对第一曲线进行采样,最后得到若干离散点就为第二文章的情感起伏波动特征向量。
[0048] 优选的,构造所述第二文章波动特征向量还包括构造关键词次数波动特征向量:
[0049] 获取关键词次数统计模型,并基于所述关键词次数统计模型,统计得到所述第二文章每段关键词次数;
[0050] 基于多项式拟合的方法,将所述第二文章每段关键词次数拟合成第二曲线;
[0051] 基于奈奎斯特采样定理,在所述第二曲线上选取第二预设数量的采样点采样,采样得到的若干离散点为所述第二文章的关键词次数波动特征向量。
[0052] 首先通过关键词次数统计模型可以准确获取到第二文章每段的关键词次数,通过多项式拟合的方法拟合成一段连续的曲线(多项式拟合原理也就是用一个多项式展开去拟合包含数个分析格点的一小块分析区域中的所有观测点,得到观测数据的客观分析场),然后通过奈奎斯特采样定理(定理内容:如果一个系统以超过信号最高赔率至少两倍的速率对模拟信号进行均匀采样,那么原始模拟信号就能从采样产生的离散值中完全恢复)对第二曲线进行采样,最后得到若干离散点就为第二文章的关键词次数波动特征向量。
[0053] 优选的,构造所述第二文章波动特征向量还包括构造段落字数波动特征向量:
[0054] 获取段落字数统计模型,并基于所述段落字数统计模型,统计得到所述第二文章每段段落字数;
[0055] 基于多项式拟合的方法,将所述第二文章每段段落字数拟合成第三曲线;
[0056] 基于奈奎斯特采样定理,在所述第三曲线上选取第三预设数量的采样点采样,采样得到的若干离散点为所述第二文章的段落字数波动特征向量。
[0057] 首先通过段落字数统计模型可以准确获取到第二文章每段的段落字数,通过多项式拟合的方法拟合成一段连续的曲线(多项式拟合原理也就是用一个多项式展开去拟合包含数个分析格点的一小块分析区域中的所有观测点,得到观测数据的客观分析场),然后通过奈奎斯特采样定理(定理内容:如果一个系统以超过信号最高赔率至少两倍的速率对模拟信号进行均匀采样,那么原始模拟信号就能从采样产生的离散值中完全恢复)对第三曲线进行采样,最后得到若干离散点就为第二文章的段落字数波动特征向量。
[0058] 优选的,基于交叉验证和网格搜索的方法,对所述预设神经网络模型进行训练。在进行模型训练的时候,会将数据分为训练集和测试集,在给定的样本数据中拿出大部分的数据作为训练集去训练模型,剩余部分作为测试集对建立的模型进行预测,交叉验证的好处在于可以让所有数据都有被训练和验证的机会,让优化的模型性能表现的更加可信。网格搜索是指定参数值的一种穷举搜索方法,在机器学习中,通过将估计器的超参数进行交叉验证得出最优的学习算法,进行模型选择,网格搜索的好处在于对模型参数进行调优。
[0059] 本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0060] 本发明通过构建适用于不同平台的中文预训练模型来对用户即将发布的自媒体内容进行准确的热度预测,用户可根据热度预测结果对自媒体内容进行修改,从而让用户能发表热度高的自媒体内容,帮助用户更好的运营自媒体。

附图说明

[0061] 此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
[0062] 图1是本发明中一种自媒体内容热度预测方法流程示意图。实施方式
[0063] 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
[0064] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0065] 实施例一
[0066] 请参考图1,为本发明中一种自媒体内容热度预测方法流程示意图,所述方法包括:
[0067] 获取平台信息,基于所述平台信息构建对应的停用词词典,爬取若干平台数据得到数据集,将所述数据集输入到第一中文预训练模型,并对所述第一中文预训练模型进行训练得到第二中文预训练模型;
[0068] 获取用户第一文章中的关键词;
[0069] 基于所述关键词,获取预设条件,基于所述预设条件,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据;
[0070] 基于所述关键词和所述预设平台的目标词,构造所述第二文章热度距离特征向量;
[0071] 构造所述第二文章波动特征向量;
[0072] 将所有第二文章及对应的热度评价数据输入到所述第二中文预训练模型,所述第二中文预训练模型对第二文章及对应的热度评价数据进行处理得到第二文章内容的词向量数据集,并将所述词向量数据集对应数据与所述热度距离特征向量的数据集对应数据和所述波动特征向量的数据集对应数据进行拼接得到第一向量数据集,将所述第一向量数据集输入到预设神经网络模型,并对所述预设神经网络模型进行训练得到第三中文预训练模型;
[0073] 将所述第一文章输入到所述第三中文预训练模型中进行分析得到分析结果,基于所述分析结果,对所述第一文章进行热度评分。
[0074] 其中,获取平台信息,基于该平台信息构建对应的停用词词典,由于每个平台的管理规则不同,因此每个平台的停用词也会存在差异,所以需要针对不同平台构建不同的停用词词典,而停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即为停用词,这些停用词为手动输入,非自动化生成,生成后的停用词会形成停用词词典。
[0075] 其中,爬取若干平台数据包括爬取文章内容及热度指标,热度指标可以为相应文章的赞数、评论数或者阅读量等其他量化评价指标,热度指标可根据每个平台的热度评价规则进行调整,本发明不做具体限定。
[0076] 其中,第一中文预训练模型可以选择EMLo、BERT或者GPT等其他中文预训练模型,可根据实际需求进行选择,本发明不做具体限定。
[0077] 其中,在对第一文章进行热度评分时,其热度区间可根据爬取数据进行调整,比如爬取的数据中阅读量最低为100,最高为20000,那么就需要设置热度区间为100‑20000,划分好热度区间后再对100‑20000之间划分若干个区间,划分区间数量可根据实际需求进行调整,最后将第一文章输入到第三中文预训练模型中,例如最后输出的热度评分为10000,此时用户就可根据热度评分来判断自己即将发布的文章是否会获得较高的热度,如果用户对预测的热度评分不满意,可根据预测结果来对自己的文章进行修改再进行预测,直到满意为止。
[0078] 其中,获取用户第一文章中的关键词包括:
[0079] 对所述第一文章中每个句子进行分词得到若干单词并对所述若干单词进行词性标注;
[0080] 获取预设词性,将所述若干单词的词性与所述预设词性进行匹配,将与所述预设词性匹配成功的词性对应的单词进行保留得到若干第一单词,将与所述预设词性匹配失败的词性对应的单词进行过滤;
[0081] 将所述第一单词与所述预设平台的停用词词典中的单词进行匹配,将与所述停用词词典中的单词匹配成功对应的所述第一单词进行过滤,将与所述停用词词典中的单词匹配失败对应的所述第一单词进行保留得到若干第二单词;
[0082] 获取所述第二单词长度和预设单词长度范围,将位于所述预设单词长度范围内对应的所述第二单词进行过滤,将超过所述预设单词长度范围对应的所述第二单词进行保留得到若干第三单词;
[0083] 基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛;
[0084] 对所述关键词图中各节点的权重值进行倒序排序,得到预设个数节点对应的单词,作为所述第一文章的关键词。
[0085] 例如给定文本T按照完整句子进行分割,即T={S1,S2,……,Sm},对于每个句子Si∈T(1≦i≦m),进行分词和词性标注处理,首先保留指定词性的单词,如名词、动词和形容词,因此将不是名词、动词和形容词的单词进行过滤,然后过滤掉停用词词典中的单词,再将位于预设长度范围的单词进行过滤(如预设长度范围为小于2,因此长度为1的单词就被过滤掉),最终得到Si=[ti,1,ti,2,ti,3,……,ti,n],其中ti,(j 1≦j≦n)就为第三单词,再基于第三单词来构建关键词图,利用文本排序公式(TextRank)计算关键词图中各节点的权重值直至收敛,再对节点权重进行倒序排序,得到预设个数的单词(如预设个数为10),即为第一文章的关键词。
[0086] 其中,基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛包括:
[0087] 构造关键词图G=(V,E),G为关键词图,V为所述第三单词构成的节点集合,E为所述节点集合中两点之间连边的集合;
[0088] 采用下列公式迭代计算所述关键词图中各节点的权重值直至收敛:
[0089]
[0090] 为节点 的权重值, 为节点 的权重值, 为节点 的前驱节点集合, 为节点 的后继节点集合,d为阻尼系数, 为节点
和节点 的连边权重值, 为节点 和节点 连边权重值。
[0091] 构造关键词图G=(V,E),V为所述第三单词构成的节点集合,E为所述节点集合中两点之间连边的集合,E是通过“共现”(即在一个给定大小的滑动窗口内的词,认为是共同出现的)关系来确定的,例如对“淡黄的长裙,蓬松的头发,牵着我的手看最新展出的油画”进行分词,分词后:淡黄、长裙、蓬松、头发、牵、我、手、看、最新、展出和油画,如果给定窗口为2,则淡黄和长裙之间存在连边、长裙和蓬松存在两边、……、展出和油画之间存在连边。对于给定窗口的大小可根据实际需求进行调整,本发明不做具体限定。文本排序公式也就
TextRank公式被用来做关键词提取,而TextRank(文本排序)是基于PageRank(网页排序)。
PageRank是用来体现网页的相关性和重要性,通过互联网中的超链接关系来确定一个网页的排名,如果需要计算网页A的PageRank值(简称PR值),就需要知道有哪些网页链接到网页A,也就是得到网页A的入链,然后通过入链给网页A的投票来计算网页A的PR值,这样设计可以达到这样一个效果:当某些高质量的网页指向网页A的时候,那么网页A的PR值会因为这些高质量网页投票而变大,而网页A被较少网页指向或被一些PR值较低的网页指向的时候,网页A的PR值也不会很大,就能合理地反映一个网页的质量水平。因此可以看到上述
TextRank的计算公式中, 为节点 的前驱节点集合, 为节点 的后
继节点集合, 为节点 的权重值, 为节点 的权重值,而阻尼系
数d的作用在于,如果仅仅有求和的部分,那么该计算公式将无法处理没有前驱节点的节点的TextRank值(简称TR值),因为此时,如果根据TextRank的公式进行计算,那么这些没有前驱节点的节点的TR值为0,但实际情况不是这样,所以通过添加一个阻尼系数来确保每个节点都有一个大于0的TR值,基于实验结果,在0.85的阻尼系数下,节点的TR值收敛到一个稳定的值需要迭代的次数较少,而当阻尼系数越接近1时,需要迭代的次数会陡然增加和排序不稳定。 为节点 和节点 的连边权重值, 为节点 和节点 连边权重
值,是用来体现两个节点之间连边存在不同的重要程度。
[0092] 其中,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据包括:获取所述预设平台类型信息,基于所述预设平台类型信息,获取用于爬取所述预设平台数据的爬虫和所述预设平台热度评价因子,基于所述预设平台热度评价因子,所述爬虫爬取所述第二文章及所述第二文章对应的热度评价数据并存储在关系数据库中。针对若干平台提供并维护相应的爬虫,当获取到预设平台的类型信息时,就可以直接使用预设平台对应的爬虫,又因为每个平台的热度评价因子不同(热度评价因子可以为阅读量、评论数或者点赞数等其他量化指标),因此爬虫爬取的数据也会存在不同,例如预设平台的热度评价因子为阅读量,预设平台相应的爬虫就会爬取第二文章及该第二文章对应的阅读量。关系数据库可以选择Oracle、db2或者mysql等其他类型的数据库,本发明不做具体限定。
[0093] 其中,构造所述第二文章热度距离特征向量包括:
[0094] 构造无向图,所述无向图中的节点为所述关键词和所述预设平台目标词;
[0095] 判断所述关键词和所述预设平台目标词中是否有任意两个词在一篇文章出现,若是,则对所述两个词对应的两个节点进行连边并计算连边的权重值得到第一计算结果;
[0096] 基于所述第一计算结果,计算所述预设平台目标词节点与所述第二文章关键词节点之间的距离得到第二计算结果;
[0097] 基于所述第二计算结果,构造所述第二文章热度距离特征向量。
[0098] 无向图也就是图中每条边都是无方向的,无向图中的节点只有连边关系不存在指向关系,构造第二文章热度距离特征向量,也就是计算若干第二文章中的关键词与预设平台的目标词(目标词一般为该平台的搜索热词)之前的距离,因此无向图中节点由第二文章中的关键词和预设平台的目标词构成,而无向图中节点间的连边关系则是通过判断关键词与目标词中是否有任意两个词在一篇文章出现,若是,则将相应的关键词与目标词进行连边,然后对无向图中的连边计算权重值,再通过无向图中连边的权重值计算结果计算对应的目标词节点和关键词节点之间的距离,再整合若干目标词节点和关键词节点间距离计算结果,得到第二文章的热度距离特征向量。
[0099] 其中,计算连边的权重值采用如下计算公式:
[0100]
[0101] 为节点p和节点u的连边权重值,n为选取文章的篇数, 为第t篇文章中节点p和节点u在一个段落中共同出现的次数,
, 为第t篇文章的热度权重值, 计算方
式如下:
[0102]
[0103] 为第b篇文章的初始热度值, 为第t篇文章的初始热度值;
[0104] 计算所述预设平台目标词节点与所述第二文章关键词节点之间的距离采用如下计算公式:
[0105]
[0106] 为所述关键词节点p与所述目标词节点q之间的距离,R为所述关键词节点p到所述目标词节点q之间的最短距离,节点u为所述关键词节点p到所述目标词节点q单向路径上的第u个中间节点, 为所述关键词节点p与所述节点u之间的最短距离;
[0107] 获取所述预设平台Q个目标词节点和所述第二文章的P个关键词节点,构造P行Q列的矩阵,基于所述预设平台目标词节点与所述第二文章关键词节点之间的距离的计算公式,循环计算第1列至第Q列的所述第二文章的P个关键词节点到所述预设平台第z个目标词节点的距离并将计算结果进行拼接,1≦z≦Q,直至所述预设平台Q个目标词节点与所述第二文章的P个关键词节点距离计算完成,得到所述第二文章的热度距离特征向量。
[0108] 在计算节点p和节点u的连边权重值时,若选取文章篇数为6(即n为6), 为第t篇文章中节点p和节点u在一个段落中共同出现的次数(当 为0时,则表示第t篇
文章中节点p和节点u在一个段落中共同出现的次数为0,此时节点p和节点u的连边权重值为0),而节点p和节点u的连边权重值就为6篇文章的热度权重值与对应文章中节点p和节点u共同出现次数进行相乘后的和值, 为第3(如t为3)篇文章的热度权重值,它的计算原理就是获取第3篇文章的初始热度值,然后再获取6篇选取文章的初始热度值的和值,其第3篇文章的初始热度值与6篇选取文章初始热度值和值的比值就为第3篇文章的热度权重值。
而在计算预设平台目标词与第二文章关键词之间距离时,R为所述关键词节点p到所述目标词节点q之间的最短距离, 为所述关键词节点p与所述节点u之间的最短距离,而节点
u又为所述关键词节点p到所述目标词节点q单向路径上的第u个中间节点,因此R应该是包含 的。例如获取预设平台10个目标词节点和第二文章的5个关键词节点,构造5行10
列的矩阵,然后计算第1列的5个关键词节点到预设平台第1个目标词节点之间的距离并将对应计算结果作为第1列的数据(如果关键词节点与目标词节点之间不存在连边,则认为关键词节点与目标词节点间的距离为0),再计算第2列的5个关键词节点到预设平台第2个目标词节点之间的距离并将对应计算结果作为第2列的数据,……,计算第10列的5个关键词节点到预设平台第10个目标词节点之间的距离并将对应计算结果作为第10列的数据,至
此,5行10列的矩阵构造完毕,而构造完成的矩阵就为第二文章的热度距离特征向量。
[0109] 其中,构造所述第二文章波动特征向量包括构造情感起伏波动特征向量:
[0110] 获取情感分析模型,并基于所述情感分析模型,分析得到所述第二文章每段情感得分;
[0111] 基于多项式拟合的方法,将所述第二文章每段情感得分拟合成第一曲线;
[0112] 基于奈奎斯特采样定理,在所述第一曲线上选取第一预设数量的采样点采样,采样得到的若干离散点为所述第二文章的情感起伏波动特征向量。
[0113] 其中,构造所述第二文章波动特征向量还包括构造关键词次数波动特征向量:
[0114] 获取关键词次数统计模型,并基于所述关键词次数统计模型,统计得到所述第二文章每段关键词次数;
[0115] 基于多项式拟合的方法,将所述第二文章每段关键词次数拟合成第二曲线;
[0116] 基于奈奎斯特采样定理,在所述第二曲线上选取第二预设数量的采样点采样,采样得到的若干离散点为所述第二文章的关键词次数波动特征向量。
[0117] 其中,构造所述第二文章波动特征向量还包括构造段落字数波动特征向量:
[0118] 获取段落字数统计模型,并基于所述段落字数统计模型,统计得到所述第二文章每段段落字数;
[0119] 基于多项式拟合的方法,将所述第二文章每段段落字数拟合成第三曲线;
[0120] 基于奈奎斯特采样定理,在所述第三曲线上选取第三预设数量的采样点采样,采样得到的若干离散点为所述第二文章的段落字数波动特征向量。
[0121] 首先通过情感分析模型可以准确获取到第二文章每段的情感得分,通过多项式拟合的方法拟合成一段连续的曲线(多项式拟合原理也就是用一个多项式展开去拟合包含数个分析格点的一小块分析区域中的所有观测点,得到观测数据的客观分析场),然后通过奈奎斯特采样定理对第一曲线进行采样,采样的目的是通过有限的采用率,无失真的还原出原有信号的样子,而奈奎斯特采样定理阐述了采样率必须大于被测信号最高频率分量的2倍,当抽样频率小于最高频率分量的2倍时,信号的频谱会存在混叠现象(混叠是指取样信号被还原成连续信号时产生彼此交叠而失真的现象),而采样得到的若干离散点就组成第二文章的情感起伏波动特征向量。对于第二文章关键词次数波动特征向量和段落字数波动特征向量的构造方法与情感起伏波动特征向量原理上相似,本发明不再进行阐述。
[0122] 其中,基于交叉验证和网格搜索的方法,对所述预设神经网络模型进行训练。交叉验证也就是将拿到的训练数据,分成训练集和验证集,比如将一份数据分成4份,其中一份作为验证集,然后经过4次测速,每次都更换不同的验证集,即得到4次模型的结果,取平均值作为最终结果,让预设神经网络模型更加准确可信。在机器学习中,超参数是在开始学习过程之前设置的参数,而不是通过训练得到的数据,通常情况下,需要对超参数进行优化,给学习的机器选择一组最优超参数,来提高学习的性能和效果,网络搜索就是对超参数进行优化,它的原理是通过循环遍历所有候选的参数,将表现最好的参数作为最终的结果,从而得到最优的预设神经网络模型。
[0123] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0124] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。