多源数据融合的事件分析方法、装置、设备及存储介质转让专利

申请号 : CN202110542573.7

文献号 : CN113378565B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴旭颉夏青吴京宸朴炳旭邱莉榕张熙张勇东方滨兴

申请人 : 北京邮电大学

摘要 :

本申请提供一种多源数据融合的事件分析方法、装置、设备及介质,方法包括:获取第一数据源产生的当前文本,并对当前文本进行预处理得到目标文本;根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;根据事件关键词搜索除第一数据源以外的其他数据源产生的相关文本;根据预设的事件热度预测模型对目标文本进行事件热度预测,得到对应的事件热度值;根据预设的摘要抽取模型对目标文本进行摘要抽取,得到对应的事件摘要;将目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于历史事件集中。能够从多数据源对热点舆情事件进行检测和追踪,综合多维特征抽取摘要并预测事件热度,分析当前热点舆情事件。

权利要求 :

1.一种多源数据融合的事件分析方法,其特征在于,包括:获取第一数据源产生的当前文本,并对所述当前文本进行预处理得到目标文本;所述预处理包括对文本进行去停用词、格式化和分词处理;

根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;若是未知事件文本,对目标文本进行事件检测处理并获取对应的事件关键词;若是已知事件文本,对目标文本进行事件追踪处理并获取对应的事件关键词;

根据所述事件关键词搜索除所述第一数据源以外的其他数据源产生的相关文本;

根据预设的事件热度预测模型对所述目标文本及其相关文本进行事件热度预测,得到对应的事件热度值;

根据预设的摘要抽取模型对所述目标文本及其相关文本进行摘要抽取,得到对应的事件摘要;

将所述目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于所述历史事件集中;

所述根据预设的事件热度预测模型对所述目标文本及其相关文本进行事件热度预测,得到对应的事件热度值,包括:获取所述目标文本及其相关文本中事件的多维特征,所述多维特征包括文本流行度、内容敏感度、情感波动值和用户参与度;

将所述多维特征输入事件热度预测模型进行事件热度预测,得到对应的事件热度值;

所述事件热度预测模型是根据历史事件集中历史事件的多维特征及对应的事件热度值为样本集,训练神经网络得到的;

所述根据预设的摘要抽取模型对所述目标文本及其相关文本进行摘要抽取,得到对应的事件摘要,包括:所述目标文本及其相关文本中每个文本包括主贴和至少一个从贴;

对所述目标文本及其相关文本,基于分裂的层次聚类算法进行聚类,得到多个文本簇,其中一个文本簇代表一个事件发展方向;

对于每个文本簇,根据重要性指标计算所述主贴中每个句子的重要性得分,所述重要性指标包括文本社会关注度、文本代表度和文本概括度;

得到所述主贴中每个句子的重要性得分后,选出其中分值最高的一句加入到结果集中;

根据改进的最大边缘相关MMR算法,依次从剩余的句子中选择与当前结果集相似度最小且句子重要性得分最高的句子加入到结果集中;所述改进的MMR算法是指将MMR算法中原来的相似度、冗余度的考量改为句子重要性得分与冗余度的考量;

合并所有文本簇的结果集得到对应的事件摘要。

2.根据权利要求1所述的多源数据融合的事件分析方法,其特征在于,所述事件热度预测模型的网络结构从输入至输出依次为:第一长短期记忆网络LSTM层、第一Dropout层、第二LSTM层、第三LSTM层、第二Dropout层和全连接层。

3.根据权利要求1所述的多源数据融合的事件分析方法,其特征在于,根据所述主贴的从贴数量以及各个从贴的社会关注度权重得到所述文本社会关注度;

根据所述主贴所含关键词占事件本阶段关键词的占比得到所述文本代表度;

对所述主贴,根据TextRank算法得到所述文本概括度。

4.根据权利要求1所述的多源数据融合的事件分析方法,其特征在于,所述根据历史事件集,判断目标文本是已知事件文本还是未知事件文本,包括:将目标文本向量化后,与历史事件集中的每个历史事件对应的事件摘要向量进行相似度比较;

若存在两文本相似度超过预设阈值,则目标文本属于已知事件文本;反之,则目标文本属于未知事件文本。

5.一种多源数据融合的事件分析装置,其特征在于,包括:获取模块,用于获取第一数据源产生的当前文本,并对所述当前文本进行预处理得到目标文本;所述预处理包括对文本进行去停用词、格式化和分词处理;

判断模块,用于根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;若是未知事件文本,对目标文本进行事件检测处理并获取对应的事件关键词;若是已知事件文本,对目标文本进行事件追踪处理并获取对应的事件关键词;

搜索模块,用于根据所述事件关键词搜索除所述第一数据源以外的其他数据源产生的相关文本;

事件热度模块,用于根据预设的事件热度预测模型对所述目标文本及其相关文本进行事件热度预测,得到对应的事件热度值;

摘要抽取模块,用于根据预设的摘要抽取模型对所述目标文本及其相关文本进行摘要抽取,得到对应的事件摘要;

存储模块,用于将所述目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于所述历史事件集中;

所述事件热度模块,具体用于:

获取所述目标文本及其相关文本中事件的多维特征,所述多维特征包括文本流行度、内容敏感度、情感波动值和用户参与度;

将所述多维特征输入事件热度预测模型进行事件热度预测,得到对应的事件热度值;

所述事件热度预测模型是根据历史事件集中历史事件的多维特征及对应的事件热度值为样本集,训练神经网络得到的;

所述摘要抽取模块,具体用于:

所述目标文本及其相关文本中每个文本包括主贴和至少一个从贴;

对所述目标文本及其相关文本,基于分裂的层次聚类算法进行聚类,得到多个文本簇,其中一个文本簇代表一个事件发展方向;

对于每个文本簇,根据重要性指标计算所述主贴中每个句子的重要性得分,所述重要性指标包括文本社会关注度、文本代表度和文本概括度;

得到所述主贴中每个句子的重要性得分后,选出其中分值最高的一句加入到结果集中;

根据改进的最大边缘相关MMR算法,依次从剩余的句子中选择与当前结果集相似度最小且句子重要性得分最高的句子加入到结果集中;所述改进的MMR算法是指将MMR算法中原来的相似度、冗余度的考量改为句子重要性得分与冗余度的考量;

合并所有文本簇的结果集得到对应的事件摘要。

6.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至4中任一项所述的方法。

说明书 :

多源数据融合的事件分析方法、装置、设备及存储介质

技术领域

[0001] 本申请涉及信息处理技术领域,尤其涉及一种多源数据融合的事件分析方法、装置、设备及存储介质。

背景技术

[0002] 随着互联网的发展与普及,以论坛、新浪微博、Twitter等为代表的网络社区和社交媒体迅猛发展。与传统新闻媒体不同,网络论坛和社交媒体具有即时分享、海量数据、快速传播等特点,人们每天都会在社交网络中会创建各式各样的内容,包括文本、照片、视频等,这些网络数据同时也是现实世界的映射,反映了日常现实世界的事件。以新浪微博为例,用户可以通过手机APP、网页等登陆方式随时随地发表自己的见解,评论或转发他人的微博。网络社区和社交媒体逐渐代替传统新闻媒体成为事件传播的重要途径。然而网络社区和社交媒体的短文本特性导致了信息的碎片化,如何梳理总结大量碎片化的数据从而掌握跟踪社会重大热门事件的发展变化,对于网络舆情环境的治理有着重要意义。在海量的数据中,如何快速掌握一个热点事件的演化过程并以简明扼要的摘要形式呈现给用户,成为了文本分析领域的一个研究热点。事件检测与追踪起源于话题检测与追踪(Topic Detection and Tracking,TDT)研究,话题检测与追踪是一项对新闻媒体信息流进行未知话题识别和已知话题追踪的技术,事件定义为“在特定时间讨论相关话题并引起文本数据量变化的事物”。事件指将可描述的人物、地点、时间、行为聚集起来的事物。事件检测和追踪旨在通过分析数据从而系统的描述现实生活中的重大事件,同时监测事件的变化,如出现、消逝、扩展、收缩等。总的来说,事件及其后续发展展示了某社会现象随时间的变化。因此,如何精准检测事件和全方位的分析事件是本领域技术人员亟需解决的技术问题。

发明内容

[0003] 为解决以上问题,本申请第一方面提供一种多源数据融合的事件分析方法,包括:
[0004] 获取第一数据源产生的当前文本,并对所述当前文本进行预处理得到目标文本;
[0005] 根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;若是未知事件文本,对目标文本进行事件检测处理并获取对应的事件关键词;若是已知事件文本,对目标文本进行事件追踪处理并获取对应的事件关键词;
[0006] 根据所述事件关键词搜索除所述第一数据源以外的其他数据源产生的相关文本;
[0007] 根据预设的事件热度预测模型对所述目标文本及其相关文本进行事件热度预测,得到对应的事件热度值;
[0008] 根据预设的摘要抽取模型对所述目标文本及其相关文本进行摘要抽取,得到对应的事件摘要;
[0009] 将所述目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于所述历史事件集中。
[0010] 本申请第二方面提供一种多源数据融合的事件分析装置,包括:
[0011] 获取模块,用于获取第一数据源产生的当前文本,并对所述当前文本进行预处理得到目标文本;
[0012] 判断模块,用于根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;若是未知事件文本,对目标文本进行事件检测处理并获取对应的事件关键词;若是已知事件文本,对目标文本进行事件追踪处理并获取对应的事件关键词;
[0013] 搜索模块,用于根据所述事件关键词搜索除所述第一数据源以外的其他数据源产生的相关文本;
[0014] 事件热度模块,用于根据预设的事件热度预测模型对所述目标文本及其相关文本进行事件热度预测,得到对应的事件热度值;
[0015] 摘要抽取模块,用于根据预设的摘要抽取模型对所述目标文本及其相关文本进行摘要抽取,得到对应的事件摘要;
[0016] 存储模块,用于将所述目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于所述历史事件集中。
[0017] 本申请第三方面提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。
[0018] 本申请第四方面提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。
[0019] 本申请的优点在于:针对网络论坛和社交媒体等数据源的数据特点,结合其特有的文本结构和情感特征,从多数据源对热点舆情事件进行检测和追踪,综合多维特征抽取事件阶段性摘要并预测事件热度,分析当前热点舆情事件。通过精准检测事件和全方位的分析,帮助研究人员提取海量信息碎片,了解事件态势,为舆情监测工作提供支持。

附图说明

[0020] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:
[0021] 图1是本申请提供的一种多源数据融合的事件分析方法的流程图;
[0022] 图2是本申请提供的一种具体的多源数据融合的事件分析方法的流程图;
[0023] 图3是本申请提供的一种文本中主帖与多个从帖的关系示意图;
[0024] 图4是本申请提供的本申请提供的多源数据融合的流程图;
[0025] 图5是本申请提供的事件热度预测模型的网络结构示意图;
[0026] 图6是本申请提供的对七类事件进行了优先级评分的示意图;
[0027] 图7是本申请提供的基于主从贴词共现关系图的多源事件检测流程图。

具体实施方式

[0028] 下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0029] 传统新闻媒体大多为长文本,网络论坛和社交媒体则多为短文本,且具有评论、回复、转发等多层级文本结构。传统事件检测技术通过聚类分析数据流的时间突发特征来识别事件。聚类的主要问题在于可伸缩性问题,根本的解决方案是减少不相关和有噪声的数据。考虑到网络社区和社交媒体文本长度较短,可以通过引入更多的数据来解决词向量的特征稀疏问题。许多事件检测和跟踪技术引入了评论、回复和转发文本来丰富数据量。但这样忽视了主从贴之间的内在联系,加入数据的噪声会大大降低聚类结果的准确性。同时一件事件的发生通常会引起多个数据源的讨论,在一个源检测到事件以后,结合其他源事件相关文本同样有助于增加事件信息量。
[0030] 如何确保所添加数据的相关性成为事件检测技术改进的一个方向。检测到事件后,对已知事件进行事件追踪需要对数据进行划分,对每段时间的帖子检测新增突发词,合理的划分模型应该考虑到帖子多、时间间隔短,帖子少、时间间隔长的特性。但传统事件追踪方法都忽视了文本中包含的大量情感信息,在事件发生转折或变化时一定会有情感波动。追踪到事件变化后,也需要进行现有文本的摘要抽取并对当前热度趋势对未来事件发展进行预测,方便研究人员快速了解事件内容和发展趋势。抽取合理有效的特征进行摘要抽取、评估事件热度并设计合理的预测模型预测事件趋势也是目前亟待解决的问题。
[0031] 针对以上问题,本申请分析网络论坛和社交媒体的数据特点,改进并设计事件检测与追踪模型、热度预测及摘要抽取模型,从多数据源分析海量数据检测事件并分析预测,及时检测热点舆情事件并监测事件发展变化,为构造良好的舆情环境提供支持。
[0032] 本申请实施例提供一种多源数据融合的事件分析方法、装置、设备及存储介质,下面结合附图进行说明。
[0033] 请参考图1和2,图1示出了本申请所提供的一种多源数据融合的事件分析方法的流程图,图2示出了本申请所提供的一种具体的多源数据融合的事件分析方法的流程图,如图1所示,所述方法可以包括以下步骤S101至S102:
[0034] S101:获取第一数据源产生的当前文本,并对所述当前文本进行预处理得到目标文本;
[0035] 具体的,如图2所示,第一数据源可以是数据源A,数据源B和数据源C为其他数据源,数据源可以是网络社区与社交媒体,如Twitter、新浪微博、知乎等。文本结构都由主贴和至少一种从帖构成。新浪微博由主帖、评论、回复和转发组成,知乎由主帖、评论和回复组成。不同类型的文本特点不同,与新闻媒体的单一文本相比,主帖更具总结性和概括性,评论更集中的展示了帖子内容的一部分,回复是评论讨论的延伸,转发在传播事件的同时转发对帖子的意见,本申请将这种文本结构关系称为文本链。与传统的聚类算法相比,词关系图能够检测出词的时空频率,并能灵活地进行扩展。本申请以主贴为主,其评论、回复和转发为从帖,结合主从帖关系改进词共现关系图并进行事件检测。
[0036] 图3以微博为例展示了文本间的主从帖关系。以微博为例,主帖为微博,从帖包括:主帖的评论、主帖评论的回复、主帖的转发、主帖转发的评论和主帖转发评论的回复,一共5类。如图2所示,主帖为Post A;第一从帖为主帖的评论,包括:CommentB和CommentC;第二从帖为主帖的评论,包括:ReplyD;第三从帖为主帖的转发,包括:RepostE;第四从帖为主帖转发的评论,包括:Comment F和Comment G;第五从帖为主帖转发评论的回复,包括:Reply H。
主帖的评论、主帖评论的回复、主帖的转发、主帖转发的评论和主帖转发评论的回复均隶属与主帖,而主帖转发的评论和主帖转发评论的回复还隶属于主帖的转发。
[0037] 第一数据源产生的当前文本可以理解为数据源A产生的实时数据流,例如新浪微博产生的关于某个事件的微博。
[0038] 所述预处理可以包括对文本进行去停用词、格式化和分词处理。
[0039] 例如,网络社区与社交媒体由于其文本较短、口语化、结构复杂等特点,与新闻媒体的文本差异较大。文本中的表情、无意义助词、URL链接、网络用语如“2333”等都不具有真实含义且频繁出现,会影响具有实际意义文本的分析,因此在对文本分析前应当构建合理的停用词表对文本过滤。同时网络社区与社交媒体的文本格式会存在“@用户名”“转发//”等形式,需要用正则表达式对该类格式匹配过滤。在文本分析需要将句子划分为词集,“北京邮电大学”需要能保证正确划分,而不是被拆分为“北京”和“邮电大学”。本申请采用jieba分词工具,通过使用动态规划查找最大概率路径,精确基于词频划分文本。经过去停用词、格式化、分词等过程完成文本的预处理。
[0040] S102:根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;若是未知事件文本,对目标文本进行事件检测处理并获取对应的事件关键词;若是已知事件文本,对目标文本进行事件追踪处理并获取对应的事件关键词;
[0041] 其中,历史事件集中存储有历史文本及其对应的事件、事件关键词、数据源、相关文本、事件热度值和事件摘要等信息。
[0042] 如图2所示,在完成当前文本预处理得到目标后,可以通过预设的实时过滤器及历史事件集将目标文本分为未知事件文本或已知事件文本。具体的,将目标文本向量化后,与历史事件集中的每个历史事件对应的事件摘要向量进行相似度比较;若存在两文本相似度超过预设阈值,则目标文本属于已知事件文本;反之,则目标文本属于未知事件文本。
[0043] 如图2所示,对于未知事件文本,本申请收集等时间长度的文本作为输入数据(即通过固定时间划分时序),然后基于主从帖关系进行未知事件的检测。对于已知事件文本,本申请基于情感特征划分数据(通过情感波动划分时序),用相邻词关系图的差异来跟踪已知事件的变化。对于事件检测和追踪可以采用相关的事件检测和追踪模型,本申请对此不再赘述。
[0044] 实际应用中,可以使用TextRank算法对目标文本抽取事件关键词,通过拆分单词构建网络图模型,根据词语间相似度计算单词重要性,最终根据单词权重排序得到事件关键词。
[0045] S103:根据所述事件关键词搜索除所述第一数据源以外的其他数据源产生的相关文本;
[0046] 请参考图4,其示出了本申请提供的多源数据融合的流程图。
[0047] 具体的,网络社区与社交媒体的文本结构都具有主从帖的结构,但从帖的构成不尽相同。以知乎和微博为例,知乎具有主贴和评论两种结构,微博具有主贴、评论、回复、转发、转发的评论、转发的回复共六种组成。因此对每个数据源都要单独代入事件检测与追踪模型。对本数据源事件检测或事件追踪完成后,使用词关系图关键词集搜索其他数据源,对搜索到的其他源文本对比文本相似度,可以使用余弦相似度算法,将得到的文本相似度对比相似度阈值,将超过相似度阈值的其他源文本作为相关文本,与本数据源文本一起添加至历史事件集的相关信息中。
[0048] S104:根据预设的事件热度预测模型对所述目标文本及其相关文本进行事件热度预测,得到对应的事件热度值;
[0049] 具体的,S104包括:获取所述目标文本及其相关文本中事件的多维特征,所述多维特征包括文本流行度、内容敏感度、情感波动值和用户参与度;将所述多维特征输入事件热度预测模型进行事件热度预测,得到对应的事件热度值;所述事件热度预测模型是根据历史事件集中历史事件的多维特征及对应的事件热度值为样本集,训练神经网络得到的。
[0050] 如图5所示,所述事件热度预测模型的网络结构从输入至输出依次为:第一长短期记忆网络LSTM层、第一Dropout层、第二LSTM层、第三LSTM层、第二Dropout层和全连接层。
[0051] 事件热度随着事件的一系列特征不断变化,文本数量、参与讨论人数、讨论内容等特征都展示着事件热度,追踪到事件变化阶段后,根据当前热度趋势对未来事件发展进行预测可以辅助研究人员判断事件紧急程度。
[0052] 事件热度预测首先需要对事件热度进行度量,单独计算文本数量不能完全展示事件热度,需要从多维特征对事件热度进行分析度量。本申请根据文本流行度、内容敏感度、情感波动值、用户参与度计算事件热度值。文本流行度根据当前时间段相关文本数量进行度量,内容敏感度基于相关的舆情分析预警模型进行计算,情感波动值基于事件追踪时的情感得分进行计算,用户参与度根据当前时间段参加讨论的用户数量计算得到。最终结合四个维度特征计算事件的最终热度,作为当前阶段的事件热度值代入后续预测模型进行分析。
[0053] 1、文本流行度
[0054] 文本流行度P代表了当前时间段相关文本数量的热度。网络社区和社交媒体的文本通常具有主从贴之分,在计算文本数量热度时,本申请将所有类型文本统一视为对本事件的一次讨论。但网络社区和社交媒体中会存在同一人多次重复发帖的现象,如果多次发帖但内容没有任何变化,将其视为机器人恶意发帖,不将其计算入文本流行度中,由此得到真实发帖数。
[0055] 2、情感波动值
[0056] 情感波动值Sf代表了人们在本时间段对本事件争论程度,是对事件本阶段内容情感方面的考量。本事件阶段的情感得分首先由情感词典计算所有文本情感值总和得到,与事件之前阶段情感得分差距越大的越容易引起后续讨论,因此本申请计算本事件阶段与事件前t个阶段情感得分的标准差μ,再对标准差标准化,避免情感波动值没有统一标准对整体事件热度得分影响过大。数据标准化指将数据按比例缩放至某一指定区间。常用的数据标准化方法有离差标准化、标准差标准化、函数标准化等,离差标准化与标准差标准化都是根据所有样本数据得到数学特征如标准差、最大差异等才能计算,本申请无法获取所有事件样本数据因此更适用于函数标准化方法。使用反正切函数将所有μ值限制到[0,1]区间,然后加上0.5将所有情感波动值限制到[0.5,1.5]之间。具体计算公式如下:
[0057] Sentimentfluctuate=acrtan(μ)×2/π+0.5。
[0058] 3、用户参与度
[0059] 用户参与度U代表了当前时间段参加讨论的人数热度。网络社区与社交媒体中不同的文本内容代表着不同的参与度。以结构最复杂的微博为例,主贴对应着评论、回复、转发三种从帖,但评论、回复与转发是部分重合的,用户可以单独评论、评论的同时转发、单独回复、回复的同时转发、快速转发(转发时不发表自己见解)、单独转发(转发的同时发表见解)。本申请将没有附加信息的操作,如单独评论、单独回复、单独转发视为发表自己的见解,将有附加信息的操作,如评论的同时转发、回复的同时转发视为发表自己见解的同时传播事件,用户参与度更高,将没有发表个人见解的操作,如快速转发视为小范围传播事件,用户参与度更低。由此获得三种参与度类型:发表见解的用户UC、发表见解并传播事件的用户UCS、传播事件的用户US,计算加权的参与度得分。发表见解会引发讨论,权重设置为1.3,传播事件会增加用户关注事件的几率,权重设置为1.1,发表见解并传播事件综合了以上两种优势,权重设置为1.5,由此得到用户参与度计算公式如下:
[0060] U=1.1×US+1.3×UC+1.5×UCS。
[0061] 4、内容敏感度
[0062] 内容敏感度Sc代表研究人员对不同敏感程度事件的关注程度,内容越敏感的舆情事件越需要重视并持续观测。上述舆情分析预警模型分为舆情分析模块和舆情预警模块两部分,舆情分析模块通过情感倾向判别、类别判别和关键词识别三部分初步分析文本,舆情预警模块在舆情分析模块的基础上计算从而得到内容敏感度。
[0063] 舆情分析模块首先通过情感倾向判别过滤所有正向文本,后续分析中仅使用中向及负向文本,从而减少分析模块任务量。情感倾向判别使用情感词典方法检测情感词、否定词和程度副词得到每个句子情感得分。由于每个文本都由多个句子构成,计算所有句子情感得分的平均值即为本文本情感倾向得分。过滤掉文本情感倾向得分大于零的数据则完成初步数据过滤。接着对文本进行类别判别,本申请搭建了针对群体、管理、领导、学生、伤病、政治、宗教七类事件的舆情知识库(L),知识库存储了每类事件的人物、地点、事件三大词库。文本中通常存在施事词(A0)、受事词(A1)、地点词(LOC)、谓语(P1)四类关键词,根据三元组A0、A1、LOC或三元组A0、A1、P1是否对应舆情知识库某类事件判断该文本的类别。最后对文本中的关键词进行识别,本申请通过人工总结及近义词扩展构建了实体敏感库,包含敏感人名、地名、机构名等重点关注实体及其舆情得分,将包含在实体敏感库或舆情知识库的词语识别为关键词供后续分析。
[0064] 得到所有中向或负向文本的事件类别和关键词后,首先由识别出的关键词计算语句敏感度,综合考虑所有语句及事件类别后得到文本敏感度。语句敏感度计算模型获取语句中关键词及其对应舆情得分POI,根据关键词及其依存关系词汇匹配语法模式获取该关键词最终舆情得分,如关键词与定中关系的名词同时出现则将POI(关键词)与POI(名词)相加,关键词与状中关系的动词同时出现则通过强调词库和否定词库获取动词权重与POI(关键词)相乘。然后计算整个文本的敏感度,如图6所示本申请对七类事件进行了优先级评分。
[0065] 所有语句类别得分与语句舆情得分相乘之和为整个文本的舆情得分,根据公式4‑1将舆情得分归一化后分为三类敏感度,第一级别敏感度最高,本申请将其权重设置为1.5,第二级别敏感度中等,本申请将其权重设置为1.3,第三级别敏感度较低,本申请将其权重设置为1.1,如公式4‑2所示。
[0066]
[0067]
[0068] 5、事件热度计算
[0069] 最终的事件热度H由以上四个参数:文本流行度、情感波动值、用户参与度、内容敏感度综合决定。由于文本流行度与用户参与度是相辅相成的,文本越流行参与用户也倾向于越多,因此事件热度首先由文本流行度和用户参与度得到平均值作为客观因素的影响,情感波动值与内容敏感度都代表了研究人员对事件的重视度,因此作为主观因素与客观因素相乘,最终得到基于舆情的事件热度。
[0070] 本申请提供了一种快速计算事件热度的方法,具体计算公式如下:
[0071]
[0072] 本申请还提供了一种基于神经网络预测事件热度的方法,具体方法如下。
[0073] 随着事件的发展变化,可以根据各种特征对事件热度进行预测,通过神经网络可以深度学习各个事件热度特征从而准确预测事件热度。
[0074] 神经网络模型通常由输入层、输出层、隐含层组成。输入层输入特征向量进行特征学习,输出层根据解决问题不同采用不同的神经网络层,隐含层指除了输入层与输出层之外的其他各层,计算并抽象各种特征。神经网络模型从全连接的卷积神经网络DNN模型逐渐发展为卷积神经网络CNN、循环神经网络RNN等,卷积神经网络由于其局部感知等特点更适合于图像处理、语音识别等领域,循环神经网络则由于其串联的特点更适合处理时序性数据,如热度预测、股票预测、心电信号预测疾病等场景。本申请设计循环神经网络模型,使用文本流行度、内容敏感度、情感波动值、用户参与度等参数对事件热度进行预测,模型如图5所示。
[0075] RNN模型改进了传统神经网络模型只在层之间建立权连接的方式,在层之间的神经元间也建立了权连接。本申请中使用的LSTM模型是对RNN模型的优化,LSTM模型可以在循环网络的学习中调整权重,由此缓解RNN模型在长距离中存在的梯度消失和梯度爆炸问题,更适用于本申请场景。Dropout层是为了防止每次模型学习的过拟合问题,同时提高模型的训练效率。最后使用Dense全连接层通过非线性变化汇聚所有信息,将之前提取的特征映射输出。本申请针对热度预测的时序性特点设计了神经网络模型对事件热度预测,通过对文本流行度、内容敏感度、情感波动值、用户参与度等维度的深度学习,辅助研究人员预测事件未来发展。
[0076] S105:根据预设的摘要抽取模型对所述目标文本及其相关文本进行摘要抽取,得到对应的事件摘要;
[0077] 具体的,S105包括以下步骤:
[0078] 所述目标文本及其相关文本中每个文本包括主贴和至少一个从贴;
[0079] 对所述目标文本及其相关文本,基于分裂的层次聚类算法进行聚类,得到多个文本簇,其中一个文本簇代表一个事件发展方向;
[0080] 对于每个文本簇,根据重要性指标计算所述主贴中每个句子的重要性得分,所述重要性指标包括文本社会关注度、文本代表度和文本概括度;
[0081] 得到所述主贴中每个句子的重要性得分后,选出其中分值最高的一句加入到结果集中;
[0082] 根据改进的最大边缘相关MMR算法,依次从剩余的句子中选择与当前结果集相似度最小且句子重要性得分最高的句子加入到结果集中;所述改进的MMR算法是指将MMR算法中原来的相似度、冗余度的考量改为句子重要性得分与冗余度的考量;
[0083] 合并所有文本簇的结果集得到对应的事件摘要。
[0084] 其中,根据所述主贴的从贴数量以及各个从贴的社会关注度权重得到所述文本社会关注度;根据所述主贴所含关键词占事件本阶段关键词的占比得到所述文本代表度;对所述主贴,根据TextRank算法得到所述文本概括度。
[0085] 具体的,获取事件各阶段关键词集后并不能直接看出事件内容。为了快速获取海量事件短文本数据的有效信息,就需要对事件短文本进行摘要抽取。在传统摘要提取过程中,通常对事件整体进行摘要抽取,但在应用到事件各演化阶段生成摘要时,要着重概括当前阶段的事件发展状况。本申请基于语义和事件关键词集划分事件摘要候选集,结合事件当前阶段的关键词集改进摘要抽取算法,同时避免摘要内容冗余,最终生成事件各演化阶段摘要。
[0086] 首先,本申请基于分裂的层次聚类算法聚类出多个文本簇,代表事件发展阶段的各方面。层次聚类算法根据簇与簇的距离不断合并或分裂,最终根据阈值设定得到合适的簇划分结果。层次聚类有“分裂”和“凝聚”两种划分方式,分裂的划分方式将所有文本化为一个初始大簇,后续不断划分该簇直至满足簇阈值设定,凝聚的划分方式将每条文本都看作一个小簇,不断比对每小簇之间的间距并合并,最终到达阈值停止合并。根据层次聚类算法可得到当前事件发展阶段的各个讨论方面,对每个簇进行摘要抽取后合并成为当前事件阶段的摘要。
[0087] 最大边缘相关算法MMR(Max Margin Relevance)通常用于信息检索领域,它可以在保证检索相关性的同时尽量避免查询结果的冗余。MMR算法的原理是从未排序的网页中选择和查询词相关度最高同时与已排序的网页相似度最小的网页加入到已排序的集合中。而相关度与相似度两者的权重由一个系数控制,系数越大,表示相关度的权重越高,相似度的权重越低。本申请将改进MMR算法相关度参数的计算,将原来的相似度、冗余度的考量改为句子重要性与冗余度的考量。MMR算法公式如公式5‑1所示,Score函数表示句子重要性得分。
[0088] S=Argmax[λSocre(di)‑(1‑λ)maxSim(di,dj)]   (5‑1)
[0089] 其中,di、dj表示文本中的某个句子。
[0090] 在摘要抽取中,通常使用句子重要性代替相关度带入算法中,本申请结合三个指标计算句子重要性:文本社会关注度、文本代表度和文本概括度。
[0091] 文本社会关注度根据转发、评论、回复的文本数量计算。由于转发传播性高且容易引起广泛讨论,评论仅在主贴下方可阅仅抒发本人观点,回复是更小众范围的评论,因此本申请设置转发的社会关注度权重为1.2,评论的社会关注度为1,回复的社会关注度为0.8,结合社会关注度权重和所有类型文本数量计算对应主贴的文本社会关注度。
[0092] 文本代表度基于词关系图抽取其转发、评论、回复等文本的关键词,然后计算该关键词与本文本的关联程度。基于关键词的权重计算本主贴所含关键词占事件本阶段关键词的占比。
[0093] 文本概括度基于TextRank算法得到句子评分后归一化得到本簇内文本概括度评分。TextRank方法在构建模型时使用两结点的相似度作为边的相似度,因此文本中高概括性的句子往往能得到较高的评分。
[0094] 最终结合文本社会关注度Wa、文本代表度、文本概括度WN三个参数计算句子重要性得分。计算公式如5‑2所示:
[0095]
[0096] 得到每个主贴句子重要性得分后,选出其中分值最高的一句加入到结果集中,此后,依次从剩余的句子中根据改进的MMR算法选择与当前结果集相似度最小且句子重要性得分最高的句子加入到结果集中。合并所有文本簇的结果集,最终得到该事件阶段的各方面摘要总和。
[0097] S106:将所述目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于所述历史事件集中。如图2所示。
[0098] 本申请实施例提供的多源数据融合的事件分析方法,针对网络论坛和社交媒体等数据源的数据特点,结合其特有的文本结构和情感特征,从多数据源对热点舆情事件进行检测和追踪,综合多维特征抽取事件阶段性摘要并预测事件热度,分析当前热点舆情事件。通过精准检测事件和全方位的分析,帮助研究人员提取海量信息碎片,了解事件态势,为舆情监测工作提供支持。
[0099] 为了便于理解本申请,下面详细对基于词共现关系图检测事件方法进行介绍。
[0100] 两个词在文本中同时出现则认为两词关系为正相关,每一个词作为一个节点。使用词频逆文档频率(Term Frequency‑Inverse Document Frequency,TF‑IDF),分别计算词的权重,所有文本中单词的权重相加得到词关系图中该节点的权重。使用词频逆文档频率计算关键词权重的方法如下:
[0101]
[0102] 其中,每个文档(每个主帖或从帖)Dj={w1j,w2j,…,wkj},wi,j表示每个关键词i在文档(主帖或从帖)j中的权重。 用于计算每个关键词i的频率,ni,j表示关键词i在文档j中出现的次数,∑kni,j表示文档j中关键词i出现次数的总和, 表示文档总数除以包含关键词的文档数。最后将关键词i在所有文档中的权重相加,得到节点i的权重:
[0103] wi=Σwi,j
[0104] 其次,分别计算历史主帖关键词之间的边权重、第一从帖关键词之间的边权重、第二从帖关键词之间的边权重、第三从帖关键词之间的边权重、第四从帖关键词之间的边权重和第五从帖关键词之间的边权重。
[0105] 边权重edges,z的计算方法为使用两词共现频率乘以引导词权重,如下所示:
[0106]
[0107] 其中,ns表示关键词s在本次获取到的所有文本中出现的次数,nz表示关键词z在本次获取到的所有文本中出现的次数,nall表示本次获取到的所有文本的总数,ns,z表示关键词s和关键词z在本次获取到的所有文本中共同出现的次数。
[0108] 根据主从帖的关系,本申请在上述方法的基础上,构造了从帖的词关系图,并将主贴与对应从帖的图结合起来检测事件。首先,本申请分别构建了评论、回复、转发、转发的评论和转发的回复五个从词关系图。然后根据对应主贴的内容合并从图。找到从图的连通子图,将包含原贴中单词的子图添加到原贴的图中。同时,将重复边权重相加。构建好每个主贴的无向从图后,将每个从图添加到主图G。同样对所有的主贴构造一个词关系图,并将该图添加到主图G中。最后剪掉权重过小的边,去掉权重过小的节点,得到G的连通子图。主图G的每个联通子图代表着一个事件。按照节点权重对子图中的关键词排序,搜索本数据源与其他源中包含子图前五个单词的帖子,将其归属于相对应的事件。如图7所示为基于主从贴词共现关系图的多源事件检测流程图。
[0109] 为了便于理解本申请,下面详细对基于情感时序的事件追踪方法进行介绍。
[0110] 追踪事件需要将实时数据流划分为多个单元,并检测每个单元中的突发词。主要有两种划分方法:基于等长时间序列(TETS)和基于等数量时间序列(PETS)。一个是按固定时间长度对文本进行切片,另一个是将固定数量的文本分成一块。但情感特征在事件跟踪中起着重要作用。事件的变化总是伴随着情感的波动。本申请提出了情感时间序列来划分文本,保证了相邻时间序列之间有足够的差异,并能准确地检测到事件的变化。
[0111] 通过情感词典确定的情绪词汇一共有3类,分别为情绪词、程度副词和否定词。情绪词表达对事物的情绪(情感)评价;程度副词没有情绪(情感)倾向,但能增强或减弱情绪(情感)强度;否定词也没有情绪(情感)倾向,但它能改变情绪(情感)的极性。根据上述3种情绪词汇,计算与历史事件对应的当前当前情感得分。虽然情感词典是通用的,即每个事件(历史事件)使用的是同一个情感词典,但是各事件中包括的情绪词汇可能不同,因此需要确定于历史事件对应的情绪词汇。
[0112] 对事件的阶段进行追踪。根据高斯分布、多个历史情感得分和当前情感得分计算平均值μ和标准差σ。再根据计算平均值μ和标准差σ,确定第一阈值和第二阈值。其中,第一阈值为μ‑2σ,第二阈值为μ+2σ。判断当前情感得分是否在第一阈值和第二阈值的范围内,即当前情感得分是否小于第一阈值或大于第二阈值。若是,则此当前情感得分对应的历史事件处于变化阶段;若否,则此当前情感得分对应的历史事件处于非变化阶段。每个历史事件的阶段分别计算。所有时间单位分为两类:事件变化阶段和非变化阶段。所有具有相同阶段的连续得分都属于同一情感时间序列,利用情感时间序列方法完成了此主帖的整个划分过程。假设计算得到的历史事件A的当前情感得分属于变化阶段,且此当前情感得分的前一个时间段的情感得分也属于变化阶段,则这两个时间段一起被划分为一个事件变化阶段;若此当前情感得分的前一个时间段的情感得分不属于变化阶段,则当前情感得分对应的时间段被单独划分为一个事件变化阶段。
[0113] 相对于现有技术,本申请提出的多源数据融合的事件分析方法具有的有益效果如下:
[0114] 第一,针对多源文本特征稀疏的问题,提出了基于文本链的事件检测追踪模型及方法。结合文本结构的多级主从关系构建文本链,改进多源事件检测方法,提升事件检测的精准度;融合文本情感特征,采用基于情感时序的事件追踪方法,增强准确发现事件变化的灵敏度。
[0115] 第二,针对单一维度无法准确刻画事件趋势的问题,提出基于文本流行度、内容敏感度、情感波动值、用户参与度的事件热度计算方法,训练神经网络对事件热度预测。并且基于文本社会关注度、文本代表度和文本概括度抽取摘要,得到事件每阶段的精准摘要总结。
[0116] 第三,设计并实现面向热点的舆情事件分析系统,涵盖事件检测、事件追踪、事件热度预测、摘要抽取等事件全生命周期分析。
[0117] 综上,本申请提出的事件检测、事件追踪、事件热度预测、摘要抽取方法能够更有效地发现网络社区和社交媒体中的热点舆情事件,更准确地分析事件变化趋势并形成简明扼要的摘要。
[0118] 在上述的实施例中,提供了一种多源数据融合的事件分析方法,与之相对应的,本申请还提供一种多源数据融合的事件分析装置。
[0119] 本申请提供的一种多源数据融合的事件分析装置,包括:
[0120] 获取模块,用于获取第一数据源产生的当前文本,并对所述当前文本进行预处理得到目标文本;
[0121] 判断模块,用于根据历史事件集,判断目标文本是已知事件文本还是未知事件文本;若是未知事件文本,对目标文本进行事件检测处理并获取对应的事件关键词;若是已知事件文本,对目标文本进行事件追踪处理并获取对应的事件关键词;
[0122] 搜索模块,用于根据所述事件关键词搜索除所述第一数据源以外的其他数据源产生的相关文本;
[0123] 事件热度模块,用于根据预设的事件热度预测模型对所述目标文本及其相关文本进行事件热度预测,得到对应的事件热度值;
[0124] 摘要抽取模块,用于根据预设的摘要抽取模型对所述目标文本及其相关文本进行摘要抽取,得到对应的事件摘要;
[0125] 存储模块,用于将所述目标文本及其对应的事件关键词、数据源、相关文本、事件热度值和事件摘要关联存储于所述历史事件集中。
[0126] 在本申请一些实施方式中,所述事件热度模块,具体用于:
[0127] 获取所述目标文本及其相关文本中事件的多维特征,所述多维特征包括文本流行度、内容敏感度、情感波动值和用户参与度;
[0128] 将所述多维特征输入事件热度预测模型进行事件热度预测,得到对应的事件热度值;所述事件热度预测模型是根据历史事件集中历史事件的多维特征及对应的事件热度值为样本集,训练神经网络得到的。
[0129] 在本申请一些实施方式中,所述事件热度预测模型的网络结构从输入至输出依次为:第一长短期记忆网络LSTM层、第一Dropout层、第二LSTM层、第三LSTM层、第二Dropout层和全连接层。
[0130] 在本申请一些实施方式中,所述摘要抽取模块,具体用于:
[0131] 所述目标文本及其相关文本中每个文本包括主贴和至少一个从贴;
[0132] 对所述目标文本及其相关文本,基于分裂的层次聚类算法进行聚类,得到多个文本簇,其中一个文本簇代表一个事件发展方向;
[0133] 对于每个文本簇,根据重要性指标计算所述主贴中每个句子的重要性得分,所述重要性指标包括文本社会关注度、文本代表度和文本概括度;
[0134] 得到所述主贴中每个句子的重要性得分后,选出其中分值最高的一句加入到结果集中;
[0135] 根据改进的最大边缘相关MMR算法,依次从剩余的句子中选择与当前结果集相似度最小且句子重要性得分最高的句子加入到结果集中;所述改进的MMR算法是指将MMR算法中原来的相似度、冗余度的考量改为句子重要性得分与冗余度的考量;
[0136] 合并所有文本簇的结果集得到对应的事件摘要。
[0137] 在本申请一些实施方式中,根据所述主贴中句子的从贴数量以及各个从贴的社会关注度权重得到所述文本社会关注度;根据所述主贴中句子所含关键词占事件本阶段关键词的占比得到所述文本代表度;对所述主贴中句子,根据TextRank算法得到所述文本概括度。
[0138] 在本申请一些实施方式中,所述预处理包括对文本进行去停用词、格式化和分词处理。
[0139] 在本申请一些实施方式中,所述判断模块,具体用于:
[0140] 将目标文本向量化后,与历史事件集中的每个历史事件对应的事件摘要向量进行相似度比较;
[0141] 若存在两文本相似度超过预设阈值,则目标文本属于已知事件文本;反之,则目标文本属于未知事件文本。
[0142] 本申请实施例提供的多源数据融合的事件分析装置,与本申请前述实施例提供的多源数据融合的事件分析方法出于相同的发明构思,具有相同的有益效果。
[0143] 本申请实施方式还提供一种与前述实施方式所提供的多源数据融合的事件分析方法对应的电子设备,该电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述多源数据融合的事件分析方法。所述电子设备可以是用于客户端的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等。
[0144] 本申请实施方式还提供一种与前述实施方式所提供的多源数据融合的事件分析方法对应的计算机可读存储介质,例如光盘、u盘等,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的多源数据融合的事件分析方法。
[0145] 需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0146] 以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。