热点话题检测方法及装置转让专利

申请号 : CN201811260532.3

文献号 : CN109582783B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐常胜方全李泳锡

申请人 : 中国科学院自动化研究所

摘要 :

本发明涉及计算机技术领域,具体涉及一种热点话题检测方法。本发明的热点话题检测方法包括:基于预设实体知识库提取目标文本的关键句作为目标文本的摘要;使用LSH算法计算摘要的文档指纹;基于KNN算法对文档指纹进行聚类分析以确定目标文本的话题类别。本发明的热点话题检测方法是基于实体知识库中的实体对目标文本的句子进行评估,根据评估结果提取目标文本关键句作为摘要,通过这种方式可以使得提取出的摘要能够与具体应用场景紧密结合的同时还能保留更多的话题信息,进而保证后续文档聚类的精度,实现高质量的话题检测功能。

权利要求 :

1.一种热点话题检测方法,其特征在于,所述方法包括:

基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要;

使用LSH算法计算所述摘要的文档指纹;

基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别;

其中,所述预设实体知识库是基于知识图谱结构构建的知识库;

其中,“基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要”的具体步骤包括:对所述目标文本进行分割得到若干个句子;

根据评分算法计算所述目标文本中每个句子的得分;

将每个句子按照得分进行排序,选取排名靠前的设定数量的句子作为摘要;

其中,“根据评分算法计算所述目标文本中每个句子的得分”的具体步骤包括:按照下式计算句子的得分:

其中,α、β、γ、θ是预设的权重因子;fg是句子seqi中包含的所述实体知识库中实体的数量;seqi是所述目标文本分割后得到的句子的集合中第i个句子,也是当前待评分句子;

title是所述目标文本的标题;S(title,seqi)表示句子seqi与所述目标文本的标题的相似度;集合U是预设训练集中与所述目标文本相同内容源的文本的句子的集合;sequ是所述集合U中第u个句子,S(seqi,sequ)是句子seqi与句子sequ的相似度;集合S是预设训练集中与所述目标文本不同内容源的文本的句子的集合;seqs是所述集合S中第s个句子,S(seqi,seqs)是句子seqi与句子seqs的相似度。

2.根据权利要求1所述的热点话题检测方法,其特征在于,所述方法包括:按照下式分别计算所述S(seqi,sequ)和所述S(seqi,seqs):其中,|{wk│wk∈title&wk∈seqi}|是在句子seqi和所述目标文本的标题中同时出现的单词数量;|{wk│wk∈seqi&wk∈sequ}|是在句子seqi与句子sequ中同时出现的单词数量;|{wk│wk∈seqi&wk∈seqs}|是在句子seqi与句子seqs中同时出现的单词数量;fi是句子seqi的特征向量;ft是所述目标文本的标题的特征向量;fu是句子sequ的特征向量;fs是句子seqs的特征向量;S(fi,ft)是特征向量fi与特征向量ft的相似度;S(fi,fu)是特征向量fi与特征向量fu的相似度;S(fi,fs)是特征向量fi与特征向量fs的相似度;|seqi|是句子seqi的单词数量;|title|是所述目标文本的标题的单词数量;|sequ|是句子sequ的单词数量;|seqs|是句子seqs的单词数量。

3.根据权利要求2所述的热点话题检测方法,其特征在于,所述方法包括:按照下式分别计算所述S(fi,ft)、所述S(fi,fu)和所述S(fi,fs):其中,fi·ft是特征向量fi与特征向量ft的点乘;fi·fu是特征向量fi与特征向量fu的点乘;fi·fs是特征向量fi与特征向量fs的点乘; 是特征向量fi的模; 是特征向量ft的模; 是特征向量fu的模; 是特征向量fs的模。

4.根据权利要求3所述的热点话题检测方法,其特征在于,所述方法还包括:根据下式分别计算特征向量fi、ft、fu和fs:

其中,E(seqi)、E(sequ)、E(seqs)和E(title)分别代表句子seqi、sequ、seqs和所述目标文本的标题中存在的所述实体知识库中实体的集合;ek为集合E(seqi)中的第k个实体,v(ek)代表实体ek的特征向量;tk为集合E(title)中的第k个实体,v(tk)代表实体tk的特征向量;uk为集合E(sequ)中的第k个实体,v(uk)代表实体uk的特征向量;sk为集合E(seqs)中的第k个实体,v(sk)代表实体sk的特征向量。

5.根据权利要求1所述的热点话题检测方法,其特征在于,“使用LSH算法计算所述摘要的文档指纹”的具体步骤包括:确定相似度函数及对应的哈希算法;

根据所述哈希算法计算所述摘要的哈希值,将所述摘要的哈希值作为所述目标文本的文档指纹。

6.根据权利要求5所述的热点话题检测方法,其特征在于,所述相似度函数为Jaccard距离函数;

相应的,所述哈希算法为min-hash函数。

7.根据权利要求6所述的热点话题检测方法,其特征在于,“基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别”的具体步骤包括:根据所述相似度函数计算所述目标文本与预设已分类文本集合中所有文本的文档指纹相似度;

统计所述文档指纹相似度小于等于预设相似度阈值的文本在每个话题类别下的文档票数,选出最高文档票数;

判断所述最高文档票数是否大于等于预设KNN阈值:

若是,认定所述目标文本属于最高文档票数对应的话题类别;

若否,则认定所述目标文本属于新话题类别。

8.一种控制装置,包括处理器和存储设备,所述存储设备适于存储多条程序,其特征在于,所述程序适于由所述处理器加载以执行权利要求1至7中任一项所述的热点话题检测方法。

说明书 :

热点话题检测方法及装置

技术领域

[0001] 本发明涉及计算机技术领域,具体涉及一种热点话题检测方法及装置。

背景技术

[0002] 随着互联网高速发展,在人们工作和生活中,网络已经成了最主要的信息来源,极大地满足了人们对最新信息获取的需求。然而,互联网上的信息增长太过迅速,已经出现了所谓的“信息大爆炸”。此时,对于用户来说,筛选整理各类信息会占用自己的大量时间,并且,由于互联网信息的“碎片化”现象严重,难以形成有效的知识体系,不利于信息的分析与监测。
[0003] 针对上述问题,现阶段通常会通过热点话题检测方法的处理将碎片化的信息流组织成以话题为单元的文档集,这样一来,不仅有利于用户的分析理解,而且可以为进一步的精细化加工打下良好的基础。现有技术的热点话题检测方法一般从文档中直接提取文档特征,然后根据文档特征完成文档聚类,实现话题检测功能。这种方法的好处在于:计算简单,复杂度低,可以解决部分话题检测任务需求。但是,此类方法在文档特征提取过程中会出现话题关键句流失的情况,使得提取出的文档特征涵盖的话题信息较少且无法与具体的应用场景相结合,进而影响后续文档聚类的精度。
[0004] 相应地,本领域需要一种新的热点话题检测方法及装置来解决上述问题。

发明内容

[0005] 为了解决现有技术中的上述问题,即现有的热点话题检测方法因提取的文档特征包含的话题信息较少且无法与具体的应用场景相结合,从而导致后续聚类精度不足的问题。本发明提供了一种热点话题检测方法,所述方法包括:基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要;使用LSH算法计算所述摘要的文档指纹;基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别;所述预设实体知识库是基于知识图谱结构构建的知识库。
[0006] 在上述热点话题检测方法的优选技术方案中,“基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要”的具体步骤包括:对所述目标文本进行分割得到若干个句子;根据评分算法计算所述目标文本中每个句子的得分;将每个句子按照得分进行排序,选取排名靠前的设定数量的句子作为摘要。
[0007] 在上述热点话题检测方法的优选技术方案中,“根据评分算法计算所述目标文本中每个句子的得分”的具体步骤包括:
[0008] 按照下式计算句子的得分:
[0009] TE=α*fg+β*S(title,seqi)+θ*∑u∈U S(seqi,sequ)-γ*∑s∈S S(seqi,seqs)[0010] 其中,α、β、γ、θ是预设的权重因子;fg是句子seqi中包含的所述实体知识库中实体的数量;seqi是所述目标文本分割后得到的句子的集合中第i个句子,也是当前待评分句子;title是所述目标文本的标题;S(title,seqi)表示句子seqi与所述目标文本的标题的相似度;集合U是预设训练集中与所述目标文本相同内容源的文本的句子的集合;sequ是所述集合U中第u个句子,S(seqi,sequ)是句子seqi与句子sequ的相似度;集合S是预设训练集中与所述目标文本不同内容源的文本的句子的集合;seqs是所述集合S中第s个句子,S(seqi,seqs)是句子seqi与句子seqs的相似度。
[0011] 在上述热点话题检测方法的优选技术方案中,所述方法还包括:
[0012] 按照下式分别计算所述S(seqi,sequ)和所述S(seqi,seqs):
[0013]
[0014]
[0015]
[0016] 其中,|{wk│wk∈title&wk∈seqi}|是在句子seqi和所述目标文本的标题中同时出现的单词数量;|{wk│wk∈seqi&wk∈sequ}|是在句子seqi与句子sequ中同时出现的单词数量;|{wk│wk∈seqi&wk∈seqs}|是在句子seqi与句子seqs中同时出现的单词数量;fi是句子seqi的特征向量;ft是所述目标文本的标题的特征向量;fu是句子sequ的特征向量;fs是句子seqs的特征向量;S(fi,ft)是特征向量fi与特征向量ft的相似度;S(fi,fu)是特征向量fi与特征向量fu的相似度;S(fi,fs)是特征向量fi与特征向量fs的相似度;|title|是所述目标文本的标题的单词数量;|seqi|是句子seqi的单词数量;|sequ|是句子sequ的单词数量;|seqs|是句子seqs的单词数量。
[0017] 在上述热点话题检测方法的优选技术方案中,所述方法还包括:
[0018] 按照下式分别计算所述S(fi,ft)、所述S(fi,fu)和所述S(fi,fs):
[0019]
[0020]
[0021]
[0022] 其中,fi·ft是特征向量fi与特征向量ft的点乘;fi·fu是特征向量fi与特征向量fu的点乘;fi·fs是特征向量fi与特征向量fs的点乘; 是特征向量fi的模; 是特征向量ft的模; 是特征向量fu的模; 是特征向量fs的模。
[0023] 在上述热点话题检测方法的优选技术方案中,所述方法还包括:
[0024] 根据下式分别计算特征向量fi、ft、fu和fs:
[0025]
[0026]
[0027]
[0028]
[0029] 其中,E(seqi)、E(sequ)、E(seqs)和E(title)分别代表句子seqi、sequ、seqs和所述目标文本的标题中存在的所述实体知识库中实体的集合;ek为集合E(seqi)中的第k个实体,v(ek)代表实体ek的特征向量;tk为集合E(title)中的第k个实体,v(tk)代表实体tk的特征向量;uk为集合E(sequ)中的第k个实体,v(uk)代表实体uk的特征向量;sk为集合E(seqs)中的第k个实体,v(sk)代表实体sk的特征向量。
[0030] 在上述热点话题检测方法的优选技术方案中,“使用LSH算法计算所述摘要的文档指纹”的具体步骤包括:确定相似度函数及对应的哈希算法;根据所述哈希算法计算所述摘要的文档指纹。
[0031] 在上述热点话题检测方法的优选技术方案中,所述相似度函数为Jaccard距离函数;相应的,所述哈希算法为min-hash函数。
[0032] 在上述热点话题检测方法的优选技术方案中,“基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别”的具体步骤包括:根据所述相似度函数计算所述目标文本与预设已分类文本集合中所有文本的文档指纹相似度;统计所述文档指纹相似度小于等于所述预设相似度阈值的文本在每个话题类别下的文档票数,选出最高文档票数;判断所述最高文档票数是否大于等于预设KNN阈值:若是,认定所述目标文本属于最高文档票数对应的话题类别;若否,则认定所述目标文本属于新话题类别。
[0033] 本发明还提供了一种控制装置,包括处理器和存储设备,所述存储设备适于存储多条程序,所述程序适于由所述处理器加载以执行上述任一项方案中所述的热点话题检测方法。
[0034] 本发明的热点话题检测方法是基于预设实体知识库提取目标文本的关键句作为目标文本的摘要,通过LSH算法计算提取的摘要的文档指纹,并采用KNN算法对文档指纹进行聚类分析从而识别出目标文本的话题归属,实现话题检测功能。相较于现有的关键句提取方法,本发明的热点话题检测方法通过引入具有知识图谱结构的实体知识库作为先验信息以对目标文本的摘要的提取过程进行倾向性引导,从而使得提取出的摘要能够与具体应用场景紧密结合的同时还能保留更多的话题信息,进而保证后续文档聚类的精度,实现高质量的话题检测功能。

附图说明

[0035] 下面参照附图描述本发明的热点话题检测方法。附图中:
[0036] 图1为本发明的一种实施例的热点话题检测方法的流程示意图;
[0037] 图2为本发明的一种实施例的热点话题检测方法中KNN算法对目标文本聚类分析的流程示意图。

具体实施方式

[0038] 下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。例如,尽管本申请中按照特定顺序描述了本发明的方法的各个步骤,但是这些顺序并不是限制性的,在不偏离本发明的基本原理的前提下,本领域技术人员可以按照不同的顺序来执行所述步骤。
[0039] 本发明的目标是在海量的互联网文本中,自动识别出各类话题,并根据话题分类情况,对各类信息进行展示。本发明中的海量互联网文本指的是互联网中已有的、可以生产、加工、传播的内容,尤其以文本内容为主。本发明中的话题,指的是互联网内容的中心主题,也就是对互联网各类事件的一个概括,广泛存在于新闻、博客、门户等网站之中。基于此目的,本发明提出了一种热点话题检测方法。下面将结合附图详细介绍本发明提供的热点话题检测方法。
[0040] 参照图1,图1为本发明的一种实施例的热点话题检测方法的流程示意图。如图1所示,本发明的热点话题检测方法包括如下步骤:
[0041] 步骤S101:根据现实世界中的实体类别,基于知识图谱结构构建实体知识库。
[0042] 本发明的热点话题检测方法需要预先构建实体知识库,该实体知识库是根据现实世界中的实体类别,基于知识图谱结构预先构建的。具体而言,实体知识库中包含实体,该实体指的是经由人工筛选过、定义清晰、边界明确、存在大量高质量结构化描述信息的特有名词。知识图谱指的是能够表示实体之间关系的语义网络,其可以对现实世界中各类实体及其关系进行形式化的描述。知识图谱结构是使用三元组对实体关系进行表示,这样能够为知识图谱带来极大的扩展性,便于覆盖各类实体关系,也就是说,知识图谱是三元组的集合。三元组的基本形式主要为:,其中,E1和E2分别表示实体1和实体2,R表示实体1和实体2之间的关系,在实体中,同时包含着对于实体的属性(名称、同义词等)、属性值等描述。
[0043] 当以实体作为节点,实体间的关系做边,将所有的三元组以可视化的方式展示出来时,整个知识图谱将构成一个包含多种类型连边的有向图,从而可以对知识进行完整而清晰地描述。大量知识图谱被整合并按照知识体系分类组织,就形成了实体知识库。本发明的实体知识库中的每个实体对外通过唯一标识ID确定,通过属性-属性值来描述实体的内在特征,通过关系来连接两个实体,进而描述他们之间的关联。
[0044] 根据实体类别信息对实体进行分类,示例性地,如下表1所示,将实体分为国家、领域、行业、公司、个人和概念6类。表1中的分类规则仅是示例性的,可以理解的是,也可按照其他预设规则对实体集进行分类,如可以将实体分为7类或者更多类。
[0045] 表1实体类别
[0046]
[0047]
[0048] 步骤S102:学习实体知识库中实体的特征向量。
[0049] 本发明的热点话题检测方法需要预先学习实体的特征向量表示。作为一种可能的示例,可以使用TransE算法基于知识图谱结构来学习实体的特征向量表示。TransE算法的具体步骤如下:
[0050] 首先,对于图谱中的三元组,存在公式E1+R=E2。根据以上假设,构造损失函数如下:
[0051] L=||E1+R-E2||L1   (1)
[0052] 将关系R看作是一个平移向量,将三元组看作是点在特征空间的平移关系,通过最小化损失函数(1)的方式即可学习不同语义下实体向量和关系向量。通过这种方式学习到的特征向量可以保留知识图谱中的关系信息。
[0053] 能够理解的是,实体的特征向量的学习方法不仅限于上述示例中TransE算法这一种,还可以为其他算法,如还可以是KG2E算法。本领域技术人员可以根据具体情况对特征向量的学习方法进行灵活的选择以便适应具体的应用场合。
[0054] 步骤S103:提取目标文本的摘要。
[0055] 准备已分类文本集合K,已分类文本集合K中包含若干篇文本且所有文本均具有对应的话题类别。将已分类文本集合K与目标文本组成预设语料库,根据预设语料库中每篇文本的发布者(作者、媒体)分别标识预设语料库中每篇文本的内容源,并以内容源为基础对预设语料库中的文本进行分类,从而制成训练数据集。
[0056] 通过标点符号对训练数据集中的每个文本进行分割,也就是说,将目标文本和已分类文本进行分割,从而将目标文本和已分类文本划分为一个个单个的句子,然后通过句子评分算法来对目标文本中每个句子进行评分。
[0057] 考虑到句子的评分会受到以下四种因素的影响:1)知识图谱中实体关键词的影响;2)同源信息影响;3)异源信息影响;4)句子与标题相似度影响。因此,对句子进行评分时需要综合考虑上述影响因素,本发明的方法会将上述四种影响因素作为权重因素引入评分公式中,并根据上述因素的影响程度引入不同的权重因子。下面将以计算句子seqi的评分为例来介绍本发明的热点话题检测方法中的句子评分算法,其中,句子seqi是目标文本分割后得到的所有句子的集合V中第i个句子。
[0058] 定义句子评分公式如下:
[0059] TE=α*fg+β*S(title,seqi)+θ*∑u∈U S(seqi,sequ)-γ*∑s∈S S(seqi,seqs)   (2)[0060] 在上述句子评分公式中,α,β,γ,θ作为权重因子,用来调节各因素对评分结果的影响效果。seqi是目标文本分割后得到的句子的集合V中第i个句子,也是当前待评分句子;fg是句子seqi中包含的实体知识库中实体(及同义词)的数量,句子seqi中包含的实体数量越多,说明信息密度越大,关键句的可能性越大;title是目标文本的标题;S(title,Seqi)表示句子seqi与目标文本的标题的相似度;集合U是预设训练集中与目标文本相同内容源的文本的句子的集合;sequ是集合U中第u个句子,S(seqi,sequ)是句子seqi与句子sequ的相似度,如果S(seqi,sequ)过高,则说明句子seqi经常在相同内容源中出现,则句子seqi可能是宣传语或广告等信息;集合S是预设训练集中与目标文本不同内容源的文本的句子的集合;seqs是集合S中第s个句子,S(seqi,seqs)是句子seqi与句子seqs的相似度,如果S(seqi,seqs)过高,则说明句子seqi经常在其他内容源中出现,即句子seqi经常在其他媒体中出现,则句子seqi为热点内容的概率非常大。
[0061] 按照下式分别计算S(title,Seqi)、S(seqi,sequ)和S(seqi,seqs):
[0062]
[0063]
[0064]
[0065] 在公式(3)、公式(4)和公式(5)中,|{wk│wk∈title&wk∈seqi}|是在句子seqi和目标文本的标题中同时出现的单词数量;|{wk│wk∈seqi&wk∈sequ}|是在句子seqi与句子sequ中同时出现的单词数量;|{wk│wk∈seqi&wk∈seqs}|是在句子seqi与句子seqs中同时出现的单词数量;fi是句子seqi的特征向量;ft是目标文本的标题的特征向量;fu是句子sequ的特征向量;fs是句子seqs的特征向量;S(fi,ft)是特征向量fi与特征向量ft的相似度;S(fi,fu)是特征向量fi与特征向量fu的相似度;S(fi,fs)是特征向量fi与特征向量fs的相似度;|seqi|是句子seqi的单词数量;|title|是目标文本的标题的单词数量;|sequ|是句子sequ的单词数量;|seqs|是句子seqs的单词数量。
[0066] 可以看出,在上述句子的相似度计算公式中,通过将词语的共现信息和句子的特征向量相似度同时纳入相似度评判指标中,以便于提高评判的准确性。
[0067] 按照下式分别计算公式(3)至(5)中的S(fi,ft)、S(fi,fu)和S(fi,fs):
[0068]
[0069]
[0070]
[0071] 在公式(6)至公式(8)中,fi·ft是特征向量fi与特征向量ft的点乘;fi·fu是特征向量fi与特征向量fu的点乘;fi·fs是特征向量fi与特征向量fs的点乘; 是特征向量fi的模; 是特征向量ft的模; 是特征向量fu的模; 是特征向量fs的模。其中,特征向量fi、ft、fu和fs的计算公式如下:
[0072]
[0073]
[0074]
[0075]
[0076] 在公式(9)至公式(12)中,E(seqi)、E(sequ)、E(seqs)和E(title)分别代表句子seqi、sequ、seqs和目标文本的标题中存在的实体知识库中实体的集合;ek为集合E(seqi)中的第k个实体,v(ek)代表实体ek的特征向量;tk为集合E(title)中的第k个实体,v(tk)代表实体tk的特征向量;uk为集合E(sequ)中的第k个实体,v(uk)代表实体uk的特征向量;sk为集合E(seqs)中的第k个实体,v(sk)代表实体sk的特征向量。
[0077] 可以看出,句子的特征向量是通过句子中所包含的实体知识库中的实体的特征向量求和而来的,这样一来,句子的特征向量便可以保留知识图谱中的实体关系信息。
[0078] 将公式(2)至(12)代入公式(1)中即可计算得到句子seqi的评分。同理,采用上述评分算法对目标文本中所有句子进行评分,然后将每个句子按照得分由高到低的顺序进行排序,选取排名靠前的设定数量的句子作为摘要。摘要的句子数量需要提前预设好,本领域技术人员可以根据实际情况对摘要的句子数量进行设定。如示例性地,可以选择排名前十的句子作为目标文本的摘要。
[0079] 通过上述计算过程可以看出,本发明的热点话题检测方法是通过对目标文本的每个句子进行评分,然后根据评分结果将评分排名靠前的句子作为摘要,其中,通过在句子评价算法中引入知识图谱中的实体关系信息和预设语料库中的共现信息,并且综合考虑知识图谱中实体的远监督信息,以及同源、异源信息相互间的关系,以及常用的文本评分因素,由此可以提高评分结果的准确性。根据评分结果将评分排名靠前的句子作为摘要的提取方式可以使基于评分结果提取出的摘要中能够保留更多的话题信息,进而保证了后续文档聚类的精度。本发明的热点话题检测方法通过引入实体知识库作为先验信息,以便在摘要的提取过程中起到倾向性的引导作用,从而使得提取出的摘要内容能够与具体地应用场景紧密联系,从而进一步提高了文档聚类的精度。
[0080] 步骤S104:利用LSH算法计算目标文本的摘要的哈希值,并将该哈希值作为目标文本的文档指纹。
[0081] 为了避免线性查找带来的过高的时间复杂度,本发明的热点话题检测方法利用LSH算法对摘要文本数据进行预处理,以实现快速最近邻查找的目的。
[0082] LSH(Locallity Sensitive Hashing)方法被称为局部敏感哈希,这是一种针对海量高位数据的快速映射方法,可以保留到局部特征,方便对数据进行最近邻查找。LSH算法的使用需要预先根据具体的相似度函数制定哈希算法,采用不同的相似性函数时,所用的哈希算法是不一样的,因此首先需要确定相似度函数。
[0083] 作为一种可能的示例,使用Jaccard距离作为相似度定义,Jaccard距离越大,说明相似度越低,反之,则越高。相应地,哈希算法使用min-hash函数。
[0084] min-hash函数的具体计算过程如下:首先将已分类文本的摘要和目标文本的摘要组成一个摘要文档集合T={t1,t2,…,tj,…,tm},其中,tj为集合T中第j个摘要文档。将集合T中摘要文档中出现的所有词组成集合W={w1,w2,…,wi,…,wn},其中,wi为集合W中第i个词汇。构建m×n维的特征矩阵F,分别判断集合T中所有摘要文档中是否存在W中的所有词,若存在,则以摘要文档的序号为行,以词汇的序号为列,在特征矩阵F的对应位置记1,若不存在,则记0。如示例性地,当wi出现在tj中时,则Fij=1,否则Fij=0。通过这种方式确定特征矩阵F中的元素。
[0085] 然后对这个特征矩阵F按行进行n次置换,每次置换之后,统计每一列(对应的就是每个摘要文档)第一个非0值所在的行号,这样每次统计的结果最终可以得到每个摘要文档的min-hash值(最小哈希值),将每个摘要文档的最小哈希值作为对应的文本的文档指纹,由此即可得到目标文本的文档指纹和已分类文本的文档指纹。
[0086] 步骤S105:基于KNN算法对文档指纹进行聚类分析以确定目标文本的话题类别。
[0087] 参照图2,图2为本发明的一种实施例的热点话题检测方法中KNN算法对目标文本聚类分析的流程示意图。如图2所示,KNN算法对目标文本聚类分析过程具体包括如下步骤:
[0088] 步骤S1051:计算目标文本和已分类文本的文档指纹相似度。
[0089] 如果两个文本足够相似,那么这两个文本中有很多词是共有的,换句话说,如果其中有一些文本的相似度很高,那么这些文本所对应的文档指纹相同的概率就很高。由此,可以计算两个文本的min-hash值相等的概率,进而得到jaccard距离,即目标文本和各个已分类文本的文档指纹相似度。
[0090] 根据定理:两个文本的min-hash值相等的概率等于两个文本的Jaccard系数,进而可转换得出Jaccard距离。计算过程如下述公式:
[0091]
[0092] 在公式(13)中,J为Jaccard距离,h(A)、h(B)为文本A和文本B的min-hash值(即文档指纹);Pr[h(A)=h(B)]为文本A和文本B的min-hash值相等的概率。由此便可以计算出目标文本和已分类文本的jaccard距离,即为目标文本和每个已分类文本的文档指纹相似度。
[0093] 步骤S1052:定义相似度阈值,判断目标文本和每个已分类文本的文档指纹相似度是否小于等于相似度阈值。
[0094] 判断公式如下:
[0095]
[0096] 在公式(14)中,t为预先设定的相似度阈值,其存在意义为设定相似度衡量标准,当E=1时,认为两个文本相似;当E=0时,则认为两个文本不相似。
[0097] 步骤S1053:统计文档指纹相似度小于等于相似度阈值的已分类文档的文档票数,确定目标文本的话题类别。
[0098] 对于所有E=1的已分类文本,分别统计各话题下已分类文本的数量作为文档票数。选取最多文档票数的话题,将该话题的票数与预设KNN阈值进行比较。若票数大于等于KNN阈值时,则认定目标文本属于该话题;若票数小于KNN阈值时,则认定目标文本属于该话题,令其单独作为一类,最后根据分类结果更新已分类文本集合K。
[0099] 如作为一种可能的示例,KNN阈值设置为3。已分类文本集合K中包括20篇已分类文本,即K={t1:c1,t2:c2,…,t20:c2},其中,E=1的已分类文本有七篇,分别为t1:c1、t2:c2、t9:c1、t11:c1、t13:c3、t15:c1和t20:c2。在这七篇已分类文本中,一共包括三种话题,即话题c1、话题c2和话题c3。其中,属于话题c1的文本一共有四篇,即文档t1、t9、t11和t15,则话题c1的文档票数为4;属于话题c2的文本有两篇,即文档t2和t20,则话题c2的文档票数为2;属于话题c3的文本有一篇,即文档t13,则话题c3的文档票数为1。此时话题c1为最高票数的话题类型,此时将话题c1对应的票数与KNN阈值进行比较,由于话题c1的文档票数大于KNN阈值,因此认定目标文本属于话题c1。最后更新已分类文本集合为K={t1:c1,t2:c2,…,t20:c2,…,t21:c1},其中t21即为已确定话题类型为c1的目标文本。
[0100] 上述仅是一种示例性的描述,并不能构成对本发明不恰当的限制,可以理解的是,相似度阈值和KNN阈值的大小可以根据实际情况进行灵活设置以便适应具体的应用场合。
[0101] 可以看出,本发明的热点话题检测方法是基于目标文本的摘要的文档指纹,通过相似性计算以及阈值设定,实现了各类话题下文本的聚类需求,从而完成已识别主题的内容跟踪与新主题发现等任务。
[0102] 基于上述热点话题检测方法的实施例,本发明还提供了一种控制装置,包括处理器和存储设备,存储设备适于存储多条程序,程序适于由处理器加载以执行上述方法实施例所述的热点话题检测方法,如控制装置可以为计算机。可以理解的是,该控制装置具有上述热点话题检测方法所有的技术效果,在此不再赘述。
[0103] 综上所述,本发明的热点话题检测方法是基于知识图谱来实现目标文本的摘要的提取,具体地,首先基于句子评价算法对目标文本中的句子进行评分,通过在句子评价算法中引入知识图谱中的实体关系信息和预设语料库中的共现信息,并且综合考虑知识图谱中实体的远监督信息,以及同源、异源信息相互间的关系,以及常用的文本评分因素,以使得评分结果的准确性大大提高;然后基于评分结果提取摘要,从而使得提取出的摘要中能够保留更多的话题信息,进而保证了后续文档聚类的精度。在获取目标文本的摘要之后,针对目标文本的摘要,先利用LSH算法生成保存局部信息的hash值,即目标文本的文档指纹,然后基于文档指纹,再利用KNN的文档聚类算法对文档指纹进行文档聚类,完成已识别主题的内容跟踪与新主题发现等任务,从而实现高质量的话题检测功能。
[0104] 至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。