舆情信息的告警方法及装置转让专利

申请号 : CN201410384009.7

文献号 : CN105335422B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王鑫文

申请人 : 阿里巴巴集团控股有限公司

摘要 :

本发明公开了一种舆情信息的告警方法及装置,其中,该方法包括:从网络信息中识别出待检测舆情信息;对待检测舆情信息进行预处理,将预处理后的待检测舆情信息划分为多个特征字段;至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;若满足告警条件,则对待检测舆情信息进行告警。本发明解决了现有技术无法对舆情信息进行准确告警的技术问题,达到了提高对舆情信息进行告警的准确性的技术效果。

权利要求 :

1.一种舆情信息的告警方法,其特征在于,包括:

从网络信息中识别出待检测舆情信息;

对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段;

至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件;

若满足所述告警条件,则对所述待检测舆情信息进行告警;

其中,所述至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件包括:在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;若在所述已告警的舆情信息对应的特征字段中未查找出一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值,则在未告警的舆情信息对应的特征字段中查找满足与所述待检测舆情信息对应的所述特征字段的相似度小于等于第二预定阈值的条件的所述未告警的舆情信息对应的特征字段,判断满足所述条件的所述未告警的舆情信息的数量是否大于等于第三预定阈值;若满足所述条件的所述未告警的舆情信息的数量大于等于所述第三预定阈值,则判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。

2.根据权利要求1所述的方法,其特征在于,所述至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件包括:在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;

若在所述已告警的舆情信息对应的特征字段中查找到至少包括一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值,则判断出所述待检测舆情信息不满足所述告警条件。

3.根据权利要求2所述的方法,其特征在于,

所述在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值包括:分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述已告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;

按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第一预定阈值;

所述若在所述已告警的舆情信息对应的特征字段中查找到至少包括一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值,则判断出所述待检测舆情信息不满足所述告警条件包括:只要查找到一条所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值,则判断出所述待检测舆情信息为已告警的舆情信息,所述待检测舆情信息不满足所述告警条件。

4.根据权利要求1所述的方法,其特征在于,

所述在未告警的舆情信息对应的特征字段中查找满足与所述待检测舆情信息对应的所述特征字段的相似度小于等于第二预定阈值的条件的所述未告警的舆情信息对应的特征字段,判断满足所述条件的所述未告警的舆情信息的数量是否大于等于第三预定阈值包括:分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述未告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;

按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述未告警的舆情信息对应的特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述未告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第二预定阈值;

将查找到的与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息计数;

所述若满足所述条件的所述未告警的舆情信息的数量大于等于所述第三预定阈值,则判断出所述待检测舆情满足所述告警条件,将对所述待检测舆情信息进行告警包括:当查找到与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息的数量达到所述第三预定阈值时,则判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。

5.根据权利要求1所述的方法,其特征在于,所述对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段包括:提取所述待检测舆情信息的主题;

对所述主题进行哈希转码操作得到预定码长的哈希码;

将所述哈希码划分为所述多个特征字段。

6.根据权利要求1所述的方法,其特征在于,所述从网络信息中识别出待检测舆情信息包括以下至少之一:通过贝叶斯分类判断识别出所述待检测舆情信息;或者,

通过支持向量机SVM分类判断识别出所述待检测舆情信息。

7.根据权利要求1至6中任一项所述的方法,其特征在于,与所述待检测舆情信息对应的所述特征字段之间的所述相似度为海明距离。

8.一种舆情信息的告警装置,其特征在于,包括:

识别单元,用于从网络信息中识别出待检测舆情信息;

预处理单元,用于对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段;

判断单元,用于至少根据预处理后的所述待检测舆情信息对应的所述特征字段与已告警的舆情信息对应的特征字段的相似度,判断所述待检测舆情信息是否满足告警条件;

告警单元,用于在满足所述告警条件时,对所述待检测舆情信息进行告警;

其中,所述判断单元包括:第二查找模块,用于在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;第三查找模块,用于在所述已告警的舆情信息对应的特征字段中未查找出一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值时,在未告警的舆情信息对应的特征字段中查找满足与所述待检测舆情信息对应的所述特征字段的相似度小于等于第二预定阈值的条件的所述未告警的舆情信息对应的特征字段,判断满足所述条件的所述未告警的舆情信息的数量是否大于第三预定阈值;第二判断模块,用于在满足所述条件的所述未告警的舆情信息的数量大于所述第三预定阈值时,判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。

9.根据权利要求8所述的装置,其特征在于,所述判断单元包括:

第一查找模块,用于在所述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值;

第一判断模块,用于在所述已告警的舆情信息对应的特征字段中查找到至少包括一条所述舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于第一预定阈值时,判断出所述待检测舆情信息不满足所述告警条件。

10.根据权利要求9所述的装置,其特征在于,

所述第一查找模块包括:

第一查找子模块,用于分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述已告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;

第一比较子模块,用于按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第一预定阈值;

所述第一判断模块包括:

第一判断子模块,用于只要查找到一条所述已告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第一预定阈值时,判断出所述待检测舆情信息为已告警的舆情信息,所述待检测舆情信息不满足所述告警条件。

11.根据权利要求8所述的装置,其特征在于,

所述第三查找模块包括:

第二查找子模块,用于分别根据所述待检测舆情信息对应的所述特征字段中的每一个待检测特征字段在所述未告警的舆情信息对应的特征字段中进行查找,得到与每一个所述待检测特征字段对应的特征集合;

第二比较子模块,用于按照预定的顺序将每一个所述待检测特征字段对应的特征集合中的所述未告警的舆情信息对应的特征字段与所述待检测舆情信息对应的所述特征字段进行比较,判断所述未告警的舆情信息对应的所述特征字段与所述待检测舆情信息对应的所述特征字段的相似度是否小于等于所述第二预定阈值;

计数子模块,用于将查找到的与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息计数;

所述第二判断模块包括:

告警子模块,用于在查找到的与所述待检测舆情信息对应的所述特征字段的相似度小于等于所述第二预定阈值的所述未告警的舆情信息的数量达到所述第三预定阈值时,判断出所述待检测舆情信息满足所述告警条件,将对所述待检测舆情信息进行告警。

12.根据权利要求8所述的装置,其特征在于,所述对所述预处理单元包括:

提取模块,用于提取所述待检测舆情信息的主题;

转码模块,用于对所述主题进行哈希转码操作得到预定码长的哈希码;

划分模块,用于将所述哈希码划分为所述多个特征字段。

13.根据权利要求8至12中任一项所述的装置,其特征在于,与所述待检测舆情信息对应的所述特征字段之间的所述相似度为海明距离。

说明书 :

舆情信息的告警方法及装置

技术领域

[0001] 本发明涉及计算机领域,具体而言,涉及一种舆情信息的告警方法及装置。

背景技术

[0002] 如今我们已经完全进入互联网时代,对于及时发现并处理关于诸多互联网应用产品的网络舆情,显得越来越重要。其中,网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。如果能尽早发现并及时处理关于上述产品的网络舆情,可极大程度地控制网络上公众舆论对上述产品的影响。
[0003] 目前,通常采用的对网络舆情的控制方法是通过预定规则来识别并阻止某些舆情,例如,以微博为例,通常设定的一种预定规则是为微博粉丝数或评论数设定阈值,即,通过限制对产品的评论数量来控制舆情;或者,另一种预定规则是设定关键词,如“支付宝漏洞”,即,通过预先设定的关键词筛选过滤网络舆情,从而实现对关于产品的网络舆情进行控制。然而,这些控制方式的准确率普遍较低,通常只有2%左右。也就是说,现有的对网络舆情的控制方法还无法准确识别出网络中对产品产生消极影响的舆情,更加无法及时准确地对这些舆情发出告警,以实现对网络舆情地有效控制。
[0004] 针对上述的问题,目前尚未提出有效的解决方案。

发明内容

[0005] 本发明实施例提供了一种舆情信息的告警方法及装置,以至少解决现有技术无法对舆情信息进行准确告警的技术问题。
[0006] 根据本发明实施例的一个方面,提供了一种舆情信息的告警方法,包括:从网络信息中识别出待检测舆情信息;对上述待检测舆情信息进行预处理,将预处理后的上述待检测舆情信息划分为多个特征字段;至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件;若满足上述告警条件,则对上述待检测舆情信息进行告警。
[0007] 可选地,上述至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件包括:在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;若在上述已告警的舆情信息对应的特征字段中查找到至少包括一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值,则判断出上述待检测舆情信息不满足上述告警条件。
[0008] 可选地,上述至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件包括:在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;若在上述已告警的舆情信息对应的特征字段中未查找出一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值,则在未告警的舆情信息对应的特征字段中查找满足与上述待检测舆情信息对应的上述特征字段的相似度小于等于第二预定阈值的条件的上述未告警的舆情信息对应的特征字段,判断满足上述条件的上述未告警的舆情信息的数量是否大于等于第三预定阈值;若满足上述条件的上述未告警的舆情信息的数量大于等于上述第三预定阈值,则判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
[0009] 可选地,上述在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值包括:分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述已告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第一预定阈值;上述若在上述已告警的舆情信息对应的特征字段中查找到至少包括一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值,则判断出上述待检测舆情信息不满足上述告警条件包括:只要查找到一条上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值,则判断出上述待检测舆情信息为已告警的舆情信息,上述待检测舆情信息不满足上述告警条件。
[0010] 可选地,上述在未告警的舆情信息对应的特征字段中查找满足与上述待检测舆情信息对应的上述特征字段的相似度小于等于第二预定阈值的条件的上述未告警的舆情信息对应的特征字段,判断满足上述条件的上述未告警的舆情信息的数量是否大于等于第三预定阈值包括:分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述未告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述未告警的舆情信息对应的特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述未告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第二预定阈值;将查找到的与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息计数;上述若满足上述条件的上述未告警的舆情信息的数量大于等于上述第三预定阈值,则判断出上述待检测舆情满足上述告警条件,将对上述待检测舆情信息进行告警包括:当查找到与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息的数量达到上述第三预定阈值时,则判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
[0011] 可选地,上述对上述待检测舆情信息进行预处理,将预处理后的上述待检测舆情信息划分为多个特征字段包括:提取上述待检测舆情信息的主题;对上述主题进行哈希转码操作得到预定码长的哈希码;将上述哈希码划分为上述多个特征字段。
[0012] 可选地,上述从网络信息中识别出待检测舆情信息包括以下至少之一:通过贝叶斯分类判断识别出上述待检测舆情信息;或者,通过支持向量机SVM分类判断识别出上述待检测舆情信息。
[0013] 可选地,与上述待检测舆情信息对应的上述特征字段之间的上述相似度为海明距离。
[0014] 根据本发明实施例的另一方面,还提供了一种舆情信息的告警装置,包括:识别单元,用于从网络信息中识别出待检测舆情信息;预处理单元,用于对上述待检测舆情信息进行预处理,将预处理后的上述待检测舆情信息划分为多个特征字段;判断单元,用于至少根据预处理后的上述待检测舆情信息对应的上述特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件;告警单元,用于在满足上述告警条件时,对上述待检测舆情信息进行告警。
[0015] 可选地,上述判断单元包括:第一查找模块,用于在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;第一判断模块,用于在上述已告警的舆情信息对应的特征字段中查找到至少包括一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值时,判断出上述待检测舆情信息不满足上述告警条件。
[0016] 可选地,上述判断单元包括:第二查找模块,用于在上述已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于第一预定阈值;第三查找模块,用于在上述已告警的舆情信息对应的特征字段中未查找出一条上述舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值时,在未告警的舆情信息对应的特征字段中查找满足与上述待检测舆情信息对应的上述特征字段的相似度小于等于第二预定阈值的条件的上述未告警的舆情信息对应的特征字段,判断满足上述条件的上述未告警的舆情信息的数量是否大于第三预定阈值;第二判断模块,用于在满足上述条件的上述未告警的舆情信息的数量大于上述第三预定阈值时,判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
[0017] 可选地,上述第一查找模块包括:第一查找子模块,用于分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述已告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;第一比较子模块,用于按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第一预定阈值;上述第一判断模块包括:第一判断子模块,用于只要查找到一条上述已告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第一预定阈值时,判断出上述待检测舆情信息为已告警的舆情信息,上述待检测舆情信息不满足上述告警条件。
[0018] 可选地,上述第三查找模块包括:第二查找子模块,用于分别根据上述待检测舆情信息对应的上述特征字段中的每一个待检测特征字段在上述未告警的舆情信息对应的特征字段中进行查找,得到与每一个上述待检测特征字段对应的特征集合;第二比较子模块,用于按照预定的顺序将每一个上述待检测特征字段对应的特征集合中的上述未告警的舆情信息对应的特征字段与上述待检测舆情信息对应的上述特征字段进行比较,判断上述未告警的舆情信息对应的上述特征字段与上述待检测舆情信息对应的上述特征字段的相似度是否小于等于上述第二预定阈值;计数子模块,用于将查找到的与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息计数;上述第二判断模块包括:告警子模块,用于在查找到的与上述待检测舆情信息对应的上述特征字段的相似度小于等于上述第二预定阈值的上述未告警的舆情信息的数量达到上述第三预定阈值时,判断出上述待检测舆情信息满足上述告警条件,将对上述待检测舆情信息进行告警。
[0019] 可选地,上述对上述预处理单元包括:提取模块,用于提取上述待检测舆情信息的主题;转码模块,用于对上述主题进行哈希转码操作得到预定码长的哈希码;划分模块,用于将上述哈希码划分为上述多个特征字段。
[0020] 可选地,与上述待检测舆情信息对应的上述特征字段之间的上述相似度为海明距离。
[0021] 在本发明实施例中,通过将从网络信息中识别出的待检测舆情信息进行预处理后,至少根据预处理后的上述待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件,进而判断出上述待检测舆情信息是否已经告警过,避免对待检测舆情信息的重复告警,从而实现对舆情信息的准确告警。
[0022] 进一步,将待检测舆情信息与未告警的舆情信息进行相似度比较,当满足相似度判断条件的未告警的舆情信息的数量大于预定阈值时,对待检测舆情信息进行告警,以克服现有技术中无法对舆情信息进行准确告警的问题。此外,通过利用与多个特征字段中的每一个特征字段对应的特征集合进行查找,实现了对舆情信息的及时告警,缩短了舆情信息的告警周期。

附图说明

[0023] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0024] 图1是根据本发明实施例的一种可选的舆情信息的告警方法的流程示意图;
[0025] 图2是根据本发明实施例的一种可选的舆情信息的告警方法的应用场景示意图;
[0026] 图3是根据本发明实施例的一种可选的舆情信息的告警方法中Simhash示意图;
[0027] 图4是根据本发明实施例的另一种可选的舆情信息的告警方法的流程示意图;以及
[0028] 图5是根据本发明实施例的一种可选的舆情信息的告警装置的示意图。

具体实施方式

[0029] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0030] 实施例1
[0031] 根据本发明实施例,提供了一种舆情信息的告警方法,如图1所示,在本实施例中,该方法包括:
[0032] S102,从网络信息中识别出待检测舆情信息;
[0033] S104,对待检测舆情信息进行预处理,将预处理后的待检测舆情信息划分为多个特征字段;
[0034] S106,至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;
[0035] S108,若满足告警条件,则对待检测舆情信息进行告警;
[0036] S110,若不满足告警条件,则不对待检测舆情信息进行告警。
[0037] 可选地,在本实施例中,上述舆情信息的告警方法可以应用于对网络舆情的控制过程中,假设如图2所示,网络中包括终端202-1至终端202-5,上述终端将对某一产品的评论看法通过网络发送至服务器204中,以使服务器204从多个终端中获得的网络信息中识别出待检测舆情信息。可选地,在本实施例中,待检测舆情信息可以但不限于负面舆情信息,其中,上述负面舆情信息可以包括网络信息中对产品的负面评论及看法,例如,恶意评论,这些负面舆情信息会给产品带来消极的市场影响。上述仅是一种示例,本实施例对此不做任何限定。
[0038] 可选地,在本实施例中,从网络信息识别出待检测舆情信息的方式可以包括以下至少之一:1)通过贝叶斯分类判断识别出所述待检测舆情信息;或者,2)通过支持向量机SVM分类判断识别出所述待检测舆情信息。通过上述方式对舆情信息进行判断识别,以得到待检测舆情信息。例如,以贝叶斯分类识别为例,若从网络中接收到的舆情信息通过贝叶斯判断属于负面舆情信息的概率大于预定阈值,则可以判断识别出上述获取到的舆情信息为负面舆情信息。
[0039] 可选地,在本实施例中,对待检测舆情信息进行预处理包括:
[0040] S1,提取待检测舆情信息的主题;
[0041] S2,对主题进哈希转码操作得到预定码长的哈希码;
[0042] S3,将哈希码划分为多个特征字段。
[0043] 可选地,在本实施例中,上述主题可以来源于但不限于以下之一:标题、特殊符号标识的话题。例如,若接收到新闻信息,或论坛中的帖子,则将根据新闻或帖子的标题来提取主题;若接收到微博中的信息,则可以对带有特殊符号标识的话题,例如,对带有“【】”、“##”的话题来提取主题。
[0044] 可选地,在本实施例中,上述哈希转码操作可以但不限于Simhash转码,其中,Simhash是指将N维向量转换成hash码,进而通过比较两段哈希码来衡量两段舆情信息的文本相似度。
[0045] 具体结合以下示例进行说明,假设服务器204从网络信息中识别出待检测舆情信息,提取出主题“错误登录,尽快修改密码”,上述主题对应的ID为76,再经过Simhash转码操作后得到64位的二进制哈希码,例如,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,然后将上述哈希码化分为8个特征字段进行存储,如表1所示。
[0046] 表1
[0047]舆情信息ID Simhash1 Simhash2 …… Simhash6 Simhash7 Simhash8 Simhash
76 10101111 01010011 …… 01110101 10111101 00001111 1…….1
[0048] 根据表1所示的8个特征字段与已告警的舆情信息对应的特征字段比较后得到相似度(例如,相似度为3),则进一步根据上述相似度判断上述待检测舆情信息是否满足告警条件,例如,判断上述相似度是否小于等于预定阈值,来判断上述待检测舆情信息是否已经告警过。
[0049] 可选地,在本实施例中,已告警的舆情信息可以但不限于保存在一个已告警舆情信息集合中,用S集合标识。当识别出待检测舆情信息,则可以将上述待检测舆情信息对应的特征字段与S集合中已告警的舆情信息进行相似度比对。可选地,在本实施例中,上述相似度可以但不限于用海明距离来衡量,其中,上述海明距离为两个码字的对应比特取值不同的比特数。
[0050] 具体结合以下示例进行说明,假设相似度预定阈值设定为6,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,与已告警舆情信息集合中对应的所有特征字段的相似度分别为1至5中任意值,均小于相似度预定阈值6,则可以判断出上述待检测舆情信息还未告警,需要进一步判断是否对该待检测舆情信息进行告警。
[0051] 通过本申请提供的实施例,通过将识别出的待检测舆情信息进行预处理,并将经过预处理后得到的待检测舆情信息对应的特征字段,与已告警的舆情信息对应的特征字段进行比较,比较二者的相似度,进而判断上述待检测舆情信息是否满足告警条件,对判断出满足告警条件的待检测舆情信息进行告警。从而克服了现有技术无法对舆情信息准确告警的问题,通过比对特征字段的相似度,达到了对识别出的待检测舆情信息进行准确告警的效果。
[0052] 作为一种可选的方案,至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件包括:
[0053] S1,在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
[0054] S2,若在已告警的舆情信息对应的特征字段中查找到至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则判断出待检测舆情信息不满足告警条件。
[0055] 可选地,在本实施例中,在已告警的舆情信息中查找一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值的方式可以包括但不限于:在已告警舆情信息集合(例如,S集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
[0056] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。
在已告警舆情信息集合(例如,S集合)中根据第一特征字段10101111进行查找,将已告警舆情信息集合中第一特征字段与待检测舆情信息的第一特征字段相同的已告警的舆情信息作为第一特征集合,在该集合中比较待检测舆情信息与已告警的舆情信息的相似度,若未查找到相似度小于等于第一预定阈值的舆情信息,则将根据待检测舆情信息的第二特征字段继续进行查找,在第二特征字段对应的第二特征集合中进行相似度比较,依次在待检测舆情信息对应的特征字段中进行查找。若查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出上述待检测舆情信息已经告警过,无需继续进行查找。
[0057] 通过本申请提供的实施例,通过与已告警的舆情信息进行比较,判断待检测舆情信息是否至少与一条已告警的舆情信息的相似度满足小于等于第一预定阈值的条件,若满足则表示上述待检测舆情信息已告警过,无需对上述待检测舆情进行重复告警,从而实现了提高对舆情信息进行告警的准确性。
[0058] 作为一种可选的方案,至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件包括:
[0059] S1,在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
[0060] S2,若在已告警的舆情信息对应的特征字段中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则在未告警的舆情信息对应的特征字段中查找满足与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的条件的未告警的舆情信息对应的特征字段,判断满足上述条件的未告警的舆情信息的数量是否大于等于第三预定阈值;
[0061] S3,若满足上述条件的未告警的舆情信息的数量大于等于第三预定阈值,则判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
[0062] 可选地,在本实施例中,第一预定阈值、第二预定阈值及第三预定阈值可以但不限于根据不同的应用场景取相同或不同的数值,本实施例对此不做任何限定。
[0063] 可选地,在本实施例中,未告警的舆情信息可以但不限于保存在一个未告警舆情信息集合中,用R集合标识,将上述待检测舆情信息对应的特征字段与R集合中已告警的舆情信息进行相似度比对。
[0064] 可选地,在本实施例中,在未告警的舆情信息对应的特征字段中查找与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的方式可以包括但不限于:在未告警舆情信息集合(例如,R集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
[0065] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。
在已告警舆情信息集合中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则在未告警舆情信息集合(例如,R集合)中根据第一特征字段10101111进行查找,然后依次在不同特征字段对应的特征集合中进行查找,并得到在未告警的舆情信息对应的特征字段中与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量。
[0066] 通过本申请提供的实施例,通过与未告警的舆情信息进行比较,判断与待检测舆情信息的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈值,从而在上述数量大于第三预定阈值时,判断出对上述待检测舆情信息进行告警,实现对待检测舆情信息的准确告警。
[0067] 作为一种可选的方案,上述在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值包括:S1,分别根据待检测舆情信息对应的特征字段中的每一个待检测特征字段在已告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;S2,按照预定的顺序将每一个待检测特征字段对应的特征集合中的已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第一预定阈值;
[0068] 上述若查找到至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则判断出待检测舆情信息不满足告警条件包括:S1,只要查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出待检测舆情信息为已告警的舆情信息,待检测舆情信息不满足告警条件。
[0069] 具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第一预定阈值为7,已告警的舆情信息对应的特征字段包括但不限于以下字段:
[0070] 1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
[0071] 2)10101001,01010101,01001010,10101010,10101010,01000101,10110001,01101111;
[0072] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
[0073] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
[0074] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
[0075] 根据待检测舆情信息的第一特征字段在已告警舆情信息集合(S集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
[0076] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
[0077] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
[0078] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
[0079] 再将上述第一特征集合中每一个已告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第五个特征字段与待检测舆情信息对应的特征字段的相似度小于第一预定阈值7,则可判断出上述待检测舆情信息不满足告警条件,无需进行告警。
[0080] 通过本申请提供的实施例,通过分别根据不同的特征字段在已告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则可得出上述待检测舆情信息为已告警的舆情信息,并不满足告警条件,进一步,无需继续在已告警的舆情信息中进行查找或相似度比较,从而实现及时对待检测舆情信息进行判断,缩短了舆情信息的告警周期。
[0081] 作为一种可选的方案,上述在未告警的舆情信息对应的特征字段中查找与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈值包括:S1,分别根据待检测舆情信息对应的特征字段多个特征字段中的每一个待检测特征字段在未告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;S2,按照预定的顺序将每一个待检测特征字段对应的特征集合中的未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第二预定阈值;S3,将查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息计数;
[0082] 上述若满足上述条件的未告警的舆情信息的数量大于等于第三预定阈值,则判断出待检测舆情满足告警条件,将对待检测舆情信息进行告警包括:S1,当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,则判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
[0083] 具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第二预定阈值为7,第三预定阈值为2,未告警的舆情信息对应的特征字段包括但不限于以下字段:
[0084] 1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
[0085] 2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;
[0086] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
[0087] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
[0088] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
[0089] 根据待检测舆情信息的第一特征字段在未告警舆情信息集合(R集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
[0090] 2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;(相似度为4)
[0091] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
[0092] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
[0093] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
[0094] 再将上述第一特征集合中每一个未告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第2个特征字段及第5个特征字段与待检测舆情信息对应的特征字段的相似度小于第二预定阈值7,上述相似度小于等于第二预定阈值的未告警的舆情信息的数量已经达到第三预定阈值2时,则可以判断出上述待检测舆情信息满足告警条件,需要对上述待检测舆情信息进行告警。
[0095] 通过本申请提供的实施例,通过分别根据不同的特征字段在未告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,则需要对上述待检测舆情信息进行告警。进一步,当查找到的未告警的舆情信息的数量达到第三预定阈值时,无需继续在未告警的舆情信息中进行查找或相似度比较,也可判断出待检测舆情信息需要进行告警,从而实现及时对待检测舆情信息进行告警,缩短了舆情信息的告警周期。
[0096] 作为一种可选的方案,所述对所述待检测舆情信息进行预处理,将预处理后的所述待检测舆情信息划分为多个特征字段包括:
[0097] S1,提取待检测舆情信息的主题;
[0098] S2,对主题进行哈希转码操作得到预定码长的哈希码;
[0099] S3,将哈希码划分为多个特征字段。
[0100] 可选地,在本实施例中,划分为多个特征字段进行查找的方式包括但不限于:假设多个特征字段个数为N,则当相似度比较的第一预定阈值为小于等于N-1时,则当上述相似度(例如,海明距离)中不同的比特码在不同的特征字段时,至少还有一个特征字段中的比特码是与其他舆情信息对应的特征字段完全相同的,则基于上述多个特征字段中的每一个特征字段分别进行查找,得到与上述每一个特征字段对应的特征集合,再基于上述特征集合进行相似度比较时,很大程度上减小了相似度比较的数量,从而提高舆情信息告警判断的效率,使得舆情信息告警更加及时有效。
[0101] 具体结合以下示例进行说明,例如,通过爬虫抓取微博,对微博中带有特殊符号标识“##”的话题进行识别,得到待检测舆情信息,然后将上述待检测舆情信息进行如图3所示的Simhash转码,得到一个64位二进制码。然后将上述二进制码划分为如表1所示的8段特征字段,并倒序存储,以用于之后的特征字段的相似度比较。
[0102] 通过本申请提供的实施例,通过对待检测舆情信息进行提取、转码、划分特征字段的预处理后,得到用于查找的多个特征字段,利用与多个特征字段对应的特征集合与待检测舆情信息的特征字段进行相似度比较,达到及时对需要告警的舆情信息进行准确告警,提供了告警的效率,缩短了舆情信息的告警周期。
[0103] 作为一种可选的方案,从网络信息中识别出待检测舆情信息包括以下至少之一:
[0104] 1)通过贝叶斯分类判断识别出待检测舆情信息;或者,
[0105] 2)通过支持向量机SVM分类判断识别出待检测舆情信息。
[0106] 具体结合以下示例进行说明,贝叶斯分类判断识别可以以贝叶斯分类器为例。根据贝叶斯公式:
[0107] P(A|B)=P(B|A)P(A)/P(B)     (1)
[0108] 首先收集样本数据(例如,网络信息),然后对样本数据进行整理,得到模型数据,然后将需要分类的网络信息,进行预处理后,通过贝叶斯公式来判断待检测的舆情信息属于“负面舆情信息”还是“正面舆情信息”,哪个概率大,则该待检测舆情信息就属于哪一类。
[0109] 具体结合以下示例进行说明,以支持向量机SVM为例。将待检测舆情信息转换为一个n维向量,那么在n维空间中,找到一个超平面将所有n维向量一分为二,例如,“负面舆情信息”对应的第一空间或“正面舆情信息”对应的第二空间,当待检测舆情信息转换得到的n维向量落在上述n维向量的不同空间,则可判断出上述待检测舆情信息是属于“负面舆情信息”还是“正面舆情信息”。
[0110] 通过本申请提供的实施例,通过获取到的网络信息识别出待检测的舆情信息,例如负面舆情信息,从而克服了现有技术中无法对舆情信息进行告警的问题,实现了提高对舆情信息进行告警的准确性。
[0111] 具体结合图4中S402至S418所示进行描述,从网络中获取网络信息,然后对识别出的待检测舆情信息执行预处理,如步骤S406-S410,对预处理后的待检测舆情信息继续之后的告警判断步骤,如步骤S412-S414,并对识别出是待检测舆情信息的执行步骤S416,进行舆情信息的告警;对识别出不是待检测舆情信息的执行步骤S418,不进行舆情信息的告警;进一步,对识别出的待检测舆情信息执行的预处理至少包括:执行抽取主题、Simhash转码、划分多个特征字段,对预处理后的待检测舆情信息执行步骤S412,判断上述预处理后的待检测舆情信息是否已经告警过,若判断出上述待检测舆情信息已经告警过,不满足告警条件,则执行步骤S418,不进行舆情信息的告警,若判断出上述待检测舆情信息还未告警过,则执行步骤S414,查找满足与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的条件的未告警的舆情信息对应的特征字段,判断满足上述条件的未告警的舆情信息的数量是否达到第三预定阈值,若达到则执行步骤S416,对待检测舆情信息进行告警,否则执行步骤S418,不进行舆情信息的告警。
[0112] 本发明提供了一种优选的实施例来进一步对本发明进行解释,但是值得注意的是,该优选实施例只是为了更好的描述本发明,并不构成对本发明不当的限定。
[0113] 实施例2
[0114] 根据本发明实施例,还提供了一种舆情信息告警装置,如图5所示,该装置包括:
[0115] 1)识别单元502,用于从网络信息中识别出待检测舆情信息;
[0116] 2)预处理单元504,用于对待检测舆情信息进行预处理,将预处理后的待检测舆情信息划分为多个特征字段;
[0117] 3)判断单元506,用于至少根据预处理后的待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断待检测舆情信息是否满足告警条件;
[0118] 4)告警单元508,用于在满足告警条件时,对待检测舆情信息进行告警。
[0119] 可选地,在本实施例中,上述舆情信息的告警方法可以应用于对网络舆情的控制过程中,假设如图2所示,网络中包括终端202-1至终端202-5,上述终端将对某一产品的评论看法通过网络发送至服务器204中,以使服务器204从多个终端中获得的网络信息中识别出待检测舆情信息。可选地,在本实施例中,待检测舆情信息可以但不限于是负面舆情信息,其中,上述负面舆情信息可以包括网络信息中对产品的负面评论及看法,例如,恶意评论,这些负面舆情信息会给产品带来消极的市场影响。上述仅是一种示例,本实施例对此不做任何限定。
[0120] 可选地,在本实施例中,从网络信息识别出待检测舆情信息的方式可以包括以下至少之一:1)通过贝叶斯分类判断识别出所述待检测舆情信息;或者,2)通过支持向量机SVM分类判断识别出所述待检测舆情信息。通过上述方式对舆情信息进行判断识别,以得到待检测舆情信息。例如,以贝叶斯分类识别为例,若从网络中接收到的舆情信息通过贝叶斯判断属于负面舆情信息的概率大于预定阈值,则可以判断识别出上述获取到的舆情信息为负面舆情信息。
[0121] 可选地,在本实施例中,对待检测舆情信息进行预处理包括:
[0122] S1,提取待检测舆情信息的主题;
[0123] S2,对主题进哈希转码操作得到预定码长的哈希码;
[0124] S3,将哈希码划分为多个特征字段。
[0125] 可选地,在本实施例中,上述主题可以来源于但不限于以下之一:标题、特殊符号标识的话题。例如,若接收到新闻信息,或论坛中的帖子,则将根据新闻或帖子的标题来提取主题;若接收到微博中的信息,则可以对带有特殊符号标识的话题,例如,对带有“【】”、“##”的话题来提取主题。
[0126] 可选地,在本实施例中,上述哈希转码操作可以但不限于Simhash转码,其中,Simhash是指将N维向量转换成hash码,进而通过比较两段哈希码来衡量两段舆情信息的文本相似度。
[0127] 可选地,在本实施例中,上述舆情信息告警装置还包括:存储单元(图中未示出),其中,上述存储单元可以但不限于用于存储上述分段后得到的特征字段。可选地,在本实施例中,上述分段后得到的特征字段也可以但不限于存储在上述舆情信息告警装置之外的第三方装置的存储单元中。
[0128] 可选地,在本实施例中,上述存储单元(图中未示出)可以但不限于与上述舆情信息告警装置中的预处理单元504和判断单元506连接。
[0129] 具体结合以下示例进行说明,假设服务器204从网络信息中识别出待检测舆情信息,提取出主题“错误登录,尽快修改密码”,上述主题对应的ID为76,再经过Simhash转码操作后得到64位的二进制哈希码,例如,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,然后将上述哈希码化分为8个特征字段进行存储,如表2所示。
[0130] 表2
[0131]舆情信息ID Simhash1 Simhash2 …… Simhash6 Simhash7 Simhash8 Simhash
76 10101111 01010011 …… 01110101 10111101 00001111 1…….1
[0132] 根据表2所示的8个特征字段与已告警的舆情信息对应的特征字段比较后得到相似度(例如,相似度为3),则进一步根据上述相似度判断上述待检测舆情信息是否满足告警条件,例如,判断上述相似度是否小于等于预定阈值,来判断上述待检测舆情信息是否已经告警过。
[0133] 可选地,在本实施例中,已告警的舆情信息可以但不限于保存在一个已告警舆情信息集合中,用S集合标识。可选地,在本实施例中,上述已告警舆情信息集合可以但不限于存储在上述舆情信息告警装置中的存储单元(图中未示出)中,也可以但不限于存储在上述舆情信息告警装置之外的第三方装置的存储单元中。当识别出待检测舆情信息,则可以将上述待检测舆情信息对应的特征字段与S集合中已告警的舆情信息进行相似度比对。可选地,在本实施例中,上述相似度可以但不限于用海明距离来衡量,其中,上述海明距离为两个码字的对应比特取值不同的比特数。
[0134] 具体结合以下示例进行说明,假设相似度预定阈值设定为6,待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,与已告警舆情信息集合中对应的所有特征字段的相似度分别为1至5中任意值,均小于相似度预定阈值6,则可以判断出上述待检测舆情信息还未告警,需要进一步判断是否对该待检测舆情信息进行告警。
[0135] 在本申请提供的实施例中,通过将识别出的待检测舆情信息进行预处理,并将经过预处理后得到的待检测舆情信息对应的特征字段,与已告警的舆情信息对应的特征字段进行比较,比较二者的相似度,进而判断上述待检测舆情信息是否满足告警条件,对判断出满足告警条件的待检测舆情信息进行告警。从而克服了现有技术无法对舆情信息准确告警的问题,通过比对特征字段的相似度,达到了对识别出的待检测舆情信息进行准确告警的效果。
[0136] 作为一种可选的方案,上述判断单元506包括:
[0137] 1)第一查找模块,用于在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
[0138] 2)第一判断模块,用于在已告警的舆情信息对应的特征字段中查找到至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,判断出待检测舆情信息不满足告警条件。
[0139] 可选地,在本实施例中,在已告警的舆情信息中查找一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值的方式可以包括但不限于:在已告警舆情信息集合(例如,S集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
[0140] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。
在已告警舆情信息集合(例如,S集合)中根据第一特征字段10101111进行查找,将已告警舆情信息集合中第一特征字段与待检测舆情信息的第一特征字段相同的已告警的舆情信息作为第一特征集合,在该集合中比较待检测舆情信息与已告警的舆情信息的相似度,若未查找到相似度小于等于第一预定阈值的舆情信息,则将根据待检测舆情信息的第二特征字段继续进行查找,在第二特征字段对应的第二特征集合中进行相似度比较,依次在待检测舆情信息对应的特征字段中进行查找。若查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值,则可判断出上述待检测舆情信息已经告警过,无需继续进行查找。
[0141] 通过本申请提供的实施例,通过与已告警的舆情信息进行比较,判断待检测舆情信息是否至少与一条已告警的舆情信息的相似度满足小于等于第一预定阈值的条件,若满足则表示上述待检测舆情信息已告警过,无需对上述待检测舆情进行重复告警,从而实现了提高对舆情信息进行告警的准确性。
[0142] 作为一种可选的方案,上述判断单元506包括:
[0143] 1)第二查找模块,用于在已告警的舆情信息对应的特征字段中查找是否至少包括一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值;
[0144] 2)第三查找模块,用于在已告警的舆情信息对应的特征字段中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,在未告警的舆情信息对应的特征字段中查找满足与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的条件的未告警的舆情信息对应的特征字段时,判断满足上述条件的未告警的舆情信息的数量是否大于第三预定阈值;
[0145] 3)第二判断模块,用于在满足上述条件的未告警的舆情信息的数量大于第三预定阈值时,判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
[0146] 可选地,在本实施例中,第一预定阈值、第二预定阈值及第三预定阈值可以但不限于根据不同的应用场景取相同或不同的数值,本实施例对此不做任何限定。
[0147] 可选地,在本实施例中,未告警的舆情信息可以但不限于保存在一个未告警舆情信息集合中,用R集合标识。可选地,在本实施例中,上述未告警舆情信息集合可以但不限于存储在上述舆情信息告警装置中的存储单元(图中未示出)中,也可以但不限于存储在上述舆情信息告警装置之外的第三方装置的存储单元中。将上述待检测舆情信息对应的特征字段与R集合中已告警的舆情信息进行相似度比对。
[0148] 可选地,在本实施例中,在未告警的舆情信息对应的特征字段中查找与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的方式可以包括但不限于:在未告警舆情信息集合(例如,R集合)中分别根据待检测舆情信息对应的特征字段中的每一个特征字段进行查找。
[0149] 具体结合以下示例进行说明,假设以待检测舆情信息对应的特征字段是10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111为例。
在已告警舆情信息集合中未查找出一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则在未告警舆情信息集合(例如,R集合)中根据第一特征字段10101111进行查找,然后依次在不同特征字段对应的特征集合中进行查找,并得到在未告警的舆情信息对应的特征字段中与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量。
[0150] 通过本申请提供的实施例,通过与未告警的舆情信息进行比较,判断与待检测舆情信息的相似度小于等于第二预定阈值的未告警的舆情信息的数量是否大于第三预定阈值,从而在上述数量大于第三预定阈值时,判断出对上述待检测舆情信息进行告警,实现对待检测舆情信息的准确告警。
[0151] 作为一种可选的方案,第一查找模块包括:第一查找子模块,用于分别根据待检测舆情信息对应的特征字段中的每一个待检测特征字段在已告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;第一比较子模块,用于按照预定的顺序将每一个待检测特征字段对应的特征集合中的已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第一预定阈值;
[0152] 上述第一判断模块包括:第一判断子模块,用于只要查找到一条已告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,判断出待检测舆情信息为已告警的舆情信息,待检测舆情信息不满足告警条件。
[0153] 具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第一预定阈值为7,已告警的舆情信息对应的特征字段包括但不限于以下字段:
[0154] 1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
[0155] 2)10101001,01010101,01001010,10101010,10101010,01000101,10110001,01101111;
[0156] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
[0157] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
[0158] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
[0159] 根据待检测舆情信息的第一特征字段在已告警舆情信息集合(S集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
[0160] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
[0161] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
[0162] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
[0163] 再将上述第一特征集合中每一个已告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第五个特征字段与待检测舆情信息对应的特征字段的相似度小于第一预定阈值7,则可判断出上述待检测舆情信息不满足告警条件,无需进行告警。
[0164] 通过本申请提供的实施例,通过分别根据不同的特征字段在已告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到一条舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度小于等于第一预定阈值时,则可得出上述待检测舆情信息为已告警的舆情信息,并不满足告警条件,进一步,无需继续在已告警的舆情信息中进行查找或相似度比较,从而实现及时对待检测舆情信息进行判断,缩短了舆情信息的告警周期。
[0165] 作为一种可选的方案,第三查找模块包括:第二查找子模块,用于分别根据待检测舆情信息对应的特征字段中的每一个待检测特征字段在未告警的舆情信息对应的特征字段中进行查找,得到与每一个待检测特征字段对应的特征集合;第二比较子模块,用于按照预定的顺序将每一个待检测特征字段对应的特征集合中的未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段进行比较,判断未告警的舆情信息对应的特征字段与待检测舆情信息对应的特征字段的相似度是否小于等于第二预定阈值;计数子模块,用于将查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息计数;
[0166] 上述第二判断模块包括:告警子模块,用于在查找到的与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,判断出待检测舆情信息满足告警条件,将对待检测舆情信息进行告警。
[0167] 具体结合以下示例进行说明,假设上述待检测舆情信息对应的特征字段为10101111,01010011,01001010,10101010,10101010,01110101,10111101,00001111,相似度用海明距离标识,第二预定阈值为7,第三预定阈值为2,未告警的舆情信息对应的特征字段包括但不限于以下字段:
[0168] 1)10101110,01010000,01001011,10101011,10101011,01110101,10111101,00001101;
[0169] 2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;
[0170] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;
[0171] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;
[0172] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。
[0173] 根据待检测舆情信息的第一特征字段在未告警舆情信息集合(R集合)中查找,得到与第一特征字段对应的第一特征集合,其中,上述第一特征集合包括:
[0174] 2)10101111,01010011,01001010,10101010,10101010,01110101,10111101,11001001;(相似度为4)
[0175] 3)10101111,01010000,01001010,10101010,10101010,01110101,10100101,00110011;(相似度为8)
[0176] 4)10101111,01010011,01010010,10111010,10101010,01110101,10000110,11110000;(相似度为12)
[0177] 5)10101111,01010001,01001010,10101010,10101010,01110101,10111101,00001111。(相似度为1)
[0178] 再将上述第一特征集合中每一个未告警的舆情信息对应的特征字段与待检测舆情信息的特征字段进行比较,判断二者之间的相似度。经判断第2个特征字段及第5个特征字段与待检测舆情信息对应的特征字段的相似度小于第二预定阈值7,上述相似度小于等于第二预定阈值的未告警的舆情信息的数量已经达到第三预定阈值2时,则可以判断出上述待检测舆情信息满足告警条件,需要对上述待检测舆情信息进行告警。
[0179] 通过本申请提供的实施例,通过分别根据不同的特征字段在未告警的舆情信息中查找到相应的特征集合,再按照预定的顺序依次在各个特征集合中进行相似度比较,当查找到与待检测舆情信息对应的特征字段的相似度小于等于第二预定阈值的未告警的舆情信息的数量达到第三预定阈值时,则需要对上述待检测舆情信息进行告警。进一步,当查找到的未告警的舆情信息的数量达到第三预定阈值时,无需继续在未告警的舆情信息中进行查找或相似度比较,也可判断出待检测舆情信息需要进行告警,从而实现及时对待检测舆情信息进行告警,缩短了舆情信息的告警周期。
[0180] 作为一种可选的方案,对预处理单元504包括:
[0181] 1)提取模块,用于提取待检测舆情信息的主题;
[0182] 2)转码模块,用于对主题进行哈希转码操作得到预定码长的哈希码;
[0183] 3)划分模块,用于将哈希码划分为多个特征字段。
[0184] 可选地,在本实施例中,划分为多个特征字段进行查找的方式包括但不限于:假设多个特征字段个数为N,则当相似度比较的第一预定阈值为小于等于N-1时,则当上述相似度(例如,海明距离)中不同的比特码在不同的特征字段时,至少还有一个特征字段中的比特码是与其他舆情信息对应的特征字段完全相同的,则基于上述多个特征字段中的每一个特征字段分别进行查找,得到与上述每一个特征字段对应的特征集合,再基于上述特征集合进行相似度比较时,很大程度上减小了相似度比较的数量,从而提高舆情信息告警判断的效率,使得舆情信息告警更加及时有效。
[0185] 具体结合以下示例进行说明,例如,通过爬虫抓取微博,对微博中带有特殊符号标识“##”的话题进行识别,得到待检测舆情信息,然后将上述待检测舆情信息进行如图3所示的Simhash转码,得到一个64位二进制码。然后将上述二进制码划分为如表2所示的8段特征字段,并倒序存储,以用于之后的特征字段的相似度比较。
[0186] 通过本申请提供的实施例,通过对待检测舆情信息进行提取、转码、划分特征字段的预处理后,得到用于查找的多个特征字段,利用与多个特征字段对应的特征集合与待检测舆情信息的特征字段进行相似度比较,达到及时对需要告警的舆情信息进行准确告警,提供了告警的效率,缩短了舆情信息的告警周期。
[0187] 本发明提供了一种优选的实施例来进一步对本发明进行解释,但是值得注意的是,该优选实施例只是为了更好的描述本发明,并不构成对本发明不当的限定。
[0188] 从以上的描述中,可以看出,通过将从网络信息中识别出的待检测舆情信息进行预处理后,至少根据预处理后的上述待检测舆情信息对应的特征字段与已告警的舆情信息对应的特征字段的相似度,判断上述待检测舆情信息是否满足告警条件,进而判断出上述待检测舆情信息是否已经告警过,避免对待检测舆情信息的重复告警,从而实现对舆情信息的准确告警。
[0189] 进一步,将待检测舆情信息与未告警的舆情信息进行相似度比较,当满足相似度判断条件的未告警的舆情信息的数量大于预定阈值时,对待检测舆情信息进行告警,以克服现有技术中无法对舆情信息进行准确告警的问题。此外,通过利用与多个特征字段中的每一个特征字段对应的特征集合进行查找,实现了对舆情信息的及时告警,缩短了舆情信息的告警周期。
[0190] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。