基于社交信息的风险事件的识别系统及方法转让专利

申请号 : CN201710313184.0

文献号 : CN107688594B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 金戈徐亮肖京

申请人 : 平安科技(深圳)有限公司

摘要 :

本发明涉及一种基于社交信息的风险事件的识别系统及方法,该系统包括:获取模块,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;分析模块,用于对社交信息进行分析,以获取公司名称和/或产品名称;解析模块,用于在获取得到社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到社交信息对应的核心观点信息;识别模块,用于利用预先训练生成的分类器识别核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核。本发明能准确、有效地识别社交信息是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险事件的发生。

权利要求 :

1.一种基于社交信息的风险事件的识别系统,其特征在于,所述基于社交信息的风险事件的识别系统包括:获取模块,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;

分析模块,用于对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;

解析模块,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;

识别模块,用于利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核;

所述分析模块包括:

分词单元,用于按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;

标注单元,用于按照预定的词性标注规则对所述分词进行词性标注;

分类单元,用于对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;

所述预定的分词规则为:

按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理;

所述解析模块包括:

构建单元,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;

解析单元,用于基于所述预设结构分词树解析出对应的社交信息对应的核心观点信息;

所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性划分得到;

所述解析单元具体用于基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序组成对应的核心观点信息。

2.根据权利要求1所述的基于社交信息的风险事件的识别系统,其特征在于,所述信息指向类别包括正面信息和负面信息,所述分类器为支持向量机分类器,所述基于社交信息的风险事件的识别系统还包括:训练模块,用于获取预设数量的正面信息的核心观点信息样本及预设数量的负面信息的核心观点信息样本,将获取的所有核心观点信息样本随机分成第一预设比例的训练集和第二预设比例的验证集,利用所述训练集训练预定的支持向量机分类器,并利用所述验证集验证训练后的支持向量机分类器的准确率,若所述准确率大于等于预设准确率,则训练结束,以训练后的支持向量机分类器为所述分类器,或者,若所述准确率小于预设准确率,则增加正面信息的核心观点信息样本数量及负面信息的核心观点信息样本数量,以重新进行训练。

3.根据权利要求1所述的基于社交信息的风险事件的识别系统,其特征在于,所述预定的词性标注规则为:根据通用字词典库中字和词分别与词性的映射关系,及/或,根据预设的字和词分别与词性的映射关系,确定分词处理后的各分词对应的词性,并进行标注。

4.根据权利要求3所述的基于社交信息的风险事件的识别系统,其特征在于,所述预定的词分类规则为:采用预先训练生成的识别模型对词性标注为名词的分词进行名词类别识别,以将词性标注为名词的分词进行名词分类,所述识别模型为条件随机场模型。

5.一种基于社交信息的风险事件的识别方法,其特征在于,所述基于社交信息的风险事件的识别方法包括:S1,从预定的社交服务器中获取预定的各社交账号发布的社交信息;

S2,对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;

S3,在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;

S4,利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核;

所述步骤S2包括:

按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;所述预定的分词规则为:按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理;

按照预定的词性标注规则对所述分词进行词性标注;

对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;

所述步骤S3包括:

在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性划分得到;

基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序组成对应的核心观点信息。

说明书 :

基于社交信息的风险事件的识别系统及方法

技术领域

[0001] 本发明涉及金融技术领域,尤其涉及一种基于社交信息的风险事件的识别系统及方法。

背景技术

[0002] 随着移动互联网技术的不断发展,保险业务员或理财业务员等金融人员经常通过社交网络向客户推荐保险产品或理财产品,这样使得大量的金融舆情信息在社交网路中快
速、大范围传播,其中有些保险业务员或理财业务员可能会实行一些违规行为,例如向客户
宣传负面信息等;另外,有些客户在购买保险产品或理财产品后感觉受到不公正对待(实际
可能是保险业务员的违规导致的),客户也会通过社交网络向其他潜在客户进行负面信息
的宣泄,由此造成金融公司客户的流失等一系列的问题。
[0003] 虽然目前存在着一些对网络信息进行识别的技术方案,但这些技术方案无法准确、有效地识别社交网络中传播的信息中的负面信息以进行控制,从而导致金融风险事件
的发生。

发明内容

[0004] 本发明的目的在于提供一种基于社交信息的风险事件的识别系统及方法,旨在准确、有效地识别社交信息是否为负面信息,避免风险事件的发生。
[0005] 为实现上述目的,本发明提供一种基于社交信息的风险事件的识别系统,所述基于社交信息的风险事件的识别系统包括:
[0006] 获取模块,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;
[0007] 分析模块,用于对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
[0008] 解析模块,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
[0009] 识别模块,用于利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发
送给预定的终端进行审核。
[0010] 优选地,所述信息指向类别包括正面信息和负面信息,所述分类器为支持向量机分类器,所述基于社交信息的风险事件的识别系统还包括:
[0011] 训练模块,用于获取预设数量的正面信息的核心观点信息样本及预设数量的负面信息的核心观点信息样本,将获取的所有核心观点信息样本随机分成第一预设比例的训练
集和第二预设比例的验证集,利用所述训练集训练预定的支持向量机分类器,并利用所述
验证集验证训练后的支持向量机分类器的准确率,若所述准确率大于等于预设准确率,则
训练结束,以训练后的支持向量机分类器为所述分类器,或者,若所述准确率小于预设准确
率,则增加正面信息的核心观点信息样本数量及负面信息的核心观点信息样本数量,以重
新进行训练。
[0012] 优选地,所述分析模块包括:
[0013] 分词单元,用于按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;
[0014] 标注单元,用于按照预定的词性标注规则对所述分词进行词性标注;
[0015] 分类单元,用于对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称。
[0016] 优选地,所述预定的分词规则为:
[0017] 按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理。
[0018] 优选地,所述预先确定的词性标注规则为:
[0019] 根据通用字词典库中字和词分别与词性的映射关系,及/或,根据预设的字和词分别与词性的映射关系,确定分词处理后的各分词对应的词性,并进行标注。
[0020] 优选地,所述预定的词分类规则为:
[0021] 采用预先训练生成的识别模型对词性标注为名词的分词进行名词类别识别,以将词性标注为名词的分词进行名词分类,所述识别模型为条件随机场模型。
[0022] 优选地,所述解析模块包括:
[0023] 构建单元,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分
词树;
[0024] 解析单元,用于基于所述预设结构分词树解析出对应的社交信息对应的核心观点信息。
[0025] 优选地,所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之
后的每一级节点均是由上一级节点的分词短语按照词性划分得到。
[0026] 优选地,所述解析单元具体用于基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二
个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序
组成对应的核心观点信息。
[0027] 为实现上述目的,本发明还提供一种基于社交信息的风险事件的识别方法,所述基于社交信息的风险事件的识别方法包括:
[0028] S1,从预定的社交服务器中获取预定的各社交账号发布的社交信息;
[0029] S2,对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
[0030] S3,在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
[0031] S4,利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定
的终端进行审核。
[0032] 本发明的有益效果是:本发明从社交服务器中获取各社交账号发布的社交信息;对社交信息进行分析,以获取社交信息中的公司名称和/或产品名称;并解析得到包含公司
名称和/或产品名称的社交信息对应的核心观点信息;最后利用分类器识别核心观点信息
对应的信息指向类别,对于预设的信息指向类别的社交信息,可以将其发送给预定的终端
进行审核,本发明通过对社交信息进行分析得到公司名称和/或产品名称,然后再解析得到
该社交信息中的核心价值观点信息,能够准确、有效地识别社交信息的核心价值观点,以识
别其是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险事件的发生。

附图说明

[0033] 图1为本发明基于社交信息的风险事件的识别系统一实施例的运行环境示意图;
[0034] 图2为本发明基于社交信息的风险事件的识别系统一实施例的结构示意图;
[0035] 图3为图2所示分析模块的结构示意图;
[0036] 图4为图2所示解析模块的结构示意图;
[0037] 图5为预设结构分词树的结构示意图;
[0038] 图6为本发明基于社交信息的风险事件的识别方法一实施例的流程示意图。

具体实施方式

[0039] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0040] 请参阅图1,图1是本发明基于社交信息的风险事件的识别系统10较佳实施例的运行环境示意图。
[0041] 在本实施例中,基于社交信息的风险事件的识别系统10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1
可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子
装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的
组件。
[0042] 存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装
置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure 
Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内
部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类
数据,例如基于社交信息的风险事件的识别系统10的程序代码等。存储器11还可以用于暂
时地存储已经输出或者将要输出的数据。
[0043] 处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例
如执行基于社交信息的风险事件的识别系统10等。
[0044] 显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器13用于显示在
电子装置1中处理的信息以及用于显示可视化的用户界面,例如风险事件的识别界面等。电
子装置1的部件11-13通过系统总线相互通信。
[0045] 请参阅图2,是本发明基于社交信息的风险事件的识别系统10一实施例的功能模块图。在本实施例中,基于社交信息的风险事件的识别系统10可以被分割成一个或多个模
块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器
12)所执行,以完成本发明。例如,在图2中,基于社交信息的风险事件的识别系统10可以被
分割成获取模块101、分析模块102、解析模块103、识别模块104及发送模块105。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述基于社交
信息的风险事件的识别系统10在电子装置1中的执行过程,其中:
[0046] 获取模块101,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;
[0047] 其中,预定的社交服务器例如为微博服务器、微信服务器或者QQ服务器等,社交账号与社交服务器对应,例如为微博账号、微信账号或者QQ账号等。对于某一社交服务器,预
定的社交账号可以是该社交服务器的部分社交账号或者全部社交账号。用户在自己的社交
账号上发布社交信息,例如可以是保险业务员A利用微信账号在朋友圈或某一朋友群中发
布的社交信息,该社交信息例如为“平安推出了尊宏人生产品”。
[0048] 本实施例中,基于社交信息的风险事件的识别系统10可以实时地从社交服务器中获取预定的各社交账号发布的社交信息,以获取最新的社交信息,也可以定时地从社交服
务器中获取预定的各社交账号发布的社交信息,相对于定时地获取社交信息的方式,能减
轻系统负担。
[0049] 分析模块102,用于对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
[0050] 本实施例中,对每一社交账号发布的社交信息进行分析,以获取所发布的社交信息中的公司名称和/或产品名称,例如对于上述的社交信息“平安推出了尊宏人生产品”,经过分析可以获取到其中的公司名称“平安”、产品名称“尊宏人生”,对于社交信息“今天去*景点游玩”,经分析未能获取到公司名称和/或产品名称。
[0051] 对社交信息进行分析的过程中,可以按照发布的时间先后顺序逐条进行分析。对于某一条社交信息,在一实施例中,可以对其进行字和/或词的切分,然后将切分后的所有
字和/或词与预先存储在预定的字词库中的字和/或词进行匹配,以分析获取得到社交信息
中的公司名称和/或产品名称;在另一实施例中,在对社交信息进行字和/或词的切分后,可
以进一步获取其中的名词,然后对这些名词与预先存储在预定的名词库中的名词进行匹
配,以分析获取得到社交信息中的公司名称和/或产品名称。如果在该条社交信息中没有获
取到公司名称和/或产品名称,则不对该条社交信息做任何处理,继续分析下一条社交信息
是否有公司名称和/或产品名称。
[0052] 通过分析一条社交信息中是否包含有公司名称和/或产品名称,进而可以分析该条社交信息中是否包含有针对该公司名称和/或产品名称的观点的信息。
[0053] 解析模块103,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
[0054] 本实施例中,对于包含有公司名称和/或产品名称的一条社交信息进行解析,以获取该条社交信息中的核心观点信息,该核心观点信息为针对该公司名称和/或产品名称的
看法或者观点。
[0055] 在解析过程中,在一实施例中,可以提取包含有公司名称和/或产品名称的社交信息中预定词性的字和/或词,例如对进行字和/或词的切分后的社交信息进行预定词性的字
和/或词的提取,预定的词性例如可以是形容词、动词、名词或助词等,然后分析提取的预定词性的字和/或词,以获取该社交信息对应的核心观点信息,例如对于社交信息“平安推出
了尊宏人生产品,尊宏人生产品安全、收益高”,其中包含形容词“安全”、“高”,则核心观点信息为“尊宏人生产品安全、收益高”;在另一实施例中,对进行字和/或词的切分后的社交信息进行分析,分析其中是否有否定性的字和/或词,例如对进行字和/或词的切分后的社
交信息进行分析,以确定是否包含否定性的字和/或词,以获取该社交信息对应的核心观点
信息。
[0056] 识别模块104,用于利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账
号发送给预定的终端进行审核。
[0057] 其中,预先训练生成的分类器优选为支持向量机分类器,核心观点信息对应的信息指向类别包括正面信息及负面信息,优选地,基于社交信息的风险事件的识别系统还包
括用于训练生成支持向量机分类器的训练模块,用于:获取预设数量(例如10000个)的正面
信息的核心观点信息样本(例如,样本为平安健康险保障范围广、平安车险大品牌理赔快)
及预设数量的负面信息的核心观点信息样本(例如,样本为平安车险理赔慢服务差、平安理
财产品没有承诺的高等);将获取的所有核心观点信息样本随机分成第一预设比例(例如
70%)的训练集和第二预设比例(例如30%)的验证集,其中,训练集与验证集的比例之和小
于等于1,利用所述训练集训练预定的支持向量机分类器(在第一次训练时,支持向量机分
类器的参数可以采用默认的参数进行训练),并利用所述验证集验证训练后的支持向量机
分类器的准确率;若所述准确率(例如该准确率为0.99)大于等于预设准确率(例如预设准
确率例如为0.98),则训练结束,以训练后的支持向量机分类器为上述的识别模块104中的
分类器,或者,若所述准确率(例如该准确率为0.95)小于预设准确率,则增加正面信息的核
心观点信息样本数量及负面信息的核心观点信息样本数量,以重新进行训练。
[0058] 在利用分类器识别出核心观点信息对应的信息指向类别后,如果核心观点信息对应的信息指向类别为负面信息,则将对应的社交信息及发布该社交信息的社交账号发送给
预定的终端,以对该社交信息进行审核。若审核确认为负面信息则可以对该社交账号采取
一些措施以控制负面信息的发布,例如,向该社交账号发送提醒信息,提醒该社交账号的用
户不要发布负面信息;或者,对该社交账号的用户发送违规操作的提示信息等。
[0059] 与现有技术相比,本实施例从社交服务器中获取各社交账号发布的社交信息;对社交信息进行分析,以获取社交信息中的公司名称和/或产品名称;并解析得到包含公司名
称和/或产品名称的社交信息对应的核心观点信息;最后利用分类器识别核心观点信息对
应的信息指向类别,对于预设的信息指向类别(例如负面信息)的社交信息,可以将其发送
给预定的终端进行审核,本实施例通过对社交信息进行分析得到公司名称和/或产品名称,
然后再解析得到该社交信息中的核心价值观点信息,能够准确、有效地识别社交信息的核
心价值观点,以识别其是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险
事件的发生。
[0060] 在一优选的实施例中,如图3所示,在上述图2的实施例的基础上,上述的分析模块102包括:
[0061] 分词单元1021,用于按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;其中,分词包括字和词,例如对于社交信息“平安推出了尊宏人生产品”,分词后的结果为“平安”、“推出”、“了”、“尊宏人生”、“产品”。
[0062] 优选地,预定的分词规则为按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理:例如按照标点符号“,”、“。”、“!”及“;”等对各社交信息进行短句拆分,从每一社交信息的起始处至第一个标点符号之间为一
个短句,若社交信息的结束位置无标点符号,则从倒数第一个标点符号至社交信息结束位
置之间为一个短句,且针对从第一个标点符号至倒数第一个预设类型标点符号之间,每两
个标点符号之间的信息为一个短句;若社交信息结束位置有标点符号,则针对从第一个标
点符号至倒数第一个标点符号之间,每两个标点符号之间为一个短句。
[0063] 对拆分的每一个短句,采用长词优先原则继续进行分词,长词优先原则指的是:对于一个需要分词的短句T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词
语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/
X2/、、、、、、”,例如,对于社交信息“平安推出了尊宏人生产品”,在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”,则该社交信息的切分结果为“平安”、“推出”、“了”、“尊宏人生”、“产品”。
[0064] 标注单元1022,用于按照预定的词性标注规则对所述分词进行词性标注;例如,词性标注可以为:“平安/名词”、“推出/动词”、“了/助词”、“尊宏人生/名词”、“产品/名词”。
[0065] 优选地,预定的词性标注规则是:根据通用字词典库中字和词分别与词性的映射关系(例如,通用字词典库中,操场对应的词性是名词),及/或,根据预设的字和词分别与词性的映射关系(例如,预设的字和词分别与词性的映射关系中,操场对应的词性是常用名
词),确定分词处理后的各分词对应的词性,并进行标注。其中,可以单独根据通用字词典库中字和词分别与词性的映射关系进行词性标注,或者也可以单独根据预设的字和词分别与
词性的映射关系进行词性标注,或者根据通用字词典库中字和词分别与词性的映射关系以
及根据预设的字和词分别与词性的映射关系这两种方式综合进行词性标注(预设的字和词
分别与词性的映射关系的词性标注的优先级高于通用字词典库中字和词分别与词性的映
射关系的优先级,例如,若通用字词典库中,操场对应的词性是名词,且预设的字和词分别
与词性的映射关系中,操场对应的词性是常用名词,则对操场标注的词性为常用名词)。
[0066] 为各个分词标注对应的词性:例如,按照预存的助词词库识别出分词中的助词(例如助词“了”、“来”、“着”、“过”、“的”、“地”、“得”、“似的”、“所”等等),并对识别的助词进行助词词性标注;按照预存的形容词词库识别出分词中的形容词(例如“非常安全”、“保本
型”、“收益高”、“周期长”等等),并对识别的形容词进行形容词词性标注;按照预存的动词词库识别出分词中的动词(例如“推”、“推出”、“发”、“发布”、“开发”、“销售”等等),并对识别的动词进行动词词性标注。
[0067] 分类单元1023,用于对词性为名词(例如,人名、地名、公司名、产品名、其他名词)的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;
[0068] 优选地,预定的词分类规则为:采用预先训练生成的识别模型对词性标注为名词的分词进行名词类别识别,以将词性标注为名词的分词进行名词分类,优选地,识别模型为
条件随机场模型(CRF)。
[0069] 其中,条件随机场模型的训练过程包括:
[0070] 1)、构造训练数据集:以预先确定的短句数据集格式(例如,{{company_name:平安}}推出了{{product_name:尊宏人生}}产品)构建预设数量的训练数据集;
[0071] 2)、构造特征变量:针对每一个训练数据集,以分词为单位,对每一分词提取特征变量(例如,提取的特征变量包括但不限于:词性、上下文信息、词的结构等等),将非结构化数据转变为结构化的特征矩阵。以社交信息“平安推出了尊宏人生产品”为例,特征矩阵示
例如下表1所示:
[0072]分词 词性 前置词 后置词 包含“平安”
平安 名词 Null 推出 True
推出 动词 平安 了 False
了 助词 推出 尊宏人生 False
尊宏人生 名词 了 产品 False
产品 名词 尊宏人生 。 False
。 标点 产品 Null False
[0073] 表1
[0074] 3)、训练模型:将构造的特征矩阵作为输入变量,训练条件随机场模型,并以训练后的条件随机场模型作为识别名词类别的模型,输出各种类别的名词,例如输出类别为人
名的名词、输出类别为公司名的名词、输出类别为产品名的名词等等,最后从输出结果中获
取名词的类别为公司名称和/或产品名称的名词。
[0075] 在其他实施例中,在对分词进行词性标注后,可以获取预定的动词,例如动词“推”、“推出”、“发”、“发布”、“开发”或“销售”等,然后获取该动词后的名词作为一类别,再从该类别的名词中获取为公司名称和/或产品名称的名词。
[0076] 在一优选的实施例中,如图4所示,在上述图3的实施例的基础上,上述解析模块103包括:
[0077] 构建单元1031,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结
构分词树;
[0078] 其中,如图5所示,预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语(例如名词
短语、动词短语等等),第二级节点之后的每一级节点均是由上一级节点的分词短语按照词
性继续划分得到的,直至划分至各节点分支的最后一级节点。在划分过程中,如果某一分词
短语不能进一步划分,则该分词短语为所在的节点分支的最后一级节点,以“我去操场踢足
球了”,构建的预设结构分词树如图5所示。
[0079] 解析单元1032,用于基于所述预设结构分词树解析出对应的社交信息对应的核心观点信息。
[0080] 其中,基于构建的预设结构分词树,计算第一个预设词性(例如名词)的分词与第二个预设词性(例如动词或者形容词)的分词的节点距离,即计算第一个预设词性的分词与
第二个预设词性的分词之间相隔的节点数,找出与第一个预设词性的分词节点距离最小的
第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词
按照在该社交信息中的顺序组成对应的核心观点信息。
[0081] 如图6所示,图6为本发明基于社交信息的风险事件的识别方法一实施例的结构示意图,其中,基于社交信息的风险事件的识别方法可由基于社交信息的风险事件的识别系
统执行,该基于社交信息的风险事件的识别系统可以由软件和/或硬件实现,该基于社交信
息的风险事件的识别系统可以集成在服务器中。该基于社交信息的风险事件的识别方法包
括:
[0082] 步骤S1,从预定的社交服务器中获取预定的各社交账号发布的社交信息;
[0083] 其中,预定的社交服务器例如为微博服务器、微信服务器或者QQ服务器等,社交账号与社交服务器对应,例如为微博账号、微信账号或者QQ账号等。对于某一社交服务器,预
定的社交账号可以是该社交服务器的部分社交账号或者全部社交账号。用户在自己的社交
账号上发布社交信息,例如可以是保险业务员A利用微信账号在朋友圈或某一朋友群中发
布的社交信息,该社交信息例如为“平安推出了尊宏人生产品”。
[0084] 本实施例中,基于社交信息的风险事件的识别系统可以实时地从社交服务器中获取预定的各社交账号发布的社交信息,以获取最新的社交信息,也可以定时地从社交服务
器中获取预定的各社交账号发布的社交信息,相对于定时地获取社交信息的方式,能减轻
系统负担。
[0085] 步骤S2,对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
[0086] 本实施例中,对每一社交账号发布的社交信息进行分析,以获取所发布的社交信息中的公司名称和/或产品名称,例如对于上述的社交信息“平安推出了尊宏人生产品”,经过分析可以获取到其中的公司名称“平安”、产品名称“尊宏人生”,对于社交信息“今天去*景点游玩”,经分析未能获取到公司名称和/或产品名称。
[0087] 对社交信息进行分析的过程中,可以按照发布的时间先后顺序逐条进行分析。对于某一条社交信息,在一实施例中,可以对其进行字和/或词的切分,然后将切分后的所有
字和/或词与预先存储在预定的字词库中的字和/或词进行匹配,以分析获取得到社交信息
中的公司名称和/或产品名称;在另一实施例中,在对社交信息进行字和/或词的切分后,可
以进一步获取其中的名词,然后对这些名词与预先存储在预定的名词库中的名词进行匹
配,以分析获取得到社交信息中的公司名称和/或产品名称。如果在该条社交信息中没有获
取到公司名称和/或产品名称,则不对该条社交信息做任何处理,继续分析下一条社交信息
是否有公司名称和/或产品名称。
[0088] 通过分析一条社交信息中是否包含有公司名称和/或产品名称,进而可以分析该条社交信息中是否包含有针对该公司名称和/或产品名称的观点的信息。
[0089] 步骤S3,在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
[0090] 本实施例中,对于包含有公司名称和/或产品名称的一条社交信息进行解析,以获取该条社交信息中的核心观点信息,该核心观点信息为针对该公司名称和/或产品名称的
看法或者观点。
[0091] 在解析过程中,在一实施例中,可以提取包含有公司名称和/或产品名称的社交信息中预定词性的字和/或词,例如对进行字和/或词的切分后的社交信息进行预定词性的字
和/或词的提取,预定的词性例如可以是形容词、动词、名词或助词等,然后分析提取的预定词性的字和/或词,以获取该社交信息对应的核心观点信息,例如对于社交信息“平安推出
了尊宏人生产品,尊宏人生产品安全、收益高”,其中包含形容词“安全”、“高”,则核心观点信息为“尊宏人生产品安全、收益高”;在另一实施例中,对进行字和/或词的切分后的社交信息进行分析,分析其中是否有否定性的字和/或词,例如对进行字和/或词的切分后的社
交信息进行分析,以确定是否包含否定性的字和/或词,以获取该社交信息对应的核心观点
信息。
[0092] 步骤S4,利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给
预定的终端进行审核。
[0093] 其中,预先训练生成的分类器优选为支持向量机分类器,核心观点信息对应的信息指向类别包括正面信息及负面信息。在利用分类器识别出核心观点信息对应的信息指向
类别后,如果核心观点信息对应的信息指向类别为负面信息,则将对应的社交信息及发布
该社交信息的社交账号发送给预定的终端,以对该社交信息进行审核。若审核确认为负面
信息则可以对该社交账号采取一些措施以控制负面信息的发布,例如,向该社交账号发送
提醒信息,提醒该社交账号的用户不要发布负面信息;或者,对该社交账号的用户发送违规
操作的提示信息等。
[0094] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。