基于社交信息的风险事件的识别系统及方法转让专利
申请号 : CN201710313184.0
文献号 : CN107688594B
文献日 : 2019-07-16
发明人 : 金戈 , 徐亮 , 肖京
申请人 : 平安科技(深圳)有限公司
摘要 :
权利要求 :
1.一种基于社交信息的风险事件的识别系统,其特征在于,所述基于社交信息的风险事件的识别系统包括:获取模块,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;
分析模块,用于对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
解析模块,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
识别模块,用于利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核;
所述分析模块包括:
分词单元,用于按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;
标注单元,用于按照预定的词性标注规则对所述分词进行词性标注;
分类单元,用于对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;
所述预定的分词规则为:
按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理;
所述解析模块包括:
构建单元,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;
解析单元,用于基于所述预设结构分词树解析出对应的社交信息对应的核心观点信息;
所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性划分得到;
所述解析单元具体用于基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序组成对应的核心观点信息。
2.根据权利要求1所述的基于社交信息的风险事件的识别系统,其特征在于,所述信息指向类别包括正面信息和负面信息,所述分类器为支持向量机分类器,所述基于社交信息的风险事件的识别系统还包括:训练模块,用于获取预设数量的正面信息的核心观点信息样本及预设数量的负面信息的核心观点信息样本,将获取的所有核心观点信息样本随机分成第一预设比例的训练集和第二预设比例的验证集,利用所述训练集训练预定的支持向量机分类器,并利用所述验证集验证训练后的支持向量机分类器的准确率,若所述准确率大于等于预设准确率,则训练结束,以训练后的支持向量机分类器为所述分类器,或者,若所述准确率小于预设准确率,则增加正面信息的核心观点信息样本数量及负面信息的核心观点信息样本数量,以重新进行训练。
3.根据权利要求1所述的基于社交信息的风险事件的识别系统,其特征在于,所述预定的词性标注规则为:根据通用字词典库中字和词分别与词性的映射关系,及/或,根据预设的字和词分别与词性的映射关系,确定分词处理后的各分词对应的词性,并进行标注。
4.根据权利要求3所述的基于社交信息的风险事件的识别系统,其特征在于,所述预定的词分类规则为:采用预先训练生成的识别模型对词性标注为名词的分词进行名词类别识别,以将词性标注为名词的分词进行名词分类,所述识别模型为条件随机场模型。
5.一种基于社交信息的风险事件的识别方法,其特征在于,所述基于社交信息的风险事件的识别方法包括:S1,从预定的社交服务器中获取预定的各社交账号发布的社交信息;
S2,对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
S3,在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
S4,利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核;
所述步骤S2包括:
按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;所述预定的分词规则为:按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理;
按照预定的词性标注规则对所述分词进行词性标注;
对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;
所述步骤S3包括:
在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性划分得到;
基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序组成对应的核心观点信息。
说明书 :
基于社交信息的风险事件的识别系统及方法
技术领域
背景技术
速、大范围传播,其中有些保险业务员或理财业务员可能会实行一些违规行为,例如向客户
宣传负面信息等;另外,有些客户在购买保险产品或理财产品后感觉受到不公正对待(实际
可能是保险业务员的违规导致的),客户也会通过社交网络向其他潜在客户进行负面信息
的宣泄,由此造成金融公司客户的流失等一系列的问题。
的发生。
发明内容
送给预定的终端进行审核。
集和第二预设比例的验证集,利用所述训练集训练预定的支持向量机分类器,并利用所述
验证集验证训练后的支持向量机分类器的准确率,若所述准确率大于等于预设准确率,则
训练结束,以训练后的支持向量机分类器为所述分类器,或者,若所述准确率小于预设准确
率,则增加正面信息的核心观点信息样本数量及负面信息的核心观点信息样本数量,以重
新进行训练。
词树;
后的每一级节点均是由上一级节点的分词短语按照词性划分得到。
个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序
组成对应的核心观点信息。
的终端进行审核。
名称和/或产品名称的社交信息对应的核心观点信息;最后利用分类器识别核心观点信息
对应的信息指向类别,对于预设的信息指向类别的社交信息,可以将其发送给预定的终端
进行审核,本发明通过对社交信息进行分析得到公司名称和/或产品名称,然后再解析得到
该社交信息中的核心价值观点信息,能够准确、有效地识别社交信息的核心价值观点,以识
别其是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险事件的发生。
附图说明
具体实施方式
可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子
装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的
组件。
置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure
Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内
部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类
数据,例如基于社交信息的风险事件的识别系统10的程序代码等。存储器11还可以用于暂
时地存储已经输出或者将要输出的数据。
如执行基于社交信息的风险事件的识别系统10等。
电子装置1中处理的信息以及用于显示可视化的用户界面,例如风险事件的识别界面等。电
子装置1的部件11-13通过系统总线相互通信。
块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器
12)所执行,以完成本发明。例如,在图2中,基于社交信息的风险事件的识别系统10可以被
分割成获取模块101、分析模块102、解析模块103、识别模块104及发送模块105。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述基于社交
信息的风险事件的识别系统10在电子装置1中的执行过程,其中:
定的社交账号可以是该社交服务器的部分社交账号或者全部社交账号。用户在自己的社交
账号上发布社交信息,例如可以是保险业务员A利用微信账号在朋友圈或某一朋友群中发
布的社交信息,该社交信息例如为“平安推出了尊宏人生产品”。
务器中获取预定的各社交账号发布的社交信息,相对于定时地获取社交信息的方式,能减
轻系统负担。
字和/或词与预先存储在预定的字词库中的字和/或词进行匹配,以分析获取得到社交信息
中的公司名称和/或产品名称;在另一实施例中,在对社交信息进行字和/或词的切分后,可
以进一步获取其中的名词,然后对这些名词与预先存储在预定的名词库中的名词进行匹
配,以分析获取得到社交信息中的公司名称和/或产品名称。如果在该条社交信息中没有获
取到公司名称和/或产品名称,则不对该条社交信息做任何处理,继续分析下一条社交信息
是否有公司名称和/或产品名称。
看法或者观点。
和/或词的提取,预定的词性例如可以是形容词、动词、名词或助词等,然后分析提取的预定词性的字和/或词,以获取该社交信息对应的核心观点信息,例如对于社交信息“平安推出
了尊宏人生产品,尊宏人生产品安全、收益高”,其中包含形容词“安全”、“高”,则核心观点信息为“尊宏人生产品安全、收益高”;在另一实施例中,对进行字和/或词的切分后的社交信息进行分析,分析其中是否有否定性的字和/或词,例如对进行字和/或词的切分后的社
交信息进行分析,以确定是否包含否定性的字和/或词,以获取该社交信息对应的核心观点
信息。
号发送给预定的终端进行审核。
括用于训练生成支持向量机分类器的训练模块,用于:获取预设数量(例如10000个)的正面
信息的核心观点信息样本(例如,样本为平安健康险保障范围广、平安车险大品牌理赔快)
及预设数量的负面信息的核心观点信息样本(例如,样本为平安车险理赔慢服务差、平安理
财产品没有承诺的高等);将获取的所有核心观点信息样本随机分成第一预设比例(例如
70%)的训练集和第二预设比例(例如30%)的验证集,其中,训练集与验证集的比例之和小
于等于1,利用所述训练集训练预定的支持向量机分类器(在第一次训练时,支持向量机分
类器的参数可以采用默认的参数进行训练),并利用所述验证集验证训练后的支持向量机
分类器的准确率;若所述准确率(例如该准确率为0.99)大于等于预设准确率(例如预设准
确率例如为0.98),则训练结束,以训练后的支持向量机分类器为上述的识别模块104中的
分类器,或者,若所述准确率(例如该准确率为0.95)小于预设准确率,则增加正面信息的核
心观点信息样本数量及负面信息的核心观点信息样本数量,以重新进行训练。
预定的终端,以对该社交信息进行审核。若审核确认为负面信息则可以对该社交账号采取
一些措施以控制负面信息的发布,例如,向该社交账号发送提醒信息,提醒该社交账号的用
户不要发布负面信息;或者,对该社交账号的用户发送违规操作的提示信息等。
称和/或产品名称的社交信息对应的核心观点信息;最后利用分类器识别核心观点信息对
应的信息指向类别,对于预设的信息指向类别(例如负面信息)的社交信息,可以将其发送
给预定的终端进行审核,本实施例通过对社交信息进行分析得到公司名称和/或产品名称,
然后再解析得到该社交信息中的核心价值观点信息,能够准确、有效地识别社交信息的核
心价值观点,以识别其是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险
事件的发生。
个短句,若社交信息的结束位置无标点符号,则从倒数第一个标点符号至社交信息结束位
置之间为一个短句,且针对从第一个标点符号至倒数第一个预设类型标点符号之间,每两
个标点符号之间的信息为一个短句;若社交信息结束位置有标点符号,则针对从第一个标
点符号至倒数第一个标点符号之间,每两个标点符号之间为一个短句。
语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/
X2/、、、、、、”,例如,对于社交信息“平安推出了尊宏人生产品”,在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”,则该社交信息的切分结果为“平安”、“推出”、“了”、“尊宏人生”、“产品”。
词),确定分词处理后的各分词对应的词性,并进行标注。其中,可以单独根据通用字词典库中字和词分别与词性的映射关系进行词性标注,或者也可以单独根据预设的字和词分别与
词性的映射关系进行词性标注,或者根据通用字词典库中字和词分别与词性的映射关系以
及根据预设的字和词分别与词性的映射关系这两种方式综合进行词性标注(预设的字和词
分别与词性的映射关系的词性标注的优先级高于通用字词典库中字和词分别与词性的映
射关系的优先级,例如,若通用字词典库中,操场对应的词性是名词,且预设的字和词分别
与词性的映射关系中,操场对应的词性是常用名词,则对操场标注的词性为常用名词)。
型”、“收益高”、“周期长”等等),并对识别的形容词进行形容词词性标注;按照预存的动词词库识别出分词中的动词(例如“推”、“推出”、“发”、“发布”、“开发”、“销售”等等),并对识别的动词进行动词词性标注。
条件随机场模型(CRF)。
例如下表1所示:
平安 名词 Null 推出 True
推出 动词 平安 了 False
了 助词 推出 尊宏人生 False
尊宏人生 名词 了 产品 False
产品 名词 尊宏人生 。 False
。 标点 产品 Null False
名的名词、输出类别为公司名的名词、输出类别为产品名的名词等等,最后从输出结果中获
取名词的类别为公司名称和/或产品名称的名词。
构分词树;
短语、动词短语等等),第二级节点之后的每一级节点均是由上一级节点的分词短语按照词
性继续划分得到的,直至划分至各节点分支的最后一级节点。在划分过程中,如果某一分词
短语不能进一步划分,则该分词短语为所在的节点分支的最后一级节点,以“我去操场踢足
球了”,构建的预设结构分词树如图5所示。
第二个预设词性的分词之间相隔的节点数,找出与第一个预设词性的分词节点距离最小的
第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词
按照在该社交信息中的顺序组成对应的核心观点信息。
统执行,该基于社交信息的风险事件的识别系统可以由软件和/或硬件实现,该基于社交信
息的风险事件的识别系统可以集成在服务器中。该基于社交信息的风险事件的识别方法包
括:
定的社交账号可以是该社交服务器的部分社交账号或者全部社交账号。用户在自己的社交
账号上发布社交信息,例如可以是保险业务员A利用微信账号在朋友圈或某一朋友群中发
布的社交信息,该社交信息例如为“平安推出了尊宏人生产品”。
器中获取预定的各社交账号发布的社交信息,相对于定时地获取社交信息的方式,能减轻
系统负担。
字和/或词与预先存储在预定的字词库中的字和/或词进行匹配,以分析获取得到社交信息
中的公司名称和/或产品名称;在另一实施例中,在对社交信息进行字和/或词的切分后,可
以进一步获取其中的名词,然后对这些名词与预先存储在预定的名词库中的名词进行匹
配,以分析获取得到社交信息中的公司名称和/或产品名称。如果在该条社交信息中没有获
取到公司名称和/或产品名称,则不对该条社交信息做任何处理,继续分析下一条社交信息
是否有公司名称和/或产品名称。
看法或者观点。
和/或词的提取,预定的词性例如可以是形容词、动词、名词或助词等,然后分析提取的预定词性的字和/或词,以获取该社交信息对应的核心观点信息,例如对于社交信息“平安推出
了尊宏人生产品,尊宏人生产品安全、收益高”,其中包含形容词“安全”、“高”,则核心观点信息为“尊宏人生产品安全、收益高”;在另一实施例中,对进行字和/或词的切分后的社交信息进行分析,分析其中是否有否定性的字和/或词,例如对进行字和/或词的切分后的社
交信息进行分析,以确定是否包含否定性的字和/或词,以获取该社交信息对应的核心观点
信息。
预定的终端进行审核。
类别后,如果核心观点信息对应的信息指向类别为负面信息,则将对应的社交信息及发布
该社交信息的社交账号发送给预定的终端,以对该社交信息进行审核。若审核确认为负面
信息则可以对该社交账号采取一些措施以控制负面信息的发布,例如,向该社交账号发送
提醒信息,提醒该社交账号的用户不要发布负面信息;或者,对该社交账号的用户发送违规
操作的提示信息等。