事件类型信息处理方法、事件类型识别方法及装置转让专利
申请号 : CN202010497908.3
文献号 : CN111400432B
文献日 : 2020-09-25
发明人 : 刘志煌
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种事件类型信息处理方法,其特征在于,包括:
获取至少一个语料集,每个所述语料集中各事件文本属于同一事件类型,并且,每个所述事件文本包含所属事件类型下的类别关键词;
基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度,所述上下文序列模式特征包括根据正样本确定的正向上下文序列模式特征和根据负样本确定的负向上下文序列模式特征;
根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重,所述类型权重包括正样本权重和负样本权重;所述正样本权重是所述上下文序列模式特征中的最长上下文序列模式特征为正向上下文序列模式特征时,该正向上下文序列模式特征所对应的序列模式支持度;所述负样本权重是所述上下文序列模式特征中的最长上下文序列模式特征为负向上下文序列模式特征时,该负向上下文序列模式特征所对应的序列模式支持度的取负运算结果;
根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库。
2.根据权利要求1所述的方法,其特征在于,所述获取至少一个语料集,包括:构建对应不同事件类型的关键词词库,所述关键词词库包括预设数量的类别关键词;
获取包含所述关键词词库中任一类别关键词的事件文本,并根据各所述事件文本的分类标识,将获取的所述事件文本划分正样本或负样本,将正样本和负样本分别作为与所述关键词词库所属事件类型对应的语料集。
3.根据权利要求1所述的方法,其特征在于,所述基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度,包括:对每个语料集执行如下处理:
遍历所述语料集中的事件文本,从所述事件文本中提取包含该语料集所属事件类型下各类别关键词的句子,根据提取的句子确定与所述语料集对应的样本数据;
以字序列作为频繁序列模式挖掘对象,在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式,获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度。
4.根据权利要求3所述的方法,其特征在于,所述以字序列作为频繁序列模式挖掘对象,在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式,获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度,包括:去除所述样本数据中各句子包含的预设字符,所述预设字符包括类别关键词;
对去除预设字符的句子进行字元素拆分,获得第一样本数据;
根据所述字元素在所述第一样本数据所包含的句子中的出现次数,确定各字元素的支持度;
去除所述第一样本数据中支持度小于预设支持度阈值的字元素,得到第二样本数据;
将支持度不小于预设支持度阈值的字元素作为前缀,得到前缀集合;
根据所述前缀集合中各前缀在所述第二样本数据中的出现情况,确定与各前缀对应的由接续在该前缀之后的字元素组成的投影数据集;
对每个所述投影数据集执行递归挖掘操作,获得所有满足最小支持度要求的目标前缀和对应的支持度;
将所述目标前缀作为所述类别关键词的上下文序列模式特征,将所述投影数据集中各目标前缀的支持度作为与上下文序列模式特征对应的序列模式支持度。
5.根据权利要求4所述的方法,其特征在于,所述对每个所述投影数据集执行递归挖掘操作,包括:判断所述投影数据集是否为空集合;
如果所述投影数据集为空集合,则递归返回;
如果所述投影数据集不为空集合,则统计所述投影数据集中各字元素的支持度,判断各字元素的支持度是否满足最小支持度要求;
如果字元素的支持度不满足最小支持度要求,则递归返回;
如果字元素的支持度满足最小支持度要求,则将所述字元素与所述投影数据集对应的前缀合并,得到新前缀,确定新前缀的投影数据集,并对新前缀对应的投影数据集执行递归挖掘,获得所有满足最小支持度要求的目标前缀和对应的支持度;
其中,所述递归返回的数据为当前获得的所有满足最小支持度要求的目标前缀和对应的支持度。
6.根据权利要求2所述的方法,其特征在于,
所述根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重,包括:将所述事件文本与各事件类型下的类别关键词进行匹配,确定与所述事件文本匹配的类别关键词及对应的事件类型;
获取与匹配到的类别关键词对应的上下文序列模式特征;
将获取的上下文序列模式特征中的最长上下文序列模式特征作为目标上下文序列模式特征;
如果所述目标上下文序列模式特征为正向上下文序列模式特征,将所述目标上下文序列模式特征对应的序列模式支持度作为所述事件文本对应匹配到的所述事件类型的正样本权重;
如果所述目标上下文序列模式特征为负向上下文序列模式特征,对所述目标上下文序列模式特征对应的序列模式支持度进行取负运算,将取负运算结果作为所述事件文本对应匹配到的所述事件类型的负样本权重;
将所述正样本权重和所述负样本权重作为所述事件文本对应匹配到的所述事件类型的类型权重。
7.根据权利要求1所述的方法,其特征在于,所述根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库,包括:确定预设权重阈值,所述预设权重阈值包括正样本支持度权重阈值和负样本支持度权重阈值;
获取各事件文本对应所属事件类型的类型权重;
将各事件文本对应所属事件类型的类型权重中正样本权重高于所述正样本支持度权重阈值的事件文本作为正向性质的事件文本,将各事件文本对应所属事件类型的类型权重中负样本权重低于所述负样本支持度权重阈值的事件文本作为负向性质的事件文本;
根据所述正向性质的事件文本和负向性质的事件文本构建事件类型库;
根据所述事件文本所属事件类型和正负向性质,对事件类型库中每个事件文本进行事件类型编码;
对具有同一事件类型编码的事件文本进行归类,构建以事件类型编码为标签的事件文本信息库。
8.一种事件类型识别方法,其特征在于,包括:
获取待识别事件文本;
计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由权利要求1-7中任一所述的事件类型信息处理方法确定;
根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
9.一种事件类型识别装置,其特征在于,包括:
待识别事件文本获取模块,用于获取待识别事件文本;
相似度计算模块,用于计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由权利要求1-7中任一所述的事件类型信息处理方法确定;
事件类型确定模块,用于根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-
7任一所述的事件类型信息处理方法或者权利要求8所述的事件类型识别方法。
说明书 :
事件类型信息处理方法、事件类型识别方法及装置
技术领域
背景技术
主要分为基于模式匹配的识别方法、基于扩展触发词表的事件类型识别方法、基于机器学
习的事件类型识别方法和基于领域事件词聚类的识别方法,下面具体介绍这几种方法。
并依据触发词对事件进行分类;
标领域中的分布情况抽取领域事件词,然后借助语义知识实现领域事件词聚类从而发现事
件类型。
时一些词语在多个事件类型中都可以作为触发词,而通过对非触发词分类扩展触发词表的
方法也有缺陷,原因在于非触发词的占比很高,如果对这些词进行分类不仅计算量大,同时容易引入噪音造成正反例不平衡;
型无法处理一个事件语句属于多个事件类型的情况;
发明内容
上述第一方面提供的事件类型信息处理方法或者上述第二方面提供的事件类型识别方法。
到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类
型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。本发明通过频繁序列模式挖掘的方式抽取各类别关键词的上下文序列模式特征,并基于模式支持度获得事
件文本属于对应的事件类型的确信度,从而将类别关键词在语料集中的出现频率转化为有
效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识
别其他待识别事件文本的事件类型提供了参照依据。
息库中各事件文本进行了细致的特征和支持度挖掘,细化了每个事件文本属于事件类型的
确信度,使得依据事件文本信息库进行事件类型识别时,能够获得准确度更高的识别结果。
附图说明
仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
具体实施方式
他实施例,都属于本发明保护的范围。
数据处理装置30从数据收集装置获取语料进行处理。但是,这只是用于实现本发明构思的
目的的优选实施例,当然可根据需要附加或删除一部分结构要素,例如,可以省略数据收集装置10,由数据处理装置30直接收集获得语料。此外,图1所示的事件类型识别系统的各个结构要素表示按功能区分的功能要素,应注意在实际物理环境中也可以以彼此合并的形式
实现至少一个结构要素。例如,数据收集装置10和数据处理装置30可以以内置在同一服务
器或者服务器集群中的方式实现数据收集装置及数据处理装置的各功能,也可以分属于不
同的服务器或者服务器集群,并且,数据处理装置30所属服务器可以以云服务器方式存在。
式机(desktop)、便携式电脑(laptop)或智能手机(smart phone)等,但并不局限于此,可包括具备运算单元的所有种类的装置。
的事件类型识别模型,并且利用构建出的所述事件类型识别模型来提供对输入语料(待识
别事件文本)的事件类型识别结果。在此,所述深度神经网络例如可以是递归神经网络
(Recurrent Neural Network,RNN)、双向递归神经网络(Bi-directional RNN,BRNN)、长短期记忆(Long Short TermMemory,LSTM)、双向长短期记忆(Bi-directional LSTM,BLSTM)、门控循环单元(GatedRecurrent Unit,GRU)或双向门控循环单元(Bi-directional GRU,
BGRU)等,但并不限定于此。
模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度,根据上下
文序列模式特征和对应的序列模式支持度,确定各事件文本对应所属事件类型的类型权
重,根据各事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个事件类型下
的事件文本信息库;数据处理装置30还可以从数据收集装置10获取待识别事件文本,并基
于事件文本信息库对待识别事件文本进行事件类型识别。由此,通过类别关键词对语料集
进行频繁序列模式挖掘,将类别关键词在语料集中的出现频率转化为有效的分类依据,确
定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件
文本的事件类型提供参照依据,在依据事件文本信息库进行事件类型识别时,能够获得准
确度更高的事件类型识别结果。关于此的详细说明将在后面参照图3至图10来进行描述。
系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共
享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传
输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据
共享系统中全部节点上存储的数据均一致。
点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个
如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息。
作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列
举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中
的系统产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并
行处理器或者多线程处理的环境)。具体的如图3所示,所述事件类型信息处理方法可以由服务器端执行,包括:
公司事件 公司经营 业绩增长
公司事件 公司经营 业绩亏损
公司事件 人事变动 人员调整
公司事件 人事变动 高管变动
公司事件 公告事件 资质认证
公司事件 公告事件 对外投资
公司事件 公司治理 股权激励
公司事件 公司治理 股东大会
业绩&亏、业绩&赔… 公司事件 公司经营 业绩亏损
人员&变动、人员&调整… 公司事件 人事变动 人员调整
高管&调动、高管&任… 公司事件 人事变动 高管变动
资质&认证、资质&许可… 公司事件 公告事件 资质认证
外部&投资、对外&撤资… 公司事件 公告事件 对外投资
股权&激励、股权&鼓励… 公司事件 公司治理 股权激励
股东&会议、股东&大会… 公司事件 公司治理 股东大会
作为与所述关键词词库所属事件类型对应的语料集。
事件类型下,进一步根据事件文本携带的分类标识,搜索分类标识用于指示事件文本的正
负向性质,把各事件类型下的事件文本划分出该事件类型的正样本和负样本,得到各个事
件类型的语料集,即,每个事件类型下具有至少两个语料集,一个由正样本组成,一个由负样本组成。
的序列模式支持度。
构成,继而基于同一句子中的特征序列组成序列模式的原则,在包含类别关键词的句子中
进行频繁序列模式挖掘。
于预设支持度阈值的字元素,得到第二样本数据;将支持度不小于预设支持度阈值的字元
素作为前缀,得到前缀集合;根据前缀集合中各前缀在第二样本数据中的出现情况,确定与各前缀对应的由接续在该前缀之后的字元素组成的投影数据集;对每个投影数据集执行递
归挖掘操作,获得所有满足最小支持度要求的目标前缀和对应的支持度;将目标前缀作为
类别关键词的上下文序列模式特征,将投影数据集中各目标前缀的支持度作为与上下文序
列模式特征对应的序列模式支持度。
元素的支持度是否满足最小支持度要求;如果字元素的支持度不满足最小支持度要求,则
递归返回;如果字元素的支持度满足最小支持度要求,则将所述字元素与所述投影数据集
对应的前缀合并,得到新前缀,确定新前缀的投影数据集,并对新前缀对应的投影数据集执行递归挖掘,获得所有满足最小支持度要求的目标前缀和对应的支持度;
进行挖掘。
下文特征库。对于由负样本组成的语料集,可以基于prefixspan算法挖掘与类别关键词构
成频繁序列模式的特征,作为组成该类别关键词的负向上下文特征,加入该事件类型的负
向上下文特征库。
度阈值的计算方法如公式(1)所示。
今年7月份日照钢铁业绩同比增幅位列全省第一 公司事件 公司经营 业绩增长 业绩&增
长城汽车1-5月销量环比大增5.11%用行动打破市场坚冰 公司事件 公司经营 业绩增长 销量&增 李宁(02331.HK)预计中期收益同比增加逾4.4亿元 公司事件 公司经营 业绩增长 收益&增加 中国神华(01088)上半年神华财务净利润同比增31 公司事件 公司经营 业绩增长 利润&增 双箭股份预计2019上半年盈利同环比增幅均超过往年达到历 公司事件 公司经营 业绩增长 盈利&增 史新高
宝马集团电动车销量突破40万大关5月交付环比增长9.8% 公司事件 公司经营 业绩增长 销量&增长 腾讯视频今年9月业务营收环比增长42% 公司事件 公司经营 业绩增长 营收&增长
必瘦站(01830)年度纯利同比增加64%至3.19亿港元 公司事件 公司经营 业绩增长 纯利&增加 腾讯音乐上市后业绩环比提升趋势明显 公司事件 公司经营 业绩增长 业绩&提升
长城汽车月环比大用行动打破市场坚冰
李宁预计中期同比逾亿元
中国神华上半年神华财务净同比
双箭股份预计上半年同环比幅均超过往年达到历史新高
宝马集团电动车突破万大关月交付环比
腾讯视频今年月业务环比
必瘦站年度同比至亿港元
腾讯音乐上市后环比趋势明显
字频统计,结果如表(5)所示:
字频 9 6 5 5 4
年月同比
月环比
同比
年同比
年同环比年
月环比
年月环比
年同比
环比
字频 5 4 2 2 1
年比 5/9
年同 4/9
年同比 4/9
事件类型对应的负样本样本数据如表(12)所示:
中路股份转型受阻重组失败业绩增长路在何方 公司事件 公司经营 业绩增长 业绩&增长 欧派“大家居”推进受阻负面缠身利润增长率大幅下降 公司事件 公司经营 业绩增长 利润&增长 加加食品扩张受阻业绩低迷频繁并购试图提升营业额都以失败告终 公司事件 公司经营 业绩增长 业绩&提升 渠道受阻优信二手车交易负增长 公司事件 公司经营 业绩增长 交易&增长
朗姿股份今年至今盈利同比增长仍为负 公司事件 公司经营 业绩增长 盈利&增长
洋河股份业绩看似增长但经营现金流为负 公司事件 公司经营 业绩增长 业绩&增长
2018人保集团净利负增长近2成 公司事件 公司经营 业绩增长 净利&增长
十年首现净利负增长上汽集团“压力山大” 公司事件 公司经营 业绩增长 净利&增长 中骏集团:归母利润负增长融资成本升高 公司事件 公司经营 业绩增长 利润&增长
中路股份转型受阻重组失败路在何方
欧派大家居推进受阻负面缠身率大幅下降
加加食品扩张受阻低迷频繁并购试图营业额都以失败告终
渠道受阻优信二手车负
朗姿股份今年至今同比仍为负
洋河股份看似但经营现金流为负
人保集团负近成
十年首现负上汽集团压力山大
中骏集团归母负融资成本升高
负 7
受 5
阻 5
负 7/10
受 1/2
阻 1/2
受阻 1/2
模式特征。
类型的正样本权重;如果所述目标上下文序列模式特征为负向上下文序列模式特征,对所
述目标上下文序列模式特征对应的序列模式支持度进行取负运算,将取负运算结果作为所
述事件文本对应匹配到的所述事件类型的负样本权重;
别的正向上下文序列模式特征库和负向上下文序列模式特征库,利用事件文本中类别关键
词上下文所包含的正向最长序列模式特征和负向最长序列模式特征,分别作为该事件文本
的正向上下文序列特征和负向上下文序列特征,而该类别关键词的正向权重为正向上下文
序列特征的支持度,该类别关键词的负向权重为负向上下文序列特征的支持度取反(负向
即支持度为负),从而获取类别关键词与相关上下文组合模式在各事件类型中的正负向权
重,其中正负向权重范围为[-1,1],越接近1则说明出现该类别关键词与相关上下文组合模式越能代表事件文本为该事件类别,越接近-1则说明出现该类别关键词与相关上下文组合
模式越不能归为该事件类型。
腾讯2018年总收入3127亿元同比增 收入&增长 年同比 4/9
长32%
游戏等业务增长受阻腾讯暴跌 B端 业务&增长 受阻 - 1/2
发力能否雄起
类型权重中负样本权重低于所述负样本支持度权重阈值的事件文本作为负向性质的事件
文本;
体构建方法为:
重高于 和负样本权重低于 的事件文本加入事件类型库(即正负样本支持度权重
分别大于 和 ), 和 根据实际应用场景调整,假设取 和
,构建后的事件类型库如表(19):
基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类
型的类型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。本发明通过频繁序列模式挖掘的方式抽取各类别关键词的上下文序列模式特征,并基于模式支持度
获得事件文本属于对应的事件类型的确信度,从而将类别关键词在语料集中的出现频率转
化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为
准确识别其他待识别事件文本的事件类型提供了参照依据。
库和事件文本的特征向量化编码,构建事件类型识别模型,利用事件类型识别模型对待识
别事件文本进行事件类型识别。
类型识别模型,后续将待识别事件文本输入事件类型识别模型,输出得到待识别事件文本
与事件文本信息库中的事件文本之间的相似度,根据输出的相似度可以确定待识别事件文
本的事件类型。
之,确定两个事件文本的相似度计算结果为不相似;比对两个事件文本的事件类型编码标
签,获得事件类型编码标签的比对结果,将相似度计算结果与事件类型编码标签的比对结
果进行对比,计算得到对比损失值,判断所述对比损失值是否满足收敛条件,如果对比损失值不满足收敛条件,则基于该对比损失值更新深度学习模型的参数,基于更新后的参数执
行上述调整参数的步骤,直至利用当前更新参数后的深度学习模型计算的对比损失值满足
收敛条件时,将当前更新参数后的深度学习模型作为事件类型识别模型。其中,收敛条件可以是参数调整次数达到预设次数或者类型对比损失值小于预设阈值。
间的最高相似度和最低相似度;
高相似度低于预设负向相似度阈值,确定该事件类型为所述待识别事件文本的事件类型识
别结果;如果与事件类型下正向性质的事件文本之间的最高相似度未超过预设正向相似度
阈值,同时与该事件类型下负向性质的事件文本之间的最低相似度不低于预设负向相似度
阈值,确定该事件类型不是所述待识别事件文本的事件类型识别结果。
,其中am-softmax的loss为:
型的事件正样本相似度超过预设正向相似度阈值,同时与该事件类型的事件负样本相似度
低于预设负向相似度阈值的,作为该事件类型的事件正例;相反,与事件类型的事件负样本相似度超过预设负向相似度阈值,同时与该事件类型的事件正样本相似度低于预设正向相
似度阈值的,作为该事件类型的事件负例。
文本中包含类别关键词的句子,计算提取的各句子与事件文本信息库中各句子之间的相似
度,然后对对应同一事件类型的相似度做加权和,获得不同事件类型下的加权和值,然后对加权和值进行排序,将加权和值最大的一项所对应的事件类型作为所述待识别事件文本的
事件类型。
对事件文本信息库中各事件文本进行了细致的特征和支持度挖掘,细化了每个事件文本属
于事件类型的确信度,使得依据事件文本信息库进行事件类型识别时,能够获得准确度更
高的识别结果。
对待预测事件文本进行事件类型识别,该方法无论从事件类型的正负样本特征和事件文本
信息库构建,还是从事件类型识别模型的构造,对事件分类等领域都有一定的参考价值和
指导意义。
1030。
指导金融理财;对论坛文章进行事件类型识别,能够更好地整理归类相关度较高的文章,帮助用户在自己感兴趣的主题下去浏览。因此在产品侧,本发明方法具有广泛的应用场景,除以上场景外,与事件类型识别的相关场景,都属于该发明的潜在应用场景。
器加载并执行以实现如图3-7对应的事件类型信息处理方法或者如图8-10对应的事件类型
识别方法。
据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
事件类型识别装置。该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一
个或一个以上中央处理器(Central Processing Units,CPU)1110(例如,一个或一个以上处理器)和存储器1130,一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中,存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块,每个模块可以包括对
服务器中的一系列指令操作。更进一步地,中央处理器1110可以设置为与存储介质1120通
信,在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个
或一个以上电源1160,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输
出接口1140,和/或,一个或一个以上操作系统1121,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
序,该至少一条指令和该至少一段程序由该处理器加载并执行以实现上述图3-7对应的事
件类型信息处理方法。
至少一条指令和该至少一段程序由该处理器加载并执行以实现上述图8-10对应的事件类
型识别方法。
到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类
型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。本发明通过频繁序列模式挖掘的方式抽取各类别关键词的上下文序列模式特征,并基于模式支持度获得事
件文本属于对应的事件类型的确信度,从而将类别关键词在语料集中的出现频率转化为有
效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识
别其他待识别事件文本的事件类型提供了参照依据。
息库中各事件文本进行了细致的特征和支持度挖掘,细化了每个事件文本属于事件类型的
确信度,使得依据事件文本信息库进行事件类型识别时,能够获得准确度更高的识别结果。
事件,从而分析个股涨跌规律甚至预测个股涨跌指导金融理财;对论坛文章进行事件类型
识别,能够更好地整理归类相关度较高的文章,帮助用户在自己感兴趣的主题下去浏览。
些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且
仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连
续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者
可能是有利的。
存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。