事件属性语句确定及基于事件属性语句预警方法和装置转让专利

申请号 : CN201510958636.1

文献号 : CN105589950B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张立邦赵钕森

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本发明实施例公开了事件属性语句确定及基于事件属性语句预警方法和装置。事件属性语句确定方法包括:获取与目标事件相关联的多个待测语句;根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间;根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句。基于事件属性语句预警方法包括:确定与目标事件对应的事件属性语句;实时监测互联网数据,如果识别到所述事件属性语句在设定时间区间内的出现次数发生异常,则对所述目标事件进行预警。本发明的技术方案优化了现有的事件预测技术,提高了事件预测的精准度。

权利要求 :

1.一种事件属性语句的确定方法,其特征在于,包括:获取与目标事件相关联的多个待测语句,其中,所述语句包括:词、词组以及包含变量的句子;

根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间,其中,所述网络数据库中的内容包括时间标签;

根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句;

其中,根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句,包括:计算各待测语句的异常时间命中目标事件历史发生时间的概率,将概率值超过设定门限的待测语句作为与所述目标事件对应的事件属性语句。

2.根据权利要求1所述的方法,其特征在于,根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间包括:按照设定时间间隔,将与所述网络数据库对应的时间区间划分为多个时间单元;

将各所述待测语句与所述网络数据库中的内容进行匹配,计算各所述待测语句在不同时间单元下的出现次数;

根据计算结果,确定与各所述待测语句对应的异常出现次数;

将与所述异常出现次数对应的时间单元,作为与各待测语句的异常出现次数对应的异常时间。

3.根据权利要求2所述的方法,其特征在于,根据计算结果,确定与各所述待测语句对应的异常出现次数具体包括:选取一个待测语句作为操作语句;

根据所述操作语句在不同时间单元下的出现次数,计算与所述操作语句对应的平均出现次数;

分别计算所述操作语句在各时间单元下的出现次数与所述平均出现次数的差值;

将差值大于设定门限值时对应的出现次数,作为与所述操作语句对应的异常出现次数。

4.根据权利要求2所述的方法,其特征在于,根据计算结果,确定与各所述待测语句对应的异常出现次数具体包括:选取一个待测语句作为操作语句;

依次选取一个时间单元作为当前时间单元,分别计算所述操作语句在所述当前时间单元下出现次数与所述当前时间单元的前一时间单元下出现次数的差值;

将差值大于设定门限值时对应的所述当前时间单元下的出现次数,作为与所述操作语句对应的异常出现次数。

5.根据权利要求1所述的方法,其特征在于,计算各待测语句的异常时间命中目标事件历史发生时间的概率,将概率值超过设定门限的待测语句作为与所述目标事件对应的事件属性语句包括:以异常时间为起点,构造与各所述待测语句对应的时间验证区间;

根据所述时间验证区间对所述目标事件历史发生时间的包含情况,统计各所述待测语句对所述目标事件的命中概率;

选取命中概率满足设定门限条件的待测语句作为与所述目标事件对应的事件属性语句。

6.根据权利要求1所述的方法,其特征在于,获取与目标事件相关联的多个待测语句包括:获取与所述目标事件所属领域相关联的备选语句集;

将所述备选语句集中各备选语句与所述网络数据库中的内容进行匹配,并根据匹配结果对各备选语句进行权重排序;

根据排序结果,获取设定数目的备选语句作为所述待测语句。

7.根据权利要求1所述的方法,其特征在于,所述目标事件包括:金融交易市场的交易价格波动范围超过设定门限的事件;

所述网络数据库包括下述至少一项:搜索引擎数据库、金融类信息官方发布平台的后台数据库以及金融类信息个人发布平台的后台数据库。

8.一种基于事件属性语句的预警方法,其特征在于,包括:采用权利要求1-7任一项所述的事件属性语句的确定方法确定与目标事件对应的事件属性语句;

实时监测互联网数据,如果识别到所述事件属性语句在设定时间区间内的出现次数发生异常,则对所述目标事件进行预警。

9.一种事件属性语句的确定装置,其特征在于,包括:待测语句获取模块,用于获取与目标事件相关联的多个待测语句,其中,所述语句包括:词、词组以及包含变量的句子;

异常时间获取模块,用于根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间,其中,所述网络数据库中的内容包括时间标签;

属性语句确定模块,用于根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句;

其中,属性语句确定模块具体用于:

计算各待测语句的异常时间命中目标事件历史发生时间的概率,将概率值超过设定门限的待测语句作为与所述目标事件对应的事件属性语句。

10.根据权利要求9所述的装置,其特征在于,异常时间获取模块进一步包括:时间单元划分单元,用于按照设定时间间隔,将与所述网络数据库对应的时间区间划分为多个时间单元;

出现次数计算单元,用于将各所述待测语句与所述网络数据库中的内容进行匹配,计算各所述待测语句在不同时间单元下的出现次数;

异常出现次数确定单元,用于根据计算结果,确定与各所述待测语句对应的异常出现次数;

异常时间提取单元,用于将与所述异常出现次数对应的时间单元,作为与各待测语句的异常出现次数对应的异常时间。

11.根据权利要求10所述的装置,其特征在于,异常出现次数确定单元具体用于:选取一个待测语句作为操作语句;

根据所述操作语句在不同时间单元下的出现次数,计算与所述操作语句对应的平均出现次数;

分别计算所述操作语句在各时间单元下的出现次数与所述平均出现次数的差值;

将差值大于设定门限值时对应的出现次数,作为与所述操作语句对应的异常出现次数。

12.根据权利要求10所述的装置,其特征在于,异常出现次数确定单元具体用于:选取一个待测语句作为操作语句;

依次选取一个时间单元作为当前时间单元,分别计算所述操作语句在所述当前时间单元下出现次数与所述当前时间单元的前一时间单元下出现次数的差值;

将差值大于设定门限值时对应的所述当前时间单元下的出现次数,作为与所述操作语句对应的异常出现次数。

13.根据权利要求9所述的装置,其特征在于,属性语句确定模块具体用于:以异常时间为起点,构造与各所述待测语句对应的时间验证区间;

根据所述时间验证区间对所述目标事件历史发生时间的包含情况,统计各所述待测语句对所述目标事件的命中概率;

选取命中概率满足设定门限条件的待测语句作为与所述目标事件对应的事件属性语句。

14.根据权利要求9所述的装置,其特征在于,所述目标事件包括:金融交易市场的交易价格波动范围超过设定门限的事件;

所述网络数据库包括下述至少一项:搜索引擎数据库、金融类信息官方发布平台的后台数据库以及金融类信息个人发布平台的后台数据库。

15.一种基于事件属性语句的预警装置,其特征在于,包括:事件属性语句确定模块,用于采用权利要求9-14任一项所述的事件属性语句的确定装置确定与目标事件对应的事件属性语句;

目标事件预警模块,用于实时监测互联网数据,如果识别到所述事件属性语句在设定时间区间内的出现次数发生异常,则对所述目标事件进行预警。

说明书 :

事件属性语句确定及基于事件属性语句预警方法和装置

技术领域

[0001] 本发明实施例涉及数据处理技术,尤其涉及一种事件属性语句确定及基于事件属性语句预警方法和装置。

背景技术

[0002] 在现实生活中有很多事件,尤其是金融事件,是可以通过对一些现有数据的运算处理来进行预测的。其中,量化投资就是一项非常典型的针对金融投资事件的预测方法。
[0003] 所谓量化投资,就是指借助现代统计学、数学的方法,从海量历史数据中寻找能够带来超额收益的多种“大概率”策略,并纪律严明地按照这些策略所构建的数量化模型来指导投资,力求取得稳定的、可持续的、高于平均的超额回报。与传统的定性投资方法不同的是,量化投资不依靠人的感觉来管理资产,而是根据人的投资思想和投资经验来构建数学模型,并利用计算机来处理大量历史数据,在较短的时间内验证模型的有效性,只有当模型在历史数据上的表现满足要求时,才会被进一步应用到实盘交易中。
[0004] 现有技术中的量化投资方法都是基于已有的股票量价数据实现的。而由于量价数据中的噪音较多且数据完全公开,仅仅以此为数据源构建有效的投资策略难度极大,往往收效甚微。原因是股票投资本质上是一种博弈行为,只依据完全公开的信息进行决策没有任何优势。

发明内容

[0005] 有鉴于此,本发明实施例提供一种事件属性语句确定及基于事件属性语句预警方法和装置,以优化现有的事件预测技术,提高事件预测的精准度。
[0006] 在第一方面,本发明实施例提供了一种事件属性语句的确定方法,包括:
[0007] 获取与目标事件相关联的多个待测语句,其中,所述语句包括:词、词组以及包含变量的句子;
[0008] 根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间,其中,所述网络数据库中的内容包括时间标签;
[0009] 根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句。
[0010] 在第二方面,本发明实施例提供了一种基于事件属性语句的预警方法,包括:
[0011] 采用本发明实施例提供的事件属性语句的确定方法确定与目标事件对应的事件属性语句;
[0012] 实时监测互联网数据,如果识别到所述事件属性语句在设定时间区间内的出现次数发生异常,则对所述目标事件进行预警。
[0013] 在第三方面,本发明实施例提供了一种事件属性语句的确定装置,包括:
[0014] 待测语句获取模块,用于获取与目标事件相关联的多个待测语句,其中,所述语句包括:词、词组以及包含变量的句子;
[0015] 异常时间获取模块,用于根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间,其中,所述网络数据库中的内容包括时间标签;
[0016] 属性语句确定模块,用于根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句。
[0017] 在第四方面,本发明实施例提供了一种基于事件属性语句的预警装置,包括:
[0018] 事件属性语句确定模块,用于本发明实施例提供的事件属性语句的确定装置确定与目标事件对应的事件属性语句;
[0019] 目标事件预警模块,用于实时监测互联网数据,如果识别到所述事件属性语句在设定时间区间内的出现次数发生异常,则对所述目标事件进行预警。
[0020] 本发明实施例通过根据与目标事件关联的待测语句在网络数据库中出现次数随时间的变化规律,获取与各待测语句的异常出现次数对应的异常时间,并根据各待测语句的异常时间与目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句的技术手段,实现了基于互联网中的大数据,将某段时间内网络中出现次数异常的语句与目标事件的发生建立关系,找到对目标事件具有预测作用的事件属性语句,进而可以实现根据事件属性语句在网络数据中的出现情况对该目标事件进行预测的技术效果,优化了现有的事件预测技术,提高了事件预测的精准度。

附图说明

[0021] 图1是本发明第一实施例的一种事件属性语句的确定方法的流程图;
[0022] 图2是本发明第二实施例的一种待测语句在网络数据库中出现次数随时间变化的示意图;
[0023] 图3是本发明第二实施例的一种事件属性语句的确定方法的流程图;
[0024] 图4是本发明第三实施例的一种事件属性语句的确定方法的流程图;
[0025] 图5是本发明第四实施例的一种基于事件属性语句的预警方法的流程图;
[0026] 图6是本发明第五实施例的一种事件属性语句的确定装置的结构图;
[0027] 图7是本发明第六实施例的一种基于事件属性语句的预警装置的结构图。

具体实施方式

[0028] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0029] 第一实施例
[0030] 图1为本发明第一实施例提供的一种事件属性语句的确定方法的流程图,本实施例的方法可以由事件属性语句的确定装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于存储海量互联网数据内容的服务器中,其中,所述服务器可以为单个服务器,也可以为多个服务器构成的集群服务器。
[0031] 本实施例的方法具体包括:
[0032] 110、获取与目标事件相关联的多个待测语句,其中,所述语句包括:词、词组以及包含变量的句子。
[0033] 在本实施例中,所述目标事件具体可以包括可重复发生的,且会被特定因素(或者说偶发事件)直接或者间接影响的事件,典型的,金融类事件。例如:股市上涨或者下跌事件、房市上涨或者下跌事件以及设定商品价格的上涨或者下跌事件等。
[0034] 其中,与目标事件相关联的待测语句具体是指会对该目标事件的发生产生影响的偶发事件所对应的词、词组或者包含有变量的句子。本发明实施例的技术方案就是通过对待测语句进行一定的数据处理,以获取待测语句中对目标事件有预测作用的事件属性语句。
[0035] 举例而言,“跳楼”、“破产”等词;“宣布重组”、“资产评估”等词组;以及“XX被立案调查”、“XX非公开发行”、“XX10送10”等以“XX”为变量的句子;这些语句所对应的偶发事件都会对股市下跌事件产生直接或者间接的影响。因此可以将上述语句作为与股市下跌事件相关联的待测语句。
[0036] 在本实施例中,获取与目标事件相关联的多个待测语句具体可以包括:
[0037] 获取与所述目标事件所属领域相关联的备选语句集;将所述备选语句集中各备选语句与所述网络数据库中的内容进行匹配,并根据匹配结果对各备选语句进行权重排序;根据排序结果,获取设定数目的备选语句作为所述待测语句。
[0038] 也可以包括:获取由所述目标事件各个历史发生时间所确定的时间区间;在与所述目标事件所属领域对应的网络数据库中,将位于所述时间区间内的内容中包括的各个语句进行权重排序;根据排序结果,获取设定数目的语句作为所述待测语句。
[0039] 当然,还可以采取其他的方式获取与目标事件相关联的多个待测语句,例如:人工选定等,本实施例对此并不进行限制。
[0040] 120、根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间,其中,所述网络数据库中的内容包括时间标签。
[0041] 在本实施例中,所述网络数据库具体可以包括:搜索引擎数据库、官方信息发布平台的后台数据库以及个人信息发布平台的后台数据库中的一项或者多项,对此并不进行限制。优选的,可以根据目标事件的类型,选取相对应的网络数据库,例如,如果目标事件的类型为金融类事件,则选取金融类的网络数据库。
[0042] 在本实施例中,网络数据库中的内容均包括时间标签,因此,当确定出待测语句在网络数据库中的哪些内容中出现后,可以同时得到该待测语句的出现时间,相应的,可以选取一个设定的时间单位,例如,天、星期或者月等。之后观察不同时间下,各所述待测语句在网络数据库中的出现次数的变化规律。其中,在图2中示出了一个待测语句在网络数据库中出现次数随时间的变化规律的示意图,横轴以天为时间单位,纵轴表示在某一天中该待测语句在网络数据库中的出现次数。
[0043] 在本实施例中,在获取待测语句在网络数据库中出现次数随时间的变化规律之后,获取与各所述待测语句的异常出现次数对应的异常时间。其中,异常出现次数可以为与平均出现次数的差值超过设定门限值的出现次数,也可以为与前次出现次数的差值超过设定门限值的出现次数,本实施例对此并不进行限制。
[0044] 130、根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句。
[0045] 在本实施例中,目标事件为可重复发生的事件。为了在待测语句中选取可以对目标事件的发生具有预测作用的事件属性语句,可以计算各待测语句的异常时间命中目标事件历史发生时间的概率,将概率值超过设定门限的待测语句作为与该目标事件对应的事件属性语句。
[0046] 本发明实施例通过根据与目标事件关联的待测语句在网络数据库中出现次数随时间的变化规律,获取与各待测语句的异常出现次数对应的异常时间,并根据各待测语句的异常时间与目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句的技术手段,实现了基于互联网中的大数据,将某段时间内网络中出现次数异常的语句与目标事件的发生建立关系,找到对目标事件具有预测作用的事件属性语句,进而可以实现根据事件属性语句在网络数据中的出现情况对该目标事件进行预测的技术效果,优化了现有的事件预测技术,提高了事件预测的精准度。
[0047] 第二实施例
[0048] 图3是本发明第二实施例的一种事件属性语句的确定方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间具体优化为:按照设定时间间隔,将与所述网络数据库对应的时间区间划分为多个时间单元;将各所述待测语句与所述网络数据库中的内容进行匹配,计算各所述待测语句在不同时间单元下的出现次数;根据计算结果,确定与各所述待测语句对应的异常出现次数;将与所述异常出现次数对应的时间单元,作为与各待测语句的异常出现次数对应的异常时间;
[0049] 同时,将根据计算结果,确定与各所述待测语句对应的异常出现次数具体优化为:选取一个待测语句作为操作语句;根据所述操作语句在不同时间单元下的出现次数,计算与所述操作语句对应的平均出现次数;分别计算所述操作语句在各时间单元下的出现次数与所述平均出现次数的差值;将差值大于设定门限值时对应的出现次数,作为与所述操作语句对应的异常出现次数;
[0050] 同时,将根据各所述待测语句的所述异常时间与目标事件历史发生时间的关系,确定与目标事件对应的事件属性语句具体优化为:以异常时间为起点,构造与各所述待测语句对应的时间验证区间;根据所述时间验证区间对所述目标事件历史发生时间的包含情况,统计各所述待测语句对所述目标事件的命中概率;选取命中概率满足设定门限条件的待测语句作为与所述目标事件对应的事件属性语句。
[0051] 相应的,本实施例的方法具体包括:
[0052] 310、获取与目标事件相关联的多个待测语句,其中,所述语句包括:词、词组以及包含变量的句子。
[0053] 320、按照设定时间间隔,将与所述网络数据库对应的时间区间划分为多个时间单元。
[0054] 在本实施例中,可以根据不同的预测需求或者预测精度,选择需要的时间单位,例如以天、星期或者月为单位,统计不同时间下出现次数随时间变化的规律。另外,由于网络数据库中的内容带有时间标签,因此可以获取网络数据库中距离当前时间最久远的第一时间以及距离当前时间最接近的第二时间,将由第一时间和第二时间所确定的时间范围,作为与所述网络数据库对应的时间区间。
[0055] 例如,如果以天作为时间单位,则以24小时为时间间隔,将与网络数据库对应的时间区间按天进行划分。
[0056] 330、将各所述待测语句与所述网络数据库中的内容进行匹配,计算各所述待测语句在不同时间单元下的出现次数。
[0057] 340、依次选取一个待测语句作为操作语句;
[0058] 350、根据所述操作语句在不同时间单元下的出现次数,计算与所述操作语句对应的平均出现次数。
[0059] 360、分别计算所述操作语句在各时间单元下的出现次数与所述平均出现次数的差值。
[0060] 370、将差值大于设定门限值时对应的出现次数,作为与所述操作语句对应的异常出现次数。
[0061] 380、将与所述异常出现次数对应的时间单元,作为所述操作语句对应的异常时间。
[0062] 在一个具体例子中,如图2所示,一个操作语句在2015.8.7~2015.8.10时间内在网络数据库中的出现次数分别为:1500、2000、3500以及2900。
[0063] 设定将与平均出现次数的差值超过设定门限值(例如,1000)的出现次数定义为异常出现次数,计算得到该待测语句在2015.8.7~2015.8.10中的平均出现次数为(1500+2000+3500+3900)/4=2475,而3500与该平均出现次数的差值大于1000,因此,可以将3500作为该待测语句的一个异常出现次数,而将2015.8.9这一时间作为与该异常出现次数对应的异常时间。
[0064] 390、判断是否完成对全部待测语句的处理:若是,执行3100;否则,返回340。
[0065] 3100、以异常时间为起点,构造与各所述待测语句对应的时间验证区间。
[0066] 3110、根据所述时间验证区间对所述目标事件历史发生时间的包含情况,统计各所述待测语句对所述目标事件的命中概率。
[0067] 举例而言,与一个待测语句对应的全部异常时间分别为2000.1.3、2000.8.5、2005.5.31以及2005.6.1;
[0068] 以各异常时间为起点,选取设定长度的时间间隔,例如15天,构造出与该待测语句对应的时间验证区间为:(2000.1.3~2000.1.17)、(2000.8.5~2000.8.19)、(2005.5.31~2005.6.14)以及(2005.6.1~2005.6.15)。
[0069] 目标事件的全部历史发生时间分别为:2000.1.12、2001.10.9以及2005.6.8,可见,待测语句的4个时间验证区间内,有2个区间命中了该目标事件。因此,该待测语句对所述目标事件的命中概率为50%。
[0070] 3120、选取命中概率满足设定门限条件的待测语句作为与所述目标事件对应的事件属性语句。
[0071] 在分别计算出各待测语句对所述目标事件的命中概率之后,将命中概率满足设定门限条件(例如,50%或者60%等)的待测语句,作为对该目标事件具有预测作用的事件属性语句。
[0072] 本实施例的方法充分利用了互联网中的大数据,将某段时间内网络中出现次数异常的语句与目标事件的发生建立关系,找到对目标事件具有预测作用的事件属性语句,实现了将互联网中出现的内容与一个具体事件进行关联,进而可以达到根据事件属性语句在网络数据中的出现情况对该目标事件进行预测的技术效果,优化了现有的事件预测技术,提高了事件预测的精准度。
[0073] 第三实施例
[0074] 图4是本发明第三实施例的一种事件属性语句的确定方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据计算结果,确定与各所述待测语句对应的异常出现次数具体优化为:选取一个待测语句作为操作语句;依次选取一个时间单元作为当前时间单元,分别计算所述操作语句在所述当前时间单元下出现次数与所述当前时间单元的前一时间单元下出现次数的差值;将差值大于设定门限值时对应的所述当前时间单元下的出现次数,作为与所述操作语句对应的异常出现次数;
[0075] 同时,将获取与目标事件相关联的多个待测语句具体优化为:获取与所述目标事件所属领域相关联的备选语句集;将所述备选语句集中各备选语句与所述网络数据库中的内容进行匹配,并根据匹配结果对各备选语句进行权重排序;根据排序结果,获取设定数目的备选语句作为所述待测语句。
[0076] 相应的,本实施例的方法具体包括:
[0077] 410、获取与所述目标事件所属领域相关联的备选语句集。
[0078] 在一个具体例子中,目标事件为金融类事件。在获取待测语句之前,首先选取与该目标事件所述领域,即金融领域相关联的备选语句集。即,获取语句库中分类为金融类的全部或者部分语句构成备选语句集。
[0079] 在本实施例的一个优选的实施方式中,所述目标事件具体包括:金融交易市场的交易价格波动范围超过设定门限的事件,例如,股市下跌超过400点的事件。
[0080] 420、将所述备选语句集中各备选语句与所述网络数据库中的内容进行匹配,并根据匹配结果对各备选语句进行权重排序。
[0081] 如前所述,如果目标事件为金融类事件,则所选择的网络数据库可以包括搜索引擎数据库、金融类信息官方发布平台(例如,财经或者经济新闻发布平台)的后台数据库以及金融类信息个人发布平台(例如,金融类贴吧或者论坛等)的后台数据库。
[0082] 其中,具体的权重排序方法可以为按照备选语句集中各个语句在该网络数据库中出现次数从大到小的顺序,对各备选语句进行权重排序。
[0083] 430、根据排序结果,获取设定数目的备选语句作为所述待测语句。
[0084] 440、按照设定时间间隔,将与所述网络数据库对应的时间区间划分为多个时间单元。
[0085] 450、将各所述待测语句与所述网络数据库中的内容进行匹配,计算各所述待测语句在不同时间单元下的出现次数。
[0086] 460、依次选取一个待测语句作为操作语句。
[0087] 470、依次选取一个时间单元作为当前时间单元,分别计算所述操作语句在所述当前时间单元下出现次数与所述当前时间单元的前一时间单元下出现次数的差值。
[0088] 480、将差值大于设定门限值时对应的所述当前时间单元下的出现次数,作为与所述操作语句对应的异常出现次数。
[0089] 490、将与所述异常出现次数对应的时间单元,作为所述操作语句对应的异常时间。
[0090] 续前例,如图2所示,一个操作语句在2015.8.7~2015.8.10时间内在网络数据库中的出现次数分别为:1500、2000、3500以及2900。
[0091] 则:该操作语句在2015.8.8相对于2015.8.7出现次数的增加值为500;在2015.8.9相对于2015.8.8出现次数的增加值为1500;在2015.8.10相对于2015.8.9出现次数的增加值为-600;
[0092] 如果设定门限值为1000,则可确定3500为异常出现次数,进而可以将2015.8.9作为该操作语句的异常时间。
[0093] 4100、判断是否完成对全部待测语句的处理:若是,执行4110;否则,返回460。
[0094] 4110、根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句。
[0095] 本实施例的方法充分利用了互联网中的大数据,将某段时间内网络中出现次数异常的语句与目标事件的发生建立关系,找到对目标事件具有预测作用的事件属性语句,实现了将互联网中出现的内容与一个具体事件进行关联,进而可以达到根据事件属性语句在网络数据中的出现情况对该目标事件进行预测的技术效果,优化了现有的事件预测技术,提高了事件预测的精准度。
[0096] 第四实施例
[0097] 图5是本发明第四实施例的一种基于事件属性语句的预警方法的流程图。本实施例的方法可以由基于事件属性语句的预警装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于对目标事件进行预警的服务器中。
[0098] 本实施例的方法具体包括:
[0099] 510、采用本发明各实施例所述的事件属性语句的确定方法确定与目标事件对应的事件属性语句。
[0100] 在本实施例中,如果需要对一个目标事件的下一次发生进行预测,可以首先确定对该目标事件具有预测作用的事件属性语句。其中,获取与目标事件对应的事件属性语句的方法已经在实施例一至实施例四中进行详细论述,这里不再赘述。
[0101] 520、实时监测互联网数据,如果识别到所述事件属性语句在设定时间区间内的出现次数发生异常,则对所述目标事件进行预警。
[0102] 在本实施例中,可以采取实施例一至实施例四中的方法,通过将事件属性语句与实时更新的网络数据库中的内容进行匹配,对事件属性语句在设定时间区间内(例如,天、星期或者月等)的异常出现次数进行识别,一旦识别出异常出现次数,则对该目标事件的发生进行预警。
[0103] 举例而言,在2015.10.21这一天,通过实时监测互联网数据,获取事件属性语句的出现次数为8900次,超过2015.10.20这一天3000次,超过值大于预先设定的阈值门限1000,因此,对与该事件属性语句对应的目标事件的发生进行预警。
[0104] 本实施例的方法,实时监测互联网数据来识别事件属性语句的异常出现次数,进而达到对目标事件的发生进行预警的技术效果,优化了现有的事件预测技术,提高了事件预测的精准度。
[0105] 第五实施例
[0106] 在图6中示出了本发明第五实施例的一种事件属性语句的确定装置的结构图。如图6所示,所述装置包括:
[0107] 待测语句获取模块61,用于获取与目标事件相关联的多个待测语句,其中,所述语句包括:词、词组以及包含变量的句子。
[0108] 异常时间获取模块62,用于根据各所述待测语句在网络数据库中出现次数随时间的变化规律,获取与各所述待测语句的异常出现次数对应的异常时间,其中,所述网络数据库中的内容包括时间标签。
[0109] 属性语句确定模块63,用于根据各所述待测语句的所述异常时间与所述目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句。
[0110] 本发明实施例通过根据与目标事件关联的待测语句在网络数据库中出现次数随时间的变化规律,获取与各待测语句的异常出现次数对应的异常时间,并根据各待测语句的异常时间与目标事件历史发生时间的关系,确定与所述目标事件对应的事件属性语句的技术手段,实现了基于互联网中的大数据,将某段时间内网络中出现次数异常的语句与目标事件的发生建立关系,找到对目标事件具有预测作用的事件属性语句,进而可以实现根据事件属性语句在网络数据中的出现情况对该目标事件进行预测的技术效果,优化了现有的事件预测技术,提高了事件预测的精准度。
[0111] 在上述各实施例的基础上,异常时间获取模块进一步可以包括:
[0112] 时间单元划分单元,用于按照设定时间间隔,将与所述网络数据库对应的时间区间划分为多个时间单元;
[0113] 出现次数计算单元,用于将各所述待测语句与所述网络数据库中的内容进行匹配,计算各所述待测语句在不同时间单元下的出现次数;
[0114] 异常出现次数确定单元,用于根据计算结果,确定与各所述待测语句对应的异常出现次数;
[0115] 异常时间提取单元,用于将与所述异常出现次数对应的时间单元,作为与各待测语句的异常出现次数对应的异常时间。
[0116] 在上述各实施例的基础上,异常出现次数确定单元具体可以用于:
[0117] 选取一个待测语句作为操作语句;
[0118] 根据所述操作语句在不同时间单元下的出现次数,计算与所述操作语句对应的平均出现次数;
[0119] 分别计算所述操作语句在各时间单元下的出现次数与所述平均出现次数的差值;
[0120] 将差值大于设定门限值时对应的出现次数,作为与所述操作语句对应的异常出现次数。
[0121] 在上述各实施例的基础上,异常出现次数确定单元具体可以用于:
[0122] 选取一个待测语句作为操作语句;
[0123] 依次选取一个时间单元作为当前时间单元,分别计算所述操作语句在所述当前时间单元下出现次数与所述当前时间单元的前一时间单元下出现次数的差值;
[0124] 将差值大于设定门限值时对应的所述当前时间单元下的出现次数,作为与所述操作语句对应的异常出现次数。
[0125] 在上述各实施例的基础上,属性语句确定模块具体可以用于:
[0126] 以异常时间为起点,构造与各所述待测语句对应的时间验证区间;
[0127] 根据所述时间验证区间对所述目标事件历史发生时间的包含情况,统计各所述待测语句对所述目标事件的命中概率;
[0128] 选取命中概率满足设定门限条件的待测语句作为与所述目标事件对应的事件属性语句。
[0129] 在上述各实施例的基础上,所述目标事件可以包括:金融交易市场的交易价格波动范围超过设定门限的事件;
[0130] 所述网络数据库包括下述至少一项:搜索引擎数据库、金融类信息官方发布平台的后台数据库以及金融类信息个人发布平台的后台数据库。
[0131] 本发明实施例所提供的事件属性语句的确定装置可用于执行本发明任意实施例提供的事件属性语句的确定方法,具备相应的功能模块,实现相同的有益效果。
[0132] 第六实施例
[0133] 在图7中示出了本发明第六实施例的一种基于事件属性语句的预警装置的结构图。如图7所示,所述装置包括:
[0134] 事件属性语句确定模块71,用于采用本发明各实施例的事件属性语句的确定装置确定与目标事件对应的事件属性语句。
[0135] 目标事件预警模块72,用于实时监测互联网数据,如果识别到所述事件属性语句在设定时间区间内的出现次数发生异常,则对所述目标事件进行预警。
[0136] 本实施例的装置,实时监测互联网数据来识别事件属性语句的异常出现次数,进而达到对目标事件的发生进行预警的技术效果,优化了现有的事件预测技术,提高了事件预测的精准度。
[0137] 本发明实施例所提供的基于事件属性语句的预警装置可用于执行本发明任意实施例提供的基于事件属性语句的预警方法,具备相应的功能模块,实现相同的有益效果。
[0138] 显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
[0139] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。