一种基于规则引擎的主题检索方法和系统转让专利

申请号 : CN202110767561.4

文献号 : CN113626427B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周成祖林文楷魏超林海魏炜途朱海勇

申请人 : 厦门市美亚柏科信息股份有限公司

摘要 :

本发明给出了一种基于规则引擎的主题检索方法和系统,包括分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则;根据路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则。该方法和系统基于海量数据场景下,可以分析不同类型的对象主题的特征,自动匹配对应的主题检索规则,识别准确率和效率都有大幅度提高,大大提高大数据的分析利用价值,减少大数据系统的建设成本。

权利要求 :

1.一种基于规则引擎的主题检索方法,其特征在于,包括:

S1:分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则;

S2:根据所述路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则;

其中,步骤S1中动态调整主题检索的路径规则具体为:

遍历主题属性规则记录集合M,将符合检索标识字段的记录纳入集合Q,不符合检索标识字段的记录纳入集合W;

首先遍历集合Q,将精准检索的主题库的检索路径设为首位,根据检索顺序调整优化顺序值;

然后遍历集合W,将检索条件为组合特征检索的检索路径优先级在集合W中置前处理,并根据检索顺序调整优化顺序值;

步骤S2中基于不同主题的依存关系,动态调整检索结果的合并规则具体包括:遍历集合M,根据集合M 检索字段,执行对应的主题检索引擎,获得检索结果集合R;将与当前主题存在依存关系的主题库中,以集合R中标识字段作为检索条件执行有依存关系的主题库的检索引擎,获得的结果集合T并入集合R中。

2.根据权利要求1所述的基于规则引擎的主题检索方法,其特征在于,步骤S1还包括:S11:分析用户输入条件形成检索条件集合P,所述检索条件集合的要素包括字段标识、字段值和完整状态;

S12:遍历主题属性规则库集合S,响应于所述检索条件集合P中的标识字段与主题属性规则库集合S中的标识字段相同或者响应于所述检索条件集合P中的检索字段与主题属性规则库集合S中的检索字段相同,获取符合检索条件的对应主题属性规则记录集合M,形成初步构建的主题检索路径。

3.根据权利要求2所述的基于规则引擎的主题检索方法,其特征在于,步骤S11中的检索条件集合P的形成具体为:对用户输入的条件进行分析形成关键词集合,所述关键词集合的要素包括字段标识和字符段,根据字段标识对应的校验规则,判断字段值是否完整,并将判断结果加入所述关键词集合中形成所述检索条件集合P。

4.根据权利要求1所述的基于规则引擎的主题检索方法,其特征在于,所述主题属性规则记录集合M中的记录按优化顺序升序排列。

5.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至4中任一项所述的方法。

6.一种基于规则引擎的主题检索系统,其特征在于,所述系统包括:

主题检索规则编排单元:配置用于分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则;

主题检索结果归并单元:配置用于根据所述路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则;

其中,动态调整主题检索的路径规则具体为:

遍历主题属性规则记录集合M,将符合检索标识字段的记录纳入集合Q,不符合检索标识字段的记录纳入集合W;

首先遍历集合Q,将精准检索的主题库的检索路径设为首位,根据检索顺序调整优化顺序值;

然后遍历集合W,将检索条件为组合特征检索的检索路径优先级在集合W中置前处理,并根据检索顺序调整优化顺序值;

所述主题检索结果归并单元中基于不同主题的依存关系,动态调整检索结果的合并规则具体包括:遍历集合M,根据集合M 检索字段,执行对应的主题检索引擎,获得检索结果集合R;将与当前主题存在依存关系的主题库中,以集合R中标识字段作为检索条件执行有依存关系的主题库的检索引擎,获得的结果集合T并入集合R中。

7.根据权利要求6所述的基于规则引擎的主题检索系统,其特征在于,所述主题检索规则编排单元具体配置用于分析用户输入条件形成检索条件集合P,所述检索条件集合的要素包括字段标识、字段值和完整状态;遍历主题属性规则库集合S,响应于所述检索条件集合P中的标识字段与主题属性规则库集合S中的标识字段相同或者响应于所述检索条件集合P中的检索字段与主题属性规则库集合S中的检索字段相同,获取符合检索条件的对应主题属性规则记录集合M,形成初步构建的主题检索路径。

8.根据权利要求7所述的基于规则引擎的主题检索系统,其特征在于,所述检索条件集合P的形成具体为:对用户输入的条件进行分析形成关键词集合,所述关键词集合的要素包括字段标识和字符段,根据字段标识对应的校验规则,判断字段值是否完整,并将判断结果加入所述关键词集合中形成所述检索条件集合P。

9.根据权利要求6所述的基于规则引擎的主题检索系统,其特征在于,所述主题属性规则记录集合M中的记录按优化顺序升序排列。

说明书 :

一种基于规则引擎的主题检索方法和系统

技术领域

[0001] 本发明涉及数据检索的技术领域,尤其是一种基于规则引擎的主题检索方法和系统。

背景技术

[0002] 大数据系统接入的数据类型繁多、数据量巨大,为了反映工作对象全貌,大数据系统建立了融合各类数据资源的对象主题库,用来标识人、地、事件、物等多种维度的对象,包括人员主题库、物品主题库等,由于用户在实际工作中的主题检索场景非常复杂,再加上各类主题库的属性存在重叠等特点,传统的检索方法主要通过一个个条件匹配检索,将检索结果合并后,作为最终结果返回,这种方法检索效率低下且检索结果冗余大,用户无法快速定位到最终结果,所以如何提高主题检索的效率,推送更加准确的检索结果,提高用户的分析效率,是大数据能否高效支撑业务办理的关键点。
[0003] 主题检索场景非常复杂,再加上各类主题库的属性存在重叠,目前市场上现有的主题检索方法都是通过设置一个个条件,到不同类型的主题库中进行匹配检索,再返回各个主题库命中的结果,这些技术存在以下不足:
[0004] 1)主题检索的方式,只能将条件逐一到不同类型的主题库进行检索,无法自动分析并适配不同的使用场景,结合不同类型主题库的特性,找到最佳的检索路径,导致在海量数据中的主题检索效率极其低下;
[0005] 2)结果归并的方式,只能将各种类型主题库命中的结果逐条返回,没有分析各类型主题之间的关系,导致很多结果冗余信息非常多,影响用户对结果研判的效率,影响大数据服务业务开展的质量。

发明内容

[0006] 为了解决现有技术中主题检索的效率低下、检索结果冗余信息多影响结果研判的效率等一系列的技术问题,本发明提出了一种基于规则引擎的主题检索方法和系统,以解决上述技术问题。
[0007] 根据本发明的一个方面,提出了一种基于规则引擎的主题检索方法,该方法包括:
[0008] S1:分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则;
[0009] S2:根据路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则。
[0010] 在一些具体的实施例中,步骤S1具体包括:
[0011] S11:分析用户输入条件形成检索条件集合P,检索条件集合的要素包括字段标识、字段值和完整状态;
[0012] S12:遍历主题属性规则库集合S,响应于检索条件集合P中的标识字段与主题属性规则库集合S中的标识字段相同或者响应于检索条件集合中的检索字段P与主题属性规则库集合S中的检索字段相同,获取符合检索条件的对应主题属性规则记录集合M,形成初步构建的主题检索路径。
[0013] 在一些具体的实施例中,步骤S11中的检索条件集合P的形成具体为:对用户输入的条件进行分析形成关键词集合,关键词集合的要素包括字段标识和字符段,根据字段标识对应的校验规则,判断字段值是否完整,并将判断结果加入关键词集合中形成检索条件集合P。
[0014] 在一些具体的实施例中,步骤S1中动态调整主题检索的路径规则具体为:
[0015] 遍历集合M,将符合检索标识字段的记录纳入集合Q,不符合检索标识字段的记录纳入集合W;
[0016] 首先遍历集合Q,将精准检索的主题库的检索路径设为首位,根据检索顺序调整优化顺序值;
[0017] 然后遍历集合W,将检索条件为组合特征检索的检索路径优先级在集合W中置前处理,并根据检索顺序调整优化顺序值。
[0018] 在一些具体的实施例中,集合M中的记录按优化顺序升序排列。
[0019] 在一些具体的实施例中,步骤S2中基于不同主题的依存关系,动态调整检索结果的合并规则具体包括:遍历集合M,根据集合M检索字段,执行对应的主题检索引擎,获得检索结果集合R;将与当前主题存在依存关系的主题库中,以集合R中标识字段作为检索条件执行有依存关系的主题库的检索引擎,获得的结果集合T并入集合R中。
[0020] 根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
[0021] 根据本申请的第三方面,提出了一种基于规则引擎的主题检索系统,该系统包括:
[0022] 主题检索规则编排单元:配置用于分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则;
[0023] 主题检索结果归并单元:配置用于根据路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则。
[0024] 在一些具体的实施例中,主题检索规则编排单元,分析用户输入条件形成检索条件集合P,检索条件集合的要素包括字段标识、字段值和完整状态;遍历主题属性规则库集合S,响应于检索条件集合P中的标识字段与主题属性规则库集合S中的标识字段相同或者响应于检索条件集合中的检索字段P与主题属性规则库集合S中的检索字段相同,获取符合检索条件的对应主题属性规则记录集合M,形成初步构建的主题检索路径。
[0025] 在一些具体的实施例中,检索条件集合P的形成具体为:对用户输入的条件进行分析形成关键词集合,关键词集合的要素包括字段标识和字符段,根据字段标识对应的校验规则,判断字段值是否完整,并将判断结果加入关键词集合中形成检索条件集合P。
[0026] 在一些具体的实施例中,动态调整主题检索的路径规则具体为:
[0027] 遍历集合M,将符合检索标识字段的记录纳入集合Q,不符合检索标识字段的记录纳入集合W;
[0028] 首先遍历集合Q,将精准检索的主题库的检索路径设为首位,根据检索顺序调整优化顺序值;
[0029] 然后遍历集合W,将检索条件为组合特征检索的检索路径优先级在集合W中置前处理,并根据检索顺序调整优化顺序值。
[0030] 在一些具体的实施例中,集合M中的记录按优化顺序升序排列。
[0031] 在一些具体的实施例中,主题检索结果归并单元中基于不同主题的依存关系,动态调整检索结果的合并规则具体包括:遍历集合M,根据集合M检索字段,执行对应的主题检索引擎,获得检索结果集合R;将与当前主题存在依存关系的主题库中,以集合R中标识字段作为检索条件执行有依存关系的主题库的检索引擎,获得的结果集合T并入集合R中。
[0032] 本发明提出了一种基于规则引擎的主题检索方法和系统,利用主题检索规则编排算法和主题检索结果归并算法,提高了海量数据中主题信息检索效率,降低检索结果的冗余度,提升大数据服务业务开展的质量。通过分析各种类型主题的数据特性、不同主题同一属性的互斥关系和同一主题不同属性的关联关系,根据检索条件动态调整主题检索的路径规则,再根据路径规则去检索对应的主题库,减少无谓的运算资源开销,提升主题检索的效率,再根据不同主题的依存关系,动态调整检索结果的合并规则,减少检索结果的冗余记录,提升用户的分析效率。

附图说明

[0033] 包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0034] 图1是本申请的一个实施例的基于规则引擎的主题检索方法的流程图;
[0035] 图2是本申请的一个具体的实施例的基于规则引擎的主题检索方法的整体分析流程图;
[0036] 图3是本申请的一个具体的实施例的主题检索规则编排的流程图;
[0037] 图4是本申请的一个实施例的基于规则引擎的主题检索系统的框架图;
[0038] 图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

[0039] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0040] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0041] 根据本申请的一个实施例的基于规则引擎的主题检索方法,图1示出了根据本申请的实施例的基于规则引擎的主题检索方法的流程图。如图1所示,该方法包括:
[0042] S101:分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则。通过分析各种类型主题的数据特性、不同主题同一属性的互斥关系和同一主题不同属性的关联关系,根据检索条件动态调整主题检索的路径规则,再根据路径规则去检索对应的主题库,减少无谓的运算资源开销,可以提升主题检索的效率。
[0043] 在具体的实施例中,主题检索路径形成的方式具体为:对用户输入的条件进行分析形成关键词集合,关键词集合的要素包括字段标识和字符段,根据字段标识对应的校验规则,判断字段值是否完整,并将判断结果加入关键词集合中形成检索条件集合P,检索条件集合的要素包括字段标识、字段值和完整状态;遍历主题属性规则库集合S,响应于检索条件集合P中的标识字段与主题属性规则库集合S中的标识字段相同或者响应于检索条件集合中的检索字段P与主题属性规则库集合S中的检索字段相同,获取符合检索条件的对应主题属性规则记录集合M,形成初步构建的主题检索路径。
[0044] 在具体的实施例中,动态调整主题检索的路径规则的调整方式具体表示为:遍历集合M,将符合检索标识字段的记录纳入集合Q,不符合检索标识字段的记录纳入集合W;
[0045] 首先遍历集合Q,将精准检索的主题库的检索路径设为首位,根据检索顺序调整优化顺序值;
[0046] 然后遍历集合W,将检索条件为组合特征检索的检索路径优先级在集合W中置前处理,并根据检索顺序调整优化顺序值。集合M的记录按集合Q、集合W的优先级并且其中的记录按优化顺序升序排列。
[0047] S102:根据路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则。利用该步骤,根据不同主题的依存关系,动态调整检索结果的合并规则,可以减少检索结果的冗余记录,提升用户的分析效率。
[0048] 在具体的实施例中,基于不同主题的依存关系,动态调整检索结果的合并规则具体包括:遍历集合M,根据集合M检索字段,执行对应的主题检索引擎,获得检索结果集合R;将与当前主题存在依存关系的主题库中,以集合R中标识字段作为检索条件执行有依存关系的主题库的检索引擎,获得的结果集合T并入集合R中。
[0049] 通过上述基于规则引擎的主题检索方法,利用主题检索规则编排算法,定义不同主题的检索顺序,分析不同主题同一属性的互斥关系和同一主题不同属性的关联关系,根据检索条件动态调整主题检索的路径规则,提升主题检索的效率;利用主题检索结果归并算法,根据不同主题的依存关系,动态调整检索结果的合并规则,减少返回冗余的检索结果,提高用户的分析效率。与现有技术的主题检索的方式不同,本申请利用主题检索规则编排算法,通过分析各种类型主题的数据特性、不同主题同一属性的互斥关系和同一主题不同属性的关联关系,根据检索条件动态调整主题检索的路径规则,再根据路径规则去检索对应的主题库,减少无谓的运算资源开销,提升主题检索的效率;与现有技术的结果归并的方式不同,本申请利用主题检索结果归并算法,根据不同主题的依存关系,动态调整检索结果的合并规则,减少检索结果的冗余记录,提升用户的分析效率。
[0050] 继续参考图2,图2示出了本申请的一个具体的实施例的基于规则引擎的主题检索方法的整体分析流程图流程图,如图2所示,该方法包括:
[0051] 步骤201:检索条件分析。采用自然语义分析等算法,对用户输入的条件进行智能学习和分析,提取关键词形成检索条件集合。
[0052] 步骤202:主题检索规则编排算法。从检索顺序、互斥关系和关联关系对主题检索规则进行编排,生成下述主题检索方案。
[0053] 步骤203:主题检索方案。
[0054] 步骤204:主题检索结果归并算法。
[0055] 步骤205:保存检索结果。
[0056] 针对快速准确地检索各类主题信息的场景,本申请通过主题检索规则编排算法和主题检索结果归并2种算法,分析各种类型主题的数据特性、不同主题同一属性的互斥关系和同一主题不同属性的关联关系,根据检索条件动态调整主题检索的路径规则,再根据路径规则去检索对应的主题库,减少无谓的运算资源开销,提高检索效率;根据不同主题的依存关系,动态调整检索结果的合并规则,减少检索结果的冗余记录,提高用户的分析效率。
[0057] 在具体的实施例中,通过分析程序,自动优化不同类型的对象主题的特征识别规则,结合特征规则库,自动、高效调整主题检索的路径规则,提高用户的分析效率。主题检索流程主要基于主题属性规则库,主题属性规则库定义不同类型主题库的属性特征及相匹配引擎信息。特征规则表具体定义如表1:
[0058] 表1.特征规则表
[0059]
[0060] 在具体的实施例中,大数据系统的最大特性就是数据量巨大,每个类型的主题库都存储海量的数据资源,每次检索都需要消耗大量的运算资源,本申请通过分析检索条件的关键特征和不同类型对象主题的数据特征,动态编排主题检索的最优路径,去掉冗余的检索路径,最后根据编排好的路径规则,去检索对应的主题库,这样就可以减少大量无谓的运算资源开销,提高海量数据场景下的主题检索效率。主题检索规则编排算法的分析模型如图3中的主题检索规则编排的流程图所示,具体包括:
[0061] 步骤301:检索条件分析。采用自然语义分析等通用算法,对用户输入的条件进行智能学习和分析,将条件涉及的人名、网名、身份证号、手机号码、车牌号、地址等标志性元素进行切词、识别、标注和提取,形成关键词集合,要素为字段标识、字段值,遍历关键词集合,根据字段标识对应的校验规则,判断字段值是否完整,将判断结果加到关键词集合,最终形成检索条件集合P(字段标识、字段值、完整状态),例如检索条件为130****5678,张三,则最终集合P{(手机、130****5678、单一精准条件)、(姓名、张三、单一模糊条件)}。
[0062] 步骤302:遍历关键词。
[0063] 步骤303:路径构建。取主题属性规则库为集合S,遍历集合S,根据条件“[Sn].标识字段=[P].标识字段或[Sn].检索字段=[P].字段标识”,获取符合检索条件的对应主题属性规则记录集合M,其中要素包括:主题编号Id、主题名称ZTMT、是否检索标识字段ifBSZD、检索字段ZCZD、检索类型ZCLZ、主要特征字段ZHZD、附属主题HCZT、检索顺序ZCCS、是否组合特征检索ifZHTZ、优化顺序YHCS、是否中断ifCancel,运算规则为:如果[Sn].标识字段=[P].标识字段,则是否检索标识字段置为true,即[M].ifBSZ=true;根据相同的主题名称合并检索字段和主要特征字段,并根据[P].完整状态赋值检索类型ZCLZ,记录用符号,隔开;如果[P].字段标识包含[Sn].ZHTZ,则是否组合特征检索置为true,即[M].ifZHTZ=true。遍历结束后形成初步构建的主题检索路径,例如检索条件“张三厦门30‑40”,主题检索路径记录具体如表2所示:
[0064] 表2.主题检索路径记录表
[0065]
[0066] 步骤304:路径优化。通过分析不同主题字段的互斥关系和同一主题检索字段的组合关系等特性,动态调整主题检索的路径规则具体如下:
[0067] 1、遍历集合M{
[0068] 根据[M].是否检索标识字段是否为true,将集合M拆成Q和W,其中Q为是否检索标识字段=true的记录,W为是否检索标识字段=false;}
[0069] 2、遍历集合Q{
[0070] //检索条件为主题库的标识字段,即为精准检索,则将该主题库的检索的路径设为第一位
[0071] [Q].优化顺序=1;
[0072] //根据主题库的检索顺序,调整优化顺序的值
[0073] [Q].优化顺序=[Q].优化顺序+位置序号([Q].检索顺序)‑1;}
[0074] 3、遍历集合W{
[0075] //检索条件为组合特征检索,则将该主题库的检索路径优先级往前排[0076] [W].优化顺序=count(Q);
[0077] //根据检索条件是否组合特征检索,调整优化顺序的值
[0078] [W].优化顺序=[W].优化顺序+位置序号([Q].是否组合特征检索,升序,检索顺序,升序)‑1;}
[0079] 4、M=Q+W;M的记录按优化顺序升序排列;遍历M{
[0080] //将附属主题的是否中断标识为true;}
[0081] 优化后的主题检索路径记录如下表3,当检索条件在人员主题库中有命中记录,则减少案件主题库的检索,大大提升了检索的效率。
[0082] 表3.优化后的主题检索路径记录表
[0083]
[0084] 步骤S305:路径保存。保存集合M。
[0085] 步骤306:判断是否遍历结束。若是,则结束,若否,则返回步骤302继续遍历关键词。
[0086] 在具体的实施例中,不同的主题库用于刻画不同类型对象,但不同对象主题之间存在一定的依存关系,如案件主题依存于人员主题,所以通过分析不同对象主题的依存关系,就可以动态调整主题检索方式和检索结果的合并规则,减少检索结果的冗余记录,提升存储效率和用户分析效率,主题检索结果归并算法具体如下:
[0087] 遍历集合M{
[0088] 根据[M].检索字段,拼装检索SQL,执行对应的主题检索引擎,得到检索结果集合R;
[0089] If(R.数量>0){检索集合M,找到与当前主题有依存关系的主题库,将[R].标识字段作为检索条件,执行有依存关系的主题库的检索引擎,得到结果集合T;将集合T合并到集合R,即R=R+T}
[0090] Else(R.数量=0){跳出遍历}};
[0091] 保存并返回结果集合R。
[0092] 上述方法通过优化不同类型的对象主题的特征识别规则,结合特征规则库,以计算机程序自动、高效调整主题检索的路径规则,满足海量数据场景下的主题检索需求,解决困扰已久的因检索效率低影响大数据服务业务开展的问题。并提出了主题检索规则编排算法和主题检索结果归并2种算法,自动分析各种类型主题的数据特性、不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则,再根据路径规则去检索对应的主题库,减少无谓的运算资源开销;根据不同主题的依存关系,动态调整检索结果的合并规则,减少检索结果的冗余记录,提高用户的分析效率,提升大数据服务业务开展的质量。经本申请发明人的实际测算,在千亿级数据量下,主题检索的效率可比市面上同类产品提高30%,存储资源可下降10%。
[0093] 继续参考图4,图4示出了根据本发明的实施例的基于规则引擎的主题检索系统的框架图。该系统具体包括主题检索规则编排单元401和主题检索结果归并单元402。
[0094] 在具体的实施例中,主题检索规则编排单元401配置用于分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则;主题检索结果归并单元402配置用于根据路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则。
[0095] 在一些具体的实施例中,主题检索规则编排单元401具体配置用于分析用户输入条件形成检索条件集合P,检索条件集合的要素包括字段标识、字段值和完整状态;遍历主题属性规则库集合S,响应于检索条件集合P中的标识字段与主题属性规则库集合S中的标识字段相同或者响应于检索条件集合中的检索字段P与主题属性规则库集合S中的检索字段相同,获取符合检索条件的对应主题属性规则记录集合M,形成初步构建的主题检索路径。其中,检索条件集合P的形成具体为:对用户输入的条件进行分析形成关键词集合,关键词集合的要素包括字段标识和字符段,根据字段标识对应的校验规则,判断字段值是否完整,并将判断结果加入关键词集合中形成检索条件集合P。
[0096] 在一些具体的实施例中,动态调整主题检索的路径规则具体为:
[0097] 遍历集合M,将符合检索标识字段的记录纳入集合Q,不符合检索标识字段的记录纳入集合W;
[0098] 首先遍历集合Q,将精准检索的主题库的检索路径设为首位,根据检索顺序调整优化顺序值;
[0099] 然后遍历集合W,将检索条件为组合特征检索的检索路径优先级在集合W中置前处理,并根据检索顺序调整优化顺序值。优选的,集合M中的记录按优化顺序升序排列。
[0100] 在一些具体的实施例中,主题检索结果归并单元402中主题检索结果归并单元中基于不同主题的依存关系,动态调整检索结果的合并规则具体包括:遍历集合M,根据集合M检索字段,执行对应的主题检索引擎,获得检索结果集合R;将与当前主题存在依存关系的主题库中,以集合R中标识字段作为检索条件执行有依存关系的主题库的检索引擎,获得的结果集合T并入集合R中。
[0101] 上述系统实现了不同类型的对象主题的特征分析,动态调整主题检索的路径规则,主题检索的速度快,检索结果准确率高,数据存储效率高,大大提高大数据的分析利用价值,减少大数据系统的建设成本。
[0102] 下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0103] 如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
[0104] 以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
[0105] 特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
[0106] 可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0107] 附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0108] 描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
[0109] 作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:分析检索条件的关键特征和不同类型对象主题的数据特征,根据不同主题同一属性的互斥关系和同一主题不同属性的关联关系,动态调整主题检索的路径规则;根据路径规则检索对应的主题库,基于不同主题的依存关系,动态调整检索结果的合并规则。
[0110] 以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。