专利全文检索的索引建立系统及方法转让专利

申请号 : CN200710201726.1

文献号 : CN101393551B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李忠一林海洪谢德意陈海云

申请人 : 鸿富锦精密工业(深圳)有限公司鸿海精密工业股份有限公司

摘要 :

本发明提供一种专利全文检索的索引建立系统,该系统包括通过网络连接的服务器及客户端。该服务器包括启动模块、转档模块、索引建立模块及数据库。启动模块用于侦测数据库是否增加了新的专利文件,如果有增加,则启动所述转档模块;转档模块用于读取该专利文件各组成部分的内容,将该专利文件各组成部分内容以预先定义的文件格式进行保存以完成转档;索引建立模块用于使用索引建立技术将上述转档后的专利文件的各组成部分内容添加至所述数据库中,并对该数据库中转档后的所有专利文件的各个组成部分的内容分别重新建立全文索引。本发明还提供一种专利全文检索的索引建立方法。本发明能为专利文件建立索引,方便用户进行专利文件全文内容的检索。

权利要求 :

1.一种专利全文检索的索引建立系统,该系统包括通过网络相连接的服务器及客户端,其特征在于,该服务器包括启动模块、转档模块、索引建立模块及数据库,其中:所述启动模块,用于侦测数据库是否增加了新的专利文件,如果数据库中增加了新的专利文件,则启动所述转档模块;

所述转档模块,用于读取该专利文件的各组成部分的内容,将该专利文件的各组成部分内容以预先定义的文件格式进行保存,以完成转档;

所述索引建立模块,用于使用索引建立技术将上述转档后的专利文件的各组成部分内容分别添加至所述数据库中与各组成部分相对应的栏位,并通过扫描转档后的专利文件每一组成部分内容的每一个词对每一个词建立一个索引,并指明每一个词在每一部分出现的次数及位置,以对转档后的专利文件建立全文索引。

2.如权利要求1所述的专利全文检索的索引建立系统,其特征在于,所述客户端包括:检索模块,用于根据用户的检索标的在建立好索引的数据库中进行专利全文检索,并计算检索结果的关联值,所述关联值是检索结果与检索标的之间的相似度;及显示模块,用于对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件的简要信息及显示用户选择的专利的全文信息。

3.如权利要求2所述的专利全文检索的索引建立系统,其特征在于,所述检索模块使用的检索方式是单一条目检索或多条目联合检索,所述条目包括专利文件的标题、说明书摘要、说明书内容及权利要求书。

4.如权利要求1所述的专利全文检索的索引建立系统,其特征在于,所述预先定义的文件格式的文件所属的类型是网页或XML文件或其他可以转换成文本文件的类型。

5.一种专利全文检索的索引建立方法,其特征在于,该方法包括步骤:

当数据库中新增专利文件时,读取该专利文件的各部分内容;

将该专利文件的各部分内容以预先定义的文件格式进行保存,以完成转档;

使用索引建立技术分别添加该转档后的专利文件各部分内容到数据库中与各组成部分相对应的栏位,并通过扫描转档后的专利文件每一组成部分内容的每一个词对每一个词建立一个索引,并指明每一个词在每一部分出现的次数及位置,以对转档后的专利文件建立全文索引。

6.如权利要求5所述的专利全文检索的索引建立方法,其特征在于,该方法还包括步骤:根据用户的检索标的在该建立索引的数据库中进行专利全文检索并计算关联值,所述关联值是检索结果与检索标的之间的相似度;

对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件的简要信息;及显示用户所选择的专利的全文信息。

7.如权利要求6所述的专利全文检索的索引建立方法,其特征在于,所述在数据库中进行检索所使用的检索方式是单一条目检索或多条目联合检索,所述条目包括专利文件的标题、说明书摘要、说明书内容及权利要求书。

8.如权利要求5所述的专利全文检索的索引建立方法,其特征在于,所述预先定义的文件格式的文件所属的类型是网页或XML文件或其他可以转换成文本文件的类型。

说明书 :

专利全文检索的索引建立系统及方法

技术领域

[0001] 本发明是关于一种检索系统及方法,尤指一种应用于专利全文上的检索索引建立系统及方法。

背景技术

[0002] 随着科技的蓬勃发展与网络资讯的日益普及,各种文件亦与日俱增,使得传统式的检索习惯受到相当大的影响与冲击。因为这些巨量的资料若使用传统的方式检索,其数量是相当惊人的,而且资料的利用率也不高。所以随着数位时代的来临,发展对文件的全文检索成为了必然的趋势。
[0003] 与此相应的各种检索系统也因应而生,这些检索系统类似一个数据库,能存储大量的资料,满足使用者的检索需求。在这些数据库当中,往往存在一些相关栏位,这些栏位可能存储一些文字信息。因此,当使用者在检索资料时,该使用者实际是对数据库中的资料栏位进行检索。然而,使用者仍然需要耗费大量的精力与时间,将文件的文字资料录入到数据库中,从而给资料收集及后续的检索造成不便,从而影响到资料的利用价值。

发明内容

[0004] 基于上述内容,有必要提供一种专利全文检索的索引建立系统,该系统包括通过网络相连接的服务器及客户端。该服务器包括启动模块、转档模块、索引建立模块及数据库。所述启动模块,用于侦测数据库是否增加了新的专利文件,如果数据库中增加了新的专利文件,则启动所述转档模块;所述转档模块,用于读取该专利文件的各组成部分的内容,将该专利文件的各组成部分内容以预先定义的文件格式进行保存,以完成转档;所述索引建立模块,用于使用索引建立技术将上述转档后的专利文件的各组成部分内容添加至所述数据库中,并对该数据库中转档后的所有专利文件的各个组成部分的内容分别重新建立全文索引。
[0005] 所述客户端包括检索模块,用于根据用户的检索标的在建立好索引的数据库中进行专利全文检索,并计算检索结果的关联值,所述关联值是检索结果与检索标的之间的相似度;显示模块,用于对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件的简要信息及显示用户所选择的专利文件的全文信息。
[0006] 本发明还提供一种专利全文检索的索引建立方法,该方法包括步骤:当数据库中增加了新的专利文件时,读取该专利文件的各部分内容;将该专利文件的各部分内容以预先定义的文件格式进行保存,以完成转档;使用索引建立技术添加该转档后的专利文件各部分内容到数据库中,并对该数据库中转档后的所有专利文件的各个组成部分的内容分别重新建立全文索引。
[0007] 该方法还包括步骤:根据用户的检索标的在该建立索引的数据库中进行专利全文检索并计算关联值,所述关联值是检索结果与检索标的之间的相似度;对上述检索结果按照关联值排序,依序显示与当前检索标的相关的专利文件信息;及显示用户所选择的专利文件的全文信息。
[0008] 本发明可当服务器中新增专利文件时,自动检测文件内容,将专利文件各组成部分的内容,自动读取出来,建立索引并存储到数据库中。方便用户进行专利文件全文内容的检索,获取与当前检索关键字相关的专利文件,并将相关检索结果按关联程度排列显示,方便用户阅读、参考。

附图说明

[0009] 图1是本发明专利全文检索的索引建立系统较佳实施方式的模块图。
[0010] 图2是本发明专利全文检索的索引建立方法的较佳实施方式的流程图。
[0011] 图3是本发明建立完索引后进行全文检索的较佳实施方式的流程图。

具体实施方式

[0012] 如图1所示,是本发明专利全文检索的索引建立系统较佳实施方式的模块图。该系统包括服务器1和客户端2,二者通过网络3连接。所述服务器1包括数据库17、启动模块11、转档模块12及索引建立模块13。所述客户端2包括检索模块20及显示模块21。
[0013] 在本较佳实施方式中,每一专利文件包括说明书摘要、说明书、权利要求书三个组成部分,说明书部分又分为标题、技术领域、背景技术、发明内容、附图说明、具体实施方式等多个子部分。说明书摘要部分提供相应的说明书摘要主要内容和关键字,同样,说明书各子部分提供相应子部分的主要内容和关键字,权利要求书部分的每一项权利要求提供相应权利要求的主要内容和关键字。
[0014] 启动模块11用于侦测数据库17中是否增加了新的专利文件,当侦测到数据库中增加了新的专利文件时,启动转档模块12进行转档作业。转档模块12用于通过文件传输协议(FileTransfer Protocol,FTP)从数据库17中获得新增的专利文件,依据上述描述的专利文件的组成部分对其进行分析,读取各组成部分的内容,并将该各组成部分的内容以预先定义的文件格式进行保存。该预先定义的文件格式的文件由标题、说明书摘要、说明书、权利要求书等部分组成,该预先定义的文件格式的文件所属的类型可以是网页、XML或其他可以转换成文本文件的类型。索引建立模块13使用索引建立技术将上述转档之后的专利文件各组成部分的内容添加到数据库17中,并对该数据库17中的所有转档之后的专利文件的各个组成部分的内容分别重新建立全文索引,包括对标题建立全文索引,说明书摘要部分建立全文索引,对说明书部分建立全文索引及对权利要求书部分建立全文索引。所述建立全文索引是指通过扫描每一部分内容的每一个词,对每一个词建立一个索引,指明该词在每一部分出现的次数及位置。该数据库17中包含与专利文件转档后的文件中各组成部分相对应的栏位,用来存储专利文件转档后各部分的内容和关键字。
[0015] 检索模块20用于根据用户的检索标的对上述建立好索引的数据库17进行检索。通过检索每一专利文件各组成部分的条目对应的栏位,获得检索结果,并计算关联值。其中检索标的为用户输入的检索关键字,检索结果为按照检索标的在数据库17中检索出的所有专利文件的简要信息,包括专利标题、部分摘要内容、申请号等,关联值为检索结果与检索标的之间的相似度(区间为0~1),所述条目包括专利文件的标题、说明书摘要、说明书内容及权利要求书。检索模块20进行的检索方式可为单一条目检索和多条目联合检索。显示模块21用于对上述检索结果依关联值排序,依序显示上述检索出的与当前检索标的相关的专利文件的简要信息,从而方便阅读、参考。该显示模块21还用于当用户点击检索出的专利标题时将专利文件下载或开启供用户阅读。该显示模块21还用于在下载专利全文前进行专利全文的预览。
[0016] 如图2所示,是本发明专利全文检索的索引建立方法的较佳实施方式的流程图。首先,启动模块11在侦测到数据库中增加了新的专利文件时,启动转档模块12通过FTP从数据库17中获取该专利文件(步骤S20)。转档模块12读取该专利文件各组成部分的内容,并将读取的专利文件的各组成部分的内容以预先定义的文件格式进行保存,该预先定义的文件格式的文件所属的类型可以是网页、XML或其他可以转换成文本文件的类型(步骤S21)。索引建立模块13使用索引建立技术将上述转档之后的专利文件的各部分内容添加到数据库17中,并对该数据库17中的转档之后的所有专利文件的各个组在部分的内容分别重新建立全文索引,包括对标题建立全文索引,说明书摘要部分建立全文索引,对说明书部分建立全文索引及对权利要求书部分建立全文索引。(步骤S22)。所述建立全文索引是指通过扫描每一部分内容的每一个词,对每一个词建立一个索引,指明该词在每一部分出现的次数及位置。
[0017] 如图3所示是本发明建立完索引后进行全文检索的较佳实施方式的流程图。检索模块20根据用户提供的检索标的如关键字,在建立索引之后的数据库中依专利条目进行专利文件检索,检索到与该检索标的相关的所有专利,并计算检索结果的关联值;所述检索结果指检索到的所有专利的简要信息,该简要信息包括专利标题、部分摘要内容、申请号等;所述专利条目可以是标题、说明书摘要、说明书内容及权利要求书;关联值为检索结果与检索标的之间的相似度(区间为0~1)(步骤S32)。显示模块21根据关联值排序检索到的专利,依序显示上述检索出的与当前检索标的相关的专利文件的简要信息,从而方便阅读、参考(步骤S33)。保存所述关联值及排序结果到数据库17中(步骤S34)。显示模块21根据用户的选择,下载及显示所需的专利全文或预览专利全文(步骤S35)。