一种标讯项目所在地的抽取方法、装置、设备及介质转让专利

申请号 : CN202310645158.3

文献号 : CN116384948B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 贾新田小亮张金坤

申请人 : 北京拓普丰联信息科技股份有限公司

摘要 :

本申请提供了一种标讯项目所在地的抽取方法、装置、设备及介质,涉及数据处理技术领域,采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;并按照预设的第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目的目标所在地,从而精准服务当地用户。

权利要求 :

1.一种标讯项目所在地的抽取方法,其特征在于,所述方法包括以下步骤:

采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;

针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;

其中,所述针对每种所述招标信息参数进行三级行政区划提取,包括以下步骤:

针对每种所述招标信息参数进行预处理,其中,所述预处理包括采集所述项目地址的辅助地址、清洗所述项目名称的冗余字段和提取所述采购单位中的特征字符;将预处理后的每种所述招标信息参数与所述地名库进行对比,得到每种所述招标信息参数的三级行政区划;其中,所述三级行政区划为省、市、县三级;

其中,所述将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市,包括以下步骤:根据每种所述招标信息参数提取出的多个所述三级行政区划的结构,以对提取出的多个所述三级行政区划进行保留或者舍弃;其中,若提取出的多个所述三级行政区划为超过两个省份结构,将提取出的多个所述三级行政区划进行舍弃;若提取出的多个所述三级行政区划为一省多市结构,保留提取出的多个所述三级行政区划的省份;若提取出的多个所述三级行政区划为一省一市结构,保留提取出的多个所述三级行政区划的省份和市份;

对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地;

其中,所述对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,包括以下步骤:

根据多个不同类别的待识别数据、以及每一类别待识别数据中不同信息影响所述标讯项目所在地的置信度,确定所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序;按照所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序设置第一优先级;其中,置信度越高,第一优先级越高;

并且,判断得到的所述标讯项目所在地是否为空;其中,若得到的所述标讯项目所在地为空,对所述站点地域值、每种所述招标信息参数的所在城市设置第二优先级,并按照所述第二优先级对所述站点地域值、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。

2.根据权利要求1所述的一种标讯项目所在地的抽取方法,其特征在于,采购单位的类型不同,所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序不同;其中,所述招标信息参数还包括审批部门/发布部门、采购单位地址、标题、邮编/固话中的一种或多种。

3.根据权利要求2所述的一种标讯项目所在地的抽取方法,其特征在于,通过如下方式按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并:若上一三级行政区划为包含两个以下省份的结构,下一三级行政区划为包含新省份的结构,在进行合并时,舍弃所述新省份;

若待合并的两个三级行政区划中,一个三级行政区划为省市两级结构、另一个三级行政区划为相同的省一级结构,保留省市两级结构的三级行政区划。

4.一种标讯项目所在地的抽取装置,其特征在于,所述装置包括:

采集模块,用于采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;

提取模块,用于针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;其中,所述提取模块针对每种所述招标信息参数进行三级行政区划提取,包括:针对每种所述招标信息参数进行预处理,其中,所述预处理包括采集所述项目地址的辅助地址、清洗所述项目名称的冗余字段和提取所述采购单位中的特征字符;将预处理后的每种所述招标信息参数与所述地名库进行对比,得到每种所述招标信息参数的三级行政区划;其中,所述三级行政区划为省、市、县三级;

其中,所述提取模块将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市,包括:根据每种所述招标信息参数提取出的多个所述三级行政区划的结构,以对提取出的多个所述三级行政区划进行保留或者舍弃;其中,若提取出的多个所述三级行政区划为超过两个省份结构,将提取出的多个所述三级行政区划进行舍弃;若提取出的多个所述三级行政区划为一省多市结构,保留提取出的多个所述三级行政区划的省份;若提取出的多个所述三级行政区划为一省一市结构,保留提取出的多个所述三级行政区划的省份和市份;

合并模块,用于对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照该第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目所在地;其中,所述合并模块对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,包括:根据多个不同类别的待识别数据、以及每一类别待识别数据中不同信息影响所述标讯项目所在地的置信度,确定所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序;按照所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序设置第一优先级;其中,置信度越高,第一优先级越高;

并且,所述合并模块还用于判断得到的所述标讯项目所在地是否为空;其中,若得到的所述标讯项目所在地为空,对所述站点地域值、每种所述招标信息参数的所在城市设置第二优先级,并按照所述第二优先级对所述站点地域值、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。

5.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至3任一所述的标讯项目所在地的抽取方法的步骤。

6.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至3任一所述的标讯项目所在地的抽取方法的步骤。

说明书 :

一种标讯项目所在地的抽取方法、装置、设备及介质

技术领域

[0001] 本申请涉及数据处理技术领域,具体而言,涉及一种标讯项目所在地的抽取方法、装置、设备及介质。

背景技术

[0002] 为了能够帮助用户实时掌握更有价值的招投标数据,提升市场竞争力,针对各大互联网招投标网站爬取数据,并将爬取到的大多半结构化web文本进行结构化处理,进而进行统计、分析。
[0003] 但是目前,并没有挖掘标讯项目所在地的功能,不能满足精准服务当地用户的需求。

发明内容

[0004] 有鉴于此,本申请的目的在于提供一种标讯项目所在地的抽取方法、装置、设备及介质,可以从采集的web文本及结构化后的数据中挖掘出标讯项目所在地,更精准的服务当地用户。
[0005] 第一方面,本申请实施例提供一种标讯项目所在地的抽取方法,所述方法包括以下步骤:
[0006] 采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;
[0007] 针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;
[0008] 对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。
[0009] 在一些实施例中,所述针对每种所述招标信息参数进行三级行政区划提取,包括以下步骤:
[0010] 针对每种所述招标信息参数进行预处理,其中,所述预处理包括采集所述项目地址的辅助地址、清洗所述项目名称的冗余字段和提取所述采购单位中的特征字符;
[0011] 将预处理后的每种所述招标信息参数与所述地名库进行对比,得到每种所述招标信息参数的三级行政区划;其中,所述三级行政区划为省、市、县三级。
[0012] 在一些实施例中,所述将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市,包括以下步骤:
[0013] 根据每种所述招标信息参数提取出的多个所述三级行政区划的结构,以对提取出的多个所述三级行政区划进行保留或者舍弃;
[0014] 其中,若提取出的多个所述三级行政区划为超过两个省份结构,将提取出的多个所述三级行政区划进行舍弃;
[0015] 若提取出的多个所述三级行政区划为一省多市结构,保留提取出的多个所述三级行政区划的省份;
[0016] 若提取出的多个所述三级行政区划为一省一市结构,保留提取出的多个所述三级行政区划的省份和市份。
[0017] 在一些实施例中,所述对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,包括以下步骤:
[0018] 根据多个不同类别的待识别数据、以及每一类别待识别数据中不同信息影响所述标讯项目所在地的置信度,确定所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序;
[0019] 按照所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序设置第一优先级;其中,置信度越高,第一优先级越高。
[0020] 在一些实施例中,采购单位的类型不同,所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序不同;其中,所述招标信息参数还包括审批部门/发布部门、采购单位地址、标题、邮编/固话中的一种或多种。
[0021] 在一些实施例中,通过如下方式按照所述第二第一优先级对所述采购单位的来源的所在城市进行逐次合并,以及按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并:
[0022] 若上一三级行政区划为包含两个以下省份的结构,下一三级行政区划为包含新省份的结构,在进行合并时,舍弃所述新省份;
[0023] 若待合并的两个三级行政区划中,一个三级行政区划为省市两级结构、另一个三级行政区划为相同的省一级结构,保留省市两级结构的三级行政区划。
[0024] 在一些实施例中,所述抽取方法还包括以下步骤:
[0025] 判断得到的所述标讯项目所在地是否为空;
[0026] 其中,若得到的所述标讯项目所在地为空,对所述站点地域值、每种所述招标信息参数的所在城市设置第二优先级,并按照所述第二优先级对所述站点地域值、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。
[0027] 第二方面,本申请实施例提供一种标讯项目所在地的抽取装置,所述装置包括:
[0028] 采集模块,用于采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;
[0029] 提取模块,用于针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;
[0030] 合并模块,用于对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照该第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目所在地。
[0031] 第三方面,本申请实施例提供的一种电子设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面任一项所述的标讯项目所在地的抽取方法的步骤。
[0032] 第四方面,本申请实施例提供的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面任一项所述的标讯项目所在地的抽取方法的步骤。
[0033] 本申请所述的一种标讯项目所在地的抽取方法、装置、电子设备及存储介质,采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;并按照预设的第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目的目标所在地,从而精准服务当地用户。

附图说明

[0034] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0035] 图1示出了本申请实施例所述标讯项目所在地的抽取方法的流程图;
[0036] 图2示出了本申请实施例所述针对每种所述招标信息参数进行三级行政区划提取的流程图;
[0037] 图3示出了本申请实施例所述获取所述采购单位的所在城市的流程图;
[0038] 图4示出了本申请实施例所述对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级的流程图;
[0039] 图5示出了本申请实施例所述标讯项目所在地的抽取装置的结构示意图;
[0040] 图6示出了本申请实施例所述电子设备的结构框图。

具体实施方式

[0041] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
[0042] 另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0043] 需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
[0044] 鉴于背景技术所提出的技术问题,本申请提供一种标讯项目所在地的抽取方法、装置、电子设备及存储介质,能够基于采集的web文本及结构化后的数据中挖掘出标讯项目所在地,从而更精准的服务当地用户。
[0045] 参见说明书附图1,本申请实施例提供的一种标讯项目所在地的抽取方法,包括以下步骤:
[0046] S1、采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;
[0047] S2、针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;
[0048] S3、对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。
[0049] 需要说明的是,在本申请实施例中,所述标讯项目所在地的抽取方法可以运行于终端设备或者是服务器;其中,终端设备可以为服务方终端设备,当标讯项目所在地的抽取方法运行于服务器时,该标讯项目所在地的抽取方法则可以基于云交互系统来实现与执行,其中,云交互系统至少包括服务器和客户端设备(也即终端设备)。
[0050] 在步骤S1中,所述多个待识别数据一部分来源于从招投标发布平台获取的web文本及结构化后的数据,另一部分来源于预设的招投标发布平台的地域值、以及预设的地名库。
[0051] 其中,所述地名库包含有以省‑市‑县‑乡级别构建的行政区划树,以通过给定的地域值与该地名库中的行政区划树做逻辑计算对比,即可得出相应的地域节点,并且如果该地域节点有父节点,则可以推导出对应的父节点地域。如,得到的地域节点为***市,所推导出的父节点地域即为包括该***市的***省。本申请即是基于该原理,能够尽可能的识别出标讯项目目标所在地的省、市、县三级行政目录;
[0052] 预设的招投标发布平台的地域值可以是全国级、省级或者市级的,如***省电子招标投标公共服务平台的地域值即为省级;***市电子招标投标公共服务平台的地域值即为市级。这是由于,招投标信息具有地域性,***省电子招标投标公共服务平台公告的招投标信息一般只适用于该***省;***市电子招标投标公共服务平台一般只适用于改***市。所以,预设的招投标发布平台的地域值具有一定的置信度,能够用于去判断标讯项目目标所在地;
[0053] 来源于从招投标发布平台获取的web文本及结构化后的部分数据还必须是与识别标讯项目所在地有关联的数据,例如,在本申请中选取的包含多种招标信息参数的标讯数据可以为项目地址、项目名称和采购单位,这是由于项目地址、项目名称和采购单位在正规公告中均会包含涉及标讯项目所在地的字符,而其他招标信息参数,如招标人资格、财务要求、投资金额等一般就不会包含涉及标讯项目所在地的字符。
[0054] 所以,为了提升识别出标讯项目目标所在地的概率和准确度,在本申请中,将预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及项目地址、项目名称、采购单位信息作为标讯项目所在地的多个待识别数据。
[0055] 在步骤S2中,参见说明书附图2,其中针对每种所述招标信息参数进行三级行政区划提取,包括以下步骤:
[0056] S201、针对每种所述招标信息参数进行预处理,其中,所述预处理包括采集所述项目地址的辅助地址、清洗所述项目名称的冗余字段和提取所述采购单位中的特征字符;
[0057] S202、将预处理后的每种所述招标信息参数与所述地名库进行对比,得到每种所述招标信息参数的三级行政区划;其中,所述三级行政区划为省、市、县三级。
[0058] 即,从项目地址、项目名称、采购单位三类招标信息参数中提取三级行政区划时,需要先分别对项目地址、项目名称、采购单位的数据进行预处理。在该实施例中,项目地址会涉及多种辅助地址,如送货地址、收货地址、配送地址、交货地址、所在区域/地区/货物所在地等,所以就必须将所涉及的所有辅助地址数据进行统一采集,以更全面的提取项目地址的三级行政区划;
[0059] 由于项目名称除了包含城市的文本外,还会包含“公司”、与采购者一样的文本等,并且在本申请中,由于最终获取的标讯项目目标所在地是省、市、县三级行政区划,所以也需要将路/街道前三个字符进行去除,即对项目名称设置清洗冗余字段规则,以提升后续与所述地名库进行对比的效率;
[0060] 而相反的,对于采购单位通过设置抽取规则,来提取其三级行政区划,进而提升后续与所述地名库进行对比的效率。例如,抽取**分公司、**分院、** 分校、**分行前三个字符 ;括号里的字符;**集团**公司中间的字符、**公司**公司中间的字符、**公司后三个字符等。
[0061] 其中,将预处理后的每种所述招标信息参数与所述地名库进行对比,查找出相应的城市字段,应为本领域技术人员所熟知的技术手段,在此不做赘述。但是需要说明的是,在提取的城市字段中,省市两级使用全称简称、县级使用全称。
[0062] 由于从项目地址、项目名称或者采购单位数据中提取的城市字段会有多个,甚至多个城市字段之间会存在冲突,如果不进行有效合并,会造成后续识别出的标讯项目目标所在地不准确。例如,从不同辅助地址中提取的城市字段有的为A省、有的为B‑1(B省1市)、有的为B‑2(B省2市)。所以,需要对项目地址、项目名称或者采购单位数据中提取的多个城市字段进行合并,以得到每种所述招标信息参数对应的所在城市。
[0063] 在本申请中,根据每种招标信息参数提取出的多个所述三级行政区划的结构,对省、市、县进行相应保留或者舍弃的方式进行合并。具体的:
[0064] 若提取出的多个所述三级行政区划为超过两个省份结构,将提取出的多个所述三级行政区划进行舍弃,例如,从项目地址提取出的多个三级行政区划分别为A省、B省、C省,超过了两个省份,置信度不高,从而不保留任何数据;若提出的多个三级行政区划分别为A‑1(A省1市)、B‑1(B省1市)、C‑1(C省1市),同样超过了三个省份,置信度不高,从而不保留任何数据;若提出的多个三级行政区划分别为A‑1(A省1市)、A‑2(A省2市)、A‑3(A省3市),仅仅涉及一个省份,但是对于哪个市份不确定,所以对A‑1(A省1市)、A‑2(A省2市)、A‑3(A省3市)进行保留,以作后续判定;
[0065] 若提取出的多个所述三级行政区划为超过四个市份结构,将市份进行舍弃,只保留省份,例如,从项目名称提取出的多个三级行政区划分别为出A‑1(A省1市)、A‑2(A省2市)、A‑3(A省2市)、B‑1(B省1市)、B‑2(B省2市),则保留A省和B省,以作后续判定。
[0066] 在步骤S3中,参见说明书附图4,通过如下方式对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级:
[0067] S301、根据多个不同类别的待识别数据、以及每一类别待识别数据中不同信息影响所述标讯项目所在地的置信度,确定所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序;
[0068] S302、按照所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序设置第一优先级;其中,置信度越高,第一优先级越高
[0069] 即,在本申请中,由于在识别标讯项目目标所在地时,不同类别的待识别数据所起到的置信度、以及每个类别下不同信息所起到的置信度是不同的,如预设的招标信息发布平台的站点地域值由于是已知的,所以置信度较高;从项目地址中提取出的城市字段的置信度高于从项目单位提取出的城市字段的置信度;从项目单位提取出的城市字段的置信度高于从采购单位提取出的城市字段的置信度;所以在本申请中根据置信度越高第一优先级越高的原则进行设置,进而按照第一优先级从高到低的顺序逐次将提取出的城市字段进行合并,得到标讯项目目标所在地。
[0070] 另外,需要说明的是,在本申请中,所述招标信息参数除了上述的项目地址、项目名称、采购单位之外,还包括审批部门/发布部门、采购单位地址、标题、邮编/固话等其他参数。并且,在实际抽取标讯项目目标所在地的过程中,采购单位的类型不同,所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序不同。例如,一般的,将采购单位分为两类,一类为学校、公共资源、在线审批平台;另一类为医疗机构、银行、企业门户、保险、证券、社会采购、代理机构、工程建设的网站;则针对第一类采购单位,其置信度排序顺序为站点地域值中的省份、项目地址、项目名称、采购单位、审批部门/发布部门、地名库、采购单位地址、站点地域值中的市份、标题、邮编/固话;针对第二类采购单位,其置信度排序顺序为站点地域值中的省份、项目地址、项目名称、采购单位、审批部门/发布部门、采购单位地址、地名库、站点地域值中的市份、标题、邮编/固话。
[0071] 在本申请中,通过如下方式按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并:
[0072] 若上一三级行政区划为包含两个以下省份或者市份的结构,下一三级行政区划为包含新省份的结构,在进行合并时,舍弃所述新省份;例如,第一组提取出的为A省和B省,第二组提取出C省,则将C省舍弃,保留A省和B省;或者第一组提取出的为A‑1(A省1市)、A‑2(A省2市),第二组提取出的为A‑3(A省3市),则将A‑3(A省3市)舍弃,保留A‑1(A省1市)、A‑2(A省2市);这是由于第一组的第一优先级高于第二组,所以再提取出新的省份或者市份置信度就相对较低;
[0073] 若待合并的两个三级行政区划中,一个三级行政区划为省市两级结构、另一个三级行政区划为相同的省一级结构,保留更为全面的省市两级结构的三级行政区划;例如,第一组提取出的为A‑1(A省1市)、B‑1(B省1市),第二组提取出A省,则保留A‑1(A省1市);或者第一组提取出的为A省、B‑1(B省1市),第二组提取出A‑1(A省1市),则保留A‑1(A省1市); 或者第一组提取出A‑1(A省1市)、A‑2(A省2市),第二组提取出A省,则保留A‑1(A省1市)、A‑2(A省2市)。
[0074] 则通过上述方式按照第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,就能够得到标讯项目目标所在地;但是在个别情况下,还会出现空值的情况,例如,要合并的三组数据分别为A省、B省、C省,超过了两个省份,置信度不高,从而不保留任何数据。所以在本申请中,在通过上述方式按照第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到的标讯项目目标所在地为空值时,对所述站点地域值、每种所述招标信息参数的所在城市设置第二优先级,并基于一省一市的原则,按照所述第二优先级从所述站点地域值、每种所述招标信息参数的所在城市中直接得到标讯项目目标所在地,或者进行逐次合并,得到标讯项目目标所在地。
[0075] 例如,在一实施例中,所设置的第二优先级的顺序为项目名称(四级全称)、项目名称(三级简称)、采购单位(三级简称)、正文识别、站点地域值,即先判断项目名称(四级全称)的所在城市,若项目名称(四级全称)的所在城市为一省一市结构,则直接将其作为标讯项目目标所在地,不再进行后序判断;若目名称(四级全称)的所在城市为一省多市结构,保留省份,市份由后序的项目名称(三级简称)、采购单位(三级简称)、正文识别、站点地域值中提取合并;若目名称(四级全称)的所在城市为多省结构,全部舍弃,由后序的项目名称(三级简称)、采购单位(三级简称)、正文识别、站点地域值中提取合并省份和市份。
[0076] 其中,按照所述第二优先级从所述站点地域值、每种所述招标信息参数的所在城市中进行逐次合并,得到标讯项目目标所在地的方式同上述第一优先级一样,在此不做赘述。但需要说明的是,在基于地名库提取项目名称的所在城市、采购单位的所在城市时,并不需要预处理(清洗冗余数据),从而可以得到相对较多的城市字段;站点地域值仅确定到省份;以及最终得到的标讯项目目标所在地只含有省市即可,不必确定到县。
[0077] 可见,本申请提供的一种标讯项目所在地的抽取方法,能够利用预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及采集的项目地址、项目名称、采购单位的web文本或者结构化数据,按照一定的提取、合并规则挖掘出标讯项目的目标所在地,从而精准服务当地用户。
[0078] 基于同一发明构思,本申请实施例中还提供了一种标讯项目所在地的抽取装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述一种标讯项目所在地的抽取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0079] 采集模块501,用于采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;
[0080] 提取模块502,用于针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;其中,所述招标信息参数包括项目地址、项目名称、采购单位中的一种或多种;
[0081] 合并模块503,用于对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,并按照该第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目所在地。
[0082] 在一些实施例中,所述提取模块502针对每种所述招标信息参数进行三级行政区划提取,包括:
[0083] 针对每种所述招标信息参数进行预处理,其中,所述预处理包括采集所述项目地址的辅助地址、清洗所述项目名称的冗余字段和提取所述采购单位中的特征字符;
[0084] 将预处理后的每种所述招标信息参数与所述地名库进行对比,得到每种所述招标信息参数的三级行政区划;其中,所述三级行政区划为省、市、县三级。
[0085] 在一些实施例中,所述提取模块502将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市,包括:
[0086] 根据每种所述招标信息参数提取出的多个所述三级行政区划的结构,以对提取出的多个所述三级行政区划进行保留或者舍弃;
[0087] 其中,若提取出的多个所述三级行政区划为超过两个省份结构,将提取出的多个所述三级行政区划进行舍弃;若提取出的多个所述三级行政区划为一省多市结构,保留提取出的多个所述三级行政区划的省份;若提取出的多个所述三级行政区划为一省一市结构,保留提取出的多个所述三级行政区划的省份和市份。
[0088] 在一些实施例中,所述合并模块503对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市设置第一优先级,包括:
[0089] 根据多个不同类别的待识别数据、以及每一类别待识别数据中不同信息影响所述标讯项目所在地的置信度,确定所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序;
[0090] 按照所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序设置第一优先级;其中,置信度越高,第一优先级越高;
[0091] 其中,采购单位的类型不同,所述站点地域值、所述地名库、每种所述招标信息参数的置信度排序顺序不同;其中,所述招标信息参数还包括审批部门/发布部门、采购单位地址、标题、邮编/固话中的一种或多种。
[0092] 在一些实施例中,所述合并模块503按照所述第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,包括:
[0093] 若上一三级行政区划为包含两个以下省份的结构,下一三级行政区划为包含新省份的结构,在进行合并时,舍弃所述新省份;
[0094] 若待合并的两个三级行政区划中,一个三级行政区划为省市两级结构、另一个三级行政区划为相同的省一级结构,保留省市两级结构的三级行政区划。
[0095] 在一些实施例中,所述装置还包括判断模块,用于判断得到的所述标讯项目所在地是否为空;其中,若得到的所述标讯项目所在地为空,对所述站点地域值、每种所述招标信息参数的所在城市设置第二优先级,并按照所述第二优先级对所述站点地域值、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目目标所在地。
[0096] 本申请提供的一种标讯项目所在地的抽取装置,通过采集模块采集标讯项目所在地的多个待识别数据;其中,所述多个待识别数据包括预设的招标信息发布平台的站点地域值、预设的包含行政区划分树的地名库、以及包含多种招标信息参数的标讯数据;通过提取模块针对每种所述招标信息参数进行三级行政区划提取,并将每种所述招标信息参数提取出的多个所述三级行政区划进行合并,得到每种所述招标信息参数的所在城市;通过合并模块按照预设的第一优先级对所述站点地域值、所述地名库、每种所述招标信息参数的所在城市进行逐次合并,得到标讯项目的目标所在地,从而精准服务当地用户。
[0097] 基于本发明的同一构思,说明书附图6所示,本申请实施例提供的一种电子设备600的结构,该电子设备600包括:至少一个处理器601,至少一个网络接口604或者其他用户接口603,存储器605,至少一个通信总线602。通信总线602用于实现这些组件之间的连接通信。该电子设备600可选的包含用户接口603,包括显示器(例如,触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等),键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触摸屏等)。
[0098] 存储器605可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器605的一部分还可以包括非易失性随机存取存储器(NVRAM)。
[0099] 在一些实施方式中,存储器605存储了如下的元素,可保护模块或者数据结构,或者他们的子集,或者他们的扩展集:
[0100] 操作系统6051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
[0101] 应用程序模块6052,包含各种应用程序,例如桌面(launcher)、媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。
[0102] 在本申请实施例中,通过调用存储器605存储的程序或指令,处理器601用于执行如一种标讯项目所在地的抽取方法中的步骤,能够得到标讯项目的目标所在地,从而精准服务当地用户。
[0103] 本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如标讯项目所在地的抽取方法中的步骤。
[0104] 具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述标讯项目所在地的抽取方法。
[0105] 在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0106] 作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0107] 另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0108] 功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0109] 最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。