检测兴趣点POI数据准确性的方法及装置转让专利

申请号 : CN201510146590.3

文献号 : CN104899243B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王智广

申请人 : 北京安云世纪科技有限公司

摘要 :

本发明提供了一种检测兴趣点POI数据准确性的方法及装置,该方法包括:提取POI数据提供网站中的多个POI数据;定位官网的地址信息页面,并从地址信息页面中提取包括地址信息及名称信息的名称地址对;将多个POI数据与名称地址对进行一一比对;当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。本发明的技术方案中,利用官网上具有权威性的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,从整体上提高了收集准确的POI数据的效率。

权利要求 :

1.一种检测兴趣点POI数据准确性的方法,其特征在于,包括:提取POI数据提供网站中的多个POI数据;

对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词,将包括所述地址关键词的网页确定为官网的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;或从官网中的多个网页中查找包含地址关键词的锚文本链接,将所述锚文本链接指向的网页确定为地址信息页面,并从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对;

将所述多个POI数据与所述名称地址对进行一一比对;

当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。

2.根据权利要求1所述的检测POI兴趣点准确性的方法,其特征在于,提取POI数据提供网站中的多个POI数据,包括:获取包括地址关键词的多个网页对应的多个URL;

对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern集合;

基于属于同一pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板;

基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。

3.根据权利要求2所述的检测POI兴趣点准确性的方法,其特征在于,该方法还包括:当属于任一pattern集合中的任一URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的POI数据均为准确的POI数据。

4.根据权利要求1-3任一项所述的检测POI兴趣点准确性的方法,其特征在于,将所述多个POI数据与所述名称地址对进行一一比对,包括:对所述多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述多个POI数据的经纬度信息及所述名称地址对的经纬度信息;

将多个POI数据的经纬度信息及名称信息,与所述名称地址对的经纬度信息及名称信息进行一一比对。

5.一种检测兴趣点POI数据准确性的装置,其特征在于,包括:POI数据提取模块,用于提取POI数据提供网站中的多个POI数据;

名称地址对提取模块,用于地对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词,将包括所述地址关键词的网页确定为官网的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;或用于从官网中的多个网页中查找包含地址关键词的锚文本链接,将所述锚文本链接指向的网页确定为地址信息页面,并从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对;

比对模块,用于将所述多个POI数据与所述名称地址对进行一一比对;

第一准确POI确定模块,用于当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。

6.根据权利要求5所述的检测POI兴趣点准确性的装置,其特征在于,所述POI数据提取模块进一步包括:URL获取单元,用于获取包括地址关键词的多个网页对应的多个URL;

聚类单元,用于对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern集合;

提取模板生成单元,用于基于属于同一pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板;

POI数据提取单元,用于基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。

7.根据权利要求6所述的检测POI兴趣点准确性的装置,其特征在于,该装置还包括:第二准确POI确定模块,用于当属于任一pattern集合中的任一URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的POI数据均为准确的POI数据。

8.根据权利要求5-7任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述比对模块,包括:经纬度转化单元,用于对所述多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述多个POI数据的经纬度信息及所述名称地址对的经纬度信息;

比对单元,用于将多个POI数据的经纬度信息及名称信息,与所述名称地址对的经纬度信息及名称信息进行一一比对。

说明书 :

检测兴趣点POI数据准确性的方法及装置

技术领域

[0001] 本发明涉及计算机技术领域,具体而言,本发明涉及一种检测兴趣点POI数据准确性的方法及装置。

背景技术

[0002] 在地理信息系统中,一个POI(Point Of Interest,兴趣点)可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI数据通常包括地址信息和名称信息。
[0003] 传统的POI数据采集方法,需要技术人员采用精密的测绘仪器去获取一个POI的经纬度信息,然后再标记下来,这种方法比较费时费力,导致通过采集得到的POI数据的数量很少,很难根据数量很少的POI数据来绘制地图供地理信息系统进行展示。
[0004] 互联网上存在着大量的POI数据,如果能从互联网上收集包含POI数据的网页,从收集的网页中提取出这些POI数据供地理信息系统使用,则会大大节省人力和时间。
[0005] 然而,互联网上充斥着大量虚假的POI数据,比如博客网页内容中包含“原文地址:http://xxx.xxx.xxx/xxx”,虽然包含“地址”字样,但该地址是网络地址或者说是URL(Uniform Resoure Locator,统一资源定位器),并不是POI数据中的地理地址信息;从而导致收集到的POI数据中包含虚假的POI数据的比例较高。目前,还没有检测POI数据准确性的方法,导致现有收集的POI数据的准确性较低。
[0006] 因此,有必要提供一种检测POI数据准确性的方法及装置,以提高收集到的POI数据的准确性。

发明内容

[0007] 本发明的目的旨在至少解决上述技术缺陷之一,特别是从互联网中提取到的大量POI数据准确性较低的问题。
[0008] 本发明的技术方案根据一个方面,提供了一种检测兴趣点POI数据准确性的方法,包括:
[0009] 提取POI数据提供网站中的多个POI数据;
[0010] 定位官网的地址信息页面,并从所述地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0011] 将所述多个POI数据与所述名称地址对进行一一比对;
[0012] 当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0013] 本发明的技术方案根据另一个方面,提供了一种检测兴趣点POI数据准确性的装置,包括:
[0014] POI数据提取模块,用于提取POI数据提供网站中的多个POI数据;
[0015] 名称地址对提取模块,用于定位官网的地址信息页面,并从所述地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0016] 比对模块,用于将所述多个POI数据与所述名称地址对进行一一比对;
[0017] 第一准确POI确定模块,用于当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0018] 本方案的实施例中,利用官网提供的具有权威性和正确性的包括地址信息和名称信息的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,从整体上提高了收集准确的POI数据的效率;进一步地,可提高基于准确的POI数据的来提供服务的产品服务水准,增加使用这些产品的用户的体验。
[0019] 此外,该技术方案中,对于patten集合,若其中任一URL对应的网页包括的任一个POI数据为准确的POI数据,则将该patten集合涉及的所有POI数据都确定为准确的POI数据,实现了在保证POI数据较为准确的基础上收集到更多的POI数据的目的,进一步从整体上提升了收集准确的POI数据的效率。
[0020] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0021] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0022] 图1a为本发明中检测兴趣点POI数据准确性的方法一个实施例的流程示意图;
[0023] 图1b为本发明中包括多个POI数据的单个网页的示意图;
[0024] 图1c和图1d都为本发明中官网的局部网页或页面的示意图;
[0025] 图2为本发明中检测兴趣点POI数据准确性的装置一个实施例的框架结构示意图;
[0026] 图3为本发明中POI数据提取模块201的内部结构的框架示意图;
[0027] 图4和图5都为本发明中名称地址对提取模块202的内部结构的框架示意图;
[0028] 图6为本发明中比对模块203的内部结构的框架示意图。

具体实施方式

[0029] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0030] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0031] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0032] 本发明的发明人注意到,一般官网提供的信息是比较权威的,那么可以认为官网提供的地址信息和名称信息一般也是正确的。官网,即官方网站,一般是指由某组织与个人建立的最具权威、最有公信力、或唯一指定网站,其最大的特点是权威。
[0033] 本发明的发明人考虑到,可以利用官网提供的包括地址信息和名称信息的名称地址对的权威性,来检测从POI数据提供网站中提取出的POI数据的准确性;例如,POI数据与官网的名称地址对相匹配,则确认该POI数据为准确的POI数据。本发明的方法可以大大提高收集到的POI数据的准确性,有利于提高收集到准确的POI数据的几率,从而提高基于准确的POI数据的服务的水准,增加使用这些服务的用户的体验。
[0034] 下面结合附图具体介绍本发明实施例的技术方案。
[0035] 图1a为本发明中检测兴趣点POI数据准确性的方法一个实施例的流程图。
[0036] S101:提取POI数据提供网站中的多个POI数据;S102:定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对;S103:将提取自POI数据提供网站的多个POI数据与提取自官网的多个名称地址对进行一一比对;S104:当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0037] 本发明中上述检测兴趣点POI数据准确性的方法,相当于利用提取自官网的具有权威性和正确性的名称地址对,来检测提取自POI数据提供网站的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,使得可以收集到更多的准确的POI数据,从而整体上提高了收集准确的POI数据的效率。
[0038] 本发明实施例的技术方案中,可以预先尽可能多地收集多个官网的网络地址。网络地址可以包括URL。
[0039] 具体地,可以获取互联网上的多个首页URL,根据首页URL所在的主域对URL进行聚类,如果一个主域中包含的不同的首页URL数量小于设定的阈值,则选择用户关注度最高的首页URL作为这个网站的官网的网络地址。用户关注度可以包括:访问量、每次访问的浏览时长等。
[0040] 例如,“北京王府中西医结合医院”的网站首页URL:http://www.rimh.cn/,其主域rimh.cn下的首页URL数量较少,可以选择一个用户关注度最高的首页URL作为该网站的官网。
[0041] 优选地,若主域下包含了大量的首页URL,例如首页URL的数目超过了设定的阈值,则确定该主域属于泛域,将其下的多个首页URL分别作为多个官网的网络地址。
[0042] 比如,主域1688.com下包含了如下大量的首页URL:
[0043] http://ahwanjiuyuan.1688.com/
[0044] http://zgjlf1.1688.com/
[0045] http://bjninedeer.1688.com/
[0046] …………….
[0047] 将主域1688.com下的所有首页URL分别作为多个官网的网络地址。
[0048] 基于上述多个官网的网络地址,下面具体介绍流程示意图如图1a所示的检测兴趣点POI数据准确性的方法,包括如下步骤:
[0049] S101:提取POI数据提供网站中的多个POI数据。
[0050] 本发明的发明人发现,互联网上还存在这样一类网站,这类网站提供了大量的公司、企业、餐厅等等POI数据,比如一些黄页网站提供了大量的公司的POI数据,还有类似“爱帮网”的网站也提供了大量的服务类的POI数据,本申请文件中称这类网站为POI数据提供网站。
[0051] POI数据提供网站中的POI数据的数量庞大,提供POI数据的网页的页面结构特征、URL格式,以及POI数据在网页中的位置和格式是有规律性的。例如,提供POI数据的网页在页面结构特征上是相同的,这些网页的URL具有相同结构特征,提供的POI数据在格式和位置上都是相同的。也就是说可以通过一种统一的方法方便的从POI数据提供网站上提取出POI数据。
[0052] 具体地,从POI数据提供网站中,获取包括“地址”等地址关键词的多个网页对应的多个URL。对获取的多个URL进行pattern(模式)聚类,将具有相同结构特征的URL聚类为同一pattern集合。
[0053] 较佳地,对于POI数据提供网站中众多的包括地址关键词的网页中,只包括一个POI数据的网页,获取所有只包括一个POI数据的网页的URL;对获取的所有URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern集合。
[0054] 例如,作为POI数据提供网站之一的爱帮网中,URL为http://www.aibang.com/detail/1537772035-1606201508的网页中只包括“爱普生(中国)有限公司”这一POI数据、URL为http://www.aibang.com/detail/152928073-419169481的网页中只包括“北京王府中西医结合医院”这一POI数据,这两个URL具有相同的结构特征www.aibang.com/detail/*,其中*为通配符表示任意字符;因此,可以将这两个URL聚类到同一pattern集合中;也就是说,该pattern集合中所有的URL都具有同一结构特征www.aibang.com/detail/*。
[0055] 较佳地,对于POI数据提供网站中众多的包括地址关键词的网页中,包括多个POI数据的网页,获取所有包括多个POI数据的网页的URL;对获取的所有URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern集合。
[0056] 例如,URL为http://www.dianping.com/search/category/2/0/r2578的网页,如图1b所示,该网页中包括“俏巴妹(朝外SOHO尚都店)”、“渝乡人家(国贸店)”和“建国饭店咖啡厅”等多个POI数据,获取所有结构特征符合www.dianping.com/search/category/*的URL,其中*为通配符表示任意字符;对获取的所有URL进行pattern聚类,聚类得到的同一pattern集合中的URL都具有结构特征www.dianping.com/search/category/*。
[0057] 基于属于同一pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板。较佳地,对于属于同一pattern集合中每个URL,根据该URL对应的网页中多个POI数据的格式和位置,生成与该pattern集合相应的POI提取模板。
[0058] 基于生成的POI提取模板,从上述同一pattern集合中多个URL对应的多个网页中提取多个POI数据。较佳地,对于上述同一pattern集合中每个URL,针对该URL对应的网页,根据生成的POI提取模板中的POI数据的格式、以及多个POI数据在网页中的位置,从该网页中提取多个POI数据。
[0059] S102:定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对。
[0060] 具体地,根据上述预先收集的官网的网络地址查找到官网后,可以采用多种方法定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对。
[0061] 一种定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对的方法包括:
[0062] 对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词;将包括地址关键词的网页确定为官网的地址信息页面。
[0063] 例如,对官网中的多个网页进行文本内容解析,若解析结果中包含大量的“XXX店”、“XXX分公司”、“XXX餐厅”等地址关键词,则将包括这些地址关键词的网页确定为官网的地址信息页面。
[0064] 再如,如图1c所示的“庆丰包子”官网下的相关网页(该网页的URL为http://www.qing-feng.com/daohang.htm)中包含了大量的“XXX店”的地址关键词,因此可以将该网页确定为官网的地址信息页面。
[0065] 之后,从确定出的地址信息页面中提取包括地址信息及名称信息的名称地址对。名称地址对中的地址信息及名称信息是从同一地址信息页面中提取的。
[0066] 另一种定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对的方法包括:
[0067] 从官网中的多个网页中查找包含地址关键词的锚(anchor)文本链接;将查找出的锚文本链接指向的网页确定为地址信息页面。地址关键词可以包括:联系我们和联系方式;锚文本具体包括:链接名称、与链接名称对应的URL;链接名称可以是“联系我们”或“联系方式”等等;锚文本链接具体可以是锚文本中的URL所对应的链接。
[0068] 例如,如图1d所示的“北京王府中西医结合医院”官网(该官网的URL为http://www.rimh.cn/)页面,从该页面的右上角查找到锚文本中的链接名称“联系我们”,进而查找到“联系我们”所对应的URL,进一步确定出该URL所对应的链接;将确定出的链接指向的网页确定为地址信息页面。
[0069] 之后,从锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。名称地址对中的地址信息及名称信息是从同一地址信息页面中提取的。
[0070] 此外,根据上述预先收集的官网的网络地址查找到官网后,还可以从官网的首页URL对应的网页上提取包括地址信息及名称信息的名称地址对。
[0071] 具体地,预先获取全国的省、市、县(区)、乡镇、道路等包括地址信息和名称信息,并根据获取的地址信息和名称,创建地址名称信息库。
[0072] 对官网的首页URL对应的网页的文字内容做分词处理,得到分词结果;对于分词结果中的每个词,若可以从地址名称信息库中查找到该词,则从地址名称信息库中获取与该词相关的地址信息和名称信息;根据获取的地址信息和名称信息,生成包括该地址信息及名称信息的名称地址对。
[0073] 如http://www.rimh.cn/comcontent_detail3/&i=1&comContentId=1.html这一URL对应的网页中的文本片段“北京市昌平区北七家镇王府街1号”,分词后得到分词结果:“北京市”、“昌平区”、“北七家镇”、“王府街”和“1号”,这些词都可以在地址名称信息库中查到,则从地址名称信息库中获取与这些词相关的地址信息和名称信息,生成名称地址对。
[0074] S103:将提取自POI数据提供网站的多个POI数据与提取自官网的多个名称地址对进行一一比对。
[0075] 具体地,对提取自POI数据提供网站的多个POI数据中的地址信息、以及提取自官网的多个名称地址对中的地址信息,都进行归一化处理。
[0076] 较佳地,将多个POI数据中的地址信息分别转化为多个POI数据的经纬度信息;将多个名称地址对中的地址信息分别转化为多个名称地址对的经纬度信息。
[0077] 将多个POI数据的经纬度信息及名称信息,与名称地址对的经纬度信息及名称信息进行一一比对。具体地,对于每个POI数据,判断各名称地址对中,是否存在经纬度信息及名称信息分别与该POI数据的经纬度信息及名称信息相一致的名称地址对,若是,则确定该POI数据的地址信息及名称信息与名称地址对相匹配,否则,忽略该POI数据。
[0078] S104:当任一POI数据包括的地址信息及名称信息与名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0079] 具体地,若在上述步骤S103中确定出任一POI数据包括的地址信息及名称信息与名称地址对相匹配,则在本步骤中,确定该POI数据为准确的POI数据。
[0080] 更优的,当属于任一pattern集合中的任一URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的POI数据均为准确的POI数据。
[0081] 例如,当URL(http://www.aibang.com/detail/1537772035-1606201508)对应的网页中包括的“爱普生(中国)有限公司”的POI数据为准确的POI数据时,确定该URL所属的pattern集合中的每一URL对应网页包括的POI数据(即爱帮网所提供的所有POI数据)都为准确的POI数据。
[0082] 显然,检测一个POI数据是否准确的工作量,远小于对一个patten集合所涉及的海量POI数据逐一检测是否准确的工作量;从而该优选实施例的方法中,若patten集合所涉及的一个POI数据为准确的POI数据,则将该patten集合所涉及的所有POI数据都确定为准确的POI数据,大大减少了检测POI数据准确性的工作量,提高了检测效率;而且,同一patten集合中的URL具有相同的结构特征,所涉及的POI数据通常源自同一POI数据提供网站,而同一POI数据提供网站提供的各POI数据的准确性水平几乎是一致的;因此,该优选实施例的方法可以实现在保证POI数据较为准确的基础上收集到更多的POI数据的目的,从整体上提升了收集准确的POI数据的效率。
[0083] 基于上述检测兴趣点POI数据准确性的方法,本发明实施例还提供了一种检测兴趣点POI数据准确性的装置,该装置内部结构的框架示意图如图2所示,包括:POI数据提取模块201、名称地址对提取模块202、比对模块203和第一准确POI确定模块204。
[0084] 其中,POI数据提取模块201用于提取POI数据提供网站中的多个POI数据。
[0085] 名称地址对提取模块202用于定位官网中的地址信息页面,并从官网中的地址信息页面中提取包括地址信息及名称信息的名称地址对。
[0086] 比对模块203用于将多个POI数据与名称地址对进行一一比对。
[0087] 第一准确POI确定模块204用于当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0088] 更优的,POI数据提取模块201的内部结构的框架示意图如图3所示,进一步包括:URL获取单元301、聚类单元302、提取模板生成单元303和POI数据提取单元304。
[0089] 其中,URL获取单元301用于获取包括地址关键词的多个网页对应的多个URL。
[0090] 聚类单元302用于对多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern集合。
[0091] 提取模板生成单元303用于基于属于同一pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板。
[0092] POI数据提取单元304用于基于POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。
[0093] 更优的,如图2所示,本发明实施例的检测POI兴趣点准确性的装置,该装置还包括:第二准确POI确定模块205。
[0094] 第二准确POI确定模块205用于当属于任一pattern集合中的任一URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的POI数据均为准确的POI数据。
[0095] 进一步,名称地址对提取模块202的内部结构的框架示意图如图4所示,包括:地址关键词判断单元401和第一地址信息页面确定单元402。
[0096] 其中,地址关键词判断单元401用于对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词。
[0097] 第一地址信息页面确定单元402用于将包括地址关键词的网页确定为官网的地址信息页面。
[0098] 或者,名称地址对提取模块202的内部结构的框架示意图如图5所示,包括:锚文本链接查找模块501、第二地址信息页面确定单元502和名称地址对提取单元503。
[0099] 其中,锚文本链接查找模块501用于从官网中的多个网页中查找包含地址关键词的锚文本链接。
[0100] 第二地址信息页面确定单元502用于将锚文本链接指向的网页确定为地址信息页面。
[0101] 名称地址对提取单元503用于从锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。
[0102] 更优的,比对模块203的内部结构的框架示意图如图6所示,包括:经纬度转化单元601和比对单元602。
[0103] 其中,经纬度转化单元601用于对多个POI数据的地址信息与名称地址对中的地址信息进行归一化处理,将其分别转化为多个POI数据的经纬度信息及名称地址对的经纬度信息。
[0104] 比对单元602用于将多个POI数据的经纬度信息及名称信息,与名称地址对的经纬度信息及名称信息进行一一比对。
[0105] 上述POI数据提取模块201、名称地址对提取模块202、比对模块203、第一准确POI确定模块204和第二准确POI确定模块205,POI数据提取模块201中的URL获取单元301、聚类单元302、提取模板生成单元303和POI数据提取单元304,名称地址对提取模块202中的地址关键词判断单元401和第一地址信息页面确定单元402、或者锚文本链接查找模块501、第二地址信息页面确定单元502和名称地址对提取单元503,以及比对模块203中的经纬度转化单元601和比对单元602功能的具体实现方法,可以参考上述如图1所示的方法流程步骤的具体内容,此处不再赘述。
[0106] 本发明实施例的技术方案中,利用官网提供的具有权威性和正确性的包括地址信息和名称信息的名称地址对,来检测从POI数据提供网站中提取出的POI数据的准确性;大大提高了检测POI数据的准确性的效率和收集到准确的POI数据的几率,使得可以收集到更多的准确的POI数据,从而整体上提高了收集准确的POI数据的效率;从而提高基于准确的POI数据的服务的水准,增加使用这些服务的用户的体验。
[0107] 而且,该技术方案中,对于patten集合,若其中任一URL对应的网页包括的任一个POI数据为准确的POI数据,则将该patten集合涉及的所有POI数据都确定为准确的POI数据,可以在保证POI数据较为准确的基础上,收集到更多的POI数据,从整体上提升了收集准确的POI数据的效率。
[0108] 本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
[0109] 本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0110] 本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0111] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
[0112] 本发明提供了A1、一种检测兴趣点POI数据准确性的方法,包括:
[0113] 提取POI数据提供网站中的多个POI数据;
[0114] 定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0115] 将所述多个POI数据与所述名称地址对进行一一比对;
[0116] 当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0117] A2、根据权利要求A1所述的检测POI兴趣点准确性的方法,其特征在于,提取POI数据提供网站中的多个POI数据,包括:
[0118] 获取包括地址关键词的多个网页对应的多个URL;
[0119] 对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern集合;
[0120] 基于属于同一pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板;
[0121] 基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。
[0122] A3、根据权利要求A1或A2所述的检测POI兴趣点准确性的方法,其特征在于,该方法还包括:
[0123] 当属于任一pattern集合中的任一URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的POI数据均为准确的POI数据。
[0124] A4、根据权利要求A1-A3任一项所述的检测POI兴趣点准确性的方法,其特征在于,定位官网中的地址信息页面,包括:
[0125] 对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词;
[0126] 将包括所述地址关键词的网页确定为官网的地址信息页面。
[0127] A5、根据权利要求A1-A4任一项所述的检测POI兴趣点准确性的方法,其特征在于,定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对,包括:
[0128] 从官网中的多个网页中查找包含地址关键词的锚文本链接;
[0129] 将所述锚文本链接指向的网页确定为地址信息页面;
[0130] 从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。
[0131] A6、根据权利要求A1-A5任一项所述的检测POI兴趣点准确性的方法,其特征在于,将所述多个POI数据与所述名称地址对进行一一比对,包括:
[0132] 对所述多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述多个POI数据的经纬度信息及所述名称地址对的经纬度信息;
[0133] 将多个POI数据的经纬度信息及名称信息,与所述名称地址对的经纬度信息及名称信息进行一一比对。
[0134] 本发明还提供了A7、一种检测兴趣点POI数据准确性的装置,包括:
[0135] POI数据提取模块,用于提取POI数据提供网站中的多个POI数据;
[0136] 名称地址对提取模块,用于定位官网中的地址信息页面,并从所述官网地址信息页面中提取包括地址信息及名称信息的名称地址对;
[0137] 比对模块,用于将所述多个POI数据与所述名称地址对进行一一比对;
[0138] 第一准确POI确定模块,用于当任一POI数据包括的地址信息及名称信息与所述名称地址对相匹配时,确定该POI数据为准确的POI数据。
[0139] A8、根据权利要求A7所述的检测POI兴趣点准确性的装置,其特征在于,所述POI数据提取模块进一步包括:
[0140] URL获取单元,用于获取包括地址关键词的多个网页对应的多个URL;
[0141] 聚类单元,用于对所述多个URL进行pattern聚类,将具有相同结构特征的URL聚类为同一pattern集合;
[0142] 提取模板生成单元,用于基于属于同一pattern集合中多个URL对应多个网页的页面结构特征,生成与该pattern集合相应的POI提取模板;
[0143] POI数据提取单元,用于基于所述POI提取模板,从该pattern集合中多个URL对应的多个网页中提取多个POI数据。
[0144] A9、根据权利要求A7或A8所述的检测POI兴趣点准确性的装置,其特征在于,该装置还包括:
[0145] 第二准确POI确定模块,用于当属于任一pattern集合中的任一URL对应网页中包括的POI数据为准确的POI数据时,则确定该pattern集合中的每一URL对应网页包括的POI数据均为准确的POI数据。
[0146] A10、根据权利要求A7-A9任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述名称地址对提取模块,包括:
[0147] 地址关键词判断单元,用于对官网中的多个网页进行文本内容解析,来判断其中是否包括地址关键词;
[0148] 第一地址信息页面确定单元,用于将包括所述地址关键词的网页确定为官网的地址信息页面。
[0149] A11、根据权利要求A7-A10任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述名称地址对提取模块,包括:
[0150] 锚文本链接查找模块,用于从官网中的多个网页中查找包含地址关键词的锚文本链接;
[0151] 第二地址信息页面确定单元,用于将所述锚文本链接指向的网页确定为地址信息页面;
[0152] 名称地址对提取单元,用于从所述锚文本链接指向的地址信息页面中提取地址信息及名称信息的名称地址对。
[0153] A12、根据权利要求A7-A11任一项所述的检测POI兴趣点准确性的装置,其特征在于,所述比对模块,包括:
[0154] 经纬度转化单元,用于对所述多个POI数据的地址信息与所述名称地址对中的地址信息进行归一化处理,将其分别转化为所述多个POI数据的经纬度信息及所述名称地址对的经纬度信息;
[0155] 比对单元,用于将多个POI数据的经纬度信息及名称信息,与所述名称地址对的经纬度信息及名称信息进行一一比对。