一种页面地域权重模型实现方法转让专利

申请号 : CN201310260778.1

文献号 : CN103631839B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张克非刘志勤蒲伟郭焰莲李江张胜标黄超

申请人 : 西南科技大学

摘要 :

本发明公开了一种页面地域权重模型实现方法,根据行政区划分的原理,建立基于行政区域划分的地理信息库以及同级别地理相邻位置关系图,以用户查询地域信息以及权重值队列为输入,动态输出用户查询地域以及相关地域信息权重队列,并用修正算法对动态输出的地理信息权重队列进行修正,输出修正后的地理信息权重队列。检索程序利用输出的地域权重队列进行检索,实现页面输出的地域排序效果。本发明包括以下流程:建立基于行政区域划分的地理信息库→建立相邻关系信息库→权重检索→修正权重→页面检索。本方法算法简单,易于实现;优化了搜索结果、增强信息本土化、个性化;实用性和易用性较强。

权利要求 :

1.一种页面地域权重模型实现方法,其特征在于:包括以下流程:建立基于从上到下的行政区域划分的地理信息库→建立包括上级相同和上级不同的同级别行政区域相邻关系信息库→权重检索→权重修正→页面检索;权重检索中层次权重检索的具体方法如下:(1)获取检索信息即地理名称:AreaName,遍历层数N;

(2)检索层级关系树:利用树的层级遍历思想确定AreaName层级数n、AreaName节点的父节点Parent以及父节点Parent的父节点GrandParent直到根节点的节点;

(3)检索相邻关系信息库:将上述得到的Parent节点作为输入,利用其存储的相邻关系信息库中的入口地址,查找AreaName在入口地址对应的图中的对应位置,以AreaName为中心,广度遍历整个图,得到遍历出的节点集合;

A[n]={a1,a2,…},0≤n<N;A代表广义表入口地址,a代表一个节点,A[n]代表第n层节点集合,直到遍历到满足输入要求层数,如果出现没有遍历到满足要求的层数而边界节点又无相邻节点,则利用Parent节点的存储的边界入口,检索该节点所在位置,依次广度遍历该节点,边界入口对应的图只有一层,若依然不满足遍历层数要求,则利用刚遍历出来的节点的地理名称作为输入,重复(1)、(2)、(3)步,直到满足遍历层数要求为止;

(4)权重分配:利用(3)生成的广义表以及预先定义的同级层次权重表Weight:W1,W2,......,Wn,Wn为权重值;将对应权重值的权重分配给广义表上的对应层级,实现权重分配。

2.根据权利要求1所述的一种页面地域权重模型实现方法,其特征在于:所述流程——建立基于行政区域划分的地理信息库包含以下两方面:

1)、权重的划分:由于按照行政区域划分,因此各省的信息结构相似,本方案以省为例,分别为属于省的各市赋予相同权重,为属于省的各县或区赋予相同权重,为属于省的各镇赋予相同权重,最后为各村赋予相同权重,其省,市,县或区,镇,村的权重值逐级递增;在此基础上利用其邻近关系的地域对任意地域权重做进一步调整;在当目的地域权重缺失或无法获取时,可以通过其邻近地域的权重利用其邻近关系进行平均计算缺失地域的权重;

2)、地理信息组织:地理信息主要是以行政区划分,以树状图形式组织,作为地理信息库,同时作为相邻关系信息库中每个图的索引入口,便于算法的检索,包括上一级、上两级、上三级、 上四级、逐级向上相同和不同的同一级相邻关系。

3.根据权利要求1所述的一种页面地域权重模型实现方法,其特征在于:所述流程——建立相邻关系信息库分为以下2个步骤:

1).建立相邻关系图:先以“村”为例,在同一个镇的村之间的地理关系是确定的,因此利用此原理,将地图上的同一个镇的每个地理相邻村之间都用一条线来表示,将现有的地理关系抽象成数据结构中的图关系,其中,每个节点代表一个村,利用稀疏矩阵将每个镇的村与村的关系组织起来;基于以上原理,同一个县或区的镇、市的县、省的市都可以按照相应的方法组织起来,其中存在的问题在于两个相邻村分属不同的两个镇,镇、区或县、市、省类似,属于边界情况,对于这种情况可以通过单独建立这种特殊情况下的图来解决,其建立过程为:将边界村全部列出来,将其地理关系按照上述方法建立图,以稀疏矩阵存储;

2).建立一个以距离与偏差权重值组成的集合,其用于为检索算法检索出的相邻关系信息的地理位置信息权重值做细微的偏差设置,实现以查询地理位置为中心,与其距离平方成反比的权重递减。

4.根据权利要求1所述的一种页面地域权重模型实现方法,其特征在于:权重修正的具体修正算法如下:利用已有的用户地理信息偏好数据库、检索得到的广义表以及得到的带权层级权重链表,以广义表以及带权层级权重链表中的节点地理信息作为输入,检索用户地理信息偏好数据库,将其能检索到的地理信息偏好利用以下公式计算出各地理信息偏好所占百分比;

N为所有地理信息个数,n为任意地理信息;

Percent(n)为任意地理信息所占百分比;

Count(n)为任意地理信息计数;

利用预先定义的同级层次权重表以及层级权重表中存储的偏差值,根据以下公式计算:

Weight(n)=Percent(n)×OffsetValue(n)+W(n);

Weight(n)为任意地理信息修正后权重;

OffsetValue(n)为任意地理信息所在层次或层级权重偏差值;

W(n)为任意地理信息初始权重;

将所得到的值分别存入广义表和带权层级权重链表中对应的节点中,输出最后的带有权重的广义表和层级权重链表。

说明书 :

一种页面地域权重模型实现方法

技术领域

[0001] 本发明涉及一种页面地域权重模型实现方法,尤其涉及一种引擎搜索结果排序,以及用户对应区域位置信息的精确检索问题的实现方法。属于引擎搜索及信息检索领域。

背景技术

[0002] 随着互联网时代不断推进,网络已经成为巨大的知识宝库,据统计,截止到2011年12月底,中国网站数量为230万。同时,中国网页数量达到866亿个。而对于目前针对搜索指定地域信息的准确度很差,造成搜索结果冗余以及无关网页过多。迫切需要一种针对特定地域信息权重的生成方法使得搜索结果更加准确与人性化。
[0003] 根据大量搜索经验显示,对本土化信息关注度是村(镇,县(区),市,省)、相邻村(镇,县(区),市,省)以及高级别的信息(镇,县(区),市,省),基于此原理,迫切需要页面搜索技术能准确、完善地实现信息本土化检索。
[0004] 当前搜索引擎大多都利用关键词匹配技术作为计算页面权重的重要影响因素之一。实际应用过程中由于没有地域针对性和可变化性,因此存在三问题:
[0005] (1)地域信息搜索结果繁杂冗余;
[0006] (2)特定地域信息检索的准确率低;
[0007] (3)搜索结果没有针对用户习惯的特定地域信息个性化排序。
[0008] 而现有的提供地域化信息搜索类的方法和系统:如CNKI上公开号为 CN101651634公开了一种提供地域化信息的方法和系统,其构成方法是萃取文档数据中的地理信息;根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述文档数据标记所述查找到的地理属性;获取用户的地理属性;将标记的地理属性与用户的地理属性匹配的文档数据提供给用户。虽然利用本发明,可以提供适于用户的地域化信息,但其不足之处是由于其只是简单匹配地理信息,而没有关注地域信息周边以及高级别的信息,检索范围过窄。没有较为完善实现信息本土化。

发明内容

[0009] 本发明的目的在于解决上述问题而提供的一种页面地域权重模型实现方法,这种页面地域权重模型实现方法能够从大量的、冗杂、多样的网页页面中快速、准确的检索出针对特定地域信息权重计算生成的本土化、个性化的信息,同时有效解决了现有地域信息搜索技术的搜索结果繁杂冗余、准确率低、没有针对用户习惯的特定地域信息个性化排序的缺点。
[0010] 为了达到上述目的,本发明采用了以下技术方案:
[0011] 本发明所述一种页面地域权重模型实现方法,根据行政区划分的原理,建立基于行政区域划分的地理信息库以及同级别地理相邻位置关系图,以用户查询地域信息以及权重值队列为输入,动态输出用户查询地域以及相关地域信息权重队列,并用修正算法对动态输出的地理信息权重队列进行修正,输出修正后的地理信息权重队列。检索程序利用输出的地域权重队列进行检索,实现页面输出的地域排序效果。本发明包括以下流程:建立基于行政区域划分的地理信息库→建立相邻关系信息库→权重修正→页面检索。所述流程具体如下:
[0012] 1.建立基于行政区域划分的地理信息库:
[0013] 建立地理信息库主要有两个方面:
[0014] 1)、权重的划分:由于按照行政区域划分,因此各省的信息结构相似,本方案以四川省为例,分别为属于四川省的各市赋予相同权重,为属于四川省的各县(区)赋予相同权重,为属于四川省的各镇赋予相同权重,最后为各村赋予相同权重,其省,市,县(区),镇,村的权重值逐级递增;
[0015] 2)、地理信息组织:地理信息主要是以行政区划分,以树状图形式组织(其意义在于既作为地理信息库,又作为相邻关系信息库中每个图的索引入口),便于算法的检索(如以绵阳市为例,要查询绵阳市的北川县相关信息就以四川省- 绵阳市树状关系为入口,在绵阳市范围内以其下一层级县级来获取所有县区的邻接关系图)。
[0016] 2.建立相邻关系信息库:
[0017] 建立相邻关系信息库按照如下所示来建立。
[0018] 1).建立相邻关系图:以“村”为例,在同一个镇的村之间的地理关系是确定的,因此利用此原理,将地图上的同一个镇的每个地理相邻村之间都用一条线来表示,将现有的地理关系抽象成数据结构中的图关系,其中,每个节点代表一个村,利用稀疏矩阵将每个镇的村与村的关系组织起来。基于以上原理,同一个县(区)的镇、市的县、省的市都可以按照相应的方法组织起来。其中可能存在的问题在于两个相邻村分属不同的两个镇(镇、区(县)、市、省类似) (定义为边界情况),对于这种情况可以通过单独建立这种特殊情况下的图来解决,其建立过程为:将边界村全部列出来,将其地理关系按照上述方法建立图,以稀疏矩阵存储。通过已经建立的同级相邻关系图以及特殊图可以将所有的情况都解决掉。
[0019] 2).建立一个以距离与偏差权重值组成的集合,其用于为检索算法检索出的相邻关系信息的地理位置信息权重值做细微的偏差设置,实现以查询地理位置为中心,与其距离成反比的权重递减。
[0020] 3.权重修正:
[0021] 修正权重利用统计学原理,统计用户历史查询网页中的地域信息,生成用户地域查询偏好。利用用户地域查询偏好,通过偏好权重生成算法,以初始权重作为参考,输出修正后的地域权重队列。精确查找目的地域权重之后,利用其邻近关系的地域对该地点权重做进一步调整;在当该目的地域权重缺失或无法获取时,可以通过其邻近地域的权重利用其邻近关系进行平均计算该缺失地域的权重。
[0022] 4.页面检索:
[0023] 检索程序利用已生成的权重队列进行信息检索,输出检索出的按照权重队列排序的页面,实现页面地域化。
[0024] 本发明的有益效果在于:
[0025] 通过用户提供其关心的地理位置信息通过页面地域权重模型中的地域权重数据字典为搜索出的网页赋予相应初始权重,为网页排序提供重要参考,以此达到提高搜索精度以及搜索准确率,并根据一定策略将权重过低的网页抛弃掉,无关页面过滤效果较好,针对性强,页面地域排序较好,实现对搜索结果的优化,增强了用户搜索体验;
[0026] 通过本方法搜索引擎检索到的信息不仅包含用户期望的地域信息,而且还包含周边信息以及高级别信息,使用户可参考信息更多,增强信息本土化;
[0027] 通过用户每次对网页点击的先后顺序记录网页中的关键特性,为用户建立相应的特征数据库,当用户搜索时,将利用特征数据库中用户的习惯信息、地域位置信息和检索词通过偏差算法,生成一个辅助权重,结合初始权重从而实现了个性化排序,
[0028] 同时本页面地域权重模型实现方法算法简单,易于实现,实用性和易用性较强。

附图说明

[0029] 图1主要实施步骤框架图;
[0030] 图2行政区组织结构图;
[0031] 图3同级层次权重表与层级权重表;
[0032] 图4相邻关系信息库组织结构图;
[0033] 图5稀疏矩阵转换存储过程图。

具体实施方式

[0034] 下面结合附图对本发明作进一步具体描述:
[0035] 本发明所述一种页面地域权重模型实现方法包括以下主要实施步骤如图1 所示:建立同级层次权重表→建立层级权重表→建立全国省,市,区(县),镇,村的层级关系树(简称层级关系树)→建立全国省,市,区(县),镇,村的相邻关系信息库→权重检索→修正权重→页面检索。
[0036] 具体实施步骤如下:
[0037] 1.建立同级层次权重表:
[0038] 建立同级(如:村级)权重表,其结构如图3所示:
[0039] 其中Weight(n)中,n值代表层次,一般n值为1
[0040] 2.建立层级权重表:
[0041] 建立层级权重表(权重由省,市,县,镇,村逐级递增),其结构如图3所示:
[0042] 其与层次权重表的区别在于n的含义,此时n值对应层级(如n=0对应村, n=1对应镇,n=2对应县等),权重值与权重偏差值不同。
[0043] 3.建立全国省,市,区(县),镇,村的层级关系树(简称层级关系树)[0044] 其组织形式参照行政区组织结构图如图2所示,建立步骤为:
[0045] 1)以中国为根节点(Root),将各省份作为其孩子节点;并将省级相邻关系图的入口地址存储到根节点中。
[0046] 2)以各省份作为根节点,将所有属于特定省份的市作为其孩子节点;并将各市级相邻关系图的入口地址存入相对应的根节点中。
[0047] 3)以各市作为根节点,将所有属于特定市的县(区)作为其孩子节点;并将各县(区)级相邻关系图的入口地址存入相对应的根节点中。
[0048] 4)以各县(区)作为根节点,将所有属于特定县(区)的镇作为其孩子节点;并将各镇级相邻关系图的入口地址存入相对应的根节点中。
[0049] 5)以各镇作为根节点,将所有属于特定镇的村作为其孩子节点;并将各村级相邻关系图的入口地址存入相对应的根节点中;
[0050] 其他诸如直辖市、特别行政区都可按上述情况处理。完成关系树的建立。
[0051] 4.建立全国省,市,区(县),镇,村的相邻关系信息库;
[0052] 因其复杂度,以地理相邻的几个村为例,形成相邻关系信息库组织结构如图4所示,建立步骤为:
[0053] 1)建立省级相邻关系图;
[0054] 以各省的地理相邻关系为参考,将所有相邻省用线段链接起来。组成一个图;
[0055] 转换为稀疏矩阵(因其复杂度,以图4中镇A1的6个村为例,其转换为稀疏矩阵流程如图5所示,以下2),3),4),5),6)步骤中的稀疏矩阵转换流程一致。其过程主要为:第一步:标注邻接关系;第二步:利用对称矩阵原理精简矩阵;第三步:将矩阵转换为稀疏矩阵;第四步:存储稀疏矩阵。目的是节约存储空间)将其存储起来。其入口为Province;其结构可以表示为图5。
[0056] 2)建立市级相邻关系图(属于同省);
[0057] 以同省的各市地理相邻关系为参考,将所有相邻市用线段链接起来。组成一个图;转换为稀疏矩阵将其存储起来,其入口为City;
[0058] 3)建立县(区)级相邻关系图(属于同市);
[0059] 以同市的各区(县)地理相邻关系为参考,将所有相邻区(县)用线段链接起来。组成一个图;转换为稀疏矩阵将其存储起来,其入口为County;
[0060] 4)建立镇级相邻关系图(属于同县(区));
[0061] 以同区(县)的各镇地理相邻关系为参考,将所有相邻镇用线段链接起来。组成一个图;转换为稀疏矩阵将其存储起来,其入口为Town;
[0062] 5)建立村级相邻关系图(属于同镇);
[0063] 以同镇的各村地理相邻关系为参考,将所有相邻村用线段链接起来。组成一个图;转换为稀疏矩阵将其存储起来,其入口为Village;
[0064] 6)边界情况:
[0065] 边界情况是指两个或多个相邻市(称为边界节点)(县(区)、镇、村)分属不同的省(市、县(区)、镇),在上面存储的稀疏矩阵中未得到体现,需要单独处理,其处理方式是将分属两个省(市、县(区)、镇)的所有属于边界情况的市(县(区)、镇、村)按照上述方法建立相邻关系图,利用稀疏矩阵将其存储起来,其入口分别为市:CityBoundary,县(区):CountyBoundary,镇: TownBoundary,村:VillageBoundary。分别将其入口地址(称为边界入口)存入对应的两个或多个省、市、县(区)、镇节点中(上述层级关系树中)。
[0066] 5.权重检索:
[0067] 权重检索算法主要是按照以下步骤实现:
[0068] 1)层次权重检索:
[0069] (1)获取检索信息(地理名称):AreaName,遍历层数N
[0070] (2)检索层级关系树:
[0071] 利用树的层级遍历思想确定AreaName层级数n、AreaName节点的父节点 (Parent)以及父节点(Parent)的父节点(GrandParent)直到根节点的节点;
[0072] (3)检索相邻关系信息库:
[0073] 将上述得到的Parent节点作为输入,利用其存储的相邻关系信息库中的入口地址,查找AreaName在入口地址对应的图中的对应位置,以AreaName为中心,广度遍历整个图,得到遍历出的节点集合:
[0074] 直到遍历到满足输入要求层数,如果出现没有遍历到满足要求的层数而某节点(边界节点)又无相邻节点,则利用Parent节点的存储的边界入口,检索该节点所在位置(可能多个位置),依次广度遍历该节点(边界入口对应的图只有一层),若依然不满足遍历层数要求,则利用刚遍历出来的节点的地理名称作为输入,重复(1)、(2)、(3) 步,直到满足遍历层数要求为止。(一般情况下最多出现1次)
[0075] (4)权重分配:
[0076] 利用(3)生成的广义表以及预先定义的同级层次权重表(Weight (W1,W2,......,Wn),Wn为权重值),将对应权重值的权重分配给广义表上的对应层级。实现权重分配。
[0077] 2)层级权重检索:
[0078] 层级权重检索按照从根节点向下层级遍历确定输入的AreaName所在节点,并得到其从根节点(Root)到AreaName所在节点的链路,并存储在层级权重链表中,利用预先定义的层级权重表,为层级权重链表中对应的节点赋值,得到带权层级权重链表。
[0079] 6.修正权重
[0080] 修正权重主要有以下两部分组成:
[0081] 1)网页地理信息统计:
[0082] 利用用户点击网页中的地理信息,建立用户地理信息偏好数据库,其存储形式如图3所示,存储主要原则是只存储出现数量最多的地理信息(节约存储空间);
[0083] 2)修正算法:
[0084] 利用已有的用户地理信息偏好数据库、检索得到的广义表以及得到的带权层级权重链表,以广义表以及带权层级权重链表中的节点地理信息作为输入,检索用户地理信息偏好数据库,将其能检索到的地理信息偏好利用以下公式计算出各地理信息偏好所占百分比;
[0085]
[0086] N为所有地理信息个数,n为任意地理信息;
[0087] Percent(n)为任意地理信息所占百分比;
[0088] Count(n)为任意地理信息计数
[0089] 利用预先定义的同级层次权重表以及层级权重表中存储的偏差值,根据以下公式计算:
[0090] Weight(n)=Percent(n)×OffsetValue(n)+W(n);
[0091] Weight(n)为任意地理信息修正后权重;
[0092] OffsetValue(n)为任意地理信息所在层次(或层级)权重偏差值;
[0093] W(n)为任意地理信息初始权重
[0094] 将所得到的值分别存入广义表和带权层级权重链表中对应的节点中,输出最后的带有权重的广义表和层级权重链表。
[0095] 7.页面检索:
[0096] 页面检索程序以具体步骤6.输出的带有权重的广义表以及层级权重链表作为检索参考,在信息库中查找出与广义表以及层级权重链表中地域信息匹配的信息,并按照权重对页面进行排序,实现页面输出的地域排序效果。