用于输出信息的方法和装置转让专利

申请号 : CN201811339337.X

文献号 : CN109508361B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孙敏琪

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:响应于接收到包括检索词的检索请求,对检索词进行单字切词,得到单字集合;根据单字集合生成单字归并树,其中,单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系;基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点;确定检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点;输出所选择的第一候选地图点的信息。该实施方式提高了地图检索的召回结果的准确性。

权利要求 :

1.一种用于输出信息的方法,包括:

响应于接收到包括检索词的检索请求,对所述检索词进行单字切词,得到单字集合;

根据所述单字集合生成单字归并树,其中,所述单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系;

基于所述单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点;

确定所述检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点;

输出所选择的第一候选地图点的信息;

对所选择的第一候选地图点的相似度进行降权,得到更新后的所选择的第一候选地图点的相似度;

根据所述更新后的所选择的第一候选地图点的相似度和所选择的第二候选地图点的相似度,从所选择的第一候选地图点和所选择的第二候选地图点中按照相似度由高到低的选择第三预定数目个第三候选地图点,其中,第二候选地图点通过对所述检索词进行分析得到的关键词集合生成;

输出所选择的第三候选地图点。

2.根据权利要求1所述的方法,其中,所述方法还通过如下步骤建立单字倒排索引:获取待检索的地图点集合;

对所述地图点集合中的地图点,对该地图点的不同召回域分别进行单字粒度的切词和确定单字权重和紧密度,以及生成该地图点的单字正排索引和空间索引,其中,空间索引用于表征经纬度;

根据所述地图点集合中各地图点的单字正排索引和空间索引建立单字倒排索引。

3.根据权利要求1所述的方法,其中,所述方法还包括:获取当前位置、当前地图显示范围与目标城市名称;

根据所述当前位置、所述当前地图显示范围与所述目标城市名称确定包括所述当前位置的至少一个矩形区域;

根据所述至少一个矩形区域对应的空间索引从所述单字倒排索引中获取与所述当前位置相邻的地图点作为第一候选地图点。

4.根据权利要求2所述的方法,其中,所述基于所述单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点,包括:确定所述单字集合中各单字的单字权重和紧密度;

将所述单字归并树上的各单字对应的至少一个单字倒排索引中的地图点的交集确定为备选地图点集合;

对于所述备选地图点集合中的备选地图点,若该地图点的单字正排索引中的单字权重和紧密度与所述单字集合中各单字的单字权重和紧密度的相似度高于预定相似度阈值,则将该地图点确定为第一候选地图点。

5.根据权利要求1所述的方法,其中,所述方法还包括:从所选择的第一候选地图点中删除满足预定条件的第一候选地图点,所述预定条件包括以下至少一项:第一候选地图点的名称的来源不同,第一候选地图点的单字与所述检索词的匹配命中不连续,第一候选地图点的单字出现重复。

6.根据权利要求1-5之一所述的方法,其中,所述方法还包括:对所述检索词进行分析,得到关键词集合;

根据所述关键词集合生成归并树,其中,所述归并树上的关键词与预先建立的倒排索引相对应,倒排索引用于表征关键词与地图点的对应关系;

基于所述归并树上的各关键词对应的至少一个倒排索引中的地图点,确定至少一个第二候选地图点;

确定所述检索词与各第二候选地图点的相似度,以及按照相似度由大到小的顺序选择第二预定数目个第二候选地图点。

7.根据权利要求6所述的方法,其中,所述方法还通过如下步骤建立倒排索引:获取待检索的地图点集合;

对所述地图点集合中的地图点,对该地图点的不同召回域分别进行切词,进行命中域分析和确定切词结果的权重,以及生成该地图点的正排索引和空间索引,其中,所述空间索引用于表征经纬度;

根据所述地图点集合中各地图点的正排索引和空间索引按地图点的热度分片建立倒排索引。

8.一种用于输出信息的装置,包括:

第一分析单元,被配置成响应于接收到包括检索词的检索请求,对所述检索词进行单字切词,得到单字集合;

第一归并单元,被配置成根据所述单字集合生成单字归并树,其中,所述单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系;

第一确定单元,被配置成基于所述单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点;

第一选择单元,被配置成确定所述检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点;

第一输出单元,被配置成输出所选择的第一候选地图点的信息;

融合单元,被配置成:对所选择的第一候选地图点的相似度进行降权,得到更新后的所选择的第一候选地图点的相似度;根据所述更新后的所选择的第一候选地图点的相似度和所选择的第二候选地图点的相似度,从所选择的第一候选地图点和所选择的第二候选地图点中按照相似度由高到低的选择第三预定数目个第三候选地图点;输出所选择的第三候选地图点,其中,第二候选地图点通过对所述检索词进行分析得到的关键词集合生成。

9.根据权利要求8所述的装置,其中,所述装置还包括第一建立单元,被配置成:获取待检索的地图点集合;

对所述地图点集合中的地图点,对该地图点的不同召回域分别进行单字粒度的切词和确定单字权重和紧密度,以及生成该地图点的单字正排索引和空间索引,其中,空间索引用于表征经纬度;

根据所述地图点集合中各地图点的单字正排索引和空间索引建立单字倒排索引。

10.根据权利要求8所述的装置,其中,所述第一选择单元进一步被配置成:获取当前位置、当前地图显示范围与目标城市名称;

根据所述当前位置、所述当前地图显示范围与所述目标城市名称确定包括所述当前位置的至少一个矩形区域;

根据所述至少一个矩形区域对应的空间索引从所述单字倒排索引中获取与所述当前位置相邻的地图点作为第一候选地图点。

11.根据权利要求9所述的装置,其中,所述第一确定单元进一步被配置成:确定所述单字集合中各单字的单字权重和紧密度;

将所述单字归并树上的各单字对应的至少一个单字倒排索引中的地图点的交集确定为备选地图点集合;

对于所述备选地图点集合中的备选地图点,若该地图点的单字正排索引中的单字权重和紧密度与所述单字集合中各单字的单字权重和紧密度的相似度高于预定相似度阈值,则将该地图点确定为第一候选地图点。

12.根据权利要求8所述的装置,其中,所述装置还包括过滤单元,被配置成:从所选择的第一候选地图点中删除满足预定条件的第一候选地图点,所述预定条件包括以下至少一项:第一候选地图点的名称的来源不同,第一候选地图点的单字与所述检索词的匹配命中不连续,第一候选地图点的单字出现重复。

13.根据权利要求8-12之一所述的装置,其中,所述装置还包括:第二分析单元,被配置成对所述检索词进行分析,得到关键词集合;

第二归并单元,被配置成根据所述关键词集合生成归并树,其中,所述归并树上的关键词与预先建立的倒排索引相对应,倒排索引用于表征关键词与地图点的对应关系;

第二确定单元,被配置成基于所述归并树上的各关键词对应的至少一个倒排索引中的地图点,确定至少一个第二候选地图点;

第二选择单元,被配置成确定所述检索词与各第二候选地图点的相似度,以及按照相似度由大到小的顺序选择第二预定数目个第二候选地图点。

14.根据权利要求13所述的装置,其中,所述装置还包括第二建立单元,被配置成:获取待检索的地图点集合;

对所述地图点集合中的地图点,对该地图点的不同召回域分别进行切词,进行命中域分析和确定切词结果的权重,以及生成该地图点的正排索引和空间索引,其中,所述空间索引用于表征经纬度;

根据所述地图点集合中各地图点的正排索引和空间索引按地图点的热度分片建立倒排索引。

15.一种电子设备,包括:

一个或多个处理器;

存储装置,其上存储有一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

说明书 :

用于输出信息的方法和装置

技术领域

[0001] 本申请实施例涉及电子地图技术领域,具体涉及用于输出信息的方法和装置。

背景技术

[0002] 地图服务是互联网发展以来备受关注一项应用,越来越多的网民开始利用网络地图服务来获取想要的信息。它最基础的服务主要包括两方面的内容:一是POI(Point of Interest,兴趣点,也称地图点)的搜索,一项是线路查询。前者主要根据用户输入的关键词或经纬度坐标返回相关的兴趣点,例如用户通过输入“火车站”来查找所有名称中包含“火车站”的点。由点搜索技术衍生出的其他服务包括视野内搜索,即在特定的区域内搜索满足条件的关键词等。而线路搜索也是一项应用范围更广的技术。
[0003] 地图检索的召回机制具有一些缺陷,强依赖于query(检索词)分析与切词准确率,当切词错误或query分析出错的时候,现有机制无法进行正确结果的召回。而且在实际用户使用的过程中,用户输入的query多种多样,很容易输入与实际数据不太匹配的query,或者是只输入了部分片段,输入顺序颠倒等情况,这几类问题目前的召回机制无法解决。

发明内容

[0004] 本申请实施例提出了用于输出信息的方法和装置。
[0005] 第一方面,本申请实施例提供了一种用于输出信息的方法,包括:响应于接收到包括检索词的检索请求,对检索词进行单字切词,得到单字集合;根据单字集合生成单字归并树,其中,单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系;基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点;确定检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点;输出所选择的第一候选地图点的信息。
[0006] 在一些实施例中,该方法还通过如下步骤建立单字倒排索引:获取待检索的地图点集合;对地图点集合中的地图点,对该地图点的不同召回域分别进行单字粒度的切词和确定单字权重和紧密度,以及生成该地图点的单字正排索引和空间索引,其中,空间索引用于表征经纬度;根据地图点集合中各地图点的单字正排索引和空间索引建立单字倒排索引。
[0007] 在一些实施例中,该方法还包括:获取当前位置、当前地图显示范围与目标城市名称;根据当前位置、当前地图显示范围与目标城市名称确定包括当前位置的至少一个矩形区域;根据至少一个矩形区域对应的空间索引从单字倒排索引中获取与当前位置相邻的地图点作为第一候选地图点。
[0008] 在一些实施例中,基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点,包括:确定单字集合中各单字的单字权重和紧密度;将单字归并树上的各单字对应的至少一个单字倒排索引中的地图点的交集确定为备选地图点集合;对于备选地图点集合中的备选地图点,若该地图点的单字正排索引中的单字权重和紧密度与单字集合中各单字的单字权重和紧密度的相似度高于预定相似度阈值,则将该地图点确定为第一候选地图点。
[0009] 在一些实施例中,该方法还包括:从所选择的第一候选地图点中删除满足预定条件的第一候选地图点,预定条件包括以下至少一项:第一候选地图点的名称的来源不同,第一候选地图点的单字与检索词的匹配命中不连续,第一候选地图点的单字出现重复。
[0010] 在一些实施例中,该方法还包括:对检索词进行分析,得到关键词集合;根据关键词集合生成归并树,其中,归并树上的关键词与预先建立的倒排索引相对应,倒排索引用于表征关键词与地图点的对应关系;基于归并树上的各关键词对应的至少一个倒排索引中的地图点,确定至少一个第二候选地图点;确定检索词与各第二候选地图点的相似度,以及按照相似度由大到小的顺序选择第二预定数目个第二候选地图点。
[0011] 在一些实施例中,该方法还包括:对所选择的第一候选地图点的相似度进行降权,得到更新后的所选择的第一候选地图点的相似度;根据更新后的所选择的第一候选地图点的相似度和所选择的第二候选地图点的相似度,从所选择的第一候选地图点和所选择的第二候选地图点中按照相似度由高到低的选择第三预定数目个第三候选地图点。
[0012] 在一些实施例中,该方法还通过如下步骤建立倒排索引:获取待检索的地图点集合;对地图点集合中的地图点,对该地图点的不同召回域分别进行切词,进行命中域分析和确定切词结果的权重,以及生成该地图点的正排索引和空间索引,其中,空间索引用于表征经纬度;根据地图点集合中各地图点的正排索引和空间索引按地图点的热度分片建立倒排索引。
[0013] 第二方面,本申请实施例提供了一种用于输出信息的装置,包括:第一分析单元,被配置成响应于接收到包括检索词的检索请求,对检索词进行单字切词,得到单字集合;第一归并单元,被配置成根据单字集合生成单字归并树,其中,单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系;第一确定单元,被配置成基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点;第一选择单元,被配置成确定检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点;第一输出单元,被配置成输出所选择的第一候选地图点的信息。
[0014] 在一些实施例中,该装置还包括第一建立单元,被配置成:获取待检索的地图点集合;对地图点集合中的地图点,对该地图点的不同召回域分别进行单字粒度的切词和确定单字权重和紧密度,以及生成该地图点的单字正排索引和空间索引,其中,空间索引用于表征经纬度;根据地图点集合中各地图点的单字正排索引和空间索引建立单字倒排索引。
[0015] 在一些实施例中,第一选择单元进一步被配置成:获取当前位置、当前地图显示范围与目标城市名称;根据当前位置、当前地图显示范围与目标城市名称确定包括当前位置的至少一个矩形区域;根据至少一个矩形区域对应的空间索引从单字倒排索引中获取与当前位置相邻的地图点作为第一候选地图点。
[0016] 在一些实施例中,第一确定单元进一步被配置成:确定单字集合中各单字的单字权重和紧密度;将单字归并树上的各单字对应的至少一个单字倒排索引中的地图点的交集确定为备选地图点集合;对于备选地图点集合中的备选地图点,若该地图点的单字正排索引中的单字权重和紧密度与单字集合中各单字的单字权重和紧密度的相似度高于预定相似度阈值,则将该地图点确定为第一候选地图点。
[0017] 在一些实施例中,该装置还包括过滤单元,被配置成:从所选择的第一候选地图点中删除满足预定条件的第一候选地图点,预定条件包括以下至少一项:第一候选地图点的名称的来源不同,第一候选地图点的单字与检索词的匹配命中不连续,第一候选地图点的单字出现重复。
[0018] 在一些实施例中,该装置还包括:第二分析单元,被配置成对检索词进行分析,得到关键词集合;第二归并单元,被配置成根据关键词集合生成归并树,其中,归并树上的关键词与预先建立的倒排索引相对应,倒排索引用于表征关键词与地图点的对应关系;第二确定单元,被配置成基于归并树上的各关键词对应的至少一个倒排索引中的地图点,确定至少一个第二候选地图点;第二选择单元,被配置成确定检索词与各第二候选地图点的相似度,以及按照相似度由大到小的顺序选择第二预定数目个第二候选地图点。
[0019] 在一些实施例中,该装置还包括融合单元,被配置成:对所选择的第一候选地图点的相似度进行降权,得到更新后的所选择的第一候选地图点的相似度;根据更新后的所选择的第一候选地图点的相似度和所选择的第二候选地图点的相似度,从所选择的第一候选地图点和所选择的第二候选地图点中按照相似度由高到低的选择第三预定数目个第三候选地图点。
[0020] 在一些实施例中,该装置还包括第二建立单元,被配置成:获取待检索的地图点集合;对地图点集合中的地图点,对该地图点的不同召回域分别进行切词,进行命中域分析和确定切词结果的权重,以及生成该地图点的正排索引和空间索引,其中,空间索引用于表征经纬度;根据地图点集合中各地图点的正排索引和空间索引按地图点的热度分片建立倒排索引。
[0021] 第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
[0022] 第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
[0023] 本申请实施例提供的用于输出信息的方法和装置,通过将检索词切成至少一个单字,再查找各个单字对应的倒排索引中的POI,从而降低由于切词错误或者用户搜索时使用简称、不完整名称导致的召回结果不理想的概率。

附图说明

[0024] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0025] 图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
[0026] 图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
[0027] 图3是根据本申请的用于输出信息的方法的一个实施例的单字索引结构;
[0028] 图4a、4b分别是根据本申请的用于输出信息的方法的一个实施例的基于分词的索引和单字索引;
[0029] 图5a、5b分别是根据本申请的用于输出信息的方法的一个实施例的普通归并树和单字归并树;
[0030] 图6是根据本申请的用于输出信息的方法的一个应用场景的示意图;
[0031] 图7是根据本申请的用于输出信息的方法的又一个实施例的流程图;
[0032] 图8是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
[0033] 图9是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

[0034] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0035] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0036] 图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
[0037] 如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0038] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如地图类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0039] 终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持地图浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
[0040] 服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的地图提供支持的后台地图服务器。后台地图服务器可以对接收到的地图查询请求等数据进行分析等处理,并将处理结果(例如分层显示的地图点)反馈给终端设备。
[0041] 需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0042] 需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
[0043] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0044] 继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
[0045] 步骤201,响应于接收到包括检索词的检索请求,对检索词进行单字切词,得到单字集合。
[0046] 在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行地图浏览的终端接收检索请求,其中,上述检索请求包括了检索词(query)。用户希望通过检索词查找到POI。检索词可以是POI的名称、地址、类型等。检索词可包括多个单字,将检索词进行单字粒度的切词,得到的每个切词结果都是单字,这些单字组成了单字集合。例如,检索词“青浦二手车”,切词后的单字集合为{“青”,“浦”。“二”,“手”,“车”}。对数字,字母类的query不进行单字切分。
[0047] 步骤202,根据单字集合生成单字归并树。
[0048] 在本实施例中,所谓归并树,就是利用线段树的建树过程,将归并排序的过程保存。其中,单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系。生成的单字归并树如图5b所示。“&”表示{“青”,“浦”。“二”,“手”,“车”}各自对应的倒排索引需要求交集。
[0049] 在本实施例的一些可选的实现方式中,通过如下步骤建立单字倒排索引:
[0050] 步骤2021,获取待检索的地图点集合。
[0051] 可从第三方服务器获取用户浏览的地图所需的POI(地图点)的数据。每个POI的数据可包括标题(title)域(例如,名称,别名),地址,类型,热度等信息。其中热度为预定时间内的搜索次数。
[0052] 步骤2022,对地图点集合中的地图点,对该地图点的不同召回域分别进行单字粒度的切词和确定单字权重和紧密度,以及生成该地图点的单字正排索引和空间索引。
[0053] 单字索引的结构如图3所示,单字索引采用了2级索引与空间索引结合的数据结构,0级索引存储单个汉字和对应在1级索引中的偏移量和长度,即term block(分词块),1级索引存储了单汉字对应的空间GeoHash前缀树与倒排拉链(倒排索引)偏移地址和长度。sign指的是对term进行字符串哈希之后的数字值,index指的是索引,GeoHash索引指的是空间索引。其中,GeoHash是一种地址编码方法。他能够把二维的空间经纬度数据编码成一个字符串。前缀树,是将单词的每个字符作为树的节点。前缀树衍生自基数树,数字的基数是位,字符串的基数就是字符。所以前缀树相当于基为字符的基数树。
[0054] 其中,空间索引用于表征经纬度。召回域指的是名称,地址等。在正排计算的过程中,提取POI的title域(名称,别名),根据title域处理的term(分词)结果,进行单字粒度的二次切分与权重赋值,如切词结果:“二手|车”,“二”,“手”继承term“二手”的权重,而单字“二”,“手”之间的紧密度权重大于“手”“, 车”之间的权重。这样做的目的是当query(检索词)中包含“二手”这个term,计算相关性的时候“二手车”的召回权重是高于“二把手”的,可以作为衡量单字召回结果与用户需求的一个相关性特征。
[0055] 可选地,还可建立普通索引(包括正排索引,倒排索引,空间索引)。具体过程如下所示:
[0056] 1.将POI数据预处理后,对不同的召回域(名称,地址等)分别进行切词,命中域分析,term权重计算等流程,产出正排索引。
[0057] 2.根据正排索引产出的term,命中域等信息,建立倒排索引与空间索引用于召回。
[0058] 3.对正排索引,倒排索引进行数据热度分片,保证高热结果的召回。
[0059] 步骤2023,根据地图点集合中各地图点的单字正排索引和空间索引建立单字倒排索引。
[0060] 在建立倒排索引的时候,由于单字索引与普通索引存在重复数据,因此在这里分为两个离线任务运行,重复的召回结果在完成计算后根据两个结果进行合并去重。示例如图4a,表示当前根据热度区分的三份倒排索引,北京大学相关的点根据热度不同存在不同层的索引中,而每个单字拉链则是包含所有热度等级的数据。而图4b中的单字倒排索引未按热度分片。
[0061] 在索引加载的时候,单字索引作为单独一层加载入内存,这样就很好的与现有召回机制做了解耦,当需要进行服务降级的时候只需要取消加载单字索引就可以取消该功能,这样的设计也有利于系统的可扩展性提升。
[0062] 步骤203,基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点。
[0063] 在本实施例中,可将各个单字倒排索引的交集中的POI作为第一候选地图点。
[0064] 在本实施例的一些可选的实现方式中,基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点,包括:确定单字集合中各单字的单字权重和紧密度。将单字归并树上的各单字对应的至少一个单字倒排索引中的地图点的交集确定为备选地图点集合。对于备选地图点集合中的备选地图点,若该地图点的单字正排索引中的单字权重和紧密度与单字集合中各单字的单字权重和紧密度的相似度高于预定相似度阈值,则将该地图点确定为第一候选地图点。
[0065] 步骤204,确定检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点。
[0066] 在本实施例中,可通过确定检索词与各第一候选地图点的相似度来确定检索词与步骤203确定出的POI的相关性。相似度可通过计算检索词与POI的名称、地址之间的相似度等得到。
[0067] 在本实施例的一些可选的实现方式中,该方法还包括:从所选择的第一候选地图点中删除满足预定条件的第一候选地图点,预定条件包括以下至少一项。第一候选地图点的名称的来源不同,第一候选地图点的单字与检索词的匹配命中不连续,第一候选地图点的单字出现重复。对单字召回结果进行相关性计算。这里进行了较多的迭代,由于单字索引在扩大召回的同时也引入了部分杂质,因此需要对杂质的打压,主要有以下几个思路:从不同title(标题)来源的结果进行过滤,使得召回结果中POI的来源一致,例如都是通过名称命中,或都是通过地址命中。对单字命中连续性较差的单字结果进行打压。控制重复单字的命中次数,如“柔酒店”不允许召回“柔柔酒店”。
[0068] 步骤205,输出所选择的第一候选地图点的信息。
[0069] 在本实施例中,可将步骤204确定出的第一候选地图点的信息输出到浏览地图的终端。第一候选地图点的信息可包括名称、地址、热度、类型等。
[0070] 在本实施例的一些可选的实现方式中,该方法还包括:获取当前位置、当前地图显示范围与目标城市名称。根据当前位置、当前地图显示范围与目标城市名称确定包括当前位置的至少一个矩形区域。根据至少一个矩形区域对应的空间索引从单字倒排索引中获取与当前位置相邻的地图点作为第一候选地图点。其中,当前位置为进行地图查询的终端的位置。当前地图显示范围为终端上显示的地图的范围。
[0071] 继续参见图6,图6是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图6的应用场景中,用户首先发起包括检索词“北大医院”的检索请求。之后,服务器可以后台获取上述检索请求的内容,服务器上的检索结果排序服务提取出检索词“北大医院”。然后检索结果排序服务将检索词“北大医院”发送给检索词分析服务进行单字粒度切词,得到单字集合{“北”,“大”,“医”,“院”}。检索词分析服务将单字集合返回给检索结果排序服务。由检索结果排序服务去索引建立服务所建立的倒排索引中查找各个单字对应的倒排索引,如图4b所示,每个字的倒排索引中包括多个POI。然后取各倒排索引的交集,得到多个候选的POI。检索结果排序服务将多个候选的POI按照与检索词的相关性排序得到最终的POI“北京大学医学院”。然后将“北京大学医学院”返回给用户的终端。
[0072] 本申请的上述实施例提供的方法通过将检索词切成单字后再通过倒排索引查找POI,可减少由于切词错误或检索词与数据差异较大导致无法召回的情况。提高了中低频检索词用户需求的召回率。
[0073] 进一步参考图7,其示出了用于输出信息的方法的又一个实施例的流程700。该用于输出信息的方法的流程700,包括以下步骤:
[0074] 步骤701,接收包括检索词的检索请求。
[0075] 在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行地图浏览的终端接收检索请求,其中,上述检索请求包括了检索词。用户希望通过检索词查找到POI。检索词可以是POI的名称、地址、类型等。检索词可进行各种粒度的切词,可切成单字,也可切成长度大于1的词。
[0076] 步骤702,对检索词进行单字切词,得到单字集合。
[0077] 步骤703,根据单字集合生成单字归并树。
[0078] 步骤704,基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点。
[0079] 步骤705,确定检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点。
[0080] 步骤702-705与步骤201-204基本相同,因此不再赘述。
[0081] 步骤706,对所选择的第一候选地图点的相似度进行降权,得到更新后的所选择的第一候选地图点的相似度。
[0082] 在本实施例中,目的是将单字召回结果与普通召回结果进行合并,从中选择出相关性较高的POI。由于使用了不同归并树进行召回,计算的权重两部分不可比,这里对单字召回的结果权重进行了降权,拼接到了普通召回结果的队尾,在候选POI排序的时候获取POI的召回来源,再对单字召回的结果进行特殊处理。
[0083] 步骤702’,对检索词进行分析,得到关键词集合。
[0084] 在本实施例中,步骤702’可在步骤705完成之前的任意时间执行。可与步骤702-705并行执行,也可串行执行。对检索词进行分析包括各种粒度的切词。根据切词结果确定同义词,省略的词,错误的词等,这些词组成了关键词集合。。例如,“诊所”的同义词是“医院”。“北大”中被省略掉“京”、“学”。错误的词可能是错误字等。
[0085] 可根据不同粒度的切词结果生成多个粒度不同的队列进行查询,如query=”青浦二手车”,生成大粒度切词队列”青浦|二手车”,与小粒度切词队列”青浦|二手|车”等。
[0086] 步骤703’,根据关键词集合生成归并树。
[0087] 在本实施例中,根据切词结果与term同义,片段同义等结果生成归并树。如图5a所示,其中“车”和“汽车”同义。对于多个粒度不同的队列,生成多个归并树。
[0088] 步骤704’,基于归并树上的各关键词对应的至少一个倒排索引中的地图点,确定至少一个第二候选地图点。
[0089] 在本实施例中,从归并树对应的倒排拉链上进行处理,如同义term会拉链求并,非同义term拉链求交,得到的POI即为第二候选地图点。
[0090] 在本实施例的一些可选的实现方式中,该方法还通过如下步骤建立倒排索引:获取待检索的地图点集合。对地图点集合中的地图点,对该地图点的不同召回域分别进行切词,进行命中域分析和确定切词结果的权重,以及生成该地图点的正排索引和空间索引,其中,空间索引用于表征经纬度。根据地图点集合中各地图点的正排索引和空间索引按地图点的热度分片建立倒排索引。3.对正排,倒排进行数据热度分片,保证高热结果的召回。
[0091] 步骤705’,确定检索词与各第二候选地图点的相似度,以及按照相似度由大到小的顺序选择第二预定数目个第二候选地图点。
[0092] 在本实施例中,最后通过相关性粗排计算获取到召回结果集合,即所选择的第二预定数目个第二候选地图点。
[0093] 可选地,将多个队列查询的召回结果进行排序和融合。
[0094] 步骤707,根据更新后的所选择的第一候选地图点的相似度和所选择的第二候选地图点的相似度,从所选择的第一候选地图点和所选择的第二候选地图点中按照相似度由高到低的选择第三预定数目个第三候选地图点。
[0095] 在本实施例中,将单字索引的召回结果,即所选择的第一候选地图点和多字索引的召回结果,即所选择的第二候选地图点,结合在一起进行相似度排序。从两种召回结果中选择出第三预定数目个第三候选地图点。
[0096] 步骤708,输出所选择的第三候选地图点。
[0097] 步骤708与步骤205基本相同,因此不再赘述。
[0098] 从图7中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程700体现了对单字索引召回和普通召回结果融合的步骤,能够在现有召回机制无法满足用户需求的时候,使用单字召回的结果进行补充,减少了主需求数据存在但由于切词错误或检索词与数据差异较大导致归并树无法召回的事件比例,提高了中低频检索词用户需求的召回率。
[0099] 进一步参考图8,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0100] 如图8所示,本实施例的用于输出信息的装置800包括:第一分析单元801、第一归并单元802、第一确定单元803、第一选择单元804、第一输出单元805。其中,第一分析单元801被配置成响应于接收到包括检索词的检索请求,对检索词进行单字切词,得到单字集合。第一归并单元802被配置成根据单字集合生成单字归并树,其中,单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系。第一确定单元803被配置成基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点。第一选择单元804被配置成确定检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点。
第一输出单元805被配置成输出所选择的第一候选地图点的信息。
[0101] 在本实施例中,用于输出信息的装置800的第一分析单元801、第一归并单元802、第一确定单元803、第一选择单元804、第一输出单元8054的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204、步骤205。
[0102] 在本实施例的一些可选的实现方式中,装置800还包括第一建立单元(未示出),被配置成:获取待检索的地图点集合;对地图点集合中的地图点,对该地图点的不同召回域分别进行单字粒度的切词和确定单字权重和紧密度,以及生成该地图点的单字正排索引和空间索引,其中,空间索引用于表征经纬度;根据地图点集合中各地图点的单字正排索引和空间索引建立单字倒排索引。
[0103] 在本实施例的一些可选的实现方式中,第一选择单元804进一步被配置成:获取当前位置、当前地图显示范围与目标城市名称;根据当前位置、当前地图显示范围与目标城市名称确定包括当前位置的至少一个矩形区域;根据至少一个矩形区域对应的空间索引从单字倒排索引中获取与当前位置相邻的地图点作为第一候选地图点。
[0104] 在本实施例的一些可选的实现方式中,第一确定单元803进一步被配置成:确定单字集合中各单字的单字权重和紧密度;将单字归并树上的各单字对应的至少一个单字倒排索引中的地图点的交集确定为备选地图点集合;对于备选地图点集合中的备选地图点,若该地图点的单字正排索引中的单字权重和紧密度与单字集合中各单字的单字权重和紧密度的相似度高于预定相似度阈值,则将该地图点确定为第一候选地图点。
[0105] 在本实施例的一些可选的实现方式中,装置800还包括过滤单元(未示出),被配置成:从所选择的第一候选地图点中删除满足预定条件的第一候选地图点,预定条件包括以下至少一项:第一候选地图点的名称的来源不同,第一候选地图点的单字与检索词的匹配命中不连续,第一候选地图点的单字出现重复。
[0106] 在本实施例的一些可选的实现方式中,装置800还包括:第二分析单元(未示出),被配置成对检索词进行分析,得到关键词集合;第二归并单元(未示出),被配置成根据关键词集合生成归并树,其中,归并树上的关键词与预先建立的倒排索引相对应,倒排索引用于表征关键词与地图点的对应关系;第二确定单元(未示出),被配置成基于归并树上的各关键词对应的至少一个倒排索引中的地图点,确定至少一个第二候选地图点;第二选择单元(未示出),被配置成确定检索词与各第二候选地图点的相似度,以及按照相似度由大到小的顺序选择第二预定数目个第二候选地图点。
[0107] 在本实施例的一些可选的实现方式中,装置800还包括融合单元(未示出),被配置成:对所选择的第一候选地图点的相似度进行降权,得到更新后的所选择的第一候选地图点的相似度;根据更新后的所选择的第一候选地图点的相似度和所选择的第二候选地图点的相似度,从所选择的第一候选地图点和所选择的第二候选地图点中按照相似度由高到低的选择第三预定数目个第三候选地图点;输出所选择的第三候选地图点。
[0108] 在本实施例的一些可选的实现方式中,装置800还包括第二建立单元(未示出),被配置成:获取待检索的地图点集合;对地图点集合中的地图点,对该地图点的不同召回域分别进行切词,进行命中域分析和确定切词结果的权重,以及生成该地图点的正排索引和空间索引,其中,空间索引用于表征经纬度;根据地图点集合中各地图点的正排索引和空间索引按地图点的热度分片建立倒排索引。
[0109] 下面参考图9,其示出了适于用来实现本申请实施例的电子设备(如图1所示的服务器)的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0110] 如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
[0111] 以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0112] 特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
[0113] 可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0114] 附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0115] 描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一分析单元、第一归并单元、第一确定单元、第一选择单元和第一输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一分析单元还可以被描述为“响应于接收到包括检索词的检索请求,对所述检索词进行单字切词,得到单字集合的单元”。
[0116] 作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:响应于接收到包括检索词的检索请求,对检索词进行单字切词,得到单字集合;根据单字集合生成单字归并树,其中,单字归并树上的单字与预先建立的单字倒排索引相对应,单字倒排索引用于表征单字与地图点的对应关系;基于单字归并树上的各单字对应的至少一个单字倒排索引中的地图点确定至少一个第一候选地图点;确定检索词与各第一候选地图点的相似度,以及按照相似度由大到小的顺序选择第一预定数目个第一候选地图点;输出所选择的第一候选地图点的信息。
[0117] 以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。