一种搜索方法及装置、电子设备转让专利

申请号 : CN201710042949.1

文献号 : CN106933947B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨荣权覃婷立

申请人 : 北京三快在线科技有限公司

摘要 :

本申请提供了一种搜索方法,属于搜索技术领域,用于解决现有技术中存在的无法准确识别与查询词匹配的搜索意图的问题。所述方法包括:将获取的查询词与预设地标数据库中的地标物料进行匹配,然后基于地标物料之间的距离对匹配成功的所述地标物料进行聚类,根据聚类结果确定匹配成功的所述地标物料的相关性,最后若所述相关性大于预设阈值,则确定用户的搜索意图为地标搜索,并根据聚类结果执行物料召回。本申请实施例公开的方法,通过结合文本匹配与聚类方法,确定用户的搜索意图,可以准确地识别用户搜索意图,并进一步提高了召回搜索结果的准确性。

权利要求 :

1.一种搜索方法,其特征在于,包括:

将获取的查询词与预设地标数据库中的地标物料进行匹配;

基于地标物料之间的距离对匹配成功的所述地标物料进行聚类;

根据聚类结果确定匹配成功的所述地标物料之间的相关性;

若所述相关性大于预设阈值,则确定用户的搜索意图为地标搜索;

若所述用户的搜索意图为地标搜索,根据聚类结果执行物料召回;

其中,所述根据聚类结果执行物料召回的步骤,包括:确定聚类得到的最大簇的地理位置中心点;

将距离所述最大簇的地理位置中心点最近的地标物料召回。

2.根据权利要求1所述的方法,其特征在于,所述根据聚类结果确定匹配成功的所述地标物料之间的相关性的步骤,包括:确定聚类得到的最大簇中地标物料的数量与匹配成功的地标物料的数量的比值;

将所述比值作为匹配成功的所述地标物料之间的相关性。

3.根据权利要求1所述的方法,其特征在于,所述将获取的查询词与预设地标数据库中的地标物料进行匹配的步骤,包括:基于文本相关性,将获取的查询词与预设地标数据库中每个地标物料进行模糊匹配。

4.一种搜索装置,其特征在于,包括:

文本匹配模块,用于将获取的查询词与预设地标数据库中的地标物料进行匹配;

聚类模块,用于基于地标物料之间的距离对所述文本匹配模块匹配成功的所述地标物料进行聚类;

相关性确定模块,用于根据所述聚类模块获得的聚类结果确定匹配成功的所述地标物料之间的相关性;

意图识别模块,用于若所述相关性确定模块确定的相关性大于预设阈值,则确定用户的搜索意图为地标搜索;

物料召回模块,用于若所述用户的搜索意图为地标搜索,则根据聚类结果执行物料召回;

其中,所述物料召回模块包括:

中心点确定单元,用于确定聚类得到的最大簇的地理位置中心点;

地标物料召回单元,用于将距离所述最大簇的地理位置中心点最近的地标物料召回。

5.根据权利要求4所述的装置,其特征在于,所述相关性确定模块包括:比例确定单元,用于确定聚类得到的最大簇中地标物料的数量与匹配成功的地标物料的数量的比值;

相关性确定单元,用于将所述比例确定单元确定的比值作为匹配成功的所述地标物料的相关性。

6.根据权利要求4所述的装置,其特征在于,所述文本匹配模块具体用于:基于文本相关性,将获取的查询词与预设地标数据库中每个地标物料进行模糊匹配。

7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任意一项权利要求所述的搜索方法。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至3任意一项权利要求所述的搜索方法的步骤。

说明书 :

一种搜索方法及装置、电子设备

技术领域

[0001] 本申请涉及搜索技术领域,特别是涉及一种搜索方法及装置,电子设备。

背景技术

[0002] 在搜索技术领域,获取到查询词之后,搜索引擎会首先根据查询词确定用户的搜索意图,然后,根据用户的搜索意图选择相应的搜素策略执行搜索操作。现有技术中,通常是根据查询词与各搜索意图对应的数据库中的搜索物料的文本相关性确定用户的搜索意图。但是现有技术中根据文本相关性确定用户的搜索意图时,为了保证识别的准确性,有些查询可能无法被识别出来,即无法识别用户的搜索意图,导致无法召回搜索结果的问题。
[0003] 可见,现有技术中的搜索方法至少存在无法识别与查询词匹配的搜索意图,并进一步导致执行的搜索策略无法匹配到相关搜索物料的缺陷。

发明内容

[0004] 本申请提供一种搜索方法,解决现有技术中存在的无法识别与查询词匹配的搜索意图而导致的搜索结果不准确的问题。
[0005] 为了解决上述问题,第一方面,本申请实施例提供了一种搜索方法,包括:
[0006] 将获取的查询词与预设地标数据库中的地标物料进行匹配;
[0007] 基于地标物料之间的距离对匹配成功的所述地标物料进行聚类;
[0008] 根据聚类结果确定匹配成功的所述地标物料的相关性;
[0009] 若所述相关性大于预设阈值,则确定用户的搜索意图为地标搜索;
[0010] 若所述用户的搜索意图为地标搜索,根据聚类结果执行物料召回。
[0011] 第二方面,本申请实施例提供了一种搜索装置,包括:
[0012] 文本匹配模块,用于将获取的查询词与预设地标数据库中的地标物料进行匹配;
[0013] 聚类模块,用于基于地标物料之间的距离对所述文本匹配模块匹配成功的所述地标物料进行聚类;
[0014] 相关性确定模块,用于根据所述聚类模块获得的聚类结果确定匹配成功的所述地标物料的相关性;
[0015] 意图识别模块,用于若所述相关性确定模块确定的相关性大于预设阈值,则确定用户的搜索意图为地标搜索;
[0016] 物料召回模块,用于若所述用户的搜索意图为地标搜索,则根据聚类结果执行物料召回。
[0017] 第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例公开的所述的搜索方法。
[0018] 第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的所述搜索方法的步骤。
[0019] 本申请实施例公开的搜索方法,通过将获取的查询词与预设地标数据库中的地标物料进行匹配,然后基于地标物料之间的距离对匹配成功的所述地标物料进行聚类,根据聚类结果确定匹配成功的所述地标物料的相关性,若所述相关性大于预设阈值,则确定用户的搜索意图为地标搜索,并进一步根据聚类结果执行物料召回,解决了现有技术中存在的无法准确识别与查询词匹配的搜索意图的问题从而导致的搜索结果不准确的问题。通过结合文本匹配与聚类方法,确定用户的搜索意图,可以准确地识别用户搜索意图,并在采用其他既有搜索策略无法召回搜索结果的情况下,根据地标物料之间的距离确定召回聚类中心点的地标物料,提高了召回搜索结果的准确性。

附图说明

[0020] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021] 图1是本申请实施例一的搜索方法的流程图;
[0022] 图2是本申请实施例三的搜索装置的结构图之一;
[0023] 图3是本申请实施例三的搜索装置的结构图之二。

具体实施方式

[0024] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025] 实施例一
[0026] 本申请公开的一种搜索方法,如图1所示,该方法包括:步骤100至步骤140。
[0027] 步骤100,将获取的查询词与预设地标数据库中的地标物料进行匹配。
[0028] 具体实施时,预设地标数据库中包括多条地标物料,每条地标物料至少包括:地标名称、地标的地理位置。其中,地标的地理位置通常由地标的经纬度坐标表示。同时,地标名称还对应有相应的简称或全称、别名、汉字名称、数字名称等。同时,为了提高文本匹配的鲁棒性,地标名称还对应有相应的简称或全称、别名、汉字名称、数字名称等。例如,地标数据库中有地标名称为:“北京市第十八中学(北京市第十八中学)(18中)”、“北京大学peking university”等形式的地标。
[0029] 查询词可以为用户通过搜索平台的输入界面手动输入的查询词,也可以是用户点击搜索平台页面上的链接后由页面程序提取的关键词,或者是用户通过搜索平台的搜索频道选择输入的商家名称、地标名称等。本申请对获取查询词的方式不做限定。
[0030] 在获取到查询词之后,搜索引擎会根据获取的查询词在预设地标数据库中执行匹配操作,将获取的所述查询词分别与所述预设地标数据库中每条地标物料的名称、以及与所述名称对应的简称或全称、别名、汉字名称、数字名称等进行模糊匹配,选择文本相关性满足预设条件的地标物料名称对应的地标物料作为匹配的地标物料。通常,经过模糊匹配之后,将获取到与所述查询词匹配成功的多条地标物料。
[0031] 步骤110,基于地标物料之间的距离对匹配成功的所述地标物料进行聚类。
[0032] 根据地标物料的地理位置,对获取到的与所述查询词匹配成功的多条地标物料进行聚类,将距离相近的地标物料聚集到一个簇中,可以得到多个簇。每个簇中通常包括多个地标物料。具体实施时,可以采用:K-MEANS算法、K-MEDOIDS算法、CLARANS算法等现有技术中的聚类算法对匹配成功的所有地标物料按照地理位置进行聚类。
[0033] 基于地标物料之间的距离对匹配成功的所述地标物料进行聚类的具体方法如下:以与所述查询词匹配成功的所有地标物料作为聚类样本,以预设的地标物料之间的距离阈值Dth作为约束,迭代计算并判断任意两个聚类样本之间的距离,直至所有聚类样本聚集到至少一个簇。
[0034] 输入:以与所述查询词匹配成功的所有地标物料;
[0035] 特征:两个地标物料之间的距离;
[0036] 具体算法:计算聚类样本(即地标物料)中两两样本之间的距离,取其中的最小距离Dmin,如果所述最小距离Dmin在预设的距离阈值Dth范围内,合并所述最小距离Dmin对应的两个样本,如样本A和B,即根据最小距离Dmin对应的两个样本A和B重新生成一个聚类样本C,并删除最小距离Dmin对应的两个样本A和B。在根据最小距离Dmin对应的两个样本A和B重新生成一个聚类样本C(即地标物料)时,取两个聚类样本的地理位置的中间点的经纬度坐标作为重新生成一个聚类样本C的地理位置。
[0037] 重复上述计算距离和样本合并的过程,直到所有的聚类样本都聚集到一个簇,或者最近的两个聚类样本之间的距离大于预设的距离阈值Dth。
[0038] 经过前述聚类过程,将得到所述聚类样本对应的多个簇,每个簇中包括多个地理位置,所述地理位置为地标物料的地理位置,或者根据地标物料的地理位置重新生成的地理位置。根据聚类得到的每个簇中的地理位置,可以确定每个簇对应的聚类样本中的地标物料,也可以确定每个簇对应的预设地标数据库中的地标物料。具体实施时,可以遍历聚类得到的每个簇中的地理位置,取与该地理位置最近的聚类样本作为每个簇对应的预设地标数据库中的地标物料。
[0039] 步骤120,根据聚类结果确定匹配成功的所述地标物料的相关性。
[0040] 聚类结果的聚集程度反映了匹配成功的所述地标物料之间的相关性。具体实施时,通过聚类得到的最大簇中包含的地标物料的数量与匹配成功的地标物料的数量的比例表示聚类结果的聚集程度,作为匹配成功的地标物料的相关性。聚类得到的最大簇中包含的地标物料的数量越多,说明匹配成功的地标物料的聚集程度越高,相关性越强。
[0041] 具体实施时,聚类得到的每个簇中包含的每一个地标物料对应一个地理位置。根据聚类结果确定匹配成功的所述地标物料的相关性,包括:确定聚类得到的最大簇中地标物料的数量与匹配成功的地标物料的数量的比值;将所述比值作为匹配成功的所述地标物料的相关性。
[0042] 步骤130,若所述相关性大于预设阈值,则确定用户的搜索意图为地标搜索。
[0043] 具体实施时,所述预设阈值可以为小于1的数值,如70%。如果确定的相关性大于预设阈值,则确定用户的搜索意图为地标搜索,否则,认为用户的搜索意图不是地标搜索。即,如果聚类结果中,最大簇中包含的地理位置对应的地标物料的数量与匹配成功的地标物料的数量的比例大于70%,则确定用户的搜索意图为地标搜索,否则,认为用户的搜索意图不是地标搜索。
[0044] 预设阈值结合搜索的准确率和召回物料的数量综合确定,通常可以设置为60%至90%之间的数值。如果预设阈值设置为较低的数值,即放宽了聚类结果的判断条件,则搜索的准确率会相应降低;如果预设阈值设置为较高的数值,即严格聚类结果的判断条件,则搜索的准确率会相应提高,则可能导致匹配的搜索结果较少的情况。
[0045] 具体实施时,如果聚类得到的最大簇,即包含最多地理位置的簇所包含的地理位置(即地标物料)的个数占用于聚类的总地理位置(即聚类样本总数)的比例大于70%,认为地标的聚集性很高,确定用户的搜索意图为地标搜索。然后,可以取与聚类得到的最大簇的中心点距离最近的地标物料,作为用户查询的地标。
[0046] 步骤140,若所述用户的搜索意图为地标搜索,根据聚类结果执行物料召回。
[0047] 具体实施时,所述根据聚类结果执行物料召回,包括:确定聚类得到的最大簇的地理位置中心点;将距离所述最大簇的地理位置中心点最近的地标物料召回。
[0048] 经过前述聚类过程,将得到所述聚类样本对应的多个簇,每个簇中包括多个物料,每个物料对应一个地理位置,所述地理位置为地标物料的原始地理位置,或者根据地标物料的地理位置重新生成的地理位置。根据聚类得到的每个簇中的地理位置,可以确定每个簇对应的聚类样本中的地标物料,也可以确定每个簇对应的预设地标数据库中的地标物料。具体实施时,首先确定聚类得到的最大簇中的地理位置中心点;然后,遍历聚类样本,确定与所述地理位置中心点距离最近的聚类样本,即地标物料,将该地标物料作为用户查询的地标物料召回。确定聚类得到的最大簇中的地理位置中心点的过程,是确定多个地理位置的中心点的过程,具体实施方式可以采用现有技术,此处不再赘述。确定与所述地理位置中心点距离最近的聚类样本的过程,即是计算地理位置中心点与多个地理位置之间的分别距离,并确定最小距离的过程,具体实施方式参见现有技术,此处不再赘述。
[0049] 若所述用户的搜索意图非地标搜索,则采用默认的搜索策略执行物料召回。
[0050] 本申请实施例公开的搜索方法,通过将获取的查询词与预设地标数据库中的地标物料进行匹配,然后基于地标物料之间的距离对匹配成功的所述地标物料进行聚类,根据聚类结果确定匹配成功的所述地标物料的相关性,若所述相关性大于预设阈值,则确定用户的搜索意图为地标搜索,若所述用户的搜索意图为地标搜索,则根据聚类结果执行物料召回,解决了现有技术中存在的无法准确识别与查询词匹配的搜索意图,无法召回搜索结果的问题。通过结合文本匹配与聚类方法,确定用户的搜索意图,可以准确地识别用户搜索意图,并在采用其他既有搜索策略无法召回搜索结果的情况下,根据地标物料之间的距离确定召回聚类中心点的地标物料,提高了召回搜索结果的准确性。
[0051] 实施例二
[0052] 基于实施例一,本申请公开的一种搜索方法,所述将获取的查询词与预设地标数据库中的地标物料进行匹配,包括:基于文本相关性,将获取的查询词与预设地标数据库中每个地标物料进行模糊匹配。
[0053] 具体实施时,在将获取的查询词与所述预设地标数据库中每条地标物料的名称基于文本相关性进行匹配时,预先设置第一文本相关性判断阈值和第二文本相关性判断阈值。其中,第一文本相关性判断阈值为判断查询词与地标名称是否匹配的文本相关性判断阈值;第二文本相关性判断阈值为现有技术中采用商家策略、地标策略等既有策略中判断查询词与数据库中的搜索物料是否匹配的文本相关性判断阈值。第一文本相关性判断阈值低于第二文本相关性判断阈值。以查询词为“人大西门”为例,假设既有搜索物料中有“人大”命名的搜索物料,但是根据既有的商家策略、地标策略等判断“人大西门”和“人大”两个词的文本相关性时,由于第二文本相关性判断阈值设置较严格,如将第二文本相关性判断阈值设置为文本相关性得分高于90分,因此,导致查询词“人大西门”无法与搜索物料“人大”匹配成功。
[0054] 本实施例中,设置了较宽松的第一文本相关性判断阈值,如将第一文本相关性判断阈值设置为文本相关性得分高于80分。当用查询词“人大西门”与预设地标数据库中的“人大”、“人民大学西门烧烤店”等地标物料进行匹配时,由于设置了较宽松的第一文本相关性判断阈值,因此,查询词“人大西门”与预设地标数据库中的“人大”、“人民大学西门烧烤店”等地标物料均可以匹配成功。
[0055] 具体实施时,除放宽文本相关性判断阈值之外,还可以通过对查询词进行预处理,如提取核心词的方式,将查询词与地标物料进行模糊匹配。以查询词为“人大西门”为例,可以丢弃不重要的词“西门”,提取核心词“人大”与预设地标数据库中的地标物料进行匹配,那么地标物料“人大宿舍一号楼”也可以匹配成功。
[0056] 基于文本相关性,将获取的查询词与预设地标数据库中每个地标物料进行模糊匹配能够保证召回的地标物料满足字面相关,保证基本的用户体验。
[0057] 实施例三
[0058] 本实施例公开的一种搜索装置,如图2所示,该装置包括:
[0059] 文本匹配模块200,用于将获取的查询词与预设地标数据库中的地标物料进行匹配;
[0060] 聚类模块210,用于基于地标物料之间的距离对所述文本匹配模块200匹配成功的所述地标物料进行聚类;
[0061] 相关性确定模块220,用于根据所述聚类模块210获得的聚类结果确定匹配成功的所述地标物料的相关性;
[0062] 意图识别模块230,用于若所述相关性确定模块220获得的相关性大于预设阈值,则确定用户的搜索意图为地标搜索;
[0063] 物料召回模块240,用于若所述用户的搜索意图为地标搜索,则根据聚类结果执行物料召回。
[0064] 可选的,如图3所示,所述相关性确定模块220包括:
[0065] 比例确定单元2201,用于确定聚类得到的最大簇中地标物料的数量与匹配成功的地标物料的数量的比值;
[0066] 相关性确定单元2202,用于将所述比例确定单元2201确定的比值作为匹配成功的所述地标物料的相关性。
[0067] 可选的,所述文本匹配模块200具体用于:基于文本相关性,将获取的查询词与预设地标数据库中每个地标物料进行模糊匹配。
[0068] 可选的,如图3所示,所述物料召回模块240包括:
[0069] 中心点确定单元2401,用于确定聚类得到的最大簇的地理位置中心点;
[0070] 地标物料召回单元2402,用于将距离所述最大簇的地理位置中心点最近的地标物料召回。本实施例中公开的搜索装置的各模块的具体实施方式,参见实施例一和实施例二的相关部分,此处不再赘述。
[0071] 本实施例中公开的搜索装置,通过将获取的查询词与预设地标数据库中的地标物料进行匹配,然后基于地标物料之间的距离对匹配成功的所述地标物料进行聚类,并根据获得的聚类结果确定匹配成功的所述地标物料的相关性,最后若所述相关性大于预设阈值,则确定用户的搜索意图为地标搜索,并根据聚类结果执行物料召回,解决了现有技术中存在的无法准确识别与查询词匹配的搜索意图,无法召回搜索结果的问题。通过结合文本匹配与聚类方法,确定用户的搜索意图,可以准确地识别用户搜索意图,并在采用其他既有搜索策略无法召回搜索结果的情况下,根据地标物料之间的距离确定召回聚类中心点的地标物料,提高了召回搜索结果的准确性。
[0072] 本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本申请实施例一和实施例二所述的搜索方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
[0073] 本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一和实施例二所述的搜索方法的步骤。
[0074] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0075] 以上对本申请提供的一种搜索方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
[0076] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。