一种query标注方法、装置及电子设备转让专利

申请号 : CN201910302816.2

文献号 : CN110110192A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴健君王铭

申请人 : 北京奇艺世纪科技有限公司

摘要 :

本发明实施例提供了一种query标注方法、装置及电子设备,包括:获取指定领域的关键词集合,并且针对关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query,以及针对检索出的关键query,将关键query的所属领域标注为指定领域,由于通过关键词检索出关键词query并标注,实现query的自动标注,提高了query标注的效率,降低了成本。

权利要求 :

1.一种query标注方法,其特征在于,包括:

获取指定领域的关键词集合;

针对所述关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query;

针对检索出的所述关键query,将所述关键query的所属领域标注为所述指定领域。

2.根据权利要求1所述的方法,其特征在于,所述获取指定领域的关键词集合,包括:获取与指定领域相关联的垂直网站;

从所述垂直网站中获取包含预设属性的词语,作为关键词;

将每个关键词作为元素组合成关键词集合。

3.根据权利要求1所述的方法,其特征在于,还包括:

将每个关键query作为元素组合成关键query集合;

针对所述关键query集合进行关联挖掘,提取出所述关键query集合中的query频繁项,所述query频繁项为在所述关键query集合中存在概率大于第一阈值的词组;

针对每个query频繁项,从所述原始数据库中检索出包含该query频繁项的目标query;

针对检索出的所述目标query,将所述目标query的所属领域标注为所述指定领域。

4.根据权利要求3所述的方法,其特征在于,所述针对所述关键query集合进行关联挖掘,提取出所述关键query集合中的query频繁项,包括:针对所述关键query集合中的每个关键query,将该关键query拆分为关键词和子query,所述拆分出的关键词为所述关键词集合中的关键词;

针对每个关键query的子query,基于隐马尔可夫HMM分词算法,对该子query进行分词处理,得到子query词组;

针对每个子query词组进行频繁模式挖掘,确定在所述关键query集合中存在概率大于第一阈值的子query词组,作为query频繁项。

5.根据权利要求4所述的方法,其特征在于,所述针对每个子query词组进行频繁模式挖掘,确定在所述关键query集合中存在概率大于第一阈值的子query词组,包括:针对每个子query词组,获取该子query词组在所述关键query集合中的出现的数量;

针对每个子query词组,计算该子query词组在所述关键query集合中的出现的数量与所述关键query集合中关键query的数量的比值,将所述比值作为该子query词组在所述关键query集合中存在概率;

将存在概率大于第一阈值的子query词组确定为query频繁项。

6.一种query标注装置,其特征在于,包括:

关键词集合获取模块,用于获取指定领域的关键词集合;

关键query检索模块,用于针对所述关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query;

领域标注模块,用于针对检索出的所述关键query,将所述关键query的所属领域标注为所述指定领域。

7.根据权利要求6所述的装置,其特征在于,所述关键词集合获取模块,具体用于获取与指定领域相关联的垂直网站,并且从所述垂直网站中获取包含预设属性的词语,作为关键词,以及将每个关键词作为元素组合成关键词集合。

8.根据权利要求6所述的装置,其特征在于,还包括:

集合确定模块,用于将每个关键query作为元素组合成关键query集合;

query频繁项提取模块,用于针对所述关键query集合进行关联挖掘,提取出所述关键query集合中的query频繁项,所述query频繁项为在所述关键query集合中存在概率大于第一阈值的词组;

目标query检索模块,用于针对每个query频繁项,从所述原始数据库中检索出包含该query频繁项的目标query;

所述领域标注模块,还用于针对检索出的所述目标query,将所述目标query的所属领域标注为所述指定领域。

9.根据权利要求8所述的装置,其特征在于,所述query频繁项提取模块,具体用于针对所述关键query集合中的每个关键query,将该关键query拆分为关键词和子query,所述拆分出的关键词为所述关键词集合中的关键词,并且针对每个关键query的子query,基于隐马尔可夫HMM分词算法,对该子query进行分词处理,得到子query词组,以及针对每个子query词组进行频繁模式挖掘,确定在所述关键query集合中存在概率大于第一阈值的子query词组,作为query频繁项。

10.根据权利要求9所述的装置,其特征在于,所述query频繁项提取模块,具体用于针对每个子query词组,获取该子query词组在所述关键query集合中的出现的数量,并且针对每个子query词组,计算该子query词组在所述关键query集合中的出现的数量与所述关键query集合中关键query的数量的比值,将所述比值作为该子query词组在所述关键query集合中存在概率,以及将存在概率大于第一阈值的子query词组确定为query频繁项。

11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。

说明书 :

一种query标注方法、装置及电子设备

技术领域

[0001] 本发明涉及数据分类技术领域,特别是涉及一种query标注方法、装置及电子设备。

背景技术

[0002] 随着互联网的普及和互联网技术的发展,在日常生活和工作中,在遇到问题,或者在想查找某件自己喜欢的物品时,人们更愿意通过互联网搜索相关问题的解决方案,或者详细物品的详细信息及购买链接,例如,当用户对游戏感兴趣时,可能会搜索“XX游戏好玩吗?”,当用户喜欢看视频的观众可能会搜素“XX电视剧好看吗”,当用户喜欢汽车的用户可能会搜素“XX汽车怎么样?”。
[0003] 技术上,用query(查询)表示用户搜索的内容,通过对用户搜索的query进行分析,可以判断出用户的个人喜好或者个人特点,从而使得服务提供商可以更好地为用户提供服务。
[0004] 服务提供商可以将用户搜索的query存储在原始query数据库中,为了确定数据库中每条query的所属领域,现有技术多采用人工标注的方式对原始数据库中存储的query进行标注,先通过人工确定每条query的领域,再将该条query的所属领域标注为确定的领域。
[0005] 发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
[0006] 通过人工进行query标注的方法,效率低,成本高。

发明内容

[0007] 本发明实施例的目的在于提供一种query标注的方法,以提高query标注效率,节约成本。具体技术方案如下:
[0008] 本发明实施例提供一种query标注方法,包括:
[0009] 获取指定领域的关键词集合;
[0010] 针对所述关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query;
[0011] 针对检索出的所述关键query,将所述关键query的所属领域标注为所述指定领域。
[0012] 进一步的,所述获取指定领域的关键词集合,包括:
[0013] 获取与指定领域相关联的垂直网站;
[0014] 从所述垂直网站中获取包含预设属性的词语,作为关键词;
[0015] 将每个关键词作为元素组合成关键词集合。
[0016] 进一步的,还包括:
[0017] 将每个关键query作为元素组合成关键query集合;
[0018] 针对所述关键query集合进行关联挖掘,提取出所述关键query集合中的query频繁项,所述query频繁项为在所述关键query集合中存在概率大于第一阈值的词组;
[0019] 针对每个query频繁项,从所述原始数据库中检索出包含该query频繁项的目标query;
[0020] 针对检索出的所述目标query,将所述目标query的所属领域标注为所述指定领域。
[0021] 进一步的,所述针对所述关键query集合进行关联挖掘,提取出所述关键query集合中的query频繁项,包括:
[0022] 针对所述关键query集合中的每个关键query,将该关键query拆分为关键词和子query,所述拆分出的关键词为所述关键词集合中的关键词;
[0023] 针对每个关键query的子query,基于隐马尔可夫HMM分词算法,对该子query进行分词处理,得到子query词组;
[0024] 针对每个子query词组进行频繁模式挖掘,确定在所述关键query集合中存在概率大于第一阈值的子query词组,作为query频繁项。
[0025] 进一步的,所述针对每个子query词组进行频繁模式挖掘,确定在所述关键query集合中存在概率大于第一阈值的子query词组,包括:
[0026] 针对每个子query词组,获取该子query词组在所述关键query集合中的出现的数量;
[0027] 针对每个子query词组,计算该子query词组在所述关键query集合中的出现的数量与所述关键query集合中关键query的数量的比值,将所述比值作为该子query词组在所述关键query集合中存在概率;
[0028] 将存在概率大于第一阈值的子query词组确定为query频繁项。
[0029] 本发明实施例还提供一种query标注装置,所述装置包括:
[0030] 关键词集合获取模块,用于获取指定领域的关键词集合;
[0031] 关键query检索模块,用于针对所述关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query;
[0032] 领域标注模块,用于针对检索出的所述关键query,将所述关键query的所属领域标注为所述指定领域。
[0033] 进一步的,所述关键词集合获取模块,具体用于获取与指定领域相关联的垂直网站,并且从所述垂直网站中获取包含预设属性的词语,作为关键词,以及将每个关键词作为元素组合成关键词集合。
[0034] 进一步的,所述装置还包括:
[0035] 集合确定模块,用于将每个关键query作为元素组合成关键query集合;
[0036] query频繁项提取模块,用于针对所述关键query集合进行关联挖掘,提取出所述关键query集合中的query频繁项,所述query频繁项为在所述关键query集合中存在概率大于第一阈值的词组;
[0037] 目标query检索模块,用于针对每个query频繁项,从所述原始数据库中检索出包含该query频繁项的目标query;
[0038] 所述领域标注模块,还用于针对检索出的所述目标query,将所述目标query的所属领域标注为所述指定领域。
[0039] 进一步的,所述query频繁项提取模块,具体用于针对所述关键query集合中的每个关键query,将该关键query拆分为关键词和子query,所述拆分出的关键词为所述关键词集合中的关键词,并且针对每个关键query的子query,基于隐马尔可夫HMM分词算法,对该子query进行分词处理,得到子query词组,以及针对每个子query词组进行频繁模式挖掘,确定在所述关键query集合中存在概率大于第一阈值的子query词组,作为query频繁项。
[0040] 进一步的,所述query频繁项提取模块,具体用于针对每个子query词组,获取该子query词组在所述关键query集合中的出现的数量,并且针对每个子query词组,计算该子query词组在所述关键query集合中的出现的数量与所述关键query集合中关键query的数量的比值,将所述比值作为该子query词组在所述关键query集合中存在概率,以及将存在概率大于第一阈值的子query词组确定为query频繁项。
[0041] 本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0042] 存储器,用于存放计算机程序;
[0043] 处理器,用于执行存储器上所存放的程序时,实现上述任一query标注方法的步骤。
[0044] 本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一query标注方法的步骤。
[0045] 本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一query标注方法。
[0046] 本发明实施例提供的一种query标注的方法、装置及电子设备,方案中,获取指定领域的关键词集合,并且针对关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query,以及针对检索出的关键query,将关键query的所属领域标注为指定领域,由于通过关键词检索出关键词query并标注,实现query的自动标注,提高了query标注的效率,降低了成本。
[0047] 当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

[0048] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0049] 图1为本发明一个实施例提供的一种query标注方法的流程图;
[0050] 图2为本发明一个实施例提供的一种基于关键query的query标注方法的流程图;
[0051] 图3为本发明一个实施例提供的一种query标注装置的结构示意图;
[0052] 图4为本发明一个实施例提供的一种基于关键query的query标注装置的结构示意图;
[0053] 图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

[0054] 为了给出提高query标注的效率,降低成本的实现方案,本发明实施例提供了一种query标注方法、装置及电子设备,以下结合说明书附图对本发明的实施例进行说明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0055] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0056] 在本发明的一个实施例中,提供一种query标注方法,如图1所示,该方法包括以下步骤:
[0057] S101:获取指定领域的关键词集合。
[0058] 本步骤中,指定领域可以是根据需求确定的,例如可以是汽车领域、游戏领域、服装领域等。对于每一个指定领域,在该指定领域内的关键词可以是该指定领域内固定的一些与该领域有关的词汇或是人们熟知的、经常使用的一些词汇,在一个实施例中,当指定领域为汽车领域时,其对应的关键词可以是某些汽车厂商或汽车的名称,还可以是不同汽车类型的名称或汽车相关部件的名称,将获取的这些名称词汇集合在一起,作为关键词集合。
[0059] 在一个实施例中,为了快速地获取指定领域的关键词集合,可以采取如下步骤获取指定领域的关键词集合:
[0060] 第一步:获取与指定领域相关联的垂直网站。对于某一指定领域来说,可以先确定与该指定领域相关联的垂直网站,例如,对于汽车领域来说,与汽车领域相关联的垂直网站可以是互联网中关于汽车介绍的网站,也可以汽车厂商的官方网站,还可以是汽车交易网站,而对于游戏领域来说,与游戏领域相关联的垂直网站可以是游戏论坛,也可以是提供游戏下载服务的网站,还可以是与游戏有关的问答网站。
[0061] 第二步:从垂直网站中获取包含预设属性的词语,作为关键词。从垂直网站中获取关键词可以先获取该垂直网站的网站内容,再从网站内容中提取包含预设属性的词语,在一个实施例中,预设属性的词语可以是属于名词的词汇,例如在一个与军事领域相关联的军事介绍的网站中,获取得到的网站内容为“坦克的性能指标”,确定属于名词的词汇为“坦克”,确定“坦克”为军事领域的关键词。
[0062] 第三步:将每个关键词作为元素组合成关键词集合。将第二步中获取的关键词作为一个集合,其中,该集合中的每个元素及为指定领域的每个关键词,例如,对于服装领域,通过第二步获取的关键词有裙子、衬衫、风衣和西服,则将上述关键词组合成的关键词集合为:关键词集合={裙子,衬衫,风衣,西服}。
[0063] S102:针对关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query。
[0064] 本步骤中,原始query数据库可以是每个服务提供商提供的记录的用户进行搜索时输入的query数据库,通过步骤S101确定关键词集合后,将关键词集合中的每一个关键词作为检索项,从原始query数据库中,检索出包含该关键词的query,本领域的技术人员可以理解的是,对于每一个关键词来说,原始数据库中可能不存在或存在一个或存在多个包含该关键词的query,对关键词集合中的每一个关键词都执行检索动作,从而得到包含关键词的query,并且将包含关键词的query作为关键query。
[0065] 在一个实施例中,指定领域为服装领域,通过步骤S101确定的关键词集合={风衣,西服},从原始query数据库中,对关键词集合中关键词“风衣”进行检索,得到包含关键词“风衣”的query为:“风衣如何搭配?”、“风衣的尺码?”和“XX风衣的面料如何?”,对关键词集合中关键词“西服”进行检索,得到包含关键词“西服”的query为:“黑色西服搭配什么领带?”、“什么面料的西服容易清洗?”、“西服如何避免褶皱?”和“浅色西服适合的领带颜色推荐?”。可以将上述检索出的包含关键词“风衣”和“西服”的query作为关键query。
[0066] S103:针对检索出的关键query,将关键query的所属领域标注为指定领域。
[0067] 本步骤中,针对检索出的关键query,可以将关键query的所属领域标注为指定领域,在一个实施例中,指定领域为服装领域,通过步骤S102确定的关键query包括:“风衣如何搭配?”、“风衣的尺码?”、“黑色西服搭配什么领带?”、“什么面料的西服容易清洗?”和“浅色西服适合的领带颜色推荐?”。从而可以将上述检索出的包含关键词“风衣”和“西服”的关键query的指定领域标注为服装领域。
[0068] 本发明实施例提供的上述一种query标注方法中,可以获取指定领域的关键词集合,并且针对关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query,以及针对检索出的关键query,将关键query的所属领域标注为指定领域,由于通过关键词检索出关键词query并标注,实现query的自动标注,提高了query标注的效率,降低了成本。
[0069] 本发明的另一个实施例中,在上述一种query标注方法实施例的步骤S102之后,还提供一种基于关键query的query标注的方法,如图2所示,包括以下步骤:
[0070] S201:将每个关键query作为元素组合成关键query集合。
[0071] 本步骤中,可以将每个关键query作为元素组合成关键query集合,在一个实施例中,本步骤中的关键query可以是步骤S102确定的关键query,例如,关键query包括:“风衣如何搭配?”、“风衣的尺码?”、“XX风衣的面料如何?”、“黑色西服搭配什么领带?”、“什么面料的西服容易清洗?”、“西服如何避免褶皱?”和“浅色西服适合的领带颜色推荐?”,则关键query集合为:关键query集合={风衣如何搭配,风衣的尺码,XX风衣的面料如何,黑色西服搭配什么领带,什么面料的西服容易清洗,西服如何避免褶皱,浅色西服适合的领带颜色推荐}。
[0072] S202:针对关键query集合进行关联挖掘,提取出关键query集合中的query频繁项,query频繁项为在关键query集合中存在概率大于第一阈值的词组。
[0073] 本步骤中,本领域中的技术人员可以理解的是,关联挖掘是一种简单、实用的分析技术,通过关联挖掘可以发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式,简单的关于关联性的例子有:“‘C语言’课程优秀的同学,在学习‘数据结构’时为优秀的可能性达88%”,“当一句话出现‘布料’这个词组时,该句话是描述和‘服装’有关的可能性为90%”。
[0074] 本步骤中,可以通过对关键query集合进行关联挖掘,提取出关键query集合中的query频繁项,其中query频繁项可以为在关键query集合中存在概率大于第一阈值的词组,本领域的技术人员可以理解的是,本步骤中的第一阈值可以是根据经验设置的数值,存在概率可以指代通过关联挖掘后,某一词组与指定领域的关联度或相关度,或者本领域的技术人员也可以理解为,针对某一个词组,在关键query集合中,任意选择一个关键query,该关键query包含该词组的概率。
[0075] 在一个实施例中,为了更准确的提取出关键query集合中的query频繁项,可以采取如下步骤对关键query集合中的query频繁项进行提取:
[0076] 第一步:针对关键query集合中的每个关键query,将该关键query拆分为关键词和子query,拆分出的关键词为关键词集合中的关键词。本第一步中,为了提高提取query频繁项的效率,增加提取query频繁项的准确性,由于关键query集合中的每个关键query都是基于关键词集合中的关键词检索得到的,为了避免提取到的query频繁项中包含已经得到的关键词,可以先对关键query集合中的关键query进行拆分,将一个关键query拆分为关键词部分和不包含关键词部分的子query,在一个实施例中,关键词为“风衣”,包含该关键词的关键query为“风衣如何搭配”,通过将关键query“风衣如何搭配”拆分为关键词部分“风衣”和不包含关键词部分“如何搭配”,就可以得到子query“如何搭配”。
[0077] 第二步:针对每个关键query的子query,基于隐马尔可夫HMM分词算法,对该子query进行分词处理,得到子query词组。隐马尔可夫HMM分词算法是一种可以实现对中文自然语言进行分词或断词的算法,通过隐马尔可夫HMM分词算法可以方便的提取出一个自然语言或语句中包含的词组,例如,对于中文语句“小明硕士毕业于中国科学院计算所”通过隐马尔可夫HMM分词算法可以得到分词结果“小明/硕士/毕业于/中国/科学院/计算/所”,基于隐马尔可夫HMM分词算法,对子query进行分词处理就可以得到子query词组,在一个实施例中,子query为“如何搭配”,那么通过隐马尔可夫HMM分词算法进行分词处理可以得到“如何”和“搭配”两个子query词组,在一个实施例中,为了更加准确的实现对query的标注,可以将提取的子query词组当中不具备实际含义的词组去除,例如上述获得的“如何”和“搭配”两个子query词组,子query词组“如何”表示提问,并不具备实际含义,故而可将其去除,那么上述子query为“如何搭配”得到的子query词组即为“搭配”。在一个实施例中,对于关键query集合={风衣如何搭配,风衣的尺码,XX风衣的面料如何,黑色西服搭配什么领带,什么面料的西服容易清洗,西服如何避免褶皱,浅色西服适合的领带颜色推荐},依次对关键query集合中的关键query进行骤得到的个子query词组可以为:{搭配、面料、黑色、搭配、领带、面料、清洗、褶皱、浅色、领带、颜色、推荐}
[0078] 第三步:针对每个子query词组进行频繁模式挖掘,确定在关键query集合中存在概率大于第一阈值的子query词组,作为query频繁项。query频繁项可以为在关键query集合中存在概率大于第一阈值的子query词组,本领域的技术人员可以理解的是,本步骤中的第一阈值可以是根据经验设置的数值,存在概率可以指代通过关联挖掘后,某一子query词组与指定领域的关联度或相关度,或者本领域的技术人员也可以理解为,针对某一个子query,在关键query集合中,任意选择一个关键query,该关键query包含该词组的概率。
[0079] 在一个实施例中,可以针对每个子query词组,获取该子query词组在关键query集合中的出现的数量,例如,对于关键query集合={风衣如何搭配,风衣的尺码,XX风衣的面料如何,黑色西服搭配什么领带,什么面料的西服容易清洗,不同面料的西服如何避免褶皱,浅色西服适合的领带颜色推荐},其子query词组={搭配、面料、黑色、搭配、领带、面料、清洗、面料、褶皱、浅色、领带、颜色、推荐},统计得到:搭配=2、面料=3、黑色=1、领带=2、清洗=1、褶皱=1、浅色=1、推荐=1。
[0080] 针对每个子query词组,计算该子query词组在关键query集合中的出现的数量与关键query集合中关键query的数量的比值,将比值作为该子query词组在关键query集合中存在概率,例如,在上述实施例中,关键query集合中关键query的数量为7,搭配=2/7,存在概率约为29%、面料=3/7,存在概率约为43%、黑色=1/7,存在概率约为14%、领带=2/7,存在概率约为29%、清洗=1/7,存在概率约为14%、褶皱=1/7,存在概率约为14%、浅色=1/7,存在概率约为14%、推荐=1/7,存在概率约为14%。在一个实施例中,第一阈值为
20%,那么可以确定上述关键query集合中,属于query频繁项的子query词组的为“搭配”、“面料”和“领带”。
[0081] S203:针对每个query频繁项,从原始数据库中检索出包含该query频繁项的目标query。
[0082] 本步骤中,可以针对每个query频繁项,从原始query数据库中,检索出包含该query频繁项的目标query,对于每一个query频繁项来说,对于每一个query频繁项都执行检索动作,从而得到包含query频繁项的query,并且将包含query频繁项的query作为目标query。
[0083] 在一个实施例中,query频繁项为“搭配”、“面料”和“领带”,通过分别在原始query数据库中检索“搭配”、“面料”和“领带”三个词组,得到的目标query为:“牛仔裤如何搭配”、“什么面料的礼服更好”“、”“领带的颜色推荐”。
[0084] S204:针对检索出的目标query,将目标query的所属领域标注为指定领域。
[0085] 本步骤中,可以针对检索出的目标query,可以将目标query的所属领域标注为指定领域,在一个实施例中,指定领域为服装领域,通过步骤S203确定的目标query包括:“牛仔裤如何搭配”、“什么面料的礼服更好”“、”“领带的颜色推荐”。从而可以将上述检索出的包含query频繁项“搭配”、“面料”和“领带”的目标query的指定领域标注为服装领域。
[0086] 本发明实施例提供的上述一种基于关键query的query标注方法中,可以在获取关键query之后,将每个关键query作为元素组合成关键query集合,并且针对关键query集合进行关联挖掘,提取出关键query集合中的query频繁项,query频繁项为在关键query集合中存在概率大于第一阈值的词组,以及针对每个query频繁项,从原始数据库中检索出包含该query频繁项的目标query,以及针对检索出的目标query,将目标query的所属领域标注为指定领域,由于进一步的通过关键query确定了目标query,从而更加准确、全面的实现query的自动标注,进一步的提高了query标注的效率,降低了成本。
[0087] 基于同一发明构思,根据本发明实施例提供的query标注方法,本发明实施例还提供了一种query标注装置,如图3所示,该装置包括:
[0088] 关键词集合获取模块301,用于获取指定领域的关键词集合;
[0089] 关键query检索模块302,用于针对关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query;
[0090] 领域标注模块303,用于针对检索出的关键query,将关键query的所属领域标注为指定领域。
[0091] 进一步的,关键词集合获取模块301,具体用于获取与指定领域相关联的垂直网站,并且从垂直网站中获取包含预设属性的词语,作为关键词,以及将每个关键词作为元素组合成关键词集合。
[0092] 基于同一发明构思,根据本发明实施例提供的基于关键query的query标注方法,在上述query标注装置的关键query检索模块302之后,本发明实施例还提供了一种基于关键query的query标注装置,如图4所示,该装置包括:
[0093] 集合确定模块401,用于将每个关键query作为元素组合成关键query集合;
[0094] query频繁项提取模块402,用于针对关键query集合进行关联挖掘,提取出关键query集合中的query频繁项,query频繁项为在关键query集合中存在概率大于第一阈值的词组;
[0095] 目标query检索模块403,用于针对每个query频繁项,从原始数据库中检索出包含该query频繁项的目标query;
[0096] 上述query标注装置的领域标注模块303,还用于针对检索出的目标query,将目标query的所属领域标注为指定领域。
[0097] 进一步的,query频繁项提取模块402,具体用于针对关键query集合中的每个关键query,将该关键query拆分为关键词和子query,拆分出的关键词为关键词集合中的关键词,并且针对每个关键query的子query,基于隐马尔可夫HMM分词算法,对该子query进行分词处理,得到子query词组,以及针对每个子query词组进行频繁模式挖掘,确定在关键query集合中存在概率大于第一阈值的子query词组,作为query频繁项。
[0098] 进一步的,query频繁项提取模块402,具体用于针对每个子query词组,获取该子query词组在关键query集合中的出现的数量,并且针对每个子query词组,计算该子query词组在关键query集合中的出现的数量与关键query集合中关键query的数量的比值,将比值作为该子query词组在关键query集合中存在概率,以及将存在概率大于第一阈值的子query词组确定为query频繁项。
[0099] 本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
[0100] 存储器503,用于存放计算机程序;
[0101] 处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
[0102] 获取指定领域的关键词集合;
[0103] 针对所述关键词集合中的每个关键词,从原始query数据库中检索出包含该关键词的query,作为关键query;
[0104] 针对检索出的所述关键query,将所述关键query的所属领域标注为所述指定领域。
[0105] 上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry  Standard Architecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0106] 通信接口用于上述电子设备与其他设备之间的通信。
[0107] 存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0108] 上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0109] 在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一query标注方法的步骤。
[0110] 在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一query标注方法。
[0111] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
[0112] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0113] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0114] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。