基于人工智能的搜索推荐方法和装置转让专利

申请号 : CN201610958304.8

文献号 : CN106547887B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 闭玮陈泽裕王凡吴泽衡石磊何径舟

申请人 : 北京百度网讯科技有限公司

摘要 :

本申请提出一种基于人工智能的搜索推荐方法和装置,该方法包括:接收查询,并获取与所述查询相关的实体;计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。该方法能够提高推荐实体的覆盖性和精准性。

权利要求 :

1.一种基于人工智能的搜索推荐方法,其特征在于,包括:接收查询,并获取与所述查询相关的实体;

计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;

识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;

对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;

其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息;

其中,所述计算所述实体与所述查询之间的相关性,包括:提取所述实体与所述查询之间的原有相关性信息;

根据已构建的语义相似度模型,计算所述实体与所述查询之间的语义相似度信息;

根据所述原有相关性信息和所述语义相似度信息,确定所述推荐实体与所述查询是否相关。

2.根据权利要求1所述的方法,其特征在于,所述语义相似度模型为DNN模型,所述方法还包括:构建所述语义相似度模型,所述构建所述语义相似度模型包括:收集训练数据,所述训练数据包括:第一组训练数据和第二组训练数据,所述第一组训练数据包括:查询或实体及对应的被点击内容,所述第二组训练数据包括:查询或实体及对应的未被点击内容;

将所述第一组训练数据和所述第二组训练数据分别转换为向量表示;

根据向量表示分别计算第一组训练数据之间的第一语义相似度,以及第二组训练数据之间的第二语义相似度;

根据第一语义相似度和第二语义相似度计算hinge损失函数,以通过最小化hinge损失函数确定语义相似度模型的参数。

3.根据权利要求1所述的方法,其特征在于,所述对选取出的实体进行排序,包括:提取所述选取出的实体的原有CTR值或统计信息;

根据已构建的语义CTR计算模型,计算所述选取出的实体的语义CTR值;

根据所述原有CTR值或统计信息及所述语义CTR值,计算所述选取出的实体的最终CTR值,并根据所述最终CTR值进行排序。

4.根据权利要求3所述的方法,其特征在于,所述语义CTR计算模型为DNN模型,所述方法还包括:构建所述语义CTR计算模型,所述构建所述语义CTR计算模型包括:收集训练数据,所述训练数据包括:查询和与查询对应的推荐实体的语义信息,所述推荐实体的语义信息包括:实体标识、实体自身描述、推荐理由和历史展现位置;

将所述查询和所述推荐实体的信息转换为向量表示,所述推荐实体的信息包括:实体标识、实体自身描述和推荐理由;

根据所述向量表示计算CTR值;

将所述历史展现位置转换为向量表示,并与所述CTR值串联;

根据串联结果计算logistic损失函数,以通过最小化logistic损失函数确定语义CTR计算模型的参数。

5.一种基于人工智能的搜索推荐装置,其特征在于,包括:实体挖掘模块,用于接收查询,并获取与所述查询相关的实体;

相关性衡量模块,用于计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;

意图识别模块,用于识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;

实体排序模块,用于对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;

其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息;

其中,所述相关性衡量模块用于计算所述实体与所述查询之间的相关性,包括:提取所述实体与所述查询之间的原有相关性信息;

根据已构建的语义相似度模型,计算所述实体与所述查询之间的语义相似度信息;

根据所述原有相关性信息和所述语义相似度信息,确定所述推荐实体与所述查询是否相关。

6.根据权利要求5所述的装置,其特征在于,所述语义相似度模型为DNN模型,所述装置还包括:用于构建所述语义相似度模型的语义相似度模型构建模块,所述语义相似度模型构建模块具体用于:收集训练数据,所述训练数据包括:第一组训练数据和第二组训练数据,所述第一组训练数据包括:查询或实体及对应的被点击内容,所述第二组训练数据包括:查询或实体及对应的未被点击内容;

将所述第一组训练数据和所述第二组训练数据分别转换为向量表示;

根据向量表示分别计算第一组训练数据之间的第一语义相似度,以及第二组训练数据之间的第二语义相似度;

根据第一语义相似度和第二语义相似度计算hinge损失函数,以通过最小化hinge损失函数确定语义相似度模型的参数。

7.根据权利要求5所述的装置,其特征在于,所述实体排序模块用于对选取出的实体进行排序,包括:提取所述选取出的实体的原有CTR值或统计信息;

根据已构建的语义CTR计算模型,计算所述选取出的实体的语义CTR值;

根据所述原有CTR值或统计信息及所述语义CTR值,计算所述选取出的实体的最终CTR值,并根据所述最终CTR值进行排序。

8.根据权利要求7所述的装置,其特征在于,所述语义CTR计算模型为DNN模型,所述装置还包括:用于构建所述语义CTR计算模型的语义CTR计算模型构建模块,所述语义CTR计算模型构建模块具体用于:收集训练数据,所述训练数据包括:查询和与查询对应的推荐实体的语义信息,所述推荐实体的语义信息包括:实体标识、实体自身描述、推荐理由和历史展现位置;

将所述查询和所述推荐实体的信息转换为向量表示,所述推荐实体的信息包括:实体标识、实体自身描述和推荐理由;

根据所述向量表示计算CTR值;

将所述历史展现位置转换为向量表示,并与所述CTR值串联;

根据串联结果计算logistic损失函数,以通过最小化logistic损失函数确定语义CTR计算模型的参数。

说明书 :

基于人工智能的搜索推荐方法和装置

技术领域

[0001] 本申请涉及自然语言处理技术领域,尤其涉及一种基于人工智能的搜索推荐方法和装置。

背景技术

[0002] 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
[0003] 搜索推荐的目标是为用户推荐与其搜索意图相关联的信息或建议,启发用户的搜索灵感,激发潜在需求,帮助用户获得更多相关信息或服务。比如用户搜索“深圳当代艺术馆”,搜索引擎不仅返回当前查询(query)的相关信息,并且从海量数据中找寻、归纳用户的潜在需求,给出若干相关推荐如深圳类似的艺术馆“大芬美术馆”。通常来讲搜索推荐内容是实体(entity),实体是客观世界中存在的且可互相区分的事物,实体可以是人也可以是物体实物,也可以是抽象概念。
[0004] 搜索推荐系统的流程一般包括:实体挖掘、相关性衡量、意图识别和实体排序。相关技术中,相关性衡量和实体排序时是通过实体(entity)与查询(query)间的共现信息、主题信息等信息进行,推荐实体的覆盖性和精准性都有待提高。

发明内容

[0005] 本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006] 为此,本申请的一个目的在于提出一种基于人工智能的搜索推荐方法,该方法能够提高推荐实体的覆盖性和精准性。
[0007] 本申请的另一个目的在于提出一种基于人工智能的搜索推荐装置。
[0008] 为达到上述目的,本申请第一方面实施例提出的基于人工智能的搜索推荐方法,包括:接收查询,并获取与所述查询相关的实体;计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。
[0009] 本申请第一方面实施例提出的基于人工智能的搜索推荐方法,通过在相关性计算和实体排序中的至少一项中引入语义信息,可以提高搜索推荐系统的覆盖率及精准性。
[0010] 为达到上述目的,本申请第二方面实施例提出的基于人工智能的搜索推荐装置,包括:实体挖掘模块,用于接收查询,并获取与所述查询相关的实体;相关性衡量模块,用于计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;意图识别模块,用于识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;实体排序模块,用于对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。
[0011] 本申请第二方面实施例提出的基于人工智能的搜索推荐装置,通过在相关性计算和实体排序中的至少一项中引入语义信息,可以提高搜索推荐系统的覆盖率及精准性。
[0012] 本申请实施例还提出了一种基于人工智能的用于搜索推荐的装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:接收查询,并获取与所述查询相关的实体;计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;
其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。
[0013] 本申请实施例还提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器被执行时,使得终端能够执行一种基于人工智能的搜索推荐方法,所述方法包括:接收查询,并获取与所述查询相关的实体;计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。
[0014] 本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的搜索推荐方法,所述方法包括:接收查询,并获取与所述查询相关的实体;计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。
[0015] 本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

[0016] 本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0017] 图1是本申请一个实施例提出的基于人工智能的搜索推荐方法的流程示意图;
[0018] 图2是本申请实施例中查询与实体之间的相关性计算的方法的流程示意图;
[0019] 图3是本申请实施例中采用DNN构建语义相似度模型的示意图;
[0020] 图4是本申请实施例中实体排序的方法的流程示意图;
[0021] 图5是本申请实施例中采用DNN构建语义CTR计算模型的示意图;
[0022] 图6是本申请一个实施例提出的基于人工智能的搜索推荐装置的结构示意图;
[0023] 图7是本申请另一个实施例提出的基于人工智能的搜索推荐装置的结构示意图。

具体实施方式

[0024] 下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0025] 图1是本申请一个实施例提出的基于人工智能的搜索推荐方法的流程示意图。
[0026] 如图1所示,本实施例包括以下步骤:
[0027] S11:接收查询,并获取与所述查询相关的实体。
[0028] 其中,用户可以将查询(query)输入到搜索引擎的搜索框中,并发起搜索。
[0029] 搜索引擎接收到用户输入的查询后,可以在实体库中查询,获取到相关的实体。
[0030] S12:计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选。
[0031] 相关技术中,实体与查询的相关性是通过实体与查询是否在较短的时间内被共同搜索的统计信息(简称共现信息)以及是否属于同一搜索主题类型下来衡量。
[0032] 而在本实施例中,可以将语义信息引入到相关性计算中。
[0033] S13:识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体。
[0034] 查询的用户意图以及选取符合用户意图的实体可以采用已有方式进行。
[0035] S14:对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示,其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。
[0036] 相关技术中,实体排序以实体点阅率(Click through rate)为目标进行建模,模型考虑的因素包括实体的搜索热度,实体与query的共现信息及主题类型分布等。
[0037] 而在本实施例中,可以将语义信息引入到实体排序中。
[0038] 在对实体进行排序后,可以按照从前到后的顺序选择预设个数的实体作为推荐实体,并展示给用户。
[0039] 通过对相关技术的分析,无论是查询(query)还是实体(entity)的语义信息,均并为被直接考虑在搜索推荐系统的相关性衡量模块及实体排序模块中。其中,query的语义信息可以包括搜索内容本身以及搜索系统展现的内容;实体的语义信息可以包括实体本身的描述、推荐理由以及实体在搜索系统中的展现内容等。在相关性衡量及实体排序模块中,query与entity的语义信息应该作为重要的因素以帮助判断相关性程度以及点阅率大小。进一步的,搜索推荐系统里每日都反馈有用户的海量点击数据,传统的机器学习对于海量数据的拟合能力非常有限,因此提出使用基于深度神经网络(Deep Neural Network,DNN)的模型对获得的海量数据进行拟合。
[0040] 本实施例中,通过在相关性计算和实体排序中的至少一项中引入语义信息,可以提高搜索推荐系统的覆盖率及精准性。
[0041] 进一步的,采用DNN模型以支持海量的搜索数据及实体推荐后选集构成的语义训练数据。以下我们将分别介绍DNN在相关性衡量模块及实体排序模块的使用方案。
[0042] 图2是本申请实施例中查询与实体之间的相关性计算的方法的流程示意图。
[0043] 如图2所示,本实施例的方法包括:
[0044] S21:提取所述实体与所述查询之间的原有相关性信息。
[0045] 该步骤可以采用已有方案实现,例如,根据原有相关性信息挖掘模块提取实体与查询之间的原有相关性信息,原有相关性信息例如包括:查询与实体之间的共现信息、主题信息等。
[0046] S22:根据已构建的语义相似度模型,计算所述实体与所述查询之间的语义相似度信息。
[0047] 语义相似度模型可以具体是DNN模型,以实现对海量数据的处理。
[0048] 在语义相似度计算时,可以采用语义相似度DNN模型分别确定出实体对应的词向量(entity embedding,v)和查询对应的词向量(query embedding,q),并计算这两个词向量之间的余弦距离,将余弦距离作为实体与查询之间的语义相似度信息。
[0049] 在构建模型时,可以先收集得到海量的训练数据,再根据收集的海量的训练数据进行训练,确定出模型每层的参数,从而构建得到相应的模型。
[0050] 本实施例中,在构建语义相似度DNN模型时的主要原理包括:对于语义相近的查询(query)和实体(entity),用户在搜索系统中搜索该查询和实体时,点击内容(clicked title)应该是相似的;因此,通过鼓励语义相近的查询和实体的词向量(embedding)与相同或类似的点击内容的词向量都具有较高的相似度,则语义相近的查询和实体的词向量也具有较高的相似度。
[0051] 如图3所示,给出了采用DNN构建语义相似度模型(简称为语义相似度DNN模型)的示意图。
[0052] 具体的,如图3所示,语义相似度模型包括:输入层、嵌入层(embedding layer)、全连接层(full connected layer,FC层)、相似度计算层(以余弦距离计算为例),另外,在训练模型时还包括损失函数层(以hinge损失函数为例)。
[0053] 训练模型的目标是使得损失函数最小,得到损失函数最小的条件下的模型的各层参数,在确定出各层参数后就完成了模型的构建。
[0054] 输入层包括两组训练数据,一组训练数据包括:查询或实体(用查询/实体表示)及对应的被点击内容,另一组训练数据包括:查询或实体(用查询/实体表示)及对应的未被点击内容。
[0055] 上述的被点击内容或未被点击内容是指:在搜索查询或实体时,搜索引擎展示的内容中被点击内容或未被点击内容。被点击内容和未被点击内容可以具体是指展示的内容中被点击的标题(clicked title)或未被点击的标题(non-clicked title)。
[0056] 嵌入层(embedding layer)分别把查询或实体(query/entity),被点击内容(如clicked title)以及未被点击内容(如non-clicked title)映射为对应的词向量(embedding)。
[0057] FC层用于把各自的embedding经过一个线性变化及一个非线性变化得到一个新的向量表示。
[0058] 相似度计算层用于分别对query/entity及其clicked title或non-clicked title的向量表示做余弦操作得到两个语义相似度。
[0059] 损失函数层用于计算两个语义相似度的hinger函数。其中query/entity与clicked title的语义相似度应该比其与non-clicked title的语义相似度大。
[0060] 整个语义相似度DNN模型使用海量的query/entity及其clicked/non-clicked title的数据进行训练,以最小化损失函数为目标,最终收敛得到query/entity的embedding以及DNN其他层的参数。可以理解的是,DNN模型的训练流程可以采用已有技术实现,在此不再详述。
[0061] 在训练得到语义相似度DNN模型后,在需要计算查询与实体之间的相似度信息时,分别将待计算的查询和实体作为语义相似度DNN模型的输入,得到语义相似度DNN模型的FC层的输出,FC层的输出包括查询对应的词向量和实体对应的词向量,再经过语义相似度DNN模型的相似度计算层,以余弦距离计算为例,可以得到这两个词向量之间的余弦距离,将计算得到的余弦距离作为实体与查询之间的语义相似度信息。
[0062] S23:根据所述原有相关性信息和所述语义相似度信息,确定所述推荐实体与所述查询是否相关。
[0063] 具体的,可以预先构建相关性支持向量机(Support Vector Machine,SVM)模型,将原有相关性信息和语义相似度信息作为相关性SVM模型的输入,得到相关或不相关的输出。在机器学习领域,SVM是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。
[0064] 具体在构建相关性SVM模型时,训练数据不仅包括原有相关性信息,还包括语义相似度信息,除了训练数据增加了语义相似度信息之外,其余训练过程可以参见已有的根据原有相关性信息训练构建相关性SVM模型的流程。
[0065] 本实施例中,相关性计算时综合考虑了原有相关性模块的相关性信息以及新加入的语义相似度信息,因此对于某个query,相关性模块判断为相关的entity的覆盖面更全,精准度更高。另外,采用DNN模型可以充分利用DNN模型具有的突出的海量数据的拟合能力。
[0066] 图4是本申请实施例中实体排序的方法的流程示意图。
[0067] 如图4所示,本实施例的方法包括:
[0068] S41:提取所述选取出的实体的原有点击率(Click through rate,CTR)值或统计信息。
[0069] 该步骤可以采用已有方案实现,例如,根据原有实体排序信息挖掘模块提取的共现信息、主题信息等计算得到原有CTR值或统计信息。
[0070] S42:根据已构建的语义CTR计算模型,计算所述选取出的实体的语义CTR值。
[0071] 语义CTR计算模型可以具体是DNN模型,以实现对海量数据的处理。
[0072] 语义CTR计算模型的输入包括:当前的查询与待排序的实体的语义信息,其中,待排序的实体的语义信息包括:实体在实体库中的标识(id);实体的自身描述,如名称(name);推荐理由(recommended reason)。语义CTR计算模型的输出是待排序的实体的语义CTR值。
[0073] 如图5所示,给出了采用DNN构建语义CTR计算模型(简称为DNN CTR计算模型)的示意图。
[0074] 具体的,如图5所示,语义CTR计算模型包括:输入层、嵌入层(embedding layer)、全连接层(full connected layer,FC层)、CTR值计算层(CTR score),另外,在训练模型时还包括串联层(concatenation)和损失函数层(以logistic损失函数为例)。
[0075] 在构建模型时,可以先收集得到海量的训练数据,再根据收集的海量的训练数据进行训练,确定出模型每层的参数,从而构建得到相应的模型。
[0076] 训练模型的目标是使得损失函数最小,得到损失函数最小的条件下的模型的各层参数,在确定出各层参数后就完成了模型的构建。
[0077] 下面对各层进行说明:
[0078] (1)输入层包括:query和entity的语义信息,entity的语义信息包括entity在实体库的id,entity的自身描述(name)、推荐理由(recommended reason),以及entity在多个相关推荐实体中的历史展现位置;
[0079] (2)Embedding层:分别获得query以及entity的embedding。在此DNN模型中,先分别得到entity id、自身描述以及推荐理由的embedding,然后加权得到entity的embedding;
[0080] (3)Fully connected层:分别对query及entity的embedding做线性变化及非线性操作;
[0081] (4)CTR score操作:对FC层的向量输出进行内积操作以及非线性操作使其输出为一个0到1之间的值,即CTR值;
[0082] (5)串联层:把entity的展现位置用向量表示后与所得的CTR值串联,并且进行一系列Fully connected层的操作;
[0083] (6)logistic loss层:根据entity是否被点击衡量模型损失函数。
[0084] S43:根据所述原有CTR值或统计信息及所述语义CTR值,计算所述选取出的实体的最终CTR值,并根据所述最终CTR值进行排序。
[0085] 具体的,可以预先构建梯度提升决策树(Gradient Boost Decision Tree,GBDT)模型,将原有CTR值或统计信息及语义CTR值作为输入,输出是最终CTR值。
[0086] 具体在构建GBDT模型时,可以采用收集训练数据,对训练数据进行训练的方式生成GBDT模型,训练数据包括原有CTR值或统计信息及语义CTR值。
[0087] 在得到实体的最终CTR值,可以根据最终CTR进行排序及展示,例如,将最终CTR值越高的实体展示在用户越容易产生点击的位置。
[0088] 本实施例中,实体排序时考虑了语义信息,可以使得排序结果更准确。另外,采用DNN模型可以充分利用DNN模型具有的突出的海量数据的拟合能力。
[0089] 图6是本申请一个实施例提出的基于人工智能的搜索推荐装置的结构示意图。
[0090] 如图6所示,该装置60包括:实体挖掘模块61、相关性衡量模块62、意图识别模块63和实体排序模块64。
[0091] 实体挖掘模块61,用于接收查询,并获取与所述查询相关的实体;
[0092] 相关性衡量模块62,用于计算所述实体与所述查询之间的相关性,根据相关性对获取的实体进行筛选;
[0093] 意图识别模块63,用于识别所述查询的用户意图,在筛选后的实体中选取符合所述用户意图的实体;
[0094] 实体排序模块64,用于对选取出的实体进行排序,并在排序后的实体中选择预设个数的实体作为推荐实体进行展示;
[0095] 其中,所述相关性计算和所述实体排序中的至少一项的参考因素包括:所述查询和所述实体的语义信息。
[0096] 一些实施例中,所述相关性衡量模块62用于计算所述实体与所述查询之间的相关性,包括:
[0097] 提取所述实体与所述查询之间的原有相关性信息;
[0098] 根据已构建的语义相似度模型,计算所述实体与所述查询之间的语义相似度信息;
[0099] 根据所述原有相关性信息和所述语义相似度信息,确定所述推荐实体与所述查询是否相关。
[0100] 一些实施例中,所述语义相似度模型为DNN模型,所述装置还包括:用于构建所述语义相似度模型的语义相似度模型构建模块65,所述语义相似度模型构建模块65具体用于:
[0101] 收集训练数据,所述训练数据包括:第一组训练数据和第二组训练数据,所述第一组训练数据包括:查询或实体及对应的被点击内容,所述第二组训练数据包括:查询或实体及对应的未被点击内容;
[0102] 将所述第一组训练数据和所述第二组训练数据分别转换为向量表示;
[0103] 根据向量表示分别计算第一组训练数据之间的第一语义相似度,以及第二组训练数据之间的第二语义相似度;
[0104] 根据第一语义相似度和第二语义相似度计算hinge损失函数,以通过最小化hinge损失函数确定语义相似度模型的参数。
[0105] 一些实施例中,所述实体排序模块64用于对选取出的实体进行排序,包括:
[0106] 提取所述选取出的实体的原有CTR值或统计信息;
[0107] 根据已构建的语义CTR计算模型,计算所述选取出的实体的语义CTR值;
[0108] 根据所述原有CTR值或统计信息及所述语义CTR值,计算所述选取出的实体的最终CTR值,并根据所述最终CTR值进行排序。
[0109] 一些实施例中,所述语义CTR计算模型为DNN模型,所述装置还包括:用于构建所述语义CTR计算模型的语义CTR计算模型构建模块66,所述语义CTR计算模型构建模块66具体用于:
[0110] 收集训练数据,所述训练数据包括:查询和与查询对应的推荐实体的语义信息,所述推荐实体的语义信息包括:实体标识、实体自身描述、推荐理由和历史展现位置;
[0111] 将所述查询和所述推荐实体的信息转换为向量表示,所述推荐实体的信息包括:实体标识、实体自身描述和推荐理由;
[0112] 根据所述向量表示计算CTR值;
[0113] 将所述历史展现位置转换为向量表示,并与所述CTR值串联;
[0114] 根据串联结果计算logistic损失函数,以通过最小化logistic损失函数确定语义CTR计算模型的参数。
[0115] 可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
[0116] 本实施例中,通过在相关性计算和实体排序中的至少一项中引入语义信息,可以提高搜索推荐系统的覆盖率及精准性。
[0117] 可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0118] 需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
[0119] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
[0120] 应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0121] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0122] 此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0123] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0124] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0125] 尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。