基于偏好的智能检索方法及系统转让专利

申请号 : CN201310549069.5

文献号 : CN103593425B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李鹏周育忠王庆红龚婷陈传夫王平冉从敬吴江

申请人 : 南方电网科学研究院有限责任公司武汉大学

摘要 :

本发明涉及数据检索领域,公开了一种基于偏好的智能检索方法及系统。所述方法包括步骤:基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。本发明利用主题标引技术确定数据资源的主题分布,使用基于主题的查询扩展和相关反馈等技术构建更能代表用户需求的检索向量,向用户提供更符合其潜在需求的检索结果。

权利要求 :

1.一种基于偏好的智能检索方法,其特征在于,所述方法包括步骤:

S1,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;其中,根据所述主题分类建立主题向量空间、根据所述用户特征确定用户的预定义主题偏好向量、根据所述操作日志确定用户的历史主题偏好向量,将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型;

S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;其中,所述进行查询扩展包括:计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布,计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布,衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中;

S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;其中,所述初次检索结果中文档的排序得分为:Gsort=β1·Gquery+β2·sim(V,W)+β3·Gfactor;Gquery是LUCENE返回的一个基于一个具体用户查询得出的分值,β1、β2和β3是各分值对应的权重,Gfactor是加权后的文档质量评分,sim(V,W)是用户的主题偏好向量W和每篇文档的主题分布向量V的向量相似度,有n为向量W、V的维度,vk、wk分别表示向量V、W的第k

个元素;随后按照所述排序得分对所述初次检索结果中的各结果进行排序;

S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果;其中,利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合;利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。

2.一种基于偏好的智能检索系统,其特征在于,所述系统包括:

用户主题偏好识别模块,用于基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;其中,根据所述主题分类建立主题向量空间、根据所述用户特征确定用户的预定义主题偏好向量、根据所述操作日志确定用户的历史主题偏好向量,将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型;

查询扩展模块,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;其中,所述进行查询扩展包括:计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布,计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布,衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中;

检索排序模块,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;其中,所述初次检索结果中文档的排序得分为:Gsort=β1·Gquery+β2·sim(V,W)+β3·Gfactor;Gquery是LUCENE返回的一个基于一个具体用户查询得出的分值,β1、β2和β3是各分值对应的权重,Gfactor是加权后的文档质量评分,sim(V,W)是用户的主题偏好向量W和每篇文档的主题分布向量V的向量相似度,有n为向量W、V的维度,vk、wk分别表示向量V、W的第k

个元素;随后按照所述排序得分对所述初次检索结果中的各结果进行排序;

反馈检索模块,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果;其中,利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合;利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。

说明书 :

基于偏好的智能检索方法及系统

技术领域

[0001] 本发明涉及数据检索领域,尤其是涉及一种基于偏好的智能检索方法及系统。

背景技术

[0002] 随着社会信息化程度的不断提高以及IT设备的高速发展,信息的存储量呈指数上升趋势;而与此同时人们对信息的获取要求越来越高,如何利用检索技术快速找到所需的有用信息越来越困难。传统的搜索引擎基于关键词进行检索,但即便是采用多个关键词进行组合检索,面对海量的网络信息,所获得结果的数量仍然是难以计数的,要从这些结果中找到最需要的信息对用户来说也是项艰巨的工作。因此,当前数据检索最关键的问题就是如何从检索结果中找到用户最需要的信息。
[0003] 现有技术中,搜索引擎或数据检索系统会基于部分统计信息对检索结果进行排序,以争取把相关度较高的结果优先提供给用户。类似的统计信息主要有关键词出现频率、匹配度和点击率等,这些信息是对数据本身的确定内容进行统计,虽然处理量较大但内容明确较易实现。此外,还有部分较先进的系统进行了更进一步的优化,比如基于各种文本语义的统计特征将数据分类或对关键词进行扩展等,力求使靠前的检索结果与进行检索的关键词的相关度尽可能地高。但是上述方式主要基于用户单次提交的查询请求中的描述信息(关键词、时间、检索范围等要求的组合)和数据的文本信息,而由于上述两种信息可用内容有限,加上数据本身的信息无法体现用户间的差异,即便采用现有技术的方式进行优化,检索结果也难以全面地体现不同用户的需求差异,这导致现有方式的检索效率、精确度和用户满意度很难达到理想的状态。

发明内容

[0004] 针对现有技术中存在的上述缺陷,本发明所要解决的技术问题是如何针对不同用户的差异优化检索。
[0005] 为解决上述技术问题,一方面,本发明提供了一种基于偏好的智能检索方法,该方法包括步骤:
[0006] S1,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
[0007] S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
[0008] S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
[0009] S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
[0010] 优选地,所述步骤S1中,所述建立用户主题偏好模型包括步骤:
[0011] 根据所述主题分类建立主题向量空间;
[0012] 根据所述用户特征确定用户的预定义主题偏好向量;
[0013] 根据所述操作日志确定用户的历史主题偏好向量;
[0014] 将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型。
[0015] 优选地,所述步骤S2中,所述进行扩展查询包括步骤:
[0016] 计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布;
[0017] 计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布;
[0018] 衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中。
[0019] 优选地,所述步骤S3中,所述个性化检索排序包括步骤:
[0020] 通过计算所述初次检索结果中各结果与所述用户主题偏好模型的向量相似度,评判所述各结果在用户偏好的主题上的得分;
[0021] 计算所述各结果的质量评分;
[0022] 根据所述向量相似度、所述在用户偏好的主题上的得分及所述质量评分的加权得到所述各结果的终排序得分,按照所述终排序得分对所述初次检索结果中的各结果进行排序。
[0023] 优选地,所述步骤S4中,所述二次反馈检索包括步骤:
[0024] 利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合;
[0025] 利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;
[0026] 将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
[0027] 另一方面,本发明还同时提供了一种基于偏好的智能检索系统,该系统包括:
[0028] 用户主题偏好识别模块,用于基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
[0029] 查询扩展模块,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
[0030] 检索排序模块,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
[0031] 反馈检索模块,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
[0032] 优选地,所述用户主题偏好识别模块中进一步包括:
[0033] 主题向量空间模块,用于根据所述主题分类建立主题向量空间;
[0034] 预定义偏好模块,用于根据所述用户特征确定用户的预定义主题偏好向量;
[0035] 历史偏好模块,用于根据所述操作日志确定用户的历史主题偏好向量;
[0036] 偏好模型获取模块,用于将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型。
[0037] 优选地,所述查询扩展模块进一步包括:
[0038] 检索词分布模块,用于计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布;
[0039] 主题词分布模块,用于计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布;
[0040] 扩展模块,用于衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中。
[0041] 优选地,所述检索排序模块进一步包括:
[0042] 主题得分模块,用于通过计算所述初次检索结果中各结果与所述用户主题偏好模型的向量相似度,评判所述各结果在用户偏好的主题上的得分;
[0043] 质量评分模块,用于计算所述各结果的质量评分;
[0044] 排序模块,用于根据所述向量相似度、所述在用户偏好的主题上的得分及所述质量评分的加权得到所述各结果的终排序得分,按照所述终排序得分对所述初次检索结果中的各结果进行排序。
[0045] 优选地,所述反馈检索模块进一步包括:
[0046] 相关反馈模块,用于利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合;
[0047] 伪相关反馈模块,用于利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;
[0048] 反馈模块,用于将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
[0049] 本发明提供了一种基于偏好的智能检索方法及系统,利用主题标引技术确定数据资源的主题分布,使用基于主题的查询扩展和相关反馈等技术构建更能代表用户需求的检索向量,再通过结合了用户主题偏好的智能排序模型,向用户提供更符合其潜在需求的检索结果。本发明所实现的算法和系统能够识别用户潜在的、基于专业主题词表进行描述的情报需求,因而具有更好的检索效果。

附图说明

[0050] 图1为本发明的一个实施例中基于偏好的智能检索方法的流程示意图;
[0051] 图2为本发明的一个优选实施例中基于主题的查询扩展算法流程示意图;
[0052] 图3为本发明的一个优选实施例中结合主题的相关反馈算法流程示意图;
[0053] 图4位本发明的一个典型应用场景中基于偏好的智能检索系统的模块结构示意图。

具体实施方式

[0054] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例为实施本发明的较佳实施方式,所述描述是以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围应当以权利要求所界定者为准,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055] 现有技术主要针对被检索数据进行优化,最理想的情况也只是对被检索数据进行了精确分类和扩展,然后再将其与用户单次提交的查询请求中的描述信息进行匹配。这种方式虽然很大程度上提高了检索的精确度,但其并未体现出用户间的差异,只要查询请求相同,检索结果就会相同,这与实际情况中不同的用户有着不同的需求的状况存在着明显的区别。
[0056] 在本发明的实施例中,通过观察分析用户在较长一段时间内的检索行为来获取用户的潜在需求,将用户需求与数据分类两者结合,把显性相关反馈与隐性相关反馈技术融入到检索优化中,准确体现出了用户的需求差异并有效提高了数据检索的整体效率和精确度。
[0057] 参见图1,在本发明的一个实施例中,基于偏好的智能检索方法包括步骤:
[0058] S1,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
[0059] S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
[0060] S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
[0061] S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
[0062] 以下对上述实施例的各种优选方式做进一步的扩展说明,在下文的优选实施例中,为了进一步突出本发明的技术规律和实际效果,将被检索的数据范围限定在技术情报信息中,但本领域相关技术人员应该理解,技术情报信息只是全部数据中的一个具体分类,本发明的技术方案显然可以直接应用于各种数字信息中,下述优选实施例不应视作对本发明的限制。
[0063] 用户对数据资源的获取存在潜在的主题需求,以科技文献为例,不同领域的用户对同一关键词的需求有着显著差异,使这种隐性的主题需求表现得更加明显。在本发明的优选实施例中,步骤S1里运用主题词范畴表对用户需求进行映射,发现用户在文献资源分类上的偏好,从而为智能检索提供良好的基础。主题偏好主要从以下两个方面进行考虑:
[0064] 一、用户主题偏好的预定义
[0065] 不同的用户有着不同的特征,其中有不少可体现出用户的潜在需求,因此,可以根据用户特征(比如用户的地域、职能信息或岗位文献范畴等)预先定义一些用户的主题偏好。具体来说,比如电力行业中高压试验岗位的用户,对电力变压器、断路器、互感器等相关的文献资源有特殊需求,因而可从这些岗位文献中提取出主题词,结合岗位职能描述信息,将其映射到规范的主题范畴上,作为用户的需求偏好预定义。更优选地,步骤S1中用向量空间模型来表示用户的主题偏好:
[0066] 首先,分析主题分布情况,建立N维主题向量空间[(k1,w1),(k2,w2),…(kN,wN)];其中,ki为第i个主题,wi为用户在ki上的偏好程度,i∈1,2,…,N。
[0067] 然后,从用户特征(如岗位职能描述信息、岗位文献等)中提取主题词,统计这些主题词的频率 来计算其概率分布;其中, 为主题词subi的词频,freqsub_total为主题词集合的总词频。
[0068] 最后,将 经过一定的系统调整后用来表征用户在各个主题词subi上的偏好程度,从而得到预定义的用户主题偏好向量Wpre=(w′1,w′2,…,w′n);其中, i=1,2,…,n,表示用户在主题kn上预定义的偏好程度。
[0069] 二、从用户操作日志中发现用户主题偏好
[0070] 用户的检索行为是用户获取信息的整体行为中的一部分;相关的有用户从系统中点击、下载、收藏文献等操作,这些操作都会被记录在系统日志中。因而可以从用户大量的操作日志信息中挖掘出用户的主题偏好,为智能检索提供基础支撑。在上述方法的步骤S1中,还建立完备的操作日志收集机制,利用操作日志确定用户主题偏好。
[0071] 具体地,收集并分析日志,获取用户操作文献的集合Dop={dop1,dop2,…,dopN}。对统计用户对di的点击、下载、收藏等操作频次,并赋予不同操作权重,加权后计算得到用户对di的访问频率。根据文献的主题标引,可以得到di在主题词上的分布,再结合di的访问频率,即可得到用户在各个主题词上的访问频率,将其作为用户的主题偏好程度,对应到主题向量空间中,从而得到用户的主题偏好向量Wop=(w1,w2,…,wn)。
[0072] 最后,通过将以上两种主题偏好进行加权,从而确定用户的主题偏好W=α1·Wpre+α2·Wop;其中α1、α2是两种向量各自的权重,根据偏重程度进行预设或调整。
需要注意的是,根据日志分析得到用户偏好是随着时间变化的,需要根据日志的更新情况进行相应的更新。
[0073] 查询请求是用户查询需求的直接反应,其中同样蕴含着潜在的主题需求,这种主题需求在一定程度上反应了用户对所需文献的抽象和概括,更能反映用户的需求。同时主题词可以作为文献资源的标记,反应了文献的内容核心及分类信息,能更好的表达文献的本质。综合这两方面进行考虑,本发明的步骤S2中选择主题词进行查询扩展,从很大程度上提升了检索的功效,其算法流程如图2所示。
[0074] 如果用户的检索输入直接就是规范的主题词,可以通过主题范畴表中的上位词、下位词等关联关系,找到相关的主题词进行查询扩展。但很多时候,用户输入的查询请求与潜在主题需求之间没有显性的关联,这时可以通过历史检索文献以及主题标引文献为其建立关联关系。如图2所示,基本思想如下:
[0075] 记用户检索请求Q对应的文档集合为:Dqrery={dq1,dq2,…,dqN}。通过对Dquery中各个文档进行分词,得到一组Term集合,记为Tquery={tq1,tq2,…,tqN}。对统计概率 从而得到Dquery对应的集合Tquery的概率分布,记为 其中, 为tqi的词频,freqtotal为Tquery中Term的
词频总数。
[0076] 对于主题向量空间的主题词,通过文献的主题标引也可以得到一组文档集合,记为Dsubject={ds1,ds2,…,dsN}。类似地,通过文档集合获取词条集合,再通过相应词频的计算,可以得到Dsubject对应的词条集合的概率分布,记为
[0077] 在获取了这两方面的概率分布后,可以通过计算概率分布的相似性,找到与检索词最相关的主题词,进而用来做主题词的查询扩展。
[0078] 在计算检索词和主题词对应的两组文档的概率分布相似性时,优选考虑使用Kullback-Leibler散度(Kullback-Leibler Divergence的简称,也叫做相对熵Relative Entropy)进行计算。
[0079] 这样,通过DKL(Fsubject||Fquery)即可计算出Fsubject相对于Fquery的概率分布差异,取差异较对于小的主题词构建查询扩展
[0080]
[0081] 为获取更好的查询扩展效果,进一步研究了查询请求和主题词在系统收录的文档向量上的分布情况,据此对上述计算进一步优化,选择Jensen-Shannon散度来平滑计算,通过计算DJS(Fsubject||Fquery)来衡量Fsubject和Fquery的相互差异
[0082] 其中,
[0083] 当选择概率分布差异较小的主题词后,以一定权重将其加入检索向量中,构建扩展的查询向量,以提高检索效率。
[0084] 上述方法的步骤S3中,在文档相关度排序的基础上,考虑用户的主题偏好进行加权排序是个性化检索排序的核心。从用户主题偏好模型中,获取用户的主题偏好向量W。对于检索得到的文档集合,可以根据文献主题标引情况,获取每篇文档的主题分布向量V=(v1,v2,…,vn)。这样,可以通过计算W和V的向量相似度sim(V,W),来评判检索到的文档在用户偏好的主题上的得分。sim(V,W)计算值高的文档,其偏好得分也较高。其中,[0085]
[0086] 在考虑了用户主题偏好加权之余,文献的质量也是一项重要的加权指标。文献质量的评价的因素有很多,本文主要从论文被引用的因子、被下载的频次、发表期刊级别、是否为自建资源这4个方面的因素,对文献进行加分评价。其中自建资源主要是考虑本单位通过向资源商购买和自行采集两种方式收集文献资源。而根据专业自行采集的资源经过了人工审核,故具有较高的质量。各因子所占权重见表1。
[0087]因子 f引用 f下载 f期刊 f自建
权重 0.5 0.1 0.2 0.2
[0088] 表1文献质量评判因子权重表
[0089] 通过文献元数据中相关字段的归一化计算,得出文献各因子的得分。加权后得到文献的质量评分Gfactor=0.45·f引用+0.15·f下载+0.2·f期刊+0.2·f自建。
[0090] 通过对以上两方面得分以及文档与检索相似度得分的加权,计算检索结果文档的终排序得分Gsort=β1·Gquery+β2·sim(V,W)+β3·Gfactor;其中,Gquery是LUCENE返回的一个基于一个具体用户查询(query)得出的分值,β1、β2和β3是各分值对应的权重,计算过程考虑不同权重的设置,具体根据系统使用情况和文献分布情况进行确定。
[0091] 相关反馈作为检索请求的补充,可以有效提高检索的准确性。上述方法的步骤S4中,将相关反馈和伪相关反馈相结合,并通过主题范畴分类和用户的操作日志分析,有效界定相关文档和不相关文档的范围,从而使反馈达到更优的效果,相关反馈的具体算法流程如图3所示:
[0092] 用户在一次检索之后,对检索结果进行相关性标注。根据用户的标注情况,建立相关文档向量集合Dr和不相关文档向量集合Dnr。在获取相关文档和不相关文档之后,可以考虑在Rocchio算法思想的指导下,建立相关反馈检索向量
[0093]
[0094] 其中,是原始的查询向量,Dr和Dnr是已知的相关和不相关文档集合,γ1、γ2、γ3是相应权重。
[0095] 但是在本系统的使用场景下,直接使用上述公式,相关反馈效果无法达到最优。考虑从以下两个方面对模型进行改进:相关文档集合Dr及不相关文档集合Dnr的界定与过滤、反馈的文档向量与主题偏好向量相结合建立反馈后查询向量。
[0096] 考虑到用户在一次检索之后,对文档的反馈标注操作有限,需要从用户检索历史和主题兴趣分布的角度出发,帮助界定哪些是相关文档,哪些是不相关文档。用户直接标注和判定的文档的相关性即为显式相关反馈,这部分是相关反馈的基础,在相关反馈计算中赋予较高的权重。而检索结果Top-N中,用户未标注的文档,可以通过计算文档主题向量与用户偏好主题向量的相似性,取相似性高的加入相关文档中,相似性低的加入不相关文档中,这两部分的文档在用户相关反馈计算时,可以考虑用偏好主题相似性评分作为其权重lj。这样,在缓解用户操作负担的同时,有效获取反馈检索所需的文档集。
[0097] 在确定了Dr和Dnr的文档范围后,记 为相关文档向量集合,记为不相关文档的向量集合。对 取高频词条及其词
频,建立文档向量,记为 其中,freqti为文档中的词频。
[0098] 在确定了反馈文档向量后,进一步对其杈重进行调整。用户直接标记的文档权重赋1,其它文档根据文档主题向量与用户主题偏好向量相似性评分来计算。从而将反馈文档以相应的权重加入到反馈检索向量中。同时也将用户的主题偏好向量以权重δ加入到反馈向量中。根据使用统计分析,δ取0.2~0.3之间效果较优。另外,由于不相关文档主要是系统自动从用户未标注的文档中挑选的,不确定性高。为加强反馈检索的稳定性,通过相似性计算取最不相关的文档代表Dnr,加入到计算中。
[0099] 即不相关文档集合中只取 进行计算。
[0100] 综合以上考虑,得到改进的反馈查询公式进行反馈检索的查询扩展。
[0101] 其中,是原始的查询向量,Dr和Dnr是已知的相关和不相关文档集合。lj是各个相关文档的权重。W为用户的主题偏好向量,δ为W的权重。通过该公式计算得到查询扩展进行二次反馈检索,提高检索准确率和召回率。
[0102] 本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与上述方法相对应地,本发明还同时公开了一种基于偏好的智能检索系统,包括:
[0103] 用户主题偏好识别模块,用于基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;
[0104] 查询扩展模块,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;
[0105] 检索排序模块,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;
[0106] 反馈检索模块,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。
[0107] 作为本发明一个典型应用场景的示例,采用上述技术方案建立了南方电网情报中心系统的子系统,智能检索系统充分利用全方位收集的用户日志信息,及主题词范畴表,深度挖掘用户的需求偏好,并以此为支撑,实现用户个性化检索的需求,提高检索的准确性和满意度。系统采用Lucene4.3作为底层检索技术,提供统一检索入口。设计用户主题偏好识别模块、相关主题智能提示与查询扩展模块、基于主题的相关反馈模块、融合主题的个性化检索排序模块,从而构建个性化智能检索系统。参见图4,具体从以下几点进行系统模块设计:
[0108] (1)用户主题偏好识别模块:系统分析用户操作日志,按主题分类统计对应的点击、下载、收藏等操作次数,并按操作类型的权值计算各个主题的访问热度得分,作为用户对主题的偏好程度。该计算涉及大数据量的日志分析,单机运行难以支撑。系统使用Hadoop平台,通过MapReduce分布式计算,实现日志的分析。
[0109] (2)查询扩展模块:当用户提交检索请求,系统使用ICTCLAS分词器对检索语句进行分词。通过Jensen-Shannon散度衡量方法计算检索分词与主题词之间的相关度,取相关度高的主题词进行查询扩展,构建新的检索向量。也可以通过提示给用户的方式,帮助用户更加明确地表示自己的检索需求。
[0110] (3)检索排序模块:系统提供多种排序接口。在综合排序中,以文档与检索词的相关度作为排序的基础。考虑用户主题的偏好,将其表示为主题偏好向量。计算文档在主题上的空间向量与用户主题偏好向量的距离,作为文档在用户偏好上的加权得分,累加到总体排序得分中。另外,计算文档的质量评分。对文档的引用频次、下载频次、期刊影响因子等分别进行归一化处理,乘以对应的权重后,得到文档的质量评分,再以一定权重累加到总体排序得分中。
[0111] (4)反馈检索模块:基于主题的相关反馈模块对于第一次排序结果,由用户标记指出哪些是相关的文档。从用户翻看过的结果页面中,收集未标记的文档,作为初始不相关文档。再根据用户日志分析的概率结果,从中过滤掉意向不明的文档。对挑选出来的相关文档和不相关文档,通过上述算法进行反馈查询扩展,进行二次反馈检索,进一步聚焦到用户最想要的检索结果。
[0112] 本发明提供了一种基于偏好的智能检索方法及系统,利用主题标引技术确定数据资源的主题分布,使用基于主题的查询扩展和相关反馈等技术构建更能代表用户需求的检索向量,再通过结合了用户主题偏好的智能排序模型,向用户提供更符合其潜在需求的检索结果。本发明所实现的算法和系统能够识别用户潜在的、基于专业主题词表进行描述的情报需求,因而具有更好的检索效果。
[0113] 上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。