一种对排序结果进行验证的方法和系统转让专利

申请号 : CN200910177226.8

文献号 : CN101650746B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 余锦婷徐雄杨翊平

申请人 : 中国电信股份有限公司

摘要 :

本发明提出一种对排序结果进行验证的方法和系统,根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列;计算信息相关度、信息丰富度以及排序分数;按分数大小顺序排列排序分数,并将搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;将相似度与配置的阈值进行比较,记录比较结果,并根据比较结果判断排序结果是否通过验证。本发明可以对多个搜索算法的效果进行比较,并提高检验排序结果的效率。

权利要求 :

1.一种对排序结果进行验证的方法,包括以下步骤:

搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列;

将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,其中,p1......pn表示关键词在字段中的匹配次数,w1......wn表示权重系数;

根据对信息文本设定的业务条件和权重系数计算信息丰富度c,c=

F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w1......wn表示权重系 数,Fn-1*wn-1>Fn*wn,F1......Fn为业务条件;

根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′,其中,w为信息相关度优先级,w’为信息丰富度优先级;

按分数大小顺序排列排序分数,并将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;

计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;

将相似度与配置的阈值进行比较,并记录比较结果,在比较结果中包括相似度大于阈值的次数以及相似度小于阈值的次数;

当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。

2.根据权利要求1所述对排序结果进行验证的方法,其中,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度的操作,包括以下步骤:计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值;

将各计算结果进行加和运算得到相似度。

3.根据权利要求2所述对排序结果进行验证的方法,其中,计算差值的绝对值的操作,还包括对各差值的绝对值配以权重系数的步骤。

4.根据权利要求1所述对排序结果进行验证的方法,其中,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度的操作,包括以下步骤:计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;

计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对搜索结果序列;

将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。

5.根据权利要求1所述对排序结果进行验证的方法,其中,将相似度与配置的阈值进行比较,并记录比较结果的操作,包括以下步骤:判断相似度是否大于配置的阈值,如果是,将记录结果中相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相似度大于阈值的次数加1。

6.根据权利要求1所述对排序结果进行验证的方法,其中,将搜索引擎搜索结果中的位置序号对应标注到各排序后分数的操作,还包括以下步骤:当计算得到的排序分数相同时,将位置序号在搜索结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后分数。

7.一种对排序结果进行验证的系统,包括:

搜索引擎,根据要搜索的关键词获取搜索结果,对搜索结果标注位置序号,并得到用位置序号组成的搜索结果序列;

信息相关度计算模块,将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,其中,p1......pn表示关键词在字段中的匹配次数,w1......wn表示权重系数;

信息丰富度计算模块,根据对信息文本设定的业务条件和权重系数计算信息丰富度c,c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w1......wn表示权重系数,Fn-1*wn-1>Fn*wn,F1......Fn为业务条件;

排序分数计算模块,根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′,其中,w为信息相关度优先级,w’为信息丰富度优先级;按分数大小顺序排列排序分数,将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,并得到用位置序号组成的排序结果序列;

相似度计算模块,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;

配置模块,配置相似度阈值;

比较模块,将相似度与配置的阈值进行比较,并记录比较结果,当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。

8.根据权利要求7所述对排序结果进行验证的系统,其中,相似度计算模块计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值,并将各计算结果进行加和运算得到相似度。

9.根据权利要求8所述对排序结果进行验证的系统,其中,相似度计算模块还对各差值的绝对值配以权重系数。

10.根据权利要求7所述对排序结果进行验证的系统,其中,相似度计算模块计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。

11.根据权利要求7所述对排序结果进行验证的系统,其中:

比较模块判断相似度是否大于配置的阈值,如果是,将相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者比较模块判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相似度大于阈值的次数加1。

12.根据权利要求7所述对排序结果进行验证的系统,其中,排序分数计算模块在排序分数相同时,将位置序号在搜索结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后分数。

说明书 :

一种对排序结果进行验证的方法和系统

技术领域

[0001] 本发明属于电信业务中的信息搜索应用技术领域,尤其涉及一种对排序结果进行验证的方法和系统。

背景技术

[0002] 在信息大爆炸的时代,用户需要更准确定位所需分类信息,由此衍生出垂直搜索技术以满足客户日益增长变化的需求。为实现此目的,搜索引擎需要不断根据客户需求完善其自身的排序规则,使之做到准确、合理、高效。
[0003] 大多数搜索产品在面临新增排序需求或调整排序结果时,并不能较完美的满足用户需求,无法较好的按照客户业务需求进行排序,搜索结果不尽如人意。急需在排序算法调整后对搜索结果的准确性做完备的验证,但目前业内尚无较好的方法对搜索结果的排序进行衡量,主要存在如下问题:
[0004] 1、大多情况下,搜索结果的排序效果需要依靠人工的方式进行验证,再对比业务需求修改排序参数来优化排序效果,效率低。
[0005] 2、对排序效果的判断存在个人主观性,无法完全客观反映验证实际情况。
[0006] 3、对排序效果的衡量没有可量化的标准,无法对各类排序算法或算法不同参数组合的排序结果进行自动对比。

发明内容

[0007] 本发明提出一种对排序结果进行验证的方法和系统,可以对多个搜索算法的效果进行比较,并提高检验排序结果的效率。
[0008] 根据本发明的一个方面,提出一种对排序结果进行验证的方法,包括以下步骤:搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列;将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,其中,p表示关键词在字段中的匹配次数,w表示权重系数;根据对信息文本设定的业务条件和权重系数计算信息丰富度c,c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w表示权重系数,Fn-1*wn-1>Fn*wn;根据信息相关度和信息丰富度计算排序分数score=r*+c*w′;按分数大小顺序排列排序分数,并将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;将相似度与配置的阈值进行比较,并记录比较结果,在比较结果中包括相似度大于阈值的次数以及相似度小于阈值的次数;当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。
[0009] 进一步,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度的操作,包括以下步骤:计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值;将各计算结果进行加和运算得到相似度。
[0010] 进一步,计算差值的绝对值的操作,还包括对各差值的绝对值配以权重系数的步骤。
[0011] 进一步,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度的操作,包括以下步骤:计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。
[0012] 进一步,将相似度与配置的阈值进行比较,并记录比较结果的操作,包括以下步骤:判断相似度是否大于配置的阈值,如果是,将记录结果中相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相似度大于阈值的次数加1。
[0013] 进一步,将搜索引擎搜索结果中的位置序号对应标注到各排序后分数的操作,还包括以下步骤:当计算得到的排序分数相同时,将位置序号在搜索结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后分数。
[0014] 根据本发明的另一个方面,还提出一种对排序结果进行验证的系统,包括:搜索引擎,根据要搜索的关键词获取搜索结果,对搜索结果标注位置序号,并得到用位置序号组成的搜索结果序列;信息相关度计算模块,将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,其中,p表示关键词在字段中的匹配次数,w表示权重系数;信息丰富度计算模块,根据各搜索结果对信息文本设定的业务条件和权重系数计算信息丰富度c,c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w表示权重系数,Fn-1*wn-1>Fn*wn;排序分数计算模块,根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′;按分数大小顺序排列排序分数,将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,并得到用位置序号组成的排序结果序列;相似度计算模块,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;配置模块,配置相似度阈值;比较模块,将相似度与配置的阈值进行比较,并记录比较结果,当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。
[0015] 进一步,相似度计算模块计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值,并将各计算结果进行加和运算得到相似度。
[0016] 进一步,相似度计算模块还对各差值的绝对值配以权重系数。
[0017] 进一步,相似度计算模块计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。
[0018] 进一步,比较模块判断相似度是否大于配置的阈值,如果是,将相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者比较模块判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相似度大于阈值的次数加1。
[0019] 进一步,排序分数计算模块在排序分数相同时,将位置序号在搜索结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后分数。
[0020] 与现有技术相比,本发明具有以下优点和效果:
[0021] 提出排序相似度作为比较排序算法效果的量化指标,通过简化搜索方法及相似度计算得出合理的衡量标准,可以对多个搜索算法的效果进行比较。
[0022] 提供了科学的方法,构造一个自动检验搜索排序结果的系统,通过自动量化而非人工的方式对搜索排序结果进行验证,大大减少了检验排序效果的人为主观性,提高检验排序结果的效率。

附图说明

[0023] 图1为本发明一种对排序结果进行验证的方法流程图。
[0024] 图2为本发明一种对排序结果进行验证的系统结构图。

具体实施方式

[0025] 垂直搜索引擎在面临新增调整需求时,需要通过调整排序算法或参数来实现相关功能,但目前对于频繁调整后的排序结果无较好方式进行自动化测试及量化衡量,这给后续用户体验带来了一定的风险。
[0026] 本发明的目的是提出一种搜索结果排序效果的量化指标,并根据这一指标创建一套切实可用的排序验证规则,将排序算法的实现结果通过量化数字的形式进行展现,可以使测试人员更为直观和全面的对各类情况进行客观判断,进一步做到排序的自动化测试验证,简化排序算法的优化过程,使排序算法能够最大限度的满足产品需求。
[0027] 下面将结合具体实施方式和实施例详细说明本发明。
[0028] 图1为本发明一种对排序结果进行验证的方法流程图。
[0029] 在步骤101,搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列。
[0030] 在步骤102,将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,信息相关度是指关键词和信息文本的匹配度。其中,p表示关键词在字段中的匹配次数,W表示字段权重。
[0031] 一般的搜索过程可能对若干个字段进行检索,并有一个比较复杂的计算公式用于计算关键词在这些字段中的相关度。本发明可将这一过程简化为:以搜索关键词在字段的匹配次数和字段权重来决定其相关度。例如信息包含字段:企业名称、企业简介,其优先级顺序:企业名称->企业简介。假设对关键字“星巴克”搜索的N条结果中,其中一条记录A在企业名称字典出现次数为2,在企业简介字段出现次数为2,则得到信息相关度值2+2=4。
[0032] 在步骤103,根据设定的业务条件以及各业务条件的权重系数,计算搜索结果所包含的信息文本的信息丰富度c,即当信息文本与设定的业务条件匹配时,将该业务条件对应的权重系数相加得到信息丰富度。c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w表示权重系数,Fn-1*wn-1>Fn*wn。信息丰富度是指由若干个业务条件,每个条件按照一定的权重计算得到的信息指数。
[0033] 例如业务规则定义了一个信息丰富度:加盟商户->是否有图片展示->是否有预定服务->是否地图标注->是否有点评信息->商户简介信息量从多到少(权值递减)->商户字段总量从多到少。信息丰富度的值是根据该排序设定一个公式得出,这个值可以在测试中直接得到。假设对记录A根据公式得到信息丰富度值为0.218,且该值总是小于1。
[0034] 在步骤104,根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′,其中信息相关度优先级w高于信息丰富度优先级w’。假设记录A得到的相关度r=4,信息丰富度c=0.218,取w=10,w’=1,则得到记录A的排序分数score=4×10+0.218=40.218。
[0035] 在步骤105,按分数大小顺序排列排序分数,并将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列。
[0036] 其中,将搜索引擎搜索结果中的位置序号对应标注到各排序后分数的操作,还包括以下步骤:当计算得到的排序分数相同时,将位置序号在搜索结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后分数。
[0037] 在步骤106,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度。其中,搜索引擎所采用的算法即被测试的搜索排序算法,算法中的参数可以改变。
[0038] 假设对于关键字“星巴克”,计算得到的排序分数score从大到小排列得到新的排序a1,a2,a3,a5,a6,a4,a7,a8,a10,a9,调用搜索引擎搜索得到10条结果a1,a2,a3,a4,a5,a6,a7,a8,a9,a10(其中1,2,...,n代表了位置信息)。下面通过实施例来说明计算相似度的实施例,但是,所述说明只是用于理解,并不是对本发明的限制。凡在此基础上进行的变形和修改,都应属于本发明的保护范围。
[0039] 在第一实施例中,计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值,将各计算结果进行加和运算得到相似度。
[0040] 记S(A)为集合A关于算法S的排序序列,S’(A)为集合关于算法S’的排序序列,a∈A为A中的一个记录,记P(a)为a在序列S(A)中的位置,P’(a)为a在序列S’(A)中的位置。对于任意的a∈A,D(a)=|P(a)-P’(a)|表示a在序列S(A)与序列S’(A)中的相对距离差。则排序相似度记为:
[0041] 在上述例子中,相似度值为:
[0042]
[0043] 在第二实施例中,计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值,对各差值的绝对值配以权重系数,再将各计算结果进行加和运算得到相似度。
[0044] 不同位置的记录,可通过配置权重决定其对最终相似度计算的影响程度,记为:其中,wi表示位置i的权重。
[0045] 在第三实施例中,计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。
[0046] 相似度计算公式为:
[0047] 其中P(a)是记录a在排序序列S(A)的位置,P’(a)是记录a在排序序列S’(A)的位置,S(A)和S’(A)是记录集合A不同的排序结果。
[0048] 在步骤107,将相似度与配置的阈值进行比较,并记录比较结果,在比较结果中包括相似度大于阈值的次数和相似度小于阈值的次数。
[0049] 判断相似度是否大于配置的阈值,如果是,将记录结果中相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者
[0050] 判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相似度大于阈值的次数加1。
[0051] 在步骤108,当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,可以调整搜索引擎排序算法的参数,重新执行计算过程。否则搜索引擎的排序结果通过验证。其中,相似度大于或小于阈值的次数是针对不同的关键词得到的结果。这里所说的通过验证是指搜索结果能够更加精确、准确的反映要搜索的信息,即通过上述判断,可以搜索到更加精确、准确的搜索结果。
[0052] 跳转到步骤109,跳转到步骤110。本发明将相似度作为比较排序算法效果的量化指标,通过简化搜索方法及相似度计算得出合理的衡量标准,可以对多个搜索算法的效果进行比较。
[0053] 构造一个自动检验搜索排序结果的系统,通过自动量化而非人工的方式对搜索排序结果进行验证,大大减少了检验排序效果的人为主观性,提高检验排序结果的效率。
[0054] 图2为本发明一种对排序结果进行验证的系统结构图。该系统包括搜索引擎、信息相关度计算模块、信息丰富度计算模块、排序分数计算模块、相似度计算模块、配置模块以及比较模块。
[0055] 搜索引擎,根据要搜索的关键词获取搜索结果,对搜索结果标注位置序号,并得到用位置序号组成的搜索结果序列。
[0056] 信息相关度计算模块,将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,信息相关度是指搜索关键词和信息文本的匹配度。其中,p表示关键词在字段中的匹配次数,W表示字段权重。
[0057] 一般的搜索过程可能对若干个字段进行检索,并有一个比较复杂的计算公式用于计算关键词在这些字段中的相关度。本发明可将这一过程简化为:以搜索关键词在字段的匹配次数和字段权重来决定其相关度。例如信息包含字段:企业名称、企业简介,其优先级顺序:企业名称->企业简介。假设对关键字“星巴克”搜索的N条结果中,其中一条记录A在企业名称字典出现次数为2,在企业简介字段出现次数为2,则得到值2+2=4。
[0058] 信息丰富度计算模块,根据各搜索结果对信息文本设定的业务条件和权重系数计算信息丰富度c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w表示权重系数,Fn-1*wn-1>Fn*wn。信息丰富度是指由若干个业务条件,每个条件按照一定的权重计算得到的信息指数。
[0059] 例如业务规则定义了一个信息丰富度:加盟商户->是否有图片展示->是否有预定服务->是否地图标注->是否有点评信息。假设对记录A根据公式得到信息丰富度值为0.218,且该值总是小于1。
[0060] 排序分数计算模块,根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′,按分数大小顺序排列排序分数,将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,并得到用位置序号组成的排序结果序列。其中信息相关度优先级w高于信息丰富度优先级w’。假设记录A得到的相关度r=4,信息丰富度c=0.218,取w=10,w’=1,则得到记录A的排序分数score=4×10+0.218=40.218。
[0061] 其中,排序分数计算模块还在排序分数相同时,将位置序号在搜索结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后分数。
[0062] 相似度计算模块,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度。其中,搜索引擎所采用的算法即被测试的搜索排序算法,算法中的参数可以改变。
[0063] 假设对于关键字“星巴克”,计算得到的排序分数score从大到小排列得到新的排序a1,a2,a3,a5,a6,a4,a7,a8,a10,a9,调用搜索引擎搜索得到10条结果a1,a2,a3,a4,a5,a6,a7,a8,a9,a10(其中1,2,...,n代表了位置信息)。下面通过实施例来说明计算相似度的实施例,但是,所述说明只是用于理解,并不是对本发明的限制。凡在此基础上进行的变形和修改,都应属于本发明的保护范围。
[0064] 在第一实施例中,相似度计算模块计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值,并将各计算结果进行加和运算得到相似度。
[0065] 记S(A)为集合A关于算法S的排序序列,S’(A)为集合关于算法S’的排序序列,a∈A为A中的一个记录,记P(a)为a在序列S(A)中的位置,P’(a)为a在序列S’(A)中的位置。对于任意的a∈A,D(a)=|P(a)-P’(a)|表示a在序列S(A)与序列S’(A)中的相对距离差。则排序相似度记为:
[0066] 在上述例子中,相似度值为:
[0067]
[0068] 在第二实施例中,相似度计算模块计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值,还对各差值的绝对值配以权重系数,再将各计算结果进行加和运算得到相似度。
[0069] 不同位置的记录,可通过配置权重决定其对最终相似度计算的影响程度,记为:其中,wi表示位置i的权重。
[0070] 在第三实施例中,相似度计算模块计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。
[0071] 相似度计算公式为:
[0072] 其中P(a)是记录a在排序序列S(A)的位置,P’(a)是记录a在排序序列S’(A)的位置,S(A)和S’(A)是记录集合A不同的排序结果。
[0073] 配置模块,配置相似度阈值。
[0074] 比较模块,将相似度与配置的阈值进行比较,并记录比较结果,当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。这里所说的通过验证是指搜索结果能够更加精确、准确的反映要搜索的信息,即通过上述判断,可以搜索到更加精确、准确的搜索结果。
[0075] 比较模块判断相似度是否大于配置的阈值,如果是,将相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者
[0076] 比较模块判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相似度大于阈值的次数加1。
[0077] 本发明主要验证信息相关度和信息丰富度相结合的排序方式的合理性。其中,信息相关度是指搜索关键词和信息文本的匹配程度。信息丰富度是指由若干个业务条件,每个条件按照一定的权重计算得到的信息指数。对信息相关度和信息丰富度通过一套简化的算法得到比较直观的排序结果,并以此结果为标准,将其与搜索引擎系统得出的排序结果进行比较计算,得到对相同关键字的两份排序相似度的值,该值越小则相似度越高,即认为搜索引擎系统的排序结果的可接受程序越高。
[0078] 下面通过具体的实施例来说明本发明的排序效果。
[0079] 对关键字“红星”和“大通”的搜索排序结果进行验证。其中,在计算相似度时根据两个排序结果中的每条记录的相对距离差值的和进行计算。搜索结果仅打印出标题title,score为排序值,source position表示搜索系统排序结果,dest position表示简化算法排序结果,releventvalue表示相似度值。
[0080] 关键字:红星
[0081] 计算结果:
[0082] 1--title:石井街红星社区卫生服务站 score:10.02734375
[0083] 2--title:红星电脑绣花制衣有限公司 score:10.02734375
[0084] 3--title:红星针织厂 score:10.02734375
[0085] 4--title:红星仪器有限公司 score:10.02734375
[0086] 5--title:红星电线厂 score:10.02734375
[0087] 6--title:红星幼儿园 score:10.0234375
[0088] 7--title:小红星幼儿园 score:10.0234375
[0089] 8--title:石井农村信用合作社红星分社 score:10.0234375
[0090] 9--title:红星通讯店 score:10.0234375
[0091] 10--title:红星筛网厂 score:10.0234375
[0092] source position:
[0093] [1,2,3,4,5,6,7,8,9,10]
[0094] dest position
[0095] [1,2,3,4,5,6,7,8,9,10]
[0096] relevent value:0
[0097] -------------------------------------
[0098] 关键字:大通
[0099] 计算结果:
[0100] 1--title:广东大通市场研究有限公司 score:10.02734375
[0101] 2--title:大通证券股份有限公司广州体育西路证券营业部 score:10.0234375
[0102] 3--title:碧大通讯器材经营部 score:10.0234375
[0103] 4--title:大通国际运输有限公司广州分公司 score:10.0234375[0104] 5--title:大通成科技有限公司 score:10.0234375
[0105] 6--title:大通机电经营部 score:10.0234375
[0106] 7--title:大通磨具厂 score:10.0234375
[0107] 8--title:广东浩大通讯设备有限公司 score:10.02734375
[0108] 9--title:大通电子有限公司 score:10.01953125
[0109] 10--title:大通电子厂 score:10.01953125
[0110] source position:
[0111] [1,2,3,4,5,6,7,8,9,10]
[0112] dest position
[0113] [1,8,2,3,4,5,6,7,9,10]
[0114] relevent value:12
[0115] 从以下结果可以看到,对关键字“红星”的排序结果准确率为100%,对关键字“大通”的相似度值为12,排序结果是否合理可以根据该值判断。可灵活设置阈值,假设阈值为10,那么此次的排序结果不合理。
[0116] 本发明适用于对搜索排序结果进行自动化的验证和排序算法参数的自动优化。