基于特征词加权关联模式挖掘的跨语言译后混合扩展方法转让专利

申请号 : CN201811646513.4

文献号 : CN109726263B

文献日 : 2021-07-02

本发明公开了基于特征词加权关联模式挖掘的跨语言译后混合扩展方法，首先源语言查询首次检索目标语言文档，构建并预处理初检相关反馈文档集，通过项集权值比较在该文档集挖掘含有原查询词项的频繁项集，用项集关联度及项集的项目权值最大者或最大项目权值对候选项集剪枝，用卡方分析‑置信度评价框架从频繁项集挖掘含有原查询词项的文本特征词关联规则，提取后件是原查询词项的关联规则前件及前件是原查询词项的关联规则后件作为译后扩展词实现跨语言译后混合扩展。本发明克服现有加权关联规则挖掘技术的缺陷，提高挖掘效率，挖掘出与原查询相关的扩展词，提高和改善跨语言检索性能，在实际web跨语言检索系统中有较高的应用价值和推广前景。

1.基于特征词加权关联模式挖掘的跨语言译后混合扩展方法，其特征在于，包括下列步骤：

步骤1：源语言用户查询通过机器翻译工具译为目标语言，采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档，通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集，预处理初检相关反馈文档集，构建目标语言文本文档索引库和特征词库；

步骤2：通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集，运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，具体步骤如下：

(2.1)挖掘文本特征词1_频繁项集L1，具体步骤如下：(2.1.1)从特征词库中提取文本特征词作为1_候选项集C1；

(2.1.2)扫描目标语言文本文档索引库，统计文本文档总数n和统计C1的项集权值w[C1]；

(2.1.3)计算最小权值支持阈值MWS；所述MWS计算公式如式(2)所示；

MWS＝n×ms (2)式(2)中，所述ms为最小支持度阈值，n为目标语言文本文档索引库的文本文档总数；

(2.1.4)如果w[C1]≥MWS，则C1就是文本特征词1_频繁项集L1，添加到频繁项集集合FIS；

(2.2)挖掘文本特征词2_频繁项集L2，具体步骤如下：(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2；

(2.2.2)剪枝不含原查询词项的2_候选项集C2；

(2.2.3)对余下的2_候选项集C2，扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2]；

(2.2.4)如果w[C2]≥MWS，则C2就是文本特征词2_频繁项集L2，添加到频繁项集集合FIS；

(2.3)挖掘文本特征词k_频繁项集Lk，所述k≥2；具体步骤如下：(2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集Lk‑1自连接得到多个k_候选项集Ck＝(i1,i2,…,ik)，所述k≥2；所述i1,i2,…,ik为候选项集Ck的各个项目，ik表示候选项集Ck中第k个项目；

(2.3.2)扫描目标语言文本文档索引库，分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm，分别得到各Ck中最大的项目权值wm对应的项目im，所述m∈(1,2,…,k)；

(2.3.3)如果所述项目im对应的1_项集(im)是非频繁的，或者wm

(2.3.4)对于余下的Ck，分别计算Ck的项集关联度IRe(Ck)，如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe，那么，该Ck就是文本特征词k_频繁项集Lk，添加到频繁项集集合FIS；所述minIRe为最小项集关联度阈值；所述IRe(Ck)的计算公式如式(3)所示；

式(3)中，wmin[(iq)]和wmax[(ip)]的含义如下：对于Ck＝(i1,i2,…ik)，k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik)；wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

(2.3.5)如果文本特征词k_频繁项集Lk为空集，则文本特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.3.1)继续顺序循环；

步骤3：采用卡方分析‑置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式，所述k≥2；具体方法如下：从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk，按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式；

(3.1)构建Lk的所有真子集项集集合；

(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et，且 qt∪Et＝Lk，QTL为目标语言原查询词项集合，Et为不含原查询词项的特征词项集合，计算项集(qt,Et)的卡方值Chis(qt,Et)，计算公式如式(4)所示；

式(4)中，w[(qt)]为项集qt在目标语言文本文档索引库中项集权值，k1为项集qt的长度，w[(Et)]为项集Et在目标语言文本文档索引库中项集权值，k2为项集Et的长度，w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值，kL为项集(qt,Et)的项目个数，n为目标语言文本文档索引库的文本文档总数；

(3.3)如果Chis(qt,Et)>0，则计算文本特征词加权关联规则置信度WConf(qt→Et)和WConf(Et→qt)；

若WConf(qt→Et)≥最小置信度阈值mc，则关联规则qt→Et是强加权关联规则模式，添加到加权关联规则模式集合WAR；若WConf(Et→qt)≥mc，则Et→qt是强加权关联规则模式，添加到WAR；

所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(5)和(6)所示；

式(5)和(6)中，w[(qt)]，k1，w[(Et)]，k2，w[(qt,Et)]，kL的定义同式(4)；

(3.4)如果Lk的每个真子集项集当且仅当都被取出一次，那么本次Lk中的文本特征词加权关联规则模式挖掘结束，这时从频繁项集集合FIS中重新取出另一个Lk，并转入步骤(3.1)顺序执行进行另一个Lk的加权关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式，则结束整个加权关联规则模式挖掘，转入如下步骤4；

步骤4：从加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展词，计算扩展词权值：

从加权关联规则模式集合WAR中提取关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为跨语言查询译后扩展词，所述扩展词的权值we计算公式如式(7)所示；

we＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (7)式(7)中，max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值的最大值和关联度的最大值；

步骤5：步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索目标语言文档，完成跨语言译后混合扩展。

2.如权利要求1所述的基于特征词加权关联模式挖掘的跨语言译后混合扩展方法，其特征在于，所述步骤1中预处理初检相关反馈文档集，方法如下：去除停用词，提取特征词并按下式(1)计算特征值权值：

式(1)中，wij表示文档di中特征词tj的权值，tfj,i表示特征词tj在文档di中的词频，普遍将tfj,i进行标准化处理，所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频，idfj是逆文档频度。

基于特征词加权关联模式挖掘的跨语言译后混合扩展方法

技术领域

[0001] 本发明属于信息检索领域，具体是基于特征词加权关联模式挖掘的跨语言译后混合扩展方法。

背景技术

[0002] 跨语言查询扩展是提高和改善跨语言信息检索性能的核心技术之一，能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题，指的是在跨语言信息检索
过程中，采用某种策略发现与原查询相关的扩展词，扩展词和原查询组合得到新查询并再
次检索的过程。

[0003] 当前，网络信息资源迅猛增长，成为了隐含巨大经济价值和研究价值的网络大数据。面对具有多语言性特点的网络信息资源，网络用户以自己熟悉的语言的查询表达式在
网络大数据资源中跨语言检索其他语言信息资源时，经常遇到的查询主题严重漂移和词不
匹配等问题，这些问题的解决要依赖于跨语言查询扩展技术。近十几年来，学者们对跨语言
查询扩展方法开展了卓有成效的研究，特别是对基于关联模式挖掘的跨语言查询译后扩展
方法的研究，取得了丰富的研究成果，例如，吴丹等提出的基于伪相关反馈的跨语言查询译
后扩展方法(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,
2010,29(2):232‑239.)，黄名选提出基于加权关联模式挖掘的跨语言查询扩展方法(黄名
选.基于加权关联模式挖掘的越‑英跨语言查询扩展[J].情报学报,2017,36(3):307‑318.，
黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展，小型微型计算机系
统,2017,38(8):1783‑1791.)，等等，但还没有最终完全解决跨语言信息检索中查询主题严
重漂移和词不匹配问题。

发明内容

[0004] 本发明提出了基于特征词加权关联模式挖掘的跨语言译后混合扩展方法，应用于跨语言信息检索领域，解决跨语言信息检索中查询主题漂移和词不匹配问题，适合于实际
的跨语言搜索引擎和web跨语言信息检索系统，提高信息检索性能。

[0005] 本发明采用如下技术方案：

[0006] 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法，包括下列步骤：

[0007] 步骤1：借助机器翻译工具，源语言查询式跨语言首次检索目标语言文档，构建和预处理初检相关反馈文档集。具体步骤：

[0008] (1.1)源语言用户查询通过机器翻译工具译为目标语言，采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。

[0009] 机器翻译工具可以是：微软必应机器翻译接口Microsoft Translator API，或者，谷歌机器翻译接口，等等。

[0010] (1.2)通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集。

[0011] (1.3)预处理初检相关反馈文档集，构建目标语言文本文档索引库和特征词库。

[0012] 初检相关反馈文档集预处理方法要根据不同语种采用相应的预处理方法，例如，如果目标语言是英语，则预处理方法是：去除英文停用词，采用Porter程序(详细见网址：
http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干，计算英文特征
词权值，如果目标语言是汉语，预处理方法是：去除中文停用词，对中文文档进行分词后提
取中文特征词，计算中文特征词权值。

[0013] 本发明给出初检相关反馈文档特征词权值计算公式，如式(1)所示的计算公式。

[0014]

[0015] 式(1)中，wij表示文档di中特征词tj的权值，tfj，i表示特征词tj在文档di中的词频，普遍将tfj,i进行标准化处理，所述标准化处理是指将文档di中每个特征词所述的tfj,i除以
文档di的最大词频，idfj是逆文档频度(Inverse Document Frequency)。

[0016] 步骤2：通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集，运用项集关联度值以及项集的项目权值最大者或最大项目权值对项集进行剪枝，具体
步骤如下：

[0017] (2.1)挖掘文本特征词1_频繁项集L1，具体步骤如下：

[0018] (2.1.1)从特征词库中提取文本特征词作为1_候选项集C1；

[0019] (2.1.2)扫描目标语言文本文档索引库，统计文本文档总数n和统计C1的项集权值w[C1]；

[0020] (2.1.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。

[0021] MWS＝n×ms (2)

[0022] 式(2)中，所述ms为最小支持度阈值，n为目标语言文本文档索引库的文本文档总数。

[0023] (2.1.4)如果w[C1]≥MWS，则C1就是文本特征词1_频繁项集L1，添加到频繁项集集合FIS(Frequent ItemSet)。

[0024] (2.2)挖掘文本特征词2_频繁项集L2，具体步骤如下：

[0025] (2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到2_候选项集C2。

[0026] 所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[C]//Proceedings of
the 1993ACM SIGMOD International Conference on Management of Data,Washington
D C,USA,1993:207‑216.)

[0027] (2.2.2)剪枝不含原查询词项的2_候选项集C2；

[0028] (2.2.3)对余下的2_候选项集C2，扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2]；

[0029] (2.2.4)如果w[C2]≥MWS，则C2就是文本特征词2_频繁项集L2，添加到频繁项集集合FIS(Frequent ItemSet)。

[0030] (2.3)挖掘文本特征词k_频繁项集Lk，所述k≥2。具体步骤如下：

[0031] (2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集Lk‑1自连接得到k_候选项集Ck＝(i1,i2,…,ik)，所述k≥2；

[0032] (2.3.2)扫描目标语言文本文档索引库，分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm，分别得到各Ck中最大的项目权值wm对应的项目im，所述m∈(1,2,…,k)；

[0033] (2.3.3)如果所述项目im对应的1_项集(im)是非频繁的，或者wm

[0034] (2.3.4)对于余下的Ck，分别计算Ck的项集关联度IRe(Ck)，如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe，那么，该Ck就是文本特征词k_频繁项集Lk，添加到频繁项集集合FIS；

[0035] 所述minIRe为最小项集关联度阈值；所述IRe(Ck)的计算公式如式(3)所示；

[0036]

[0037] 式(3)中，wmin[(iq)]和wmax[(ip)]的含义如下：对于Ck＝(i1,i2,…ik)，k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik)；wmin[(iq)]和
wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值；
所述q∈(1,2,…,k)，p∈(1,2,…,k)；

[0038] (2.3.5)如果文本特征词k_频繁项集Lk为空集，这时，则文本特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.3.1)继续顺序循环。

[0039] 步骤3：采用卡方分析‑置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式，所述k≥2。具体方法
如下：

[0040] 从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk，按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式。

[0041] (3.1)构建Lk的所有真子集项集集合；

[0042] (3.2)从真子集项集集合中任意取出两个真子集项集qt和Et，且 qt∪Et＝Lk， QTL为目标语言原查询词项集合，Et为不含原查询词项的特征词项集Et，计算项
集(qt,Et)的卡方(Chi‑Square,Chis)值，所述卡方Chis(qt,Et)计算公式如式(4)所示。

[0043]

[0044] 式(4)中，w[(qt)]为项集qt在目标语言文本文档索引库中项集权值，k1为项集qt的长度，w[(Et)]为项集Et在目标语言文本文档索引库中项集权值，k2为项集Et的长度，w[(qt,
Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值，kL为项集(qt,Et)的项目个
数，n为目标语言文本文档索引库的文本文档总数。

[0045] (3.3)如果Chis(qt,Et)>0，则计算文本特征词加权关联规则置信度(Weighted Confidence,WConf)WConf(qt→Et)和WConf(Et→qt)；

[0046] 若WConf(qt→Et)≥最小置信度阈值mc，则关联规则qt→Et是强加权关联规则模式，添加到加权关联规则模式集合WAR；若WConf(Et→qt)≥mc，则Et→qt是强加权关联规则
模式，添加到WAR；

[0047] 所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(5)和(6)所示；

[0048]

[0049]

[0050] 式(5)和(6)中，w[(qt)]，k1，w[(Et)]，k2，w[(qt,Et)]，kL的定义同式(4)；

[0051] (3.4)如果Lk的每个真子集项集当且仅当都被取出一次，那么本次Lk中的文本特征词加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个Lk，并转入步骤
(3.1)进行另一个Lk的加权关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；
如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式，则结束整个加权
关联规则模式挖掘，转入如下步骤4。

[0052] 步骤4：从加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展
词，计算扩展词权值。

[0053] 从加权关联规则模式集合WAR中提取关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为跨语言查询译后扩展词，所述扩展词的权值we计算公式如式(7)所示。

[0054] we＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (7)

[0055] 式(7)中，max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值，即当扩展词重复出现在多个加权关联规则模式时，取上述3
个度量值的最大值。

[0056] 步骤5：步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索目标语言文档，完成跨语言译后混合扩展。

[0057] 本发明与现有技术相比，具有以下有益效果：

[0058] (1)本发明提出一种基于特征词加权关联模式挖掘的跨语言译后混合扩展方法。该发明方法通过项集权值比较对初检相关反馈文档集挖掘含有原查询词项的频繁项集，运
用项集关联度以及项集的项目权值最大者或者最大项目权值进行项集剪枝，采用卡方分
析‑置信度评价框架从频繁项集中挖掘含有原查询词项的文本特征词关联规则模式，最后，
从关联规则中提取后件是原查询词项的关联规则前件项集以及前件是原查询词项的关联
规则后件项集作为译后扩展词，实现跨语言译后混合扩展。实验结果表明，本发明能提高和
改善跨语言信息检索性能，在跨语言搜索引擎和web检索系统中具有较高的应用价值和推
广前景。

[0059] (2)选择国际上普遍使用的标准数据集NTCIR‑5CLIR作为本发明方法实验语料。与对比方法比较，实验结果表明，本发明方法的跨语言检索结果P@15和平均R‑查准率值都比
对比方法的高，效果显著，说明本发明方法的检索性能均优于对比方法，能提高跨语言信息
检索性能，减少跨语言信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔
的推广前景。

附图说明

[0060] 图1为本发明基于特征词加权关联模式挖掘的跨语言译后混合扩展方法的流程示意图。

具体实施方式

[0061] 为了更好地说明本发明的技术方案，下面将本发明涉及的相关概念介绍如下：

[0062] 1.文本特征词关联规则的前件和后件

[0063] 设T1、T2是任意的文本特征词项集，将形如T1→T2的蕴含式称为文本特征词关联规则，其中，T1称为规则前件，T2称为规则后件。

[0064] 2.假设DS＝{d1,d2,…,dn}是文本文档集(Document Set，DS)，其中，di(1≤i≤n)是文档集DS中的第i篇文档，di＝{t1,t2,…,tm,…,tp}，tm(m＝1,2,…,p)为文档特征词项
目，简称特征项，一般是由字、词或词组构成，di中对应的特征项权值集合Wi＝{wi1,wi2,…,
wim,…,wip}，wim为第i篇文档di中第m个特征项tm对应的权值，T＝{t1,t2,…,tn}表示DS中全
体特征项集合，T的各个子集均称为特征项项集，简称项集。

[0065] 所述项目权值和项集权值的区别描述如下：假设在文本文档索引库中统计k_候选项集Ck＝(i1,i2,…,ik)的项集权值w[Ck]，得到Ck各个项目i1,i2,…,ik对应的权值为w1,
w2,…,wk，那么，所述w1,w2,…,wk称为项目权值，而Ck的项集权值w[Ck]＝w1+w2+…+wk。

[0066] 实施例1

[0067] 如图1所示，基于特征词加权关联模式挖掘的跨语言译后混合扩展方法，包括下列步骤：

[0068] 步骤1：借助机器翻译工具，源语言查询式跨语言首次检索目标语言文档，构建和预处理初检相关反馈文档集。具体步骤：

[0069] (1.1)源语言用户查询通过机器翻译工具译为目标语言，采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。

[0070] 机器翻译工具可以是：微软必应机器翻译接口Microsoft Translator API，或者，谷歌机器翻译接口，等等。

[0071] (1.2)通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集。

[0072] (1.3)预处理初检相关反馈文档集，构建目标语言文本文档索引库和特征词库。

[0073] 初检相关反馈文档集预处理方法要根据不同语种采用相应的预处理方法，例如，如果目标语言是英语，则预处理方法是：去除英文停用词，采用Porter程序(详细见网址：
http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干，计算英文特征
词权值，如果目标语言是汉语，预处理方法是：去除中文停用词，对中文文档进行分词后提
取中文特征词，计算中文特征词权值。

[0074] 本发明给出初检相关反馈文档特征词权值计算公式，如式(1)所示的计算公式。

[0075]

[0076] 式(1)中，wij表示文档di中特征词tj的权值，tfj,i表示特征词tj在文档di中的词频，普遍将tfj,i进行标准化处理，所述标准化处理是指将所述的文档di中每个特征词tfj,i除以
文档di的最大词频，idfj是逆文档频度(Inverse Document Frequency)。

[0077] 步骤2：通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集，运用项集关联度值以及项集的项目权值最大者或最大项目权值对项集进行剪枝，具体
步骤如下：

[0078] (2.1)挖掘文本特征词1_频繁项集L1，具体步骤如下：

[0079] (2.1.1)从特征词库中提取文本特征词作为1_候选项集C1；

[0080] (2.1.2)扫描目标语言文本文档索引库，统计文本文档总数n和统计项集权值w[C1]；

[0081] (2.1.3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。

[0082] MWS＝n×ms (2)

[0083] 式(2)中，所述ms为最小支持度阈值，n为目标语言文本文档索引库的文本文档总数。

[0084] (2.1.4)如果w[C1]≥MWS，则C1就是文本特征词1_频繁项集L1，添加到频繁项集集合FIS(Frequent ItemSet)。

[0085] (2.2)挖掘文本特征词2_频繁项集L2，具体步骤如下：

[0086] (2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2。

[0087] 所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[C]//Proceedings of
the 1993ACM SIGMOD International Conference on Management of Data,Washington
D C,USA,1993:207‑216.)

[0088] (2.2.2)剪枝不含原查询词项的2_候选项集C2；

[0089] (2.2.3)对余下的2_候选项集C2，扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2]；

[0090] (2.2.4)如果w[C2]≥MWS，则C2就是文本特征词2_频繁项集L2，添加到频繁项集集合FIS(Frequent ItemSet)。

[0091] (2.3)挖掘文本特征词k_频繁项集Lk，所述k≥2。具体步骤如下：

[0092] (2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集Lk‑1自连接得到多个k_候选项集Ck＝(i1,i2,…,ik)，所述k≥2；

[0093] (2.3.2)扫描目标语言文本文档索引库，分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm，分别得到所述最大的项目权值wm对应的项目im，所述m∈(1,2,…,k)；

[0094] (2.3.3)如果所述项目im对应的1_项集(im)是非频繁的，或者wm

[0095] (2.3.4)对于余下的Ck，分别计算各Ck的项集关联度(ItemSet Relrvancy,IRe)IRe(Ck)，如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe，那么，对应的Ck就是文本特征词k_频繁项
集Lk，添加到频繁项集集合FIS，否则剪枝所述Ck；

[0096] 所述minIRe为最小项集关联度阈值。所述IRe(Ck)的计算公式如式(3)所示。

[0097]

[0098] 式(3)中，wmin[(iq)]和wmax[(ip)]的含义如下：

[0099] 对于Ck＝(i1,i2,…ik)，k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik)；wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中
最小的1_项集权值和最大的1_项集权值；q∈(1,2,…,k)，p∈(1,2,…,k)；

[0100] (2.3.5)如果文本特征词k_频繁项集Lk为空集，这时，则文本特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.3.1)继续顺序循环。

[0101] 本发明所述的剪枝采用如下方法：

[0102] (1)对于k_候选项集Ck＝(i1,i2,…,ik)，如果所述Ck的项集权值w[Ck]项集，剪除所述Ck；综上所述，本发明只挖掘w[Ck]≥MWS×k并且IRe(Ck)≥minIRe的有效频
繁项集，所述minIRe为最小项集关联度阈值。

[0103] (2)如果k_候选项集Ck＝(i1,i2,…,ik)中最大的项目权值小于最小权值支持阈值MWS，那么Ck是非频繁的，则剪除所述Ck；

[0104] (3)假设k_候选项集Ck＝(i1,i2,…,ik)中最大项目权值对应的项目单独作为1_项集为(im)，如果所述1_项集(im)是非频繁的，则剪除所述Ck。

[0105] (4)当挖掘到候选2_项集时，将不含原查询词项的候选2_项集删除，留下含有原查询词项的候选2_项集。

[0106] 步骤3：采用卡方分析‑置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式，所述k≥2。具体方法
如下：

[0107] 从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk，按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式。

[0108] (3.1)构建Lk的所有真子集项集集合；

[0109] (3.2)从真子集项集集合中任意取出两个真子集项集qt和Et，且 qt∪Et＝Lk， QTL为目标语言原查询词项集合，Et为不含原查询词项的特征词项集，计算项集
(qt,Et)的卡方(Chi‑Square,Chis)值，所述卡方Chis(qt,Et)计算公式如式(4)所示。

[0110]

[0111] 式(4)中，w[(qt)]为项集qt在目标语言文本文档索引库中项集权值，k1为项集qt的长度，w[(Et)]为项集Et在目标语言文本文档索引库中项集权值，k2为项集Et的长度，w[(qt,
Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值，kL为项集(qt,Et)的项目个
数，n为目标语言文本文档索引库的文本文档总数。

[0112] (3.3)如果Chis(qt,Et)>0，则计算文本特征词加权关联规则置信度(Weighted Confidence,WConf)WConf(qt→Et)和WConf(Et→qt)；

[0113] 若WConf(qt→Et)≥最小置信度阈值mc，则关联规则qt→Et是强加权关联规则模式，添加到加权关联规则模式集合WAR；若WConf(Et→qt)≥mc，则Et→qt是强加权关联规则
模式，添加到WAR；

[0114] 所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(5)和(6)所示；

[0115]

[0116]

[0117] 式(5)和(6)中，w[(qt)]，k1，w[(Et)]，k2，w[(qt,Et)]，kL的定义同式(4)；

[0118] (3.4)如果Lk的每个真子集项集当且仅当都被取出一次，那么本次Lk中的文本特征词加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个Lk，并转入步骤
(3.1)进行另一个Lk的加权关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；
如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式，则结束整个加权
关联规则模式挖掘，转入如下步骤4。

[0119] 步骤4：从加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展
词，计算扩展词权值。

[0120] 从加权关联规则模式集合WAR中提取关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为跨语言查询译后扩展词，所述扩展词的权值we计算公式如式(7)所示。

[0121] we＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (7)

[0122] 式(7)中，max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值，即当扩展词重复出现在多个加权关联规则模式时，取上述3
个度量值的最大值。

[0123] 步骤5：步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索目标语言文档，完成跨语言译后混合扩展。

[0124] 实验设计与结果：

[0125] 为了说明本发明方法的有效性，我们进行了基于本发明方法和对比方法的印尼‑英跨语言信息检索实验，比较本发明方法和对比方法的跨语言检索性能。

[0126] 实验语料：

[0127] 以信息检索领域中国际上普遍使用的跨语言标准数据集NTCIR‑5CLIR语料(见网址：http://research.nii.ac.jp/ntcir/permission/ntcir‑5/perm‑en‑CLIR.html)作为
本发明实验语料，即选择NTCIR‑5CLIR语料中的英文文档集Mainichi Daily News 2000、
2001年和Korea Times 2001年的新闻文本，共有26224篇英文文档作为本发明实验数据，具
体是Mainichi Daily News 2000的新闻文本6608篇(简称m0)，Mainichi Daily News 2001
的5547篇(简称m1)和Korea Times 2001年的14069篇(简称k1)。

[0128] NTCIR‑5CLIR语料有文档测试集、50个查询主题集及其对应的结果集，其中，每个查询主题类型有Title、Desc、Narr和Conc等4种类型，结果集有2种评价标准，即高度相关，
相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类
型选择Title和Desc类型，Title查询属于短查询，以名词和名词性短语简要描述查询主题，
Desc查询属于长查询，以句子形式简要描述查询主题。

[0129] 本发明实验结果的评价指标是P@10和平均查准率均值MAP(Mean Average Precision)。

[0130] 将P@15和平均R‑查准率作为本发明方法实验结果的评价指标。所述P@15是指对于测试查询返回的前15个结果的准确率，所述平均R‑查准率是指对所有查询所对应的R‑查准
率的算术平均值，所述R‑查准率是指当R个文档被检索后所计算的查准率。

[0131] 对比方法：

[0132] (1)对比方法1：基于加权关联模式挖掘的印尼‑英跨语言查询译后扩展方法。所述对比方法2是基于文献(黄名选.基于加权关联模式挖掘的越‑英跨语言查询扩展[J].情报
学报,2017,36(3):307‑318.)的跨语言查询扩展方法实现印尼‑英跨语言查询译后扩展的
检索结果。实验参数是：最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信
度阈值ms为0.007,0.008,0.009,0.01,0.011。

[0133] (2)对比方法2：基于伪相关反馈的印尼‑英跨语言查询译后扩展方法，所述对比方法2是基于文献(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,
2010,29(2):232‑239.)的跨语言查询扩展方法实现印尼‑英跨语言查询译后扩展的检索结
果。实验方法：提取印尼‑英跨语言初检前列英文文档20篇构建初检相关文档集，提取特征
词项并计算其权值，按权值降序排列将前列20个特征词项作为英文扩展词实现越‑英跨语
言查询译后扩展。

[0134] 实验方法和结果如下：

[0135] 运行本发明方法和对比方法的源程序，将50个印尼语查询主题的Title和Desc查询通过机器翻译系统翻译为英文，并检索英文文档，以实现印尼‑英跨语言信息检索。实验
时，对跨语言初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为
了简便，本实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文
档)，实现本发明挖掘方法后得到关联规则模式，从关联规则中提取后件是原查询词项的关
联规则前件项集以及前件是原查询词项的关联规则后件项集作为译后扩展词，实现跨语言
译后混合扩展。通过实验，我们得到本发明方法和对比方法的印尼‑英跨语言检索结果P@15
和平均R‑查准率分别如表1至表2所示，实验挖掘到3_项集，其中，本发明方法的实验参数
是：最小置信度阈值mc分别为0.5,0.6,0.7,0.8,0.9，最小支持度阈值ms＝0.5，最小项集关
联度阈值minIRe＝0.4。

[0136] 表1本发明方法与对比方法的检索性能比较(Title查询主题)

[0137]

[0138] 表2本发明方法与对比方法的检索性能比较(Desc查询主题)

[0139]

[0140] 表1和表2表明，本发明方法的跨语言检索结果P@15和平均R‑查准率值都比对比方法的高，效果显著。实验结果表明，本发明方法是有效的，能提高跨语言信息检索性能，具有
很高的应用价值和广阔的推广前景。

基于特征词加权关联模式挖掘的跨语言译后混合扩展方法转让专利

申请号 : CN201811646513.4

文献号 : CN109726263B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 黄名选

申请人 : 广西财经学院

摘要 :

权利要求 :

说明书 :