基于特征词加权关联模式挖掘的跨语言译后混合扩展方法转让专利
申请号 : CN201811646513.4
文献号 : CN109726263B
文献日 : 2021-07-02
发明人 : 黄名选
申请人 : 广西财经学院
摘要 :
权利要求 :
1.基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,其特征在于,包括下列步骤:
步骤1:源语言用户查询通过机器翻译工具译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档,通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集,预处理初检相关反馈文档集,构建目标语言文本文档索引库和特征词库;
步骤2:通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2.1)挖掘文本特征词1_频繁项集L1,具体步骤如下:(2.1.1)从特征词库中提取文本特征词作为1_候选项集C1;
(2.1.2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];
(2.1.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示;
MWS=n×ms (2)式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数;
(2.1.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS;
(2.2)挖掘文本特征词2_频繁项集L2,具体步骤如下:(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2;
(2.2.2)剪枝不含原查询词项的2_候选项集C2;
(2.2.3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2];
(2.2.4)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS;
(2.3)挖掘文本特征词k_频繁项集Lk,所述k≥2;具体步骤如下:(2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集Lk‑1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;所述i1,i2,…,ik为候选项集Ck的各个项目,ik表示候选项集Ck中第k个项目;
(2.3.2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2.3.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm
(2.3.4)对于余下的Ck,分别计算Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2.3.5)如果文本特征词k_频繁项集Lk为空集,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.3.1)继续顺序循环;
步骤3:采用卡方分析‑置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2;具体方法如下:从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式;
(3.1)构建Lk的所有真子集项集集合;
(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且 qt∪Et=Lk,QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集合,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(4)所示;
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数;
(3.3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度WConf(qt→Et)和WConf(Et→qt);
若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到加权关联规则模式集合WAR;若WConf(Et→qt)≥mc,则Et→qt是强加权关联规则模式,添加到WAR;
所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(5)和(6)所示;
式(5)和(6)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(4);
(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从频繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)顺序执行进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4;
步骤4:从加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展词,计算扩展词权值:
从加权关联规则模式集合WAR中提取关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为跨语言查询译后扩展词,所述扩展词的权值we计算公式如式(7)所示;
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (7)式(7)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值的最大值和关联度的最大值;
步骤5:步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索目标语言文档,完成跨语言译后混合扩展。
2.如权利要求1所述的基于特征词加权关联模式挖掘的跨语言译后混合扩展方法,其特征在于,所述步骤1中预处理初检相关反馈文档集,方法如下:去除停用词,提取特征词并按下式(1)计算特征值权值:
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度。
说明书 :
基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
技术领域
背景技术
过程中,采用某种策略发现与原查询相关的扩展词,扩展词和原查询组合得到新查询并再
次检索的过程。
网络大数据资源中跨语言检索其他语言信息资源时,经常遇到的查询主题严重漂移和词不
匹配等问题,这些问题的解决要依赖于跨语言查询扩展技术。近十几年来,学者们对跨语言
查询扩展方法开展了卓有成效的研究,特别是对基于关联模式挖掘的跨语言查询译后扩展
方法的研究,取得了丰富的研究成果,例如,吴丹等提出的基于伪相关反馈的跨语言查询译
后扩展方法(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,
2010,29(2):232‑239.),黄名选提出基于加权关联模式挖掘的跨语言查询扩展方法(黄名
选.基于加权关联模式挖掘的越‑英跨语言查询扩展[J].情报学报,2017,36(3):307‑318.,
黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展,小型微型计算机系
统,2017,38(8):1783‑1791.),等等,但还没有最终完全解决跨语言信息检索中查询主题严
重漂移和词不匹配问题。
发明内容
的跨语言搜索引擎和web跨语言信息检索系统,提高信息检索性能。
http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征
词权值,如果目标语言是汉语,预处理方法是:去除中文停用词,对中文文档进行分词后提
取中文特征词,计算中文特征词权值。
文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤如下:
the 1993ACM SIGMOD International Conference on Management of Data,Washington
D C,USA,1993:207‑216.)
wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;
所述q∈(1,2,…,k),p∈(1,2,…,k);
如下:
集(qt,Et)的卡方(Chi‑Square,Chis)值,所述卡方Chis(qt,Et)计算公式如式(4)所示。
Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个
数,n为目标语言文本文档索引库的文本文档总数。
模式,添加到WAR;
(3.1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;
如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权
关联规则模式挖掘,转入如下步骤4。
词,计算扩展词权值。
个度量值的最大值。
用项集关联度以及项集的项目权值最大者或者最大项目权值进行项集剪枝,采用卡方分
析‑置信度评价框架从频繁项集中挖掘含有原查询词项的文本特征词关联规则模式,最后,
从关联规则中提取后件是原查询词项的关联规则前件项集以及前件是原查询词项的关联
规则后件项集作为译后扩展词,实现跨语言译后混合扩展。实验结果表明,本发明能提高和
改善跨语言信息检索性能,在跨语言搜索引擎和web检索系统中具有较高的应用价值和推
广前景。
对比方法的高,效果显著,说明本发明方法的检索性能均优于对比方法,能提高跨语言信息
检索性能,减少跨语言信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔
的推广前景。
附图说明
具体实施方式
目,简称特征项,一般是由字、词或词组构成,di中对应的特征项权值集合Wi={wi1,wi2,…,
wim,…,wip},wim为第i篇文档di中第m个特征项tm对应的权值,T={t1,t2,…,tn}表示DS中全
体特征项集合,T的各个子集均称为特征项项集,简称项集。
w2,…,wk,那么,所述w1,w2,…,wk称为项目权值,而Ck的项集权值w[Ck]=w1+w2+…+wk。
http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征
词权值,如果目标语言是汉语,预处理方法是:去除中文停用词,对中文文档进行分词后提
取中文特征词,计算中文特征词权值。
文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
步骤如下:
the 1993ACM SIGMOD International Conference on Management of Data,Washington
D C,USA,1993:207‑216.)
集Lk,添加到频繁项集集合FIS,否则剪枝所述Ck;
最小的1_项集权值和最大的1_项集权值;q∈(1,2,…,k),p∈(1,2,…,k);
繁项集,所述minIRe为最小项集关联度阈值。
如下:
(qt,Et)的卡方(Chi‑Square,Chis)值,所述卡方Chis(qt,Et)计算公式如式(4)所示。
Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个
数,n为目标语言文本文档索引库的文本文档总数。
模式,添加到WAR;
(3.1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;
如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权
关联规则模式挖掘,转入如下步骤4。
词,计算扩展词权值。
个度量值的最大值。
本发明实验语料,即选择NTCIR‑5CLIR语料中的英文文档集Mainichi Daily News 2000、
2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档作为本发明实验数据,具
体是Mainichi Daily News 2000的新闻文本6608篇(简称m0),Mainichi Daily News 2001
的5547篇(简称m1)和Korea Times 2001年的14069篇(简称k1)。
相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类
型选择Title和Desc类型,Title查询属于短查询,以名词和名词性短语简要描述查询主题,
Desc查询属于长查询,以句子形式简要描述查询主题。
率的算术平均值,所述R‑查准率是指当R个文档被检索后所计算的查准率。
学报,2017,36(3):307‑318.)的跨语言查询扩展方法实现印尼‑英跨语言查询译后扩展的
检索结果。实验参数是:最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信
度阈值ms为0.007,0.008,0.009,0.01,0.011。
2010,29(2):232‑239.)的跨语言查询扩展方法实现印尼‑英跨语言查询译后扩展的检索结
果。实验方法:提取印尼‑英跨语言初检前列英文文档20篇构建初检相关文档集,提取特征
词项并计算其权值,按权值降序排列将前列20个特征词项作为英文扩展词实现越‑英跨语
言查询译后扩展。
时,对跨语言初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为
了简便,本实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文
档),实现本发明挖掘方法后得到关联规则模式,从关联规则中提取后件是原查询词项的关
联规则前件项集以及前件是原查询词项的关联规则后件项集作为译后扩展词,实现跨语言
译后混合扩展。通过实验,我们得到本发明方法和对比方法的印尼‑英跨语言检索结果P@15
和平均R‑查准率分别如表1至表2所示,实验挖掘到3_项集,其中,本发明方法的实验参数
是:最小置信度阈值mc分别为0.5,0.6,0.7,0.8,0.9,最小支持度阈值ms=0.5,最小项集关
联度阈值minIRe=0.4。
很高的应用价值和广阔的推广前景。