[0082] 或者,还可以将参考文档库和目标文档库结合为一个文档库,此时对于任何一个文档的文档地域权重信息的计算过程保持不变。
[0083] 步骤302,处理目标文档获得候选词语;
[0084] 对若干篇目标文档中的每一个目标文档可以进行提取候选词语的处理,该处理过程可以包括:第一,对至少一个目标文档的正文进行分词,以获得至少一个词语;第二,对分词获得的词语进行词性分析,词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等;第三,根据词语的词性识别词语的实体信息,实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等;第四,将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语,比如,预定词性可以是形容词+动词。
[0085] 上述的处理过程,可以使用开源分析工具来完成,比如,当目标文档是中文文档时,可以使用中国科学院ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System,汉语词法分析系统)、哈工大的HIT-IRLAS词法分析器等;当目标文档是英文文档时,可以使用Stanford Parse(也称斯坦福词法分析器)。优选地,还可以对候选词语进行浅层句法分析或者语块分析,形成语块结构信息,进一步地将语块结构信息作为候选词语,比如语块结构信息可以是非递归的名称短语、动词短语等等。
[0086] 经过上述处理,可以得到初步的候选词语。
[0087] 步骤303,根据预定条件对候选词语进行过滤,预定条件包括:符合预定词性、符合预定语块结构和符合预定词汇表中的至少一条;
[0088] 当获得若干个候选词语之后,为了取得更为准确的提取效果和节省计算量,可以对候选词语按照预定条件进行过滤,以便过滤掉与该领域的特性相关较差的词语。预定条件可以是判断每个候选词语的词性是否符合预定词性;判断每个候选词语的语块结构是否为预定语块结构;判断每个候选词语是否符合预定词汇表等判断条件中的任意一条或者几条的组合。比如,对于医药领域,药品化合物的名称经常是重要的候选词语,而药品化合物大部分都是名词(如硫酸XXX镁片),所以可以通过判断每个候选词语的词性是否为名词来进行过滤;又比如:对于体育领域,体育运动的名称经常是重要的候选词语,而体育运动的名称经常是“动词+名词”或者“动词+形容词”的短语(如射箭、跳高),所以可以判断每个候选词语的语块结构是否为“动词+名词”或者“动词+形容词”来进行过滤。
[0089] 经过上述处理后,可以得到过滤后的候选词语。
[0090] 步骤304,根据文档信息计算候选词语的词频TF;
[0091] 对于每个候选词语,可以根据文档信息计算词频TF。在本实施例中,文档信息wj等于文档地域权重信息Bj。对于一个目标文档dj中的词语ti,根据文档信息wj计算词频TFi,j为:
[0092]
[0093] 其中,TFi,j为候选词语ti在目标文档dj中的词频,ni,j为词语ti在目标文档dj中的出现次数,∑knk,j为目标文档dj中所有词语的出现次数之和。
[0094] 步骤305,根据文档信息计算候选词语的反向文档频率IDF;
[0095] 对于每个候选词语,还可以根据文档信息计算反向文档频率IDF。在本实施例中,文档信息wj等于文档地域权重信息Bj。对于词语ti,根据文档信息wj计算反向文档频率IDFi为:
[0096]
[0097] 其中,IDFi是候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是总文档库中包含词语ti的文档的文档信息wj之和。需要说明的是,此处的总文档库包括参考文档库和由上述至少一个目标文档形成的目标文档库。
[0098] 当计算 为0时,令 等于固定常数,固定常数的取值范围为(0,0.01)。
[0099] 步骤306,根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
[0100] 对于每一个候选词语,都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序,并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。
[0101] 综上所述,本实施例提供的词语提取方法,通过结合具体为文档地域权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题,可以达到提取到的关键词在地域上更加相关的效果。
[0102] 实施例四
[0103] 请参考图4,其示出了本发明实施例四提供的词语提取方法的方法流程图。本实施例中,以文档信息为文档时间权重信息为例来描述,该词语提取方法可以包括:
[0104] 步骤401,获取至少一个目标文档和与目标文档对应的文档信息,文档信息包括文档地域权重信息;
[0105] 当需要提取代表某一特定领域的词语时,首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地,还需要获取每个目标文档对应的文档信息,文档信息可以是文档时间权重信息。文档时间权重信息可以通过目标文档的创建时间和当前时间之间的差值来计算。具体地讲,对于包含若干篇目标文档的目标文档库中的某一指定目标文档dj,计算文档时间权重信息为:
[0106]
[0107] 其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,固定常数的取值范围为(0,0.01)。时间的粒度可以根据实施例的不同选择小时、天、周、月和年中的任一种,通常为天。
[0108] 另外,本实施例中还需要使用到参考文档库,参考文档库可以由若干篇(比如3000多篇)在领域色彩上较为中性的参考文档,参考文档可以是诸如人民日报之类的新闻类文档、综合性门户网站的网页资讯文档。因为新闻领域的文档是多个领域文档的一个集合,我们把新闻领域的文档可以看成常用语言,而特定领域具有专业性,在用词方面具有差异。也就是说,如果一个词语在诸如人民日报的文档上出现的频度较低而在特定领域的文档上出现得比较频繁,那么,这样的词语具有领域特点的概率更高。
[0109] 与上面同理的是,对于包含若干篇参考文档的参考文档库中的某一指定参考文档dj,也可以计算文档时间权重信息Cj为:
[0110]
[0111] 其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,固定常数的取值范围为(0,0.01)。
[0112] 或者,还可以将参考文档库和目标文档库结合为一个文档库,此时对于任何一个文档的文档时间权重信息的计算过程保持不变。
[0113] 步骤402,处理目标文档获得候选词语;
[0114] 对若干篇目标文档中的每一个目标文档可以进行提取候选词语的处理,该处理过程可以包括:第一,对至少一个目标文档的正文进行分词,以获得至少一个词语;第二,对分词获得的词语进行词性分析,词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等;第三,根据词语的词性识别词语的实体信息,实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等;第四,将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语,比如,预定词性可以是形容词+动词。
[0115] 上述的处理过程,可以使用开源分析工具来完成,比如,当目标文档是中文文档时,可以使用中国科学院ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System,汉语词法分析系统)、哈工大的HIT-IRLAS词法分析器等;当目标文档是英文文档时,可以使用Stanford Parse(也称斯坦福词法分析器)。优选地,还可以对候选词语进行浅层句法分析或者语块分析,形成语块结构信息,进一步地将语块结构信息作为候选词语,比如语块结构信息可以是非递归的名称短语、动词短语等等。
[0116] 经过上述处理,可以得到初步的候选词语。
[0117] 步骤403,根据预定条件对候选词语进行过滤,预定条件包括:符合预定词性、符合预定语块结构和符合预定词汇表中的至少一条;
[0118] 当获得若干个候选词语之后,为了取得更为准确的提取效果和节省计算量,可以对候选词语按照预定条件进行过滤,以便过滤掉与该领域的特性相关较差的词语。预定条件可以是判断每个候选词语的词性是否符合预定词性;判断每个候选词语的语块结构是否为预定语块结构;判断每个候选词语是否符合预定词汇表等判断条件中的任意一条或者几条的组合。比如,对于医药领域,药品化合物的名称经常是重要的候选词语,而药品化合物大部分都是名词(如硫酸XXX镁片),所以可以通过判断每个候选词语的词性是否为名词来进行过滤;又比如:对于体育领域,体育运动的名称经常是重要的候选词语,而体育运动的名称经常是“动词+名词”或者“动词+形容词”的短语(如射箭、跳高),所以可以判断每个候选词语的语块结构是否为“动词+名词”或者“动词+形容词”来进行过滤。
[0119] 经过上述处理后,可以得到过滤后的候选词语。
[0120] 步骤404,根据文档信息计算候选词语的词频TF;
[0121] 对于每个候选词语,可以根据文档信息计算词频TF。在本实施例中,文档信息wj等于文档时间权重信息Cj。对于一个目标文档dj中的词语ti,根据文档信息wj计算词频TFi,j为:
[0122]
[0123] 其中,TFi,j为候选词语ti在目标文档dj中的词频,ni,j为词语ti在目标文档dj中的出现次数,∑knk,j为目标文档dj中所有词语的出现次数之和。
[0124] 步骤405,根据文档信息计算候选词语的反向文档频率IDF;
[0125] 对于每个候选词语,还可以根据文档信息计算反向文档频率IDF。在本实施例中,文档信息wj等于文档时间权重信息Cj。对于词语ti,根据文档信息wj计算反向文档频率IDFi为:
[0126]
[0127] 其中,IDFi候选词语ti的反向文档频率,|D|是总文档库中的文档数之和, 是总文档库中包含词语ti的文档的文档信息wj之和。需要说明的是,此处的总文档库包括参考文档库和由上述至少一个目标文档形成的目标文档库。
[0128] 当计算 为0时,令 等于固定常数,固定常数的取值范围为(0,0.01)。
[0129] 步骤406,根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
[0130] 对于每一个候选词语,都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序,并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。
[0131] 综上所述,本实施例提供的词语提取方法,通过结合具体为文档时间权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题,可以达到提取到的关键词在时间上更加相关的效果。比如在诸如体育、娱乐、打折或者快讯等时间属性很强的领域中,根据上述方法可以获得和时间相关的热点词语。
[0132] 需要说明的是,在其它实施例中,文档信息还可以是文档权重信息与文档时间权重信息的乘积、文档地域权重信息和文档时间权重信息的乘积,比如,wj=Aj*Cj。
[0133] 实施例五
[0134] 请参考图5,其示出了本发明实施例五提供的词语提取装置的结构方框图。该词语提取装置可以包括文档获取模块520、文档处理模块540、参数计算模块560和词语提取模块580。
[0135] 文档获取模块520用于获取至少一个目标文档和与每个目标文档对应的文档信息,文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种。
[0136] 文档处理模块540用于处理至少一个目标文档获得候选词语;
[0137] 参数计算模块560用于根据文档信息计算词频TF和反向文档频率IDF;
[0138] 词语提取模块580用于根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。
[0139] 具体地讲,文档获取模块520可以具体包括:文档信息计算单元522,如图6所示。文档信息计算单元522用于计算文档信息wj为文档权重信息、文档地域权重信息、文档时间权重信息、文档权重信息与文档时间权重信息的乘积、文档地域权重信息与文档时间权重信息中的任意一种。
[0140] 文档权重信息为:
[0141]
[0142] 其中,hits(dj)为文档dj的点击数,Max(hits(di),1
[0143] 文档地域权重信息为:
[0144]
[0145] 其中,hits(dj)为文档dj在预定地域的点击数,Max(hits(di),1
[0146] 文档时间权重信息为:
[0147]
[0148] 其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,固定常数的取值范围为(0,0.01)。
[0149] 上述文档dj为目标文档时,上述文档库为包括所述至少一个目标文档的目标文档库;上述文档dj为参考文档时,上述文档库为参考文档库。
[0150] 具体地讲,文档处理模块540可以具体包括:词语分割单元542、词性分析单元544、信息识别单元546和词语候选单元548,如图7所示。其中,词语分割单元542用于对至少一个目标文档的正文进行分词,以获得至少一个词语;词性分析单元544用于对词语分割单元542获得的词语进行词性分析;信息识别单元546用于根据词性分析单元544分析到的词语的词性识别词语的实体信息;词语候选单元548用于将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。
[0151] 具体地讲,参数计算模块560可以具体包括:TF计算单元562和IDF计算单元564,如图8所示。
[0152] TF计算单元562用于对于目标文档dj中的词语ti,根据文档信息wj计算词频TFi,j为:
[0153]
[0154] 其中,TFi,j为候选词语ti在目标文档dj中的词频,ni,j为词语ti在目标文档dj中的出现次数,∑knk,j为目标文档dj中所有词语的出现次数之和。
[0155] IDF计算单元564用于对于文档库中的词语ti,根据文档信息wj计算反向文档频率IDFi为:
[0156]
[0157] 其中,IDFi是候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是总文档库中包含词语ti的文档的文档信息wj之和,总文档库包括参考文档库和文档获取模块520获取到的至少一个目标文档形成的目标文档库。
[0158] 当计算 为0时,令 等于固定常数,固定常数的取值范围为(0,0.01)。
[0159] 进一步地,词语抽取装置,还可以包括:词语过滤模块550,如图9所示。词语过滤模块550用于根据预定条件对候选词语进行过滤,预定条件包括:符合预定词性、符合预定语块结构和符合预定词汇表中的至少一条。
[0160] 综上所述,本实施例提供的词语提取装置,通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。
[0161] 需要说明的是:上述实施例提供的词语提取装置在提取词语时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的词语提取装置与词语提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0162] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0163] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。