一种基于B2B平台的核心关键词自动提取方法转让专利

申请号 : CN201410765503.8

文献号 : CN104408173B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐飞

申请人 : 焦点科技股份有限公司

摘要 :

本发明公开了一种基于B2B平台的核心关键词自动提取方法,针对英文产品名称,基于英文语法和语义,以提取核心关键词。本发明提供的基于B2B平台的核心关键词自动提取方法,在大数据并发计算中、在英文单词各种时态转换成原型时、根据一组规则进行单词处理并进行自我学习方面均具有明显优势。

权利要求 :

1.一种基于B2B平台的核心关键词自动提取方法,其特征在于:包括如下步骤:

(1)将B2B平台中的用户设置产品名称、搜索词以及行业热门词作为词库源,对词库源进行预处理后保存在数据集市中,构成产品名称核心词库;对词库源进行预处理的方法为:对用户设置产品名称,首先采用用户设置产品名称高频使用的原则,剔除其中使用次数较少的用户设置产品名称;再将对应用户设置产品名称的用户设置关键词保存在用户设置关键词库中;

对搜索词,首先过滤掉包括标点和特殊符号在内的非用词;再采用搜索词高频使用的原则,剔除其中最近半年使用频率较小的搜索词;然后通过核心分词处理器进行预处理,形成搜索关键词保存在搜索高频词库中;

对行业热门词,按行业分类,首先过滤掉包括标点和特殊符号在内的非用词;再采用行业热门词高频使用的原则,剔除其中使用次数较少的行业热门词;然后通过核心分词处理器进行预处理,形成行业热门关键词保存在行业高频词库中;

(2)将当前网站上所有有效的产品名称,首先过滤掉包括标点和特殊符号在内的非用词;然后通过核心分词处理器进行预处理,将所得产品名称保存在产品高频词库中;

(3)将产品高频词库中的产品名称与产品名称核心词库进行匹配,将匹配得到的产品名称去重后按照产品名称中出现的先后顺序输出,每个产品名称一条记录,保存在数据集市中,构成产品名称的核心关键词;匹配规则为:①如果产品名称中出现搜索关键词,并且该搜索关键词为用户设置关键词;

②如果产品名称中出现搜索关键词,并且该搜索关键词为行业热门关键词;

将满足上面任意一条匹配规则的产品名称中出现的搜索关键词定义为产品名称的核心关键词;

所述核心分词处理器包括分词处理器、词缀处理器、词根处理器、单复数处理器、时态处理器、相似度处理器、单词重组模块、关键词索引库和学习库,其中:所述分词处理器,对英文的产品名称,通过遍历空格进行拆分,按照单词和词组来进行分词处理,组合形成<产品名称,关键词>序列,并根据产品ID进行排序;

所述词缀处理器,对分词处理器处理后产生的数据,去除各单词前/后缀,将单词的其他形式转化为名词,或将派生词转化为名词,将得到的名词与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;

所述词根处理器,对词缀处理器处理后产生的数据,根据词根算法依据单词的词性进行词根提取,再将提取的词根与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;

所述单复数处理器,对词根处理器处理后产生的数据,进行单复数处理,将单词转换为原型,更新形成<产品名称,关键词>序列;

所述时态处理器,对单复数处理器处理后产生的数据,进行时态处理,将单词转换为原型,更新形成<产品名称,关键词>序列;

所述相似度处理器,当匹配得到的单词存在两个以上含义时,通过相似度处理器计算出最大相似度的词意;

所述单词重组模块,对时态处理器处理后产生的数据,首先通过拼词词典检查、词形距离和最小编辑距离计算、相似键法则处理,剔除拼写出错的单词;接着通过学习库的处理,给出正确拼写的单词,再组合成正确数据结构的数据,存放至缓存中;最后根据行业类型,对缓存中的数据建立索引,输出至核心关键词索引库中;

所述关键词索引库,将缓存中的数据建立成核心关键词索引文本文件;同时,针对单词重组模块输出的行业核心词建立行业核心词索引文本文件,针对单词重组模块输出的搜索核心词建立搜索核心词索引文本文件;

所述学习库,包括学习器、知识库、执行器和评分器四个基本部分,当词缀处理器、词根处理器、产品相关处理器和单词重组模块产生的数据输出至学习库,数据首先进入学习器;

学习器结合知识库中的知识对输入数据进行学习,先建立一组规则,然后计算规则权重和变量权重,将建立的规则及计算量输出至知识库;知识库对输入数据进行一系列的思维过程以获得知识,所述知识是指一系列的有规律的算法,若获得的算法已经存在知识库中,则检查是否满足更新知识库的条件,若满足更新条件则对知识库进行更新,否则将数据返回学习器中;执行器对知识库获得的知识进行执行,评分器对执行器执行的结果进行评分,若评分合格,则该知识满足更新知识库的条件。

2.根据权利要求1所述的基于B2B平台的核心关键词自动提取方法,其特征在于:所述步骤(2)中,产品高频词库来源于产品信息,行业高频词库包含行业信息,需要通过产品相关处理器对产品信息进行相关性处理;产品信息包括产品ID和产品关键词,行业信息包括行业ID和行业热门关键词;

将各产品名称对应的产品关键词行业类型进行分类,具体包括如下步骤:

(21)通过单词匹配对产品关键词和行业热门关键词进行匹配,根据共同出现的特征,确定该产品所属行业类别;

(22)根据确定的行业类别,将产品关键词输出至同义词语料库中,根据产品关键词与同义词语料库中共同出现的词来扩大产品关键词;

(23)首先剔除词库中没有的产品关键词,然后将生僻的和无法匹配的产品关键词输出至学习库中,将剩下的产品关键词输出至核心分词处理器中进行预处理。

3.根据权利要求1所述的基于B2B平台的核心关键词自动提取方法,其特征在于:所述分词处理器,对英文的产品名称,通过遍历空格进行拆分,包括如下步骤:①将产品名称按照空格拆分为单词;

②去除包括标点和特殊符号在内的非用词,对剩余单词按照0,1,2,…,N进行编号;

③对于第n个单词,将第n个单词和第n+i个单词进行匹配:若第n个单词和第n+i个单词为词组,则n=n+1,直至n=N;否则,第n个单词和第n+i个单词为单词,i=i+1,直至n+i=N;

n=0,1,2,…,N,i=1,2,…。

说明书 :

一种基于B2B平台的核心关键词自动提取方法

技术领域

[0001] 本发明涉及一种基于B2B平台的核心关键词自动提取方法。

背景技术

[0002] 电子商务发展至今,已经积累了海量的信息,以及大量的用户,包括访问者、交易者、信息提供者等;而信息的高度重复占用了大量的服务器资源。
[0003] 当使用搜索引擎进行关键词搜索时,需要将关键词提交到服务器中,服务器根据关键词在海量数据中进行搜索,找到相关的一组信息后返回搜索结果;如果是并发性的搜索,则会对服务器产生很大的影响。关键词的质量对搜索的效率(搜索速度)和质量(搜索结果的相关性)具有很大的影响,因此需要建立一个核心关键词自动提取的方法,将关键词(结合其他数据)通过一系列的过滤、分词、匹配、重组等处理,以得出核心关键词,让服务器根据核心关键词进行搜索,以提高搜索的效率和质量。
[0004] 产品信息提供者为其产品设置的关键词以及一批优质的相关词,对产品特性的准确、全面反映有很大的帮助。理论上,对产品信息提供者设置的关键词、相关词以及产品名称,采用分词算法、词干算法、单词重组算法等处理后,可以提取出价值词并建立索引,从而最终提取出核心关键词。
[0005] 国内现有的一些分词方法较为单一,特别是针对英文核心关键词的自动提取,只针对连续单字进行匹配提取,无法匹配连续词组或非连续单词,容易错失很多有价值的核心关键词,比如:
[0006] 中国专利CN200710122439.1,给出了一种分词系统及方法,其利用切分标记分割字符串,然后根据机器分词结果中的连续单字进行识别,最后提取出核心词。但在该方法处理结果中可能会导致一些核心价值词的丢失,并且通过机械分词方法再对分割字符串进行匹配,在大数据量中的效率是非常低的。
[0007] 中国专利CN200910083775.9,给出了一种分词处理方法及全文检索方法,其通过创建基于数据库特征项的新分词系统,并将所述数据库特征项添加到所述新分词系统中;以及将用户提交的查询词以所述数据库特征项作为词表进行分词处理以生成分词结果集。
该方法选定数据库中字段作为特征项进行分词,利用了数据库特征项与数据库内文本的关联关系,有效地改善了一元、二元、预置词表等传统分词方法的分词准确度;但是该方法是基于预置词表的相关词库来进行分词的,并且这种方法在处理英文词时效果低下,并且没有涉及词干(单词原型)的提取及。
[0008] 准确分词、英文单词中词干的准确匹配是海量数据中英文核心关键词自动提取的重要内容,也是提高海量数据搜索效率和质量的重要内容。

发明内容

[0009] 发明目的:为了克服现有技术中存在的不足,本发明提供一种基于B2B平台的核心关键词自动提取方法,针对英文产品名称,基于英文语法和语义,以提取核心关键词。
[0010] 技术方案:为实现上述目的,本发明采用的技术方案为:
[0011] 一种基于B2B平台的核心关键词自动提取方法,包括如下步骤:
[0012] (1)将B2B平台中的用户设置产品名称、搜索词以及行业热门词作为词库源,对词库源进行预处理后保存在数据集市中,构成产品名称核心词库;对词库源进行预处理的方法为:
[0013] 对用户设置产品名称,首先采用用户设置产品名称高频使用的原则,剔除其中使用次数较少的用户设置产品名称;再将对应用户设置产品名称的用户设置关键词保存在用户设置关键词库中;
[0014] 对搜索词,首先过滤掉包括标点和特殊符号在内的非用词;再采用搜索词高频使用的原则,剔除其中最近半年使用频率较小的搜索词;然后通过核心分词处理器进行预处理,形成搜索关键词保存在搜索高频词库中;
[0015] 对行业热门词,按行业分类,首先过滤掉包括标点和特殊符号在内的非用词;再采用行业热门词高频使用的原则,剔除其中使用次数较少的行业热门词;然后通过核心分词处理器进行预处理,形成行业热门关键词保存在行业高频词库中;
[0016] (2)将当前网站上所有有效的产品名称,首先过滤掉包括标点和特殊符号在内的非用词;然后通过核心分词处理器进行预处理,将所得产品名称保存在产品高频词库中;
[0017] (3)将产品高频词库中的产品名称与产品名称核心词库进行匹配,将匹配得到的产品名称去重后按照产品名称中出现的先后顺序输出,每个产品名称一条记录,保存在数据集市中,构成产品名称的核心关键词;匹配规则为:
[0018] ①如果产品名称中出现搜索关键词,并且该搜索关键词为用户设置关键词;
[0019] ②如果产品名称中出现搜索关键词,并且该搜索关键词为行业热门关键词;
[0020] 将满足上面任意一条匹配规则的产品名称中出现的搜索关键词定义为产品名称的核心关键词。
[0021] 所述步骤(2)中,产品高频词库来源于产品信息,行业高频词库包含行业信息,需要通过产品相关处理器对产品信息进行相关性处理;产品信息包括产品ID和产品关键词,行业信息包括行业ID和行业热门关键词;
[0022] 将各产品名称对应的产品关键词行业类型进行分类,具体包括如下步骤:
[0023] (21)通过单词匹配对产品关键词和行业热门关键词进行匹配,根据共同出现的特征,确定该产品所属行业类别;
[0024] (22)根据确定的行业类别,将产品关键词输出至同义词语料库中,根据产品关键词与同义词语料库中共同出现的词来扩大产品关键词;
[0025] (23)首先剔除词库中没有的产品关键词,然后将生僻的和无法匹配的产品关键词输出至学习库中,将剩下的产品关键词输出至核心分词处理器中进行预处理。
[0026] 所述核心分词处理器包括分词处理器、词缀处理器、词根处理器、单复数处理器、时态处理器、相似度处理器、单词重组模块、关键词索引库和学习库,其中:
[0027] 所述分词处理器,对英文的产品名称,通过遍历空格进行拆分,按照单词和词组来进行分词处理,组合形成<产品名称,关键词>序列,并根据产品ID进行排序;
[0028] 所述词缀处理器,对分词处理器处理后产生的数据,去除各单词前/后缀,将单词的其他形式转化为名词,或将派生词转化为名词,将得到的名词与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;
[0029] 所述词根处理器,对词缀处理器处理后产生的数据,根据词根算法依据单词的词性进行词根提取,再将提取的词根与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;
[0030] 所述单复数处理器,对词根处理器处理后产生的数据,进行单复数处理,将单词转换为原型,更新形成<产品名称,关键词>序列;
[0031] 所述时态处理器,对单复数处理器处理后产生的数据,进行时态处理,将单词的转换为原型,更新形成<产品名称,关键词>序列;
[0032] 所述相似度处理器,当匹配得到的单词存在两个以上含义时,通过相似度处理器计算出最大相似度的词意;
[0033] 所述单词重组模块,对时态处理器处理后产生的数据,首先通过拼词词典检查、词形距离和最小编辑距离计算、相似键法则处理,剔除拼写出错的单词;接着通过学习库的处理,给出正确拼写的单词,再组合成正确数据结构的数据,存放至缓存中;最后根据行业类型,对缓存中的数据建立索引,输出至核心关键词索引库中;
[0034] 所述关键词索引库,将缓存中的数据建立成核心关键词索引文本文件;同时,针对单词重组模块输出的行业核心词建立行业核心词索引文本文件,针对单词重组模块输出的搜索核心词建立搜索核心词索引文本文件;搜索核心词库中的高频词即构成了前面描述的搜索高频词库,行业核心词库中的高频词构成了前面描述的行业高频词库,核心关键词库中的高频词构成了前面描述的产品名称高频词库;
[0035] 所述学习库,包括学习器、知识库、执行器和评分器四个基本部分,当词缀处理器、词根处理器、产品相关处理器和单词重组模块产生的数据输出至学习库,数据首先进入学习器;学习器结合知识库中的知识对输入数据进行学习,先建立一组规则,然后计算规则权重和变量权重,将建立的规则及计算量输出至知识库;知识库对输入数据进行一系列的思维过程以获得知识,所述知识是指一系列的有规律的算法,若获得的算法已经存在知识库中,则检查是否满足更新知识库的条件,若满足更新条件则对知识库进行更新,否则将数据返回值学习器中;执行器对知识库获得的知识进行执行,评分器对执行器执行的结果进行评分,若评分合格,则该知识满足更新知识库的条件。
[0036] 所述分词处理器,对英文的产品名称,通过遍历空格进行拆分,包括如下步骤:
[0037] ①将产品名称按照空格拆分为单词;
[0038] ②去除包括标点和特殊符号在内的非用词,对剩余单词按照0,1,2,…,N进行编号;
[0039] ③对于第n个单词,将第n个单词和第n+i个单词进行匹配:若第n个单词和第n+i个单词为词组,则n=n+1,直至n=N;否则,第n个单词和第n+i个单词为单词,i=i+1,直至n+i=N;n=0,1,2,…,N,i=1,2,…。
[0040] 有益效果:本发明提供的基于B2B平台的核心关键词自动提取方法,相较于现有技术,具有如下优点:
[0041] 1、在大数据并发计算中具有明显优势:通过分布式内存数据库能够为用户提供高性能、高可用、可伸缩的数据计算服务,通过将数据分布到多个计算服务节点,直接在内存中计算、管理和维护数据,对外提供统一的访问接口以及可选的冗余备份机制;
[0042] 2、在英文单词各种时态转换成原型时具有明显优势:通过一系列算法将各种具有英文时态的单词,转化为原型;
[0043] 3、根据一组规则进行单词处理并进行自我学习方面具有明显优势:针对英文单词本身的特征和常见的拼写错误,给出了一种英文单词拼写纠错的方法。

附图说明

[0044] 图1为学习库的结构框图;
[0045] 图2为本发明方法的架构框图;
[0046] 图3为本发明方法的实施流程图。

具体实施方式

[0047] 一种基于B2B平台的核心关键词自动提取方法,包括如下步骤:
[0048] (1)将B2B平台中的用户设置产品名称、搜索词以及行业热门词作为词库源,对词库源进行预处理后保存在数据集市中,构成产品名称核心词库;对词库源进行预处理的方法为:
[0049] 对用户设置产品名称,首先采用用户设置产品名称高频使用的原则,剔除其中使用次数较少的用户设置产品名称;再将对应用户设置产品名称的用户设置关键词保存在用户设置关键词库中;
[0050] 对搜索词,首先过滤掉包括标点和特殊符号在内的非用词;再采用搜索词高频使用的原则,剔除其中最近半年使用频率较小的搜索词;然后通过核心分词处理器进行预处理,形成搜索关键词保存在搜索高频词库中;
[0051] 对行业热门词,按行业分类,首先过滤掉包括标点和特殊符号在内的非用词;再采用行业热门词高频使用的原则,剔除其中使用次数较少的行业热门词;然后通过核心分词处理器进行预处理,形成行业热门关键词保存在行业高频词库中;
[0052] (2)将当前网站上所有有效的产品名称,首先过滤掉包括标点和特殊符号在内的非用词;然后通过核心分词处理器进行预处理,将所得产品名称保存在产品高频词库中;
[0053] (3)将产品高频词库中的产品名称与产品名称核心词库进行匹配,将匹配得到的产品名称去重后按照产品名称中出现的先后顺序输出,每个产品名称一条记录,保存在数据集市中,构成产品名称的核心关键词;匹配规则为:
[0054] ①如果产品名称中出现搜索关键词,并且该搜索关键词为用户设置关键词;
[0055] ②如果产品名称中出现搜索关键词,并且该搜索关键词为行业热门关键词;
[0056] 将满足上面任意一条匹配规则的产品名称中出现的搜索关键词定义为产品名称的核心关键词。
[0057] 所述步骤(2)中,产品高频词库来源于产品信息,行业高频词库包含行业信息,需要通过产品相关处理器对产品信息进行相关性处理;产品信息包括产品ID和产品关键词,行业信息包括行业ID和行业热门关键词;
[0058] 将各产品名称对应的产品关键词行业类型进行分类,具体包括如下步骤:
[0059] (21)通过单词匹配对产品关键词和行业热门关键词进行匹配,根据共同出现的特征,确定该产品所属行业类别;
[0060] (22)根据确定的行业类别,将产品关键词输出至同义词语料库中,根据产品关键词与同义词语料库中共同出现的词来扩大产品关键词;
[0061] (23)首先剔除词库中没有的产品关键词,然后将生僻的和无法匹配的产品关键词输出至学习库中,将剩下的产品关键词输出至核心分词处理器中进行预处理。
[0062] 所述核心分词处理器包括分词处理器、词缀处理器、词根处理器、单复数处理器、时态处理器、相似度处理器、单词重组模块、关键词索引库和学习库,其中:
[0063] 所述分词处理器,对英文的产品名称,通过遍历空格进行拆分,按照单词和词组来进行分词处理,组合形成<产品名称,关键词>序列,并根据产品ID进行排序;
[0064] 所述词缀处理器,对分词处理器处理后产生的数据,去除各单词前/后缀,将单词的其他形式转化为名词,或将派生词转化为名词,将得到的名词与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;
[0065] 所述词根处理器,对词缀处理器处理后产生的数据,根据词根算法依据单词的词性进行词根提取,再将提取的词根与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列;
[0066] 所述单复数处理器,对词根处理器处理后产生的数据,进行单复数处理,将单词转换为原型,更新形成<产品名称,关键词>序列;
[0067] 所述时态处理器,对单复数处理器处理后产生的数据,进行时态处理,将单词的转换为原型,更新形成<产品名称,关键词>序列;
[0068] 所述相似度处理器,当匹配得到的单词存在两个以上含义时,通过相似度处理器计算出最大相似度的词意;
[0069] 所述单词重组模块,对时态处理器处理后产生的数据,首先通过拼词词典检查、词形距离和最小编辑距离计算、相似键法则处理,剔除拼写出错的单词;接着通过学习库的处理,给出正确拼写的单词,再组合成正确数据结构的数据,存放至缓存中;最后根据行业类型,对缓存中的数据建立索引,输出至核心关键词索引库中;
[0070] 所述关键词索引库,将缓存中的数据建立成核心关键词索引文本文件;同时,针对单词重组模块输出的行业核心词建立行业核心词索引文本文件,针对单词重组模块输出的搜索核心词建立搜索核心词索引文本文件;
[0071] 所述学习库,包括学习器、知识库、执行器和评分器四个基本部分,当词缀处理器、词根处理器、产品相关处理器和单词重组模块产生的数据输出至学习库,数据首先进入学习器;学习器结合知识库中的知识对输入数据进行学习,先建立一组规则,然后计算规则权重和变量权重,将建立的规则及计算量输出至知识库;知识库对输入数据进行一系列的思维过程以获得知识,所述知识是指一系列的有规律的算法,若获得的算法已经存在知识库中,则检查是否满足更新知识库的条件,若满足更新条件则对知识库进行更新,否则将数据返回值学习器中;执行器对知识库获得的知识进行执行,评分器对执行器执行的结果进行评分,若评分合格,则该知识满足更新知识库的条件。
[0072] 下面就核心分词处理器的各个组成部分加以具体描述。
[0073] 分词处理器,对英文的产品名称,通过遍历空格进行拆分,包括如下步骤:
[0074] ①将产品名称按照空格拆分为单词;
[0075] ②去除包括标点和特殊符号在内的非用词,对剩余单词按照0,1,2,…,N进行编号;
[0076] ③对于第n个单词,将第n个单词和第n+i个单词进行匹配:若第n个单词和第n+i个单词为词组,则n=n+1,直至n=N;否则,第n个单词和第n+i个单词为单词,i=i+1,直至n+i=N;n=0,1,2,…,N,i=1,2,…。
[0077] 例如:
[0078] 产品名称为:Collapsible Silicone Lunch Box Cooker Food Container[0079] 按空格拆分为:Collapsible/Silicone/Lunch/Box/Cooker/Food/Container[0080] 单词组查找:对于单词Collapsible,先判断Collapsible Silicone是否为词组:若Collapsible Silicone为词组,则结束本次循环,开始判断Silicone;若Collapsible Silicone不为词组,则判断Collapsible Lunch是否为词组。按照该规则,得到如下表格:
[0081] 表1分词处理器得到的单词/词组拆分结果
[0082]产品ID Word(关键词) Type(类型)
1 Collapsible 0
[0083]1 Silicone 1
1 Lunch Box 1
1 Cooker 0
1 Food Container 1
[0084] 表中,类型中1为词组,0为单词,这里假设Lunch Box和Food Container为词组。
[0085] 词缀处理器,对分词处理器处理后产生的数据,去除各单词前/后缀,将单词的其他形式转化为名词,或将派生词转化为名词,例如将pronounce转化为pronunciation、将explain转化为explanation等。将得到的名词与字典进行匹配:对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列。
[0086] 词根处理器,对词缀处理器处理后产生的数据,根据词根算法依据单词的词性进行词根提取,再将提取的词根与字典进行匹配;对于无法与字典相匹配的单词,将相应的单词输出至学习库中;对于能够与字典相匹配的单词,更新形成<产品名称,关键词>序列。
[0087] 单复数处理器,对词根处理器处理后产生的数据,进行单复数处理,将单词转换为原型,具体转换方法如下:
[0088] ①对一般单词,通过在单词末尾加上后缀-s构成复数形式,当单词结尾为清辅音时读[s],当单词结尾为浊辅音或元音时读[z];对于这类单词的复数形式,通过去除结尾的字母s以转换为原型;比如单词shoes,转换为原型shoe;
[0089] ②对以s、z、x、ch、sh结尾的一般单词,通过在单词末尾加上后缀-es构成复数;对于这类单词的复数形式,通过去除结尾的字母es以转换为原型;比如单词buses,转换为原型bus;
[0090] ③对于以辅音字母y结尾的一般单词,通过将结尾的y变为i,再加上后缀-es构成复数;对于这类单词的复数形式,通过将结尾的ies变换为y以转换为原型;比如单词candies,转换为原型candy;
[0091] ④对以o结尾的一般单词,若为特殊词或缩写词,则通过在单词末尾加上后缀-es构成复数,否则,通过在单词末尾加上后缀-s构成复数;对于这类单词的复数形式,首先匹配单词是否为特殊词或缩写词,若是,则通过去除结尾的字母es以转换为原型,否则,通过去除结尾的字母s以转换为原型;比如单词tomatoes,转换为原型tomato;
[0092] ⑤特殊词库,用以存放特殊的单复数变换形式的单词,比如piano、photo、roof、affix、fish、men、child,在以下的几种情况中,均首先对单词进行特殊词库匹配,若不能与特殊词库中的单词匹配,则根据具体情况加以变换;
[0093] ⑥对于以辅音字母f或fe结尾的一般单词,通过将结尾的f或fe变为ves构成复数;对于这类单词的复数形式,通过将结尾的ves变换为f或fe以转换为原型;比如单词knives,转换为原型knife;
[0094] ⑦对于以辅音字母is结尾的一般单词,通过将结尾的is变为es构成复数;对于这类单词的复数形式,通过将结尾的es变换为is以转换为原型;比如单词axes,转换为原型axis;
[0095] ⑧对于以辅音字母ix结尾的一般单词,通过将结尾的ix变为ices构成复数;对于这类单词的复数形式,通过将结尾的ices变换为ix以转换为原型;比如单词appendices,转换为原型appendix;
[0096] ⑨采用语义分析器,对特殊词虽然以s结尾,但并不是复数,如果分析出本书不具备复数形式则保留原型,否则去除s;比如单词goods解释为货物。
[0097] 时态处理器,对单复数处理器处理后产生的数据,进行时态处理,将单词的转换为原型;本发明通过处理一般现在时态,来处理随时间而改变的特征,作为具有各种可能性的树型分叉的模型,分为如下几种特征:
[0098] ①通过算法处理一般过去时态,来处理时间点为过去改变的特征;
[0099] ②通过算法处理一般将来时态,来处理时间点为将来改变的特征;
[0100] ③通过算法处理过去将来时态,来处理时间点为过去将来改变的特征[0101] 本发明定义Always、Sometime、Until为时序状态操作符来控制逻辑:当程序匹配到Always单词时,取出Always单词之后剩余部分内容执行处理;当程序匹配到Sometime时,取出Sometime前后内容按逻辑执行处理;当程序匹配到Until时,处理方式同Sometime。
[0102] 相似度处理器,当匹配得到的单词存在两个以上含义时,通过相似度处理器计算出最大相似度的词意。例如,对于匹配得到的单词park,我们无法明确其所指为公园还是停车场,此时通过相似度处理器可以明确单词的含义。
[0103] 本发明采用基于向量空间的词语相似度算法的高维处理法则,通过加入一个权重矩阵,进行特征向量的提取,以减少相似度的复杂性,提高效率。
[0104] 具体为:以T表示特征项,是指出现在文本D中且能够代表文本D内容的基本语言单位,这样文本D就可以使用特性项T的集合来表示,即D(T1,T2,…,Tk,…,Tn);比如一篇文本有a,b,c和d四个特征项,那么该文本就可以表示为D(a,b,c,d)。对于含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即D=D(T1w1,T2w2,…,Tkwk,…,Tnwn),简记为D=DW=D(w1,w2,…,wk,…,wn),将D称为文本D的向量表示,wk表示Tk的权重。在前面的例子中,假设a,b,c和d四个特征项的权重分别为30,20,20和10,那么给文本向量表示为D=D(30,20,20,10)。在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)用向量之间的夹角的余弦表示,公式为:
[0105]
[0106] Sim(D1,D2)值越大,表示D1和D2之间的相似度越大。
[0107] 单词重组模块,对时态处理器处理后产生的数据,首先通过拼词词典检查、词形距离和最小编辑距离计算、相似键法则处理,剔除拼写出错的单词,给出正确拼写,并构建一个无歧义的误拼字典;在进行拼写检查时,查找误拼字典,如果能够匹配,则表示单词拼写错误,对该词进行纠错。误拼字典的建立方法如下。
[0108] 对于训练样本中所有单词出现之和,根据训练语料统计训练语料中每个单词的出现次数、频率,计算出前置概率。对于语料中没有出现的单词,通过平滑处理计算1/N,N为训练样本中所有单词的出现次数之和。
[0109] 条件概率采用1/M,M为所有可能的单词之和,例如light单词的每一个猜测单词的条件概率1/290,290是编辑距离为1的所有可能的猜测。
[0110] 将26个字母表示为矩阵,通过算法算出每个字母在键盘上的距离。
[0111] 计算条件概率p(D|h),假设该单词是我们输入的单词的概率大小,这里使用编辑距离的概念,计算了所有的编辑距离为1的可能编辑。
[0112] 根据贝叶斯原理,后置概率与每个输入的生成概率p(D)无关,所以p(h|D)∝P(h)×p(D|h),计算出最可能的拼写。
[0113] 在处理英文单词时,单词有很大的冗余度,具备以下几个统计特征:
[0114] ①首字母包含英文单词的重要信息;
[0115] ②在大多数误拼的情况下,单词中唯一字母改变的概率较小;
[0116] ③唯一辅音序列比唯一元音序列更体现特性;
[0117] ④误拼单词中双写误拼概率较大;比如transposition->transposition,Insertion->insertrion。
[0118] 基于以上统计特征,采用构造容错函数为:
[0119] 首字母+唯一辅音字母的原始序列+唯一元音字母的原始序列
[0120] 描述:
[0121] 设字母集Σ={‘a’,’b’….’z’,’A’,’B’….’Z’};
[0122] 英文单词记为L1L2…..Lm,其中Li(1≤i≤m)∈Σ,m为词长;
[0123] 元音字母V={‘a’,’e’,’i’,’o’,’u’,’A’,’T’,’O’,U};
[0124] 辅音字母C=Σ-V;
[0125] 单词第一个字母
[0126] fLetter=L1;
[0127] 单词中元音字母的唯一序列为V_seq,原音字母个数为Vm,单词中辅音字母的唯一序列为C_seq,辅音字母的个数为Cm。
[0128] 容错函数=fLetter+V_seq+C_seq,设字典中单词Wi的容错值为Si,预处理校对单词容错值为Sp,如果Sp=Si,则字典中容错值Si对应的单词为纠错词。
[0129] 按照本方法处理的平均扫描次数为:
[0130] 误拼单词生成容错值,设单词长度为m,除首字母外,需要扫描总字母数为m-1次。
[0131] 按照本方法处理平均比较次数为:
[0132] 误拼单词生成容错值时需要生成唯一的元音字母原始序列和唯一的辅音字母原始序列。除首字母外,单词中元音字母个数为Vm,辅音字母的个数为Cm,其中Vm+Cm=m-1。
[0133] 本方方法采用平均比较次数计算方法为:
[0134] CT=1+2+….+Vm-1+1+2+…+Cm-1
[0135] =[(m-1)2+(m-1)]/2-VmCm-2
[0136] =[(m-1)2+(m-1)]/2
[0137] 如果当前英文单词的平均词长为7,那么平均比较次数为21次。
[0138] 本发明采用的训练语料库采用方法为:
[0139] 输入原始大规模语料,首先对每一句正确的词汇进行自动评价,并给出一个评分,然后按质量评分数的高低对正确的词汇进行排序,并且在质量评分的基础上考虑覆盖度的问题,动态选取一个集合,输出从原始语料库中选取的集合作为训练语料库。
[0140] 整个框架分为两个部分,质量评价部分和基于覆盖度的训练语料提取。
[0141] 本发明对于质量评价部分,从现有语料中选取一个高质量的相对规模较小的训练集合,先考虑质量较好的个体,定义质量高的要满足以下条件:
[0142] 源语句和目标语句都是比较流畅的语句;
[0143] 本发明对于质量的评价,用Q(f,e)来表示文本对(f,e)的质量;
[0144] 源语句和目标语句采用互译法则比较准确;
[0145]
[0146] k表示模型整合的特征个数,e表示源语句,f表示目标语句,Wi表示每个对应特征的权重,每个权重可在人工构造的训练集上通过自动的方法获取,
[0147] 当k=5时,P1到P5的依次次序为Pdic(f,e),PLM(e),PLM(f),PTM(f|e),PTM(e|f);
[0148] 覆盖度大小的衡量分别比较三个指标:
[0149] 单词覆盖、n-gram覆盖、翻译覆盖;
[0150] 用候选训练语料库中的第一句对作为所选出的训练语料中子集的第一个元素,并向后进行扫描执行,如果当前句对在已选训练语料子集中有新的短语翻译,则优先将该句添加到训练语料子集中。
[0151] 学习库,分为为四个部分,学习器、知识库、执行器与评分器等四个基本部分组成,各个部分之间的关系如图1所示。
[0152] 本发明采用的学习器目的是用算法去评价学习环节推荐的假设,由一系列的规则组成,如果执行一个算法需要调用多条规则,学习器就要从知识库中取出知识,并且按规则进行获取,最后通过执行器执行。
[0153] 本发明采用的知识库目的是知识的表现形式,这里存放特征向量、规则算法、产生式规则、过程与函数、语义网络和框架,遵循可修改性和可扩充性,并且也是元数据知识库,是一种基于模型的方法。
[0154] 本发明采用执行器目的之将一组逻辑进行执行操作,当学习器获取一种新的知识时,那么通过执行器进行执行,最后更新和维护知识库。
[0155] 本发明采用评分器的目的是通过知识库中的文档得分在用户进行检索时实时计算出来的,某个关键字在某文档中出现的频率,并且所有文档的得分都与关键字有关系,并且是实时运算的,当某个关键字在知识库中出现的频率越高,那么该关键字的评分就越高,组合使用了信息检索的向量空间模型和布尔模型。
[0156] 所述学习器,本发明是采用一组学习模型,该模型是带有一组线性约束复杂非线性化模型,利用Gradient Boost框架,由于GBDT是一个应用很广泛的算法,可以用来做分类、回归。在很多的数据上都有不错的效果,每一次的计算是为了减少上一次的残差(residual),而为了消除残差,我们可以在残差减少的梯度(Gradient)方向上建立一个新的模型。所以说,在Gradient Boost中,每个新的模型的简历是为了使得之前模型的残差往梯度方向减少,与传统Boost对正确、错误的样本进行加权有着很大的区别。具体算法可以参见TreeBoost论文TreeBoost.MH:A boosting algorithm for multi-label hierarchical text categorization(2006),by Andrea Esuli,Tiziano Fagni,Fabrizio Sebastiani,Istituto di Scienza e Tecnologie dell’Informazione,Consiglio Nazionale delle Ricerche,Via G Moruzzi,1–56124Pisa,Italy。具体流程描述为如下步骤:
[0157] 1)给定一个初始值,当我们经过处理的核心词设置为初始值;
[0158] 2)建立M棵决策树(迭代M次);
[0159] 3)对函数估计值F(x)进行Logistic变换;
[0160] 4)对于K个分类进行向量的操作,每一个样本点xi都对应了K种可能的分类yi,所以yi,F(xi),p(xi)都是一个K维的向量;
[0161] 5)求得残差减少的梯度方向;
[0162] 6)根据每一个样本点x,与其残差减少的梯度方向,得到一棵由J个叶子节点组成的决策树;
[0163] 7)当决策树建立完成后,通过最后一个公式,可以得到每一个叶子节点的增益。
[0164] 所述评分器:采用以下计算方法来计算评分器的分值计算公式:
[0165] score(q,d)=coord(q,d)·queryNorm(q)·Σtinq(tf(t in d)·idf(t)2·t.getBoost()·norm(t,d))
[0166] tf(t in d)表示项频率项频率是指项t在文档d中出现的次数。
[0167] idf(t)表示关联到反转文档频率,文档频率指出现项t的文档数docFreq,docFreq越少idf就越高,但在同一个查询下值是相同的。
[0168] coord(q,d)表示评分因子,是基于文档中出现查询项的个数。查询串中,命中的词越多,coord计算的值则越大越多的查询项在一个文档中,说明些文档的匹配程序越高。默认是出现查询项的百分比。
[0169] queryNorm(q)查询的标准查询,使不同查询之间可以比较。此因子不影响文档的排序,因为所有有文档都会使用此因子,所以该值越大,对整体评分的影响越重默认值:
[0170] 本发明在建立索引的时候,将norm值编译成一个byte类型保存在索引库中。取出时再把索引中norm编译成一个float类型的值。
[0171] 本专利通过相似度计算规则,建立起文本之间的关系网,若要预测现有文本u与项目i∈I的评分,则要先找出u的最近邻居集Tu,然后根据Tu中已对i评过分的文本的评分值。
[0172] a=Rx∩Ry代表文档的x和y的共同评分项目集。因为不同的评分值表示他们的关联程度不一样,又因为在比较两个文档相似度差异时,没有同时评分的项目在此不具备可比性,因此可以用他们对a中项目评分差的绝对值的绝对值来表示他们之间的相似差异,为Dxy。
[0173] 本发明对于评分差值考虑三种情况:
[0174] 当|Rx∩Ry|=0时,因为x和y没有共同评分的文档,所以他们之间没有相似性,所以相似差异为0;
[0175] 当Dxy=0,|Rx∩Ry|≠0时,表示x和y有共同评分的文档,并且他们的相似度由共同的邻居节点决定;
[0176] 当Dxy≠0,|Rx∩Ry|≠0时,他们的相似度有共同的邻居节点和相同的距离。
[0177] 所述知识库是通过环境的搜索取得外部信息,然后经分析、综合、类比、归纳等思维过程获得知识,并将这些知识存入知识库中。
[0178] 本发明根据一种新的面向主题的关联规则挖掘和学习器。在命名逻辑的范围内进行知识库的更新,这里用T表示知识库,知识库为命题公式的有限集合,用p表示要加入的新知识,T·p表示向知识库中加入新的知识数据p。
[0179] 更新方法,灵T是满足条件的知识库,p是满足条件的新知识,设
[0180]
[0181] 即W(p,T)是T中所有与p相容的最大公式集合。则:
[0182] T·cp={T'∪{p}|T'∈W(p,T)}
[0183] 知识库中,各知识的联系越密切,加入新知识时判断和消除矛盾就越复杂,所以需要对知识间的联系进行限制。
[0184] 首先构造T∪{p}的约束图,约束图可能有多个连通分支,p的加入仅可能与包含p的分支内的公式计算发生矛盾,对其他无影响,因此只需考虑包含p的分支,如果该分支结构为树,那么p为属于更新后的知识库,所以将p作为根节点进行处理。
[0185] 以p为根的树中一子树,本专利设根为公式R,通过共享变量C1C2C3…..Ck与各子树相连接,对于C1,C2,…Ck的一组确定值,整个树可以看做由R,T1,T2…Tk独立部分组成,这部分的删除集合的并集,为整个树在C1,C2…..Ck为这组的删除集,遍历这些删除集合的所有值,可得到若干特定值时的删除集,所以,由子树的删除集可得整个树的删除集。
[0186] 所以对可满足知识库T和可满足新知识p,当T∪{p}的约束图为树形,求的T·p,因此,知识库的更新复杂度与知识库的结构相关。
[0187] 所述执行器,对于一个单输入单输出的过程,存在如下模型:
[0188] y(k+1)=f[y(k),y(k-1),......,y(k-P+1),u(k),u(k-1),......,u(k-Q)][0189] 其中:y是输出,u是输入,k是离散时间系数,P,Q是正整数.f[·]是函数。
[0190] 对象的执行器的输入端u是在幅度上范围有限的,既存在下限um和上限uM对于任何k,有:
[0191] um≤u(k)≤uM
[0192] 假设所描述的过程对象是可逆的,存在往知识库中反写文档,则会存在函数g[·],本专利设:
[0193] u(k)=g[y(k+1),y(k),......,y(k-p+1),u(k-1),u(k-2),......,u(k-Q)][0194] 用于所描述的对象逆模型。并且,输入为m维向量Xc,输出为Uc,则输出输入关系表示为:
[0195] Uc=ψc(Xc)
[0196] 其中:ψc为输入输出映射,即可以从知识库将文档输入进执行器,再由执行器反写回知识库中。
[0197] 如果ψc(·)的输出逼近g(·)的输出.则可以看作是执行器的逆模型。在k时刻,假设输入xc(k)为:
[0198] Xc(k)=[r(k+1),y(k),......,y(k-p+1),u(k-1)...,u(k-q)]T
[0199] 以给定输入r(k+1)取代未知的y(k+1);p和q分别是P和Q的估计值。
[0200] 当在知识库中执行器NC有输出时:
[0201] uc(k)=ψc[r(k+1),y(k),...,y(k-p+1),u(k-1),...,u(k-q)]
[0202] 在从知识库中输入至执行器,并且从评分器输出至执行器时,则训练结果足以使输出偏差e(k)=r(k)-y(k),并且保持为一个很小的值时.则有
[0203] Xc(k)=[r(k+1),r(k),...,r(k-p+1),u(k-1),...,u(k-q)]T
[0204] 是以r(t)取代y(t);由于需要从学习器的输出至执行器,本专利通过此式反映出了前馈特性,一般要求对象输出的偏差e(k)=r(k)—y(k)所定义的偏差函数J最小化。为了能使得计算的准确性,同时还需计算文本的评分器与输出知识库的的微分,有S之后,通过BP算法就可以改善NC的权重系数。在这种基础上,考虑直接逆执行,直接适应执行和间接适应执行的训陈结构。
[0205] 本发明在执行器中,提高从知识库取出文档并与评分器进行评分之后进行反写,并且,每个提取周期执行一次学习,就会减少学习时间。通过实时学习,学习周期为TL,由于学习周期TL只是由程序的时间决定,所以,本专利在一般学习周期TL比从评分器和知识库中提取样本周期Ts要小得多。
[0206] 下面结合实例对本发明做出进一步的说明。
[0207] 本发明结合电子商务平台中用户的访问行为,通过对用户的产品关键词,行业热门搜索词,以及行业关键词进行提取核心关键词,为用户的搜索信息、关键词信息的设置进行优化,并对行业信息等优化途径拓展出优质的序列,并且在核心搜索库以及各单词处理模块达到了自学习的效果,为用户产品提供最核心的关键词。
[0208] 如图2所示为本发明的架构图,包括数据源模块、数据存储模块和统计挖掘模块。所述数据源模块,用于保存网络日志、产品信息、搜索信息、行业信息等基础数据,作为数据分析及数据挖掘的数据来源。其中包括网站日志单元、产品信息单元、行业信息单元。网站日志单元用于保存网站日志信息,包括用户的访问记录以及用户的搜索记录,产品信息单元用于保存产品的各类信息,行业信息单元用于保存行业的各类信息。所述数据存储模块,用于保存经各处理器处理后的数据,并进行清洗过滤后,在数据集市单元中生成多个中间数据库及相关数据库。数据存储模块由数据仓库单元、清洗过滤器、数据集市单元组成。数据仓库单元、清洗过滤器、数据集市单元顺次连接。所述数据仓库单元,用于保存经ETL处理器处理后的数据。
[0209] 如图3所示为本发明的实施流程图,具体包括如下步骤:
[0210] 步骤1:把B2B电子商务平台网站中的网站搜索日志、产品信息作为关键词及其相关词的数据源。
[0211] 详细分为以下步骤:
[0212] (1)选择B2B电子商务平台网站中的网站日志、产品信息中产品名称属性、行业关键词、以及搜索关键词的数据源。
[0213] (2)提取的数据进行ETL处理,形成用户搜索行为和产品信息中的关键词以及相关的使用信息,包括网络日志中的关键词、搜索时间、搜索客户端IP,产品关键词等,并存储于数据仓库中。
[0214] 其中,所述ETL,是指负责将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
[0215] (3)将产品关键词数据经过单词过滤器进行处理,去除非单词字母。
[0216] 1、取一行数据记录,统计单词个数,并且各单词用空格进行分割。
[0217] 2、逐个对各字符进行辨别,若是空格则不统计,若非空格,并且为单词,则进行统计。
[0218] 3、判断前一个是空格,后一个为字符,则进行统计一个单词。
[0219] 步骤2:产品词库来源于产品信息,行业相关词库包含行业信息,通过产品相关处理器进行对产品信息按行业进行相关性处理,将各产品对应的关键词按行业类型进行分类。
[0220] (1)通过词匹配法进行产品关键词与行业关键词进行匹配,根据共同出现的特征,决定该产品所对应的关键词属于哪个类。
[0221] (2)通过产品关键词与行业词进行匹配处理后,再将匹配之后的结果输出至同义词语料库进行处理,根据关键词与语料库中共同出现的词来扩大匹配范围。
[0222] (3)删除产品词库中没有的关键词,将数据返回至相关数据库中。
[0223] 产品信息的数据有:产品ID、产品关键词;行业关键词库的数据有:行业ID,行业关键词。除此之外,还用于保存在统计挖掘过程中产生的中间过渡数据。
[0224] 步骤3:经由产品处理器之后,如果该产品的关键词是生僻词那需要进行进入学习库进行处理,否则直接进入分词处理器。
[0225] 详细分为以下步骤:
[0226] (1)删除产品词库中没有的关键词,从而精简产品信息中间库。
[0227] (2)判断当前关键词是否为生僻词或无法匹配的关键词,输出至学习库进行处理,否则,输出至分词处理器。
[0228] 步骤4:分词器接收来自产品相关处理器和综合相关词库的数据,将判断是否是英文单词,如果是英文单词,将通过遍历空格来进行拆分,并组合形成<产品名称,关键词>序列。
[0229] (1)把每对<产品名称,关键词>序列,根据产品ID进行排序,存储在数据缓存中,形成完整的产品相关词库。
[0230] (2)当判断为非英文单词时,将该单词输出至学习库进行学习,如果为英文单词则进行遍历循环处理一条产品信息。
[0231] 步骤5:词缀处理器接受来自分词器的数据,通过一组数据集合输入词缀处[0232] 理器,词缀处理器处理之后如果出现无法与字典相匹配的单词,则输出至学习库,否则组合形成<产品名称,关键词>序列。
[0233] 步骤6:当词缀处理器处理完之后将结果输出至词根处理器,词根处理器接受来自词缀处理器的数据进行处理,将数据再根据字典进行匹配,之后再输入至相似度处理器,计算出最大相似度的词根,最后再返回结果,将结果组合形成<产品名称,关键词>序列。
[0234] 步骤7:当词根处理器处理完之后,将结果序列输出至单复数处理器,当复数接受一条数据则循环对各单词的每个字母进行处理,如果出现异常则返回至词根处理器,成功则将数据组合形成<产品名称,关键词>序列。
[0235] 步骤8:由单复数处理器将数据序列输出至时态处理器,时态处理器接收数据后,根据时序状态样本时态逻辑断言判断属于哪种时态,调用不同的处理结果,根据类型调用Always、Sometime、Until、Next四种处理。
[0236] 步骤9:由时态处理器的输出,进入单词重组模块,先通过拼词词典检查,进行词形距离和最小编辑距离计算,以及相似键法则进行处理,剔除拼写出错的单词,再通过学习库的处理,给出相应的正确拼写,组合成原有数据结构,存放至缓存中,再根据不同类型,将缓存中的数据,进行建立索引,输出至索引库中。
[0237] 步骤10:由单词重组模块输出数据,至核心关键词索引库,在索引库中将缓存中的数据建立成核心关键词索引文本文件,如果从单词重组输出类型为行业核心词,则将建立行业核心词的索引文本文件,如果从单词重组输出类型为搜索核心词,则建立搜索核心词的索引文件文本。
[0238] 步骤11:当词缀处理器、产品相关处理器、词根处理器以及单词重组模块输出至学习库,学习库接受到这些数据之后,数据首先进入学习器进行学习,先建立一组规则库,然后计算规则权重和变量权重,再根据数据确定模型的输入输出空间,再匹配度度量,需要限制不匹配的模型数量,如果在找不到对应的规则,则降低该规则的关联度。学习库将规则数据输出至知识库,当知识库接收来自学习库的数据时,再通过一系列的思维过程获得知识,并将这些知识存入知识库中。
[0239] 步骤12:如果当前知识数据已经存在知识库中,再检查是否满足更新条件,如果满足更新条件则进行更新,否则将该数据返回至学习库中。
[0240] 步骤13:当学习库接受处理数据之后,如果一条数据出现多种结果,则首先将该数据输出至评分器,整个评分过程由执行器进行执行,在执行器中,首先从知识库取出文档并与评分器进行评分之后再反写知识库中。
[0241] 以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。