文本纠错方法、装置及终端转让专利

申请号 : CN201610976879.2

文献号 : CN106528532B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 谢瑜张昊朱频频

申请人 : 上海智臻智能网络科技股份有限公司

摘要 :

一种文本纠错方法、装置和终端,文本纠错方法包括:对待纠错语料进行分词,以得到单字串和词串;对所述单字串中的至少一部分进行合并,以得到多个错词候选词;将拼音相同的错词候选词和词串划分至同一错词候选类;在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错。本发明技术方案提高了对于文本中音似词纠错的简便有效性。

权利要求 :

1.一种文本纠错方法,其特征在于,包括:

对待纠错语料进行分词,以得到单字串和词串;

对所述单字串中的至少一部分进行合并,以得到多个错词候选词;

将拼音相同的错词候选词和词串划分至同一错词候选类;

在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错;

所述对所述单字串中的至少一部分进行合并,以得到所述多个错词候选词包括:如果相邻两个单字串的成词概率均小于第一阈值,则将所述相邻两个单字串合并,以作为错词候选词;

并且/或者,如果所述单字串与相邻词串的成词概率均小于所述第一阈值,则将所述单字串与所述相邻词串合并,以作为所述错词候选词;

所述在每一错词候选类中,根据每一错词候选词的成词概率选取推荐词包括:计算每一错词候选类中所有词语两两之间的语义距离;

如果两个词语之间的语义距离小于第二阈值,则将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;

在每一错词候选集中,分别根据所述每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。

2.根据权利要求1所述的文本纠错方法,其特征在于,所述如果两个词语之间的语义距离小于第二阈值,则将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集之后还包括:如果遍历完所述每一错词候选类中所述所有词语后仅剩余单个词语,则剔除所述单个词语。

3.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述单字串中的至少一部分进行合并,以得到多个错词候选词之后还包括:将所述多个错词候选词和所述词串转化为对应的语义向量,以用于计算所述每一错词候选类中所述所有词语两两之间的语义距离。

4.根据权利要求1所述的文本纠错方法,其特征在于,所述在每一错词候选集中,分别根据每一错词候选词和/或所述每一词串的成词概率选取推荐词包括:在所述至少一个错词候选集中,分别选取成词概率最大的词语作为所述推荐词。

5.根据权利要求1所述的文本纠错方法,其特征在于,在进行文本纠错之后还包括:获取文本纠错的准确率;

当所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值,重新进行文本纠错,直至所述准确率大于或等于所述预设值。

6.根据权利要求1所述的文本纠错方法,其特征在于,采用以下方式进行文本纠错:利用所述推荐词替换对应的所述错词候选集中所述推荐词之外的其他词。

7.根据权利要求1至6任一项所述的文本纠错方法,其特征在于,对所述待纠错语料进行分词之前还包括:对所述待纠错语料进行预处理,以得到格式统一的所述待纠错语料。

8.根据权利要求7所述的文本纠错方法,其特征在于,所述对所述待纠错语料进行预处理之后还包括:找出所述待纠错语料中的新词,并加入分词词典,对所述待纠错语料进行分词是基于所述分词词典完成的。

9.一种文本纠错装置,其特征在于,包括:

分词单元,适于对待纠错语料进行分词,以得到单字串和词串;

合并单元,适于对所述单字串中的至少一部分进行合并,以得到多个错词候选词;

错词候选类划分单元,适于将拼音相同的错词候选词和词串划分至同一错词候选类;

推荐词选取单元,适于在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词;

纠错处理单元,用于根据所述推荐词进行文本纠错;

所述合并单元在相邻两个单字串的成词概率均小于第一阈值时,将所述相邻两个单字串合并,以作为错词候选词;

和/或,在所述单字串与相邻词串的成词概率均小于所述第一阈值时,将所述单字串与所述相邻词串合并,以作为所述错词候选词;

所述推荐词选取单元包括:

语义距离计算子单元,适于计算每一错词候选类中所有词语两两之间的语义距离;

错词候选集获取子单元,适于在两个词语之间的语义距离小于第二阈值时,将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;

选择子单元,适于在每一错词候选集中,分别根据每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。

10.根据权利要求9所述的文本纠错装置,其特征在于,还包括:剔除子单元,适于在遍历完所述每一错词候选类所述所有词语后仅剩余单个词语时,剔除所述单个词语。

11.根据权利要求9所述的文本纠错装置,其特征在于,还包括:语义向量获取单元,适于将所述多个错词候选词和所述词串转化为对应的语义向量,以用于所述语义距离计算子单元计算所述每一错词候选类中所有词语两两之间的语义距离。

12.根据权利要求9所述的文本纠错装置,其特征在于,所述选择子单元在所述至少一个错词候选集中,分别选取成词概率最大的词语作为所述推荐词。

13.根据权利要求9所述的文本纠错装置,其特征在于,还包括:准确率获取单元,适于获取文本纠错的准确率;

调整单元,适于在所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值时,重新进行文本纠错,直至所述准确率大于或等于所述预设值。

14.根据权利要求9所述的文本纠错装置,其特征在于,所述纠错处理单元采用以下方式进行文本纠错:利用所述推荐词替换对应的所述错词候选集中所述推荐词之外的其他词。

15.根据权利要求9至14任一项所述的文本纠错装置,其特征在于,还包括:预处理单元,适于对所述待纠错语料进行预处理,以得到格式统一的所述待纠错语料。

16.根据权利要求15所述的文本纠错装置,其特征在于,还包括:新词发现单元,适于找出所述待纠错语料中的新词,并加入分词词典,所述分词单元对所述待纠错语料进行分词是基于所述分词词典完成的。

17.一种终端,其特征在于,包括如权利要求9至16任一项所述的文本纠错装置。

说明书 :

文本纠错方法、装置及终端

技术领域

[0001] 本发明涉及自然语言处理领域,尤其涉及一种文本纠错方法、装置及终端。

背景技术

[0002] 文本纠错是自然语言处理中的难题之一。中文文本错误主要有替换错误、多字错误和缺字错误。随着各种拼音输入法的广泛使用,文本数据中广泛存在音似词替换错误,例如,“托运行李”被误写为“拖运行李”。错词的存在通常直接导致分词错误,而分词错误又使得文本的语义混乱,给文本处理带来困难。
[0003] 现有技术中,对于音似词替换错误,需要进行查错和纠错处理。通常是基于混淆集进行查错和纠错,而混淆集的建立需要花费大量时间和人工进行维护,成本高且使用不便。

发明内容

[0004] 本发明解决的技术问题是如何提高对于文本中音似词纠错的简便有效性。
[0005] 为解决上述技术问题,本发明实施例提供一种文本纠错方法,文本纠错方法包括:
[0006] 对待纠错语料进行分词,以得到单字串和词串;对所述单字串中的至少一部分进行合并,以得到多个错词候选词;将拼音相同的错词候选词和词串划分至同一错词候选类;在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错。
[0007] 可选的,所述对所述单字串中的至少一部分进行合并,以得到所述多个错词候选词包括:如果相邻两个单字串的成词概率均小于第一阈值,则将所述相邻两个单字串合并,以作为错词候选词;和/或,如果所述单字串与相邻词串的成词概率均小于所述第一阈值,则将所述单字串与所述相邻词串合并,以作为所述错词候选词。
[0008] 可选的,所述在每一错词候选类中,根据每一错词候选词的成词概率选取推荐词包括:计算每一错词候选类中所有词语两两之间的语义距离;如果两个词语之间的语义距离小于第二阈值,则将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;在每一错词候选集中,分别根据所述每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。
[0009] 可选的,所述如果两个词语之间的语义距离小于第二阈值,则将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集之后还包括:如果遍历完所述每一错词候选类中所述所有词语后仅剩余单个词语,则剔除所述单个词语。
[0010] 可选的,所述对所述单字串中的至少一部分进行合并,以得到多个错词候选词之后还包括:将所述多个错词候选词和所述词串转化为对应的语义向量,以用于计算所述每一错词候选类中所述所有词语两两之间的语义距离。
[0011] 可选的,所述在每一错词候选集中,分别根据每一错词候选词和/或所述每一词串的成词概率选取推荐词包括:在所述至少一个错词候选集中,分别选取成词概率最大的词语作为所述推荐词。
[0012] 可选的,在进行文本纠错之后还包括:获取文本纠错的准确率;当所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值,重新进行文本纠错,直至所述准确率大于或等于所述预设值。
[0013] 可选的,采用以下方式进行文本纠错:利用所述推荐词替换对应的所述错词候选集中所述推荐词之外的其他词。
[0014] 可选的,对所述待纠错语料进行分词之前还包括:对所述待纠错语料进行预处理,以得到格式统一的所述待纠错语料。
[0015] 可选的,所述对所述待纠错语料进行预处理之后还包括:找出所述待纠错语料中的新词,并加入分词词典,对所述待纠错语料进行分词是基于所述分词词典完成的。
[0016] 为解决上述技术问题,本发明实施例还公开了一种文本纠错装置,文本纠错装置包括:
[0017] 分词单元,适于对待纠错语料进行分词,以得到单字串和词串;合并单元,适于对所述单字串中的至少一部分进行合并,以得到多个错词候选词;错词候选类划分单元,适于将拼音相同的错词候选词和词串划分至同一错词候选类;推荐词选取单元,适于在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词;纠错处理单元,用于根据所述推荐词进行文本纠错。
[0018] 可选的,所述合并单元在相邻两个单字串的成词概率均小于第一阈值时,将所述相邻两个单字串合并,以作为错词候选词;和/或,在所述单字串与相邻词串的成词概率均小于所述第一阈值时,将所述单字串与所述相邻词串合并,以作为所述错词候选词。
[0019] 可选的,所述推荐词选取单元包括:语义距离计算子单元,适于计算每一错词候选类中所有词语两两之间的语义距离;错词候选集获取子单元,适于在两个词语之间的语义距离小于第二阈值时,将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;选择子单元,适于在每一错词候选集中,分别根据每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。
[0020] 可选的,所述文本纠错装置还包括:剔除子单元,适于在遍历完所述每一错词候选类所述所有词语后仅剩余单个词语时,剔除所述单个词语。
[0021] 可选的,所述文本纠错装置还包括:语义向量获取单元,适于将所述多个错词候选词和所述词串转化为对应的语义向量,以用于所述语义距离计算子单元计算所述每一错词候选类中所有词语两两之间的语义距离。
[0022] 可选的,所述选择子单元在所述至少一个错词候选集中,分别选取成词概率最大的词语作为所述推荐词。
[0023] 可选的,所述文本纠错装置还包括:准确率获取单元,适于获取文本纠错的准确率;调整单元,适于在所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值时,重新进行文本纠错,直至所述准确率大于或等于所述预设值。
[0024] 可选的,所述文本纠错装置还包括:预处理单元,适于对所述待纠错语料进行预处理,以得到格式统一的所述待纠错语料。
[0025] 可选的,所述文本纠错装置还包括:新词发现单元,适于找出所述待纠错语料中的新词,并加入分词词典,所述分词单元对所述待纠错语料进行分词是基于所述分词词典完成的。
[0026] 可选的,所述纠错处理单元采用以下方式进行文本纠错:利用所述推荐词替换对应的所述错词候选集中所述推荐词之外的其他词。
[0027] 为解决上述技术问题,本发明实施例还公开了一种终端,所述终端包括所述文本纠错装置。
[0028] 与现有技术相比,本发明实施例的技术方案具有以下有益效果:
[0029] 本发明技术方案首先对待纠错语料进行分词,以得到单字串和词串;然后对所述单字串中的至少一部分进行合并,以得到多个错词候选词;再将拼音相同的错词候选词和词串划分至同一错词候选类;最后在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错。在文本出现音似词替换错误的情况下,由于错误的音似词在分词时会被分为多个字,因此本发明技术方案对分词得到的单字串的至少一部分进行了合并,得到多个错词候选词,以便于与拼音相同的词串建立错词候选类,基于成词概率在错词候选类中选取推荐词,该推荐词为错误音似词的正确词,从而完成文本纠错;进而可以简便且有效地自动找出错词并给出纠错建议,同时避免了建立混淆集以及花费大量时间和人工进行维护的问题,提高了文本纠错的效率。
[0030] 进一步,计算每一错词候选类中所有词语两两之间的语义距离;如果两个词语之间的语义距离小于第二阈值,则将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;在每一错词候选集中,分别根据所述每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。本发明技术方案在错词候选类的基础上根据语义距离建立错词候选集,使得语义相近的词语可以处于同一集合中;然后在错词候选集中根据成词概率选取推荐词,在语义相近的集合中选取成词概率最大的词语作为推荐词,进一步提高了文本纠错的准确率。

附图说明

[0031] 图1是本发明实施例一种文本纠错方法的流程图;
[0032] 图2是本发明实施例另一种文本纠错方法的流程图;
[0033] 图3是本发明实施例一种文本纠错装置的结构示意图;
[0034] 图4是本发明实施例另一种文本纠错装置的结构示意图。

具体实施方式

[0035] 如背景技术中所述,现有技术对于音似词替换错误,需要进行查错和纠错处理。通常是基于混淆集进行查错和纠错,而混淆集的建立需要花费大量时间和人工进行维护,成本高且使用不便。
[0036] 在文本出现音似词替换错误的情况下,由于错误的音似词在分词时会被分为多个字,因此本发明技术方案对分词得到的单字串的至少一部分进行了合并,得到多个错词候选词,以便于与拼音相同的词串建立错词候选类,基于成词概率在错词候选类中选取推荐词,该推荐词为错误音似词的正确词,从而完成文本纠错;进而可以简便且有效地自动找出错词并给出纠错建议,成本低,同时避免了建立混淆集以及花费大量时间和人工进行维护的问题,提高了文本纠错的效率。
[0037] 为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
[0038] 图1是本发明实施例一种文本纠错方法的流程图。
[0039] 图1所示的文本纠错方法可以包括以下步骤:
[0040] 步骤S101:对待纠错语料进行分词,以得到单字串和词串;
[0041] 步骤S102:对所述单字串中的至少一部分进行合并,以得到多个错词候选词;
[0042] 步骤S103:将拼音相同的错词候选词和词串划分至同一错词候选类;
[0043] 步骤S104:在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错。
[0044] 具体实施中,在步骤S101中,对待纠错语料进行分词,可以得到多个单字串和多个词串。具体而言,待纠错语料可以包括一个或多个文本。对待纠错语料进行分词可以基于分词词典来完成。
[0045] 可以理解的是,分词词典可以是任意可实施的类型,本发明实施例对此不做限制。
[0046] 具体实施中,考虑到在文本出现音似词替换错误的情况,由于错误的音似词在分词时会被分为多个字(也就是单字串),因此在步骤S102中,对分词得到的单字串的至少一部分进行了合并,以得到多个错词候选词。也就是说,正确词在步骤S101中的分词操作中会被分为一个词,而该正确词的错误音似词在步骤S101中的分词操作中可能会被分为多个单字串,故在步骤S102中对多个单字串的至少一部分进行了合并。
[0047] 具体实施中,在步骤S103中,将拼音相同的错词候选词和词串划分至同一错词候选类。也就是说,同一错词候选类中的词语拼音相同,以便后续步骤在拼音相同的词语中确定出正确词和错误音似词。具体地,可以利用汉字转拼音工具将错词候选词和词串转换为对应的拼音。
[0048] 具体实施中,在步骤S104中,在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错。也就是说,在步骤S103中确定的拼音相同的词语(也就是每一错词候选类)中,根据上述成词概率选取推荐词(也就是正确词),则该错词候选类中的其他词为错误音似词。具体而言,可以选取成词概率最大的词语作为所述推荐词。
[0049] 进一步而言,错词候选词和词串的成词概率可以是预先获取或计算得到的。
[0050] 具体地,错词候选类中所有词语的成词概率可以预先根据汉语语言模型N-Gram计算得到。具体而言,可以采用bi-gram语言模型或Tri-Gram语言模型。采用bi-gram语言模型时,一个单字串的出现仅依赖于其前面出现的一个单字串。进一步而言,可以计算领域内分词语料中每个单字串的成词概率和词语的概率,并利用bi-gram语言模型,对已知分词语料中的所有单字串分别计算其与其他单字串的成词概率,以得到错词候选类中所有词语的成词概率。
[0051] 需要说明的是,计算词语的成词概率的方式可以采用其他任意可实施的算法或语言模型,本发明实施例对此不做限制。
[0052] 本领域技术人员应当理解的是,也可以根据每一错词候选词和每一词串的共现概率选取推荐词。词语的成词概率可以表示该词语包括的单字之间成词的概率;而词语的共现概率可以表示该词语包括的单字之间共同出现的概率,故可以根据成词概率和/或共现概率在错词候选类中确定推荐词。还可以根据其他任意可实施的概率在错词候选类中确定推荐词,本发明实施例对此不做限制。
[0053] 本发明实施例对分词得到的单字串的至少一部分进行了合并,得到多个错词候选词,以便于错词候选词与拼音相同的词串建立错词候选类,基于成词概率在错词候选类中选取推荐词,该推荐词为错误音似词的正确词,从而完成文本纠错;本实施例可以简便且有效地自动找出错词并给出纠错建议,成本低,同时避免了建立混淆集以及花费大量时间和人工进行维护的问题,提高了文本纠错的效率。
[0054] 具体实施中,步骤S102可以包括以下步骤:如果相邻两个单字串的成词概率均小于第一阈值,则将所述相邻两个单字串合并,以作为错词候选词;和/或,如果所述单字串与相邻词串的成词概率均小于所述第一阈值,则将所述单字串与所述相邻词串合并,以作为所述错词候选词。也就是说,在文本出现音似词替换错误的情况下,由于错误的音似词在分词时会被分为多个字(也就是单字串)或单字串与词串,因此在步骤S102中对分词得到的单字串的至少一部分进行合并时,合并方式是将两个单字串合并和/或将单字串与词串合并。进一步而言,将成词概率均小于第一阈值的相邻两个单字串进行合并;和/或,将成词概率均小于所述第一阈值的单字串与相邻词串进行合并;也可以是将成词概率小于第一阈值的单字串和在成词语料中不存在的相邻词串进行合并。
[0055] 具体地,单字串和词串的成词概率可以预先根据分词语料进行统计得到。也即,在分词语料中统计单字串的数量和词串的数量,并基于单字串的数量和词串的数量以及总数量,来估计单字串和词串的成词概率。
[0056] 需要说明的是,所述第一阈值可以根据实际的应用场景进行自定义配置和适应性的修改,本发明实施例对此不做限制。
[0057] 优选的,文本纠错方法还可以包括以下步骤:对所述待纠错语料进行预处理,以得到格式统一的所述待纠错语料。具体地,格式统一的待纠错语料可以是文本格式,以便于步骤S101对格式统一的待纠错语料进行分词处理。进一步而言,预处理过程可以包括以下步骤:将待纠错语料转换为文本格式,以得到文本数据;对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词;将过滤后的所述文本数据按照标点进行划分。更具体地,可以将过滤后的文本数据按指示句子结尾的标点,例如,“?”、“!”和“。”分割成行并保存。本实施例的预处理可以为后续步骤的操作提供便捷。
[0058] 优选地,对所述待纠错语料进行预处理之后还可以包括以下步骤:找出所述待纠错语料中的新词,并加入分词词典,对所述待纠错语料进行分词是基于所述分词词典完成的。本实施例通过找出新词并加入分词词典,以避免利用分词词典分词时将新词进行分词,进而避免将新词作为错误音似词,进一步提高了文本纠错的准确率。具体而言,可以利用已有的新词发现工具找出待纠错语料的新词候选词,经人工过滤后加入分词词典。
[0059] 本发明一优选实施例中,步骤S103可以包括以下步骤:计算每一错词候选类中所有词语两两之间的语义距离;如果两个词语之间的语义距离小于第二阈值,则将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;在每一错词候选集中,分别根据所述每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。也就是说,在错词候选类的基础上根据语义距离建立错词候选集,使得语义相近的词语可以处于同一集合中;然后在错词候选集中根据成词概率选取推荐词,在语义相近的集合中选取成词概率最大的词语作为推荐词,进一步提高了文本纠错的准确率。
[0060] 可以理解的是,所述第二阈值可以根据实际的应用场景进行自定义配置和适应性的修改,本发明实施例对此不做限制。
[0061] 具体而言,如果遍历完所述每一错词候选类中所述所有词语后仅剩余单个词语,则剔除所述单个词语。也就是说,在每一错词候选类中建立至少一个错词候选集后,如果该错词候选类中剩余单个词语未能加入任一错词候选集,表示该单个词语不存在同义的词语,则不能够采用音似词纠错的方式判定其是否为错词,故将该单个词语剔除。
[0062] 具体实施中,在得到多个错词候选词之后还可以包括:将所述多个错词候选词和所述词串转化为对应的语义向量,以用于计算所述每一错词候选类中所述所有词语两两之间的语义距离。具体而言,可以将包括错词候选词和词串的分词结果输入word2vector模型,以得到各个词的语义向量。更进一步地,由于错误音似词和其对应的正确词的上下文语境相同,因此可以利用word2vector模型将同音词语按照语义进行聚类,例如,“记录、纪录、计录”,同一错词候选集中的词语为拼音相同且语义相似的词语。
[0063] 可以理解的是,得到语义向量的方式也可以是其他任意可实施的方式,本发明实施例对此不做限制。
[0064] 具体实施中,在步骤S104中,在所述至少一个错词候选集中,分别选取成词概率最大的词语作为所述推荐词。也就是说,当词语的成词概率最大时,表明该词语包括的多个单字串之间成词的概率大,相较于该错词候选集中的其他词语,该词语为正确词的概率最大,故将其作为推荐词。
[0065] 例如,在错词候选集“记录、纪录、计录”中,该错词候选集中的多个词语具有共同的字“录”,则比较该共同的字“录”与其他各个字“记、纪、计”的成词概率,其中,成词概率最大的词语为推荐词,其他为错词;在错词候选集“澳洲、奥州”中,该错词候选集中的多个词语不具有共同的字,则分别根据各个词中第一个字和第二个字的成词概率,也即“澳”和“洲”的成词概率,以及“奥”和“州”的成词概率,成词概率大的词语为推荐词,其他为错词。
[0066] 具体地,错词候选集中所有词语的成词概率可以预先根据汉语语言模型N-Gram计算得到。具体而言,可以采用bi-gram语言模型或Tri-Gram语言模型。采用bi-gram语言模型时,一个单字串的出现仅依赖于其前面出现的一个单字串。进一步而言,可以计算领域内分词语料中每个单字串的成词概率和词语的概率,并利用bi-gram语言模型,对已知分词语料中的所有单字串分别计算其与其他单字串的成词概率,以得到错词候选集中所有词语的成词概率。
[0067] 需要说明的是,计算词语的成词概率的方式可以采用其他任意可实施的算法或语言模型,本发明实施例对此不做限制。
[0068] 具体实施中,文本纠错方法还可以包括以下步骤:获取文本纠错的准确率;当所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值,重新进行文本纠错,直至所述准确率大于或等于所述预设值。经过准确率调整后的文本纠错方法可以进一步提高文本纠错的准确性和效率。
[0069] 需要说明的是,所述预设值可以根据实际的应用场景进行自定义配置和适应性的修改,本发明实施例对此不做限制。
[0070] 具体实施中,可以采用以下方式进行文本纠错:利用所述推荐词替换对应的所述错词候选集中所述推荐词之外的其他词。也即将错词候选集中的错误音似词全部替换为正确词,实现文本纠错。
[0071] 本发明一优选实施例中,文本纠错方法可参照图2,图2是本发明实施例另一种文本纠错方法的流程图。
[0072] 本领域技术人员应当理解的是,本实施例中单字串wi和相邻单字串wj仅用于指代单字串,不构成对本发明实施例的限制。
[0073] 图2所示的文本纠错方法可以包括以下步骤:
[0074] 步骤S201:对待纠错语料进行预处理;
[0075] 步骤S202:对预处理后的待纠错语料进行新词发现处理,并将新词加入分词词典;
[0076] 步骤S203:利用分词词典对待纠错语料进行分词,得到单字串和词串;
[0077] 步骤S204:判断单字串wi的成词概率是否小于td1?如果是,则进入步骤S205;否则无操作;
[0078] 步骤S205:判断单字串wi的相邻单字串wj的成词概率是否小于td1,如果是,则进入步骤S206;否则进入步骤S212;
[0079] 步骤S206:将单字串wi和单字串wj合并为词串wiwj或wjwi,作为错词候选词;
[0080] 步骤S207:利用word2vector模型获取所有词语的词向量;
[0081] 步骤S208:判断任意两个词语是否拼音相同且语义相似度大于td2,如果是,则进入步骤S209;否则无操作;
[0082] 步骤S209:将任意两个词语划分至同一错词候选集;
[0083] 步骤S210:获取错词候选集中所有词语的成词概率;
[0084] 步骤S211:同一错词候选集中成词概率最大的词语为推荐词;
[0085] 步骤S212:判断单字串wi的相邻词串的成词概率是否小于td1,如果是,则进入步骤S213;否则无操作;
[0086] 步骤S213:将单字串wi与相邻词串合并,作为错词候选词;
[0087] 步骤S214:根据领域内分词语料进行统计分析,得到每个词串及每个单字串的成词概率;
[0088] 步骤S215:利用bi-gram语言模型分别计算分词语料中每一单字串与其他单字串的成词概率。
[0089] 具体实施中,在步骤S201中,对待纠错语料进行预处理,可以得到格式统一的所述待纠错语料。具体地,格式统一的待纠错语料可以是文本格式,以便于后续步骤对格式统一的待纠错语料进行分词处理。进一步而言,步骤S201可以包括以下步骤:将待纠错语料转换为文本格式,以得到文本数据;对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词;将过滤后的所述文本数据按照标点进行划分。更具体地,可以将过滤后的文本数据按指示句子结尾的标点,例如,“?”、“!”和“。”分割成行并保存。本实施例的预处理可以为后续步骤的操作提供便捷。
[0090] 具体实施中,在步骤S202中,通过找出新词并加入分词词典,可以避免在步骤S203中利用分词词典分词时将新词进行分词,进而避免将新词作为错误音似词,进一步提高了文本纠错的准确率。具体而言,可以利用已有的新词发现工具找出待纠错语料的新词候选词,经人工过滤后加入分词词典。
[0091] 具体实施中,经步骤S203分词得到单字串和词串后,在步骤S204中,判断单字串wi的成词概率是否小于td1,如果是,则在步骤S205和步骤S206中,将单字串wi和成词概率小于td1的相邻单字串wj合并为词串wiwj或wjwi;或者,在步骤S212和步骤S213中,将单字串wi和成词概率小于td1的相邻词串进行合并;也可以是将单字串wi和在成词语料中不存在的相邻词串进行合并,合并后的词语都作为错词候选词。也就是说,在文本出现音似词替换错误的情况下,由于错误的音似词在分词时会被分为多个字(也就是单字串)或单字串与词串,因此首先处理待纠错语料分词后出现的单字串,也就是对分词得到的单字串的至少一部分进行合并,合并方式是将两个单字串合并和/或将单字串与词串合并,作为错词候选词。
[0092] 需要说明的是,td1的值可以根据实际的应用场景进行自定义配置和适应性的修改,本发明实施例对此不做。
[0093] 具体实施中,在步骤S207中,所有词语包括词串和错词候选词。具体地,可以将错词候选词替换合并前的两个相邻单字串和/或将相邻单字串与词串,以便用于在步骤S207中计算错词候选词的词向量。更具体地,将步骤S206得到的分词数据输入word2vector模型,得到所有词语的语义向量。
[0094] 具体实施中,在步骤S208和步骤S209中,将拼音相同且语义相似度大于td2的词语划分至同一错词候选集。具体地,可以利用汉字转拼音工具将错词候选词和词串转换为对应的拼音,并将拼音相同的词语作为同一错词候选类。然后,利用语义距离将每一错词候选类划分为多个错词候选集,即分别依次计算每个错词候选类中的两两词语之间的语义相似度(也即语义距离),如果语义相似度大于td2,则归为同一错词候选集,剩余的单个词语舍弃掉(也即即没有错词对)。也就是说,考虑到错误音似词和其对应的正确词的上下文语境相同,因此可以利用word2vector模型将同音词语进行聚类,同一错词候选集中的词语为同音同义词语,例如,记录、纪录、计录。
[0095] 需要说明的是,td2的值可以根据实际的应用场景进行自定义配置和适应性的修改,本发明实施例对此不做。
[0096] 具体实施中,在步骤S210和步骤S211中,获取每一错词候选集中所有词语的成词概率,并选取每一错词候选集中成词概率最大的词语作为所述推荐词。也就是说,当词语的成词概率最大时,表明该词语包括的多个单字串之间成词的概率大,相较于该错词候选集中的其他词语,该词语为正确词的概率最大,故将其作为推荐词。
[0097] 例如,得到多个错词候选集:(记录、纪录、计录)、(压金、押金)、(奥州、澳洲)。错词候选集(记录、纪录、计录)分别具有共同的字“录”,获取得到“录”与其他三个字“计”、“纪”、“记”的成词概率分别为p1、p2、p3,如果p3最大,则推荐词为“记录”,其他两个词语为错词。错词候选集(压金、押金)依此类推。错词候选集(奥州、澳洲)不具有共同的字,获取得到“奥”和“州”的成词概率为p4、“澳”和“洲”的成词概率为p5,如果p5>p4,则“澳洲”为推荐词,“奥州”为错词。
[0098] 具体地,在步骤S211之后,可以判断推荐词的正确性,如果推荐词正确的话,则将推荐词所在的错词候选集加入错字对词典,以便应用错词对词典进行纠错。
[0099] 优选地,图2所示的文本纠错方法可以包括步骤S214和步骤S215。在步骤S214和步骤S215中,可以预先根据已标记的领域内分词语料进行统计得到单字串和词串的成词概率。也即,在分词语料中统计单字串的数量和词串的数量,并基于单字串的数量和词串的数量以及总数量,来估计单字串和词串的成词概率。然后,利用bi-gram语言模型,对现有已标记的领域内分词语料中的所有单字串,分别计算每一单字串与其他单字串的成词概率,以使在步骤S210中可以据此获取每个错词候选词的成词概率。
[0100] 优选地,在步骤S211之后,还可以获取文本纠错的准确率;当所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值,重新进行文本纠错,直至所述准确率大于或等于所述预设值。
[0101] 本发明实施例的具体实施方式和技术效果可参照图1所示的文本纠错方法的实施例,此处不再赘述。
[0102] 在具体的应用场景中,待纠错语料可以是用户问题数据。在用户问题数据中,同音词替换错误普遍存在,故可以采用图1或图2所示的文本纠错方法对用户问题数据中的错误同音词进行纠正。
[0103] 图3是本发明实施例一种文本纠错装置的结构示意图。
[0104] 图3所示的文本纠错装置30可以包括:分词单元301、合并单元302、错词候选类划分单元303、推荐词选取单元304和纠错处理单元305。
[0105] 其中,分词单元301适于对待纠错语料进行分词,以得到单字串和词串;合并单元302适于对所述单字串中的至少一部分进行合并,以得到多个错词候选词;错词候选类划分单元303适于将拼音相同的错词候选词和词串划分至同一错词候选类;推荐词选取单元304适于在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词;纠错处理单元305用于根据所述推荐词进行文本纠错。
[0106] 具体实施中,由于正确词在分词单元301中会被分为一个词,而该正确词的错误音似词在分词单元301中可能会被分为多个单字串,故合并单元302对多个单字串的至少一部分进行了合并。合并单元302在相邻两个单字串的成词概率均小于第一阈值时,将所述相邻两个单字串合并,以作为错词候选词;和/或,在所述单字串与相邻词串的成词概率均小于所述第一阈值时,将所述单字串与所述相邻词串合并,以作为所述错词候选词;也可以是将成词概率小于第一阈值的单字串和在成词语料中不存在的相邻词串进行合并。
[0107] 具体实施中,错词候选类划分单元303将拼音相同的错词候选词和词串划分至同一错词候选类。也就是说,同一错词候选类中的词语拼音相同,以便后续步骤在拼音相同的词语中确定出正确词和错误音似词。具体地,可以利用汉字转拼音工具将错词候选词和词串转换为对应的拼音。
[0108] 具体实施中,在每一错词候选类中,推荐词选取单元304根据每一错词候选词和每一词串的成词概率选取推荐词,以用于文本纠错。也就是说,错词候选类划分单元303确定的拼音相同的词语(也就是每一错词候选类)中,根据上述成词概率选取推荐词(也就是正确词),则该错词候选类中的其他词为错误音似词。具体而言,可以选取成词概率最大的词语作为所述推荐词。
[0109] 进一步而言,错词候选词和词串的成词概率可以是预先获取得到的。
[0110] 具体地,错词候选类中所有词语的成词概率可以预先根据汉语语言模型N-Gram计算得到。具体而言,可以采用bi-gram语言模型或Tri-Gram语言模型。采用bi-gram语言模型时,一个单字串的出现仅依赖于其前面出现的一个单字串。进一步而言,可以计算领域内分词语料中每个单字串的成词概率和词语的概率,并利用bi-gram语言模型,对已知分词语料中的所有单字串分别计算其与其他单字串的成词概率,以得到错词候选类中所有词语的成词概率。
[0111] 需要说明的是,计算词语的成词概率的方式可以采用其他任意可实施的算法或语言模型,本发明实施例对此不做限制。
[0112] 具体实施中,纠错处理单元305可以采用以下方式进行文本纠错:利用所述推荐词替换对应的所述错词候选集中所述推荐词之外的其他词。也即将错词候选集中的错误音似词全部替换为正确词,实现文本纠错。
[0113] 本领域技术人员应当理解的是,也可以根据每一错词候选词和每一词串的共现概率选取推荐词。词语的成词概率可以表示该词语包括的单字之间成词的概率;而词语的共现概率可以表示该词语包括的单字之间共同出现的概率,故可以根据成词概率和/或共现概率在错词候选类中确定推荐词。还可以根据其他任意可实施的概率在错词候选类中确定推荐词,本发明实施例对此不做限制。
[0114] 本发明实施例对分词得到的单字串的至少一部分进行了合并,得到多个错词候选词,以便于错词候选词与拼音相同的词串建立错词候选类,基于成词概率在错词候选类中选取推荐词,该推荐词为错误音似词的正确词,从而完成文本纠错;本实施例可以简便且有效地自动找出错词并给出纠错建议,成本低,同时避免了建立混淆集以及花费大量时间和人工进行维护的问题,提高了文本纠错的效率。
[0115] 图3所示的文本纠错装置30还可以包括:准确率获取单元(图未示)和调整单元(图未示)。其中,准确率获取单元适于获取文本纠错的准确率;调整单元适于在所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值时,重新进行文本纠错,直至所述准确率大于或等于所述预设值。
[0116] 需要说明的是,所述预设值可以根据实际的应用场景进行自定义配置和适应性的修改,本发明实施例对此不做限制。
[0117] 本发明实施例的具体实施方式和技术效果可参照图1和图2所示的文本纠错方法的实施例,此处不再赘述。
[0118] 本发明一优选实施例中,文本纠错装置40的结构可参照图4,图4是本发明实施例另一种文本纠错装置的结构示意图。
[0119] 文本纠错装置40可以包括预处理单元401、新词发现单元402、合并单元403、语义向量获取单元404、错词候选类划分单元405、推荐词选取单元406、其中,推荐词选取单元406可以包括语义距离计算子单元4061、错词候选集获取子单元4062、选择子单元4063和剔除子单元4064。
[0120] 其中,预处理单元401适于对所述待纠错语料进行预处理,以得到格式统一的所述待纠错语料。
[0121] 新词发现单元402适于找出所述待纠错语料中的新词,并加入分词词典,所述分词单元对所述待纠错语料进行分词是基于所述分词词典完成的。本实施例通过找出新词并加入分词词典,以避免利用分词词典分词时将新词进行分词,进而避免将新词作为错误音似词,进一步提高了文本纠错的准确率。具体而言,可以利用已有的新词发现工具找出待纠错语料的新词候选词,经人工过滤后加入分词词典。
[0122] 具体实施中,语义向量获取单元404适于将所述多个错词候选词和所述词串转化为对应的语义向量,以用于所述语义距离计算子单元4061计算所述每一错词候选类中所有词语两两之间的语义距离。
[0123] 具体实施中,推荐词选取单元406可以在每一错词候选类中,根据每一错词候选词和每一词串的成词概率选取推荐词。具体而言,语义距离计算子单元4061适于计算每一错词候选类中所有词语两两之间的语义距离;错词候选集获取子单元4062适于在两个词语之间的语义距离小于第二阈值时,将所述两个词语加入同一错词候选集,直至遍历完所述所有词语,以得到至少一个错词候选集;选择子单元4063适于在每一错词候选集中,分别根据每一错词候选词和/或所述每一词串的成词概率选取所述推荐词。选择子单元4063在所述至少一个错词候选集中,分别选取成词概率最大的词语作为所述推荐词。
[0124] 也就是说,在错词候选类的基础上根据语义距离建立错词候选集,使得语义相近的词语可以处于同一集合中;然后在错词候选集中根据成词概率选取推荐词,在语义相近的集合中选取成词概率最大的词语作为推荐词,进一步提高了文本纠错的准确率。
[0125] 本发明实施例在错词候选类的基础上根据语义距离建立错词候选集,使得语义相近的词语可以处于同一集合中;然后在错词候选集中根据成词概率选取推荐词,在语义相近的集合中选取成词概率最大的词语作为推荐词,进一步提高了文本纠错的准确率。
[0126] 进一步地,推荐词选取单元406可以包括剔除子单元4064,剔除子单元4064适于在遍历完所述每一错词候选类所述所有词语后仅剩余单个词语时,剔除所述单个词语。
[0127] 图4所示的文本纠错装置40还可以包括:准确率获取单元(图未示)和调整单元(图未示)。其中,准确率获取单元适于获取文本纠错的准确率;调整单元适于在所述准确率小于预设值时,调整所述第一阈值和/或所述第二阈值时,重新进行文本纠错,直至所述准确率大于或等于所述预设值。
[0128] 需要说明的是,所述预设值可以根据实际的应用场景进行自定义配置和适应性的修改,本发明实施例对此不做限制。
[0129] 本发明实施例对分词得到的单字串的至少一部分进行了合并,得到多个错词候选词,以便于错词候选词与拼音相同的词串建立错词候选类,基于成词概率在错词候选类中选取推荐词,该推荐词为错误音似词的正确词,从而完成文本纠错;本实施例可以简便且有效地自动找出错词并给出纠错建议,成本低,同时避免了建立混淆集以及花费大量时间和人工进行维护的问题,提高了文本纠错的效率。
[0130] 本发明实施例的具体实施方式和技术效果可参照图1和图2所示的文本纠错方法的实施例,此处不再赘述。
[0131] 本发明实施例还公开了一种终端,所述终端可以包括图3所示的文本纠错装置30或图4所示的文本纠错装置40。文本纠错装置30或文本纠错装置40可以内部集成于所述终端,也可以外部耦接于所述终端。所述终端可以是机器人、智能手机、平板设备等。
[0132] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
[0133] 虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。