一种基于特征性句干提取的机器翻译方法及装置转让专利

申请号 : CN201810544842.1

文献号 : CN108763229B

文献日 : 2020-06-12

本发明涉及一种基于特征性句干提取的机器翻译方法及装置，具体为：1)在语言A语料库中获取多词序列并识别结构满足句干要求的序列；2)基于内部粘着力、外部边界独立性及篇章分布域确定特征性句干并基于MIN‑MAX归一化算法和局部最大值消重法对其筛选；3)翻译特征性句干得特征性句干数据库；4)输入待翻译的语言A文本，逐句提取句干，在特征性句干数据库中查找句干译文，翻译句干外的词语并将其译文按照目标语言B的语序组合到句干译文中得到译文。装置包括特征性句干数据库单元、语言输入单元、句干提取单元、句干识别单元、翻译单元及组合单元。本发明的机器翻译方法及装置，翻译效率高，处理时间短，极具应用前景。

1.一种基于特征性句干提取的机器翻译方法，其特征是：首先输入待翻译的语言A文本，再逐句提取语言A文本的句干，然后在特征性句干数据库中查找句干译文，同时翻译句干外的词语，最后将句干外的词语的译文按照目标语言B的语序组合到句干译文中得到译文；

所述特征性句干数据库的建立步骤如下：

(1)在语言A语料库中获取多词序列；

(2)在多词序列中识别结构满足句干要求的序列；

(3)基于内部粘着力、外部边界独立性及篇章分布域在结构满足句干要求的序列中确定特征性句干；

(4)基于MIN-MAX归一化算法和局部最大值消重法对特征性句干进行筛选；

所述基于MIN-MAX归一化算法和局部最大值消重法对特征性句干进行筛选具体为：基于MIN-MAX归一化算法对内部粘着力MI(W)和最终边界熵H(W)归一化处理，得到消重参数，再根据局部最大值消重法在提取的特征性句干中进行筛选；

所述MIN-MAX归一化算法的公式如下；

其中，MIj’为归一化后的内部粘着力MI(W)，MImax、MImin分别为内部粘着力MI(W)的最大值、最小值，MIj为特征性句干j的内部粘着力MI(W)，Hj’为归一化后的最终边界熵H(W)，Hmax、Hmin分别为最终边界熵H(W)的最大值、最小值，Hj为特征性句干j的最终边界熵H(W)，将MIj’与Hj’相乘即得消重参数GI；

所述局部最大值消重法的公式如下：

式中，GI(Sn)代表某个包含n个单词的特征性句干的消重参数，GI(Sn+1)代表某个包含n+

1个单词的特征性句干的消重参数，GI(Sn-1)代表某个包含n-1个单词的特征性句干的消重参数，Sn代表某个包含n个单词的特征性句干；

(5)将筛选所得的特征性句干译为目标语言B，记录各特征性句干与其译文即得特征性句干数据库。

2.根据权利要求1所述的一种基于特征性句干提取的机器翻译方法，其特征在于，所述获取多词序列具体为：首先获取未赋码学术语言A文本语料库，利用赋码软件对文本进行词性赋码；然后对赋码后的文本进行线性切分，得到若干序列，生成2～7词的多词序列集合，接着对切分好的线性序列进行预加工处理得到多词序列；所述预加工处理包括删除乱码、删除序列内部标点及统计每个序列的频数。

3.根据权利要求2所述的一种基于特征性句干提取的机器翻译方法，其特征在于，所述语言A和目标语言B选自英文、中文、法文、德文、意大利文和日文中的两种；

所述语言A为英文时，所述词性赋码利用赋码软件的C7赋码集或TreeTagger；所述语言A为中文时，赋码软件为ICTCLAS；所述语言A为法文、德文或意大利文时，赋码软件为TreeTagger；所述语言A为日文时，赋码软件为Mecab。

4.根据权利要求1所述的一种基于特征性句干提取的机器翻译方法，其特征在于，所述识别结构满足句干要求的序列具体为：先在多词序列中搜寻具有主谓结构的句干序列；后针对谓语省略的情况进行单独处理，所述具有主谓结构的句干序列包括有主语类型和无主语类型。

5.根据权利要求1所述的一种基于特征性句干提取的机器翻译方法，其特征在于，所述基于内部粘着力、外部边界独立性及篇章分布域在结构满足句干要求的序列中确定特征性句干具体为：

1)计算内部粘着力；

1.1)根据假拟二元序列化理论，将n词序列假拟二词序列化，n≥2；

1.2)针对n词序列W，无重复选取n-1个离散点，逐一计算各个离散点两边的吸引力MIi，MIi代表该部分序列的内部粘着力，1≤i≤n-1，i为n词序列内部的可能离散点；

1.3)使用概率均值加权法计算每个假拟二词序列MIi值的出现概率，并且对其权重；

1.4)对权重后的所有MIi值求和，公式如下；

MI＝P(MI1)MI1+P(MI2)MI2+P(MI3)MI3+…+P(MIn-1)MIn-1＝∑P(MIi)MIi；

式中P(MIi)表示MIi的概率；

采用概率均值加权法对其进行调整，调整后的n词序列内部粘着力MI(W)计算公式如下：式中W＝{w1,w2,w3，…，wn}，i为序列W内部的可能离散点，将W分成w1,w2....,wi和w(i+1)....,wn两个部分，1≤i≤n-1,n≥2；其中，w1、w2、....wn分别为序列W的第一个、第二个....第n个构成单词，P(W)为序列W出现概率的实际观察值，P(w1,w2....,wi)为序列{w1,w2....,wi}的实际出现概率，P(w(i+1)....,wn)为序列{w(i+1)....,wn}的实际出现概率，为当离散点为i时，对应的序列W的出现概率的理论期望值；

2)测量边界独立性；

2.1)对于每个n词序列W，自动生成左边界搭配词和右边界搭配词两个集合，包含W左侧相邻位置出现的所有单词的集合A＝{ak|k为正整数}，ak为W左侧相邻位置出现的从左往右数第k个单词，W右侧相邻位置出现的所有单词的集合B＝{bk|k为正整数}，bk为W右侧相邻位置出现的从左往右数第k个单词；

2.2)计算每个n词序列的左边界最大熵H(W)left和右边界最大熵H(W)right，公式如下；

式中P(aW|W)表示序列W左边界出现单词a的条件概率，P(Wb|W)为W右边界出现b的条件概率；

2.3)计算n词序列的最终边界熵H(W)，公式如下：

式中F(W)表示序列W出现的总频数；

3)设定篇章分布域值；

当n词序列W中以上三个属性高于阈值，即内部粘着力MI(W)大于1.8、最终边界熵H(W)大于0.5、篇章分布域值大于2时，该序列被确定为特征性句干并提取。

6.根据权利要求1所述的一种基于特征性句干提取的机器翻译方法，其特征在于，所述在特征性句干数据库中查找句干译文是指将句干与特征性句干数据库中的特征性句干比较，如句干与特征性句干数据库中的特征性句干一样，则该特征性句干的译文即为句干译文。

7.采用如权利要求1～6任一项所述的基于特征性句干提取的机器翻译方法的装置，其特征是：包括特征性句干数据库单元、语言输入单元、句干提取单元、句干识别单元、翻译单元及组合单元；

所述特征性句干数据库单元包括输入子单元、核心处理子单元及数据库子单元；所述输入子单元用于获取多词序列；所述核心处理子单元包括切词与统计计算模块、阈值筛选模块和消重模块；所述切词与统计计算模块主要由切词功能子模块和统计计算子模块组成，所述切词功能子模块用于识别结构满足句干要求的序列，所述统计计算子模块用于计算结构满足句干要求的序列的内部粘着力、外部边界独立性及篇章分布域；所述阈值筛选模块用于在结构满足句干要求的序列中提取特征性句干，所述消重模块主要由归一化子模块和消重子模块组成，所述归一化子模块是基于MIN-MAX归一化算法对内部粘着力值和边界熵值进行处理，所述消重子模块是根据局部最大值消重法对特征性句干进行筛选；所述数据库子单元用于将筛选所得特征性句干译为目标语言B，并记录特征性句干与其译文；

所述语言输入单元，用于输入待翻译的语言A文本；

所述句干提取单元，逐句提取语言A文本的句干；

所述句干识别单元，在特征性句干数据库中查找句干译文；

所述翻译单元，将句干外的词语译为目标语言B；

所述组合单元，其对句干译文及句干外的词语的译文进行组合，得到译文；

所述语言输入单元、句干提取单元、句干识别单元及组合单元依次连接，句干提取单元、翻译单元与组合单元依次连接，所述特征性句干数据库单元中输入子单元、切词功能子模块、统计计算子模块、阈值筛选模块、归一化子模块、消重子模块及数据库子单元依次连接，所述数据库子单元与句干识别单元连接。

8.根据权利要求7所述的装置，其特征在于，所述输入子单元包括用于选择输入、输出路径的路径选择模块，所述切词与统计计算模块负责生成初始的备选序列数据库，所述阈值筛选模块包括参数设定与筛选子模块。

9.根据权利要求8所述的装置，其特征在于，所述参数设定与筛选子模块中设定的参数为内部粘着力MI(W)、最终边界熵H(W)、篇章分布域的阈值。

一种基于特征性句干提取的机器翻译方法及装置

技术领域

[0001] 本发明属于机器翻译领域，涉及一种基于特征性句干提取的机器翻译方法与装置，具体涉及一种基于语料库提取特征性句干的机器翻译方法及装置。

背景技术

[0002] 从早期的词典匹配到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机计算能力的提升和多语言信息的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务。

[0003] 基于语料库的机器翻译方法开始成为机器翻译领域研究的主要方向。由Sinclair团队倡导的语料库驱动的翻译对等研究方法正是在这样的背景下产生。翻译对等的核心思想为两种(或多种)语言间存在翻译对等(translation equivalence)，即语料库L1中某个词的文本环境和语料库L2中的翻译对等词(translation equivalent)有密切关联。通过计算机识别词语的文本环境，就可以此来确定L1中该词语的每次实际出现分别对应着L2中的哪个词。

[0004] 基于此构建机器翻译模型的步骤如下：1)利用Wordsmith等工具在JDEST中检索索引证据，描述特征性句干的形式和意义特征，确立形式和功能的对应关系；2)在平行语料库中，寻找汉语或目标语言译文，将频数较高的翻译确定为“潜在对等单位”(potential equivalent)；3)将潜在对等单位输入汉语或目标语言语料库中进行检验，考察其形式和功能特征，最终在语境中确立两者的对应程度。在这一模型中，特征性句干(sentence stem)是指学术英语语料库中实施语篇组织和态度表达功能的高频半固定句级序列，是一类特殊的小句级别的短语单位，它包含主谓结构，是句子的核心。对于它的提取一直以来都是机器翻译尤其是对等翻译领域的技术难点。

[0005] 而近年来，随着计算能力不断的提升和语料资源的不断丰富，短语学研究也不断深入，特征性句干提取技术的发展渐现曙光。现有的短语单位的自动提取方法主要有以下两类：1)频数阈值法，主要是用于生成初步的候选序列，其优势是计算复杂性低，但缺点在于识别的准确率和召回率较低；2)关联测量值法，其使用迭代或组合判断，可将提取技术扩展到多词序列，一定程度提高了其识别的准确率，但问题是进行学术英语文本翻译时，现有的关联测量值法抽取的多词序列超过半数都是专业术语或名词短语，同一语言结构的序列超过95％，而句干类别的跨结构单位的序列尤其是特征性句干极少，句干不同于专业术语或名词短语，其内部关联度较低，而且边界难确定，现有的术语提取方法不能直接用于特定句干的识别判断。虽然目前短语单位的自动提取方法有了一定的发展，但是上述方法仅仅是对于简单短语的提取，不能满足提取篇章性句干以用于机器翻译的实际需求。

[0006] 因此，如何有效地从海量数据中自动识别和抽取特征性句干进而进行机器翻译，成为亟待解决的重要问题。

发明内容

[0007] 本发明的目的是为了克服现有技术对跨语种文本翻译质量低下、准确率低的缺陷，提供一种特征性句干提取精准、处理量小且对跨语种文本翻译质量好、准确率高的基于特征性句干提取的机器翻译方法与装置。本发明利用特征性句干的特性，设法提取特征性句干，提升机器翻译效果，本发明提出了利用MIN-MAX归一化算法消重处理，并提取特征性句干的方法，以此改进机器翻译的机器翻译方法和机器翻译装置，可以有效改进机器翻译的质量。

[0008] 为了达到上述目的，本发明采用的技术方案为：

[0009] 一种基于特征性句干提取的机器翻译方法，首先输入待翻译的语言A文本，再逐句提取语言A文本的句干，然后在特征性句干数据库中查找句干译文，同时翻译句干外的词语，最后将句干外的词语的译文按照目标语言B的语序组合到句干译文中得到译文；

[0010] 所述特征性句干数据库的建立步骤如下：

[0011] (1)在语言A语料库中获取多词序列；

[0012] (2)在多词序列中识别结构满足句干要求的序列；

[0013] (3)基于内部粘着力、外部边界独立性及篇章分布域在结构满足句干要求的序列中确定特征性句干；

[0014] (4)基于MIN-MAX归一化算法和局部最大值消重法对特征性句干进行筛选；

[0015] (5)将筛选所得的特征性句干译为目标语言B，记录各特征性句干与其译文即得特征性句干数据库。

[0016] 作为优选的技术方案：

[0017] 如上所述的一种基于特征性句干提取的机器翻译方法，所述获取多词序列具体为：首先获取未赋码学术语言A文本语料库，利用赋码软件对文本进行词性赋码；然后对赋码后的文本进行线性切分，得到若干序列，生成2～7词的多词序列集合，接着对切分好的线性序列进行预加工处理得到多词序列；所述预加工处理包括删除乱码、删除序列内部标点及统计每个序列的频数。

[0018] 如上所述的一种基于特征性句干提取的机器翻译方法，所述语言A和目标语言B选自英文、中文、法文、德文、意大利文和日文中的两种；

[0019] 所述语言A为英文时，所述词性赋码利用赋码软件的C7赋码集或TreeTagger；所述语言A为中文时，赋码软件为ICTCLAS；所述语言A为法文、德文或意大利文时，赋码软件为TreeTagger；所述语言A为日文时，赋码软件为Mecab。语言A均采用现有赋码软件进行词性赋码，本发明的保护范围并不仅限于此，其他未列举的赋码软件也可适用于本发明，语言A也不仅限于此，其他能够进行词性赋码的语言如俄文、葡萄牙文、西班牙文等也可适用于本发明，选择合适的赋码软件进行词性赋码即可。

[0020] 如上所述的一种基于特征性句干提取的机器翻译方法，所述识别结构满足句干要求的序列具体为：首先在多词序列中搜寻具有主谓结构的句干序列；然后针对上述主谓搭配类别中不包括的谓语省略(如if possible)的情况进行单独处理，在提取主谓结构的过程中，结合各句式中词类的分布特点，对动词和名词在句中的位置进行限定。经过此步骤，提取出结构上符合句干要求的多词序列，所述具有主谓结构的句干序列包括有主语类型和无主语类型。

[0021] 如上所述的一种基于特征性句干提取的机器翻译方法，所述基于内部粘着力、外部边界独立性及篇章分布域在结构满足句干要求的序列中确定特征性句干具体为：

[0022] 联合内部粘着力、外部边界独立性以及篇章分布域参数，从统计学角度综合评价句干在学术语篇中的典型程度；

[0023] 基于上述提取出来的句干序列评价其显著性，包括三个评价指标：计算内部粘着力、测量边界独立性和设定篇章分布域参数；具体步骤包括：

[0024] 1)计算内部粘着力；

[0025] 1.1)根据假拟二元序列化理论，将n词序列假拟二词序列化，n≥2，使多词序列具备可测量性和可比性；

[0026] 1.2)针对n词序列，无重复选取n-1个离散点，逐一计算各个离散点两边的吸引力MIi，MIi代表该部分序列的内部粘着力，1≤i≤n-1，i为n词序列内部的可能离散点；

[0027] 1.3)使用概率均值加权法计算每个假拟二词序列MI值的出现概率，并且对其权重；

[0028] 1.4)对权重后的所有MI值求和，公式如下；

[0029] MI＝P(MI1)MI1+P(MI2)MI2+P(MI3)MI3+…+P(MIn-1)MIn-1＝∑P(MIi)MIi；

[0030] 式中P(MIi)表示MIi的概率；

[0031] 采用概率均值加权法调整后的n词序列MI(W)计算公式如下：

[0032]

[0033] 式中W＝{w1,w2,w3，…，wn}，i为序列W内部的可能离散点，将W分成w1,w2....,wi和w(i+1)....,wn两个部分，1≤i≤n-1,n≥2；其中，w1、w2、....wn分别为序列W的第一个、第二个....第n个构成单词，P(W)为序列W出现概率的实际观察值，P(w1,w2....,wi)为序列{w1,w2....,wi}的实际出现概率，P(w(i+1)....,wn)为序列{w(i+1)....,wn}的实际出现概率，为当离散点为i时，对应的序列W的出现概率的理论期望值；在1.3)概率均值加权法中，需要把序列W转化为n-1个假拟二词序列，i表示序列W内部的n-1个可能离散点，将W分成w1,w2....,wi和w(i+1)....,wn两个部分，1≤i≤n-1,n≥2，形成假拟二词序列；

[0034] 2)测量边界独立性；

[0035] 本发明采用熵来测量句干的边界独立性，边界熵用于测量序列的边界混乱度；边界熵值越大，该序列的不确定性越大，其独立性越高，越有可能成为一个规约组块；

[0036] 具体步骤为：

[0037] 2.1)对于每个候选句干序列W，自动生成左边界搭配词和右边界搭配词两个集合，包含W左侧相邻位置出现的所有单词的集合A＝{ak|k为正整数}，ak为W左侧相邻位置出现的从左往右数第k个单词，W右侧相邻位置出现的所有单词的集合B＝{bk|k为正整数}，bk为W右侧相邻位置出现的从左往右数第k个单词；

[0038] 2.2)计算每个句干的左边界最大熵H(W)left和右边界最大熵H(W)right，公式如下；

[0039]

[0040]

[0041] 式中P(aW|W)表示序列W左边界出现单词a的条件概率，P(Wb|W)为W右边界出现b的条件概率；

[0042] 2.3)对2.2)中算法进行改进，结合左、右边界最大熵，计算句干的最终边界熵H(W)，公式如下：

[0043]

[0044] 式中F(W)表示序列W出现的总频数；

[0045] 3)设定篇章分布域参数；

[0046] 篇章分布域(D)指同时出现某句干的文章篇数，本发明加入篇章分布域参数(text dispersion)作为评价指标，是为了确保句干分布不会过于集中，这得到多名学术作者的认可；

[0047] 综合所述，共设定了三个参数的阈值来限定功能句干：内部黏着力(MI)(阈值是1.8)、边界独立性(H)(阈值是0.5)和篇章分布域(D)(阈值是2)；当句干序列中以上三个属性高于阈值，即内部粘着力MI(W)大于1.8、最终边界熵H(W)大于0.5、篇章分布域值大于2时，该序列被确定为特征性句干并提取。

[0048] 如上所述的一种基于特征性句干提取的机器翻译方法，所述基于MIN-MAX归一化算法和局部最大值消重法对其进行筛选得到多个特征性句干具体为：

[0049] 首先，基于MIN-MAX归一化算法对内部粘着力MI(W)和最终边界熵H(W)归一化处理，得到消重参数；

[0050] 在消重算法中，选的消重参数分为3类：①MI(内部粘着力值)②H(边界熵值)③MI*H(联合内部粘着力和边界熵值)；

[0051] 内部粘着力和边界熵值共同作用于消重参数，所以内部粘着力和边界熵值将共同决定消重参数的大小；

[0052] 本发明选用第③种消重参数，采用MIN-MAX归一化算法预处理内部粘着力MI值和边界熵H值；使用MIN-MAX归一化算法分别处理内部粘着力和边界熵值，对内部粘着力值和边界熵值进行线性变换，使两个阀值均在0～1之间，从而在不改变数据内部性质的情况下，平衡各因子对等式值的作用，将两者最后的结果均衡，而不至于因为某一个值过大，而对结果起决定性影响，所述MIN-MAX归一化算法的公式如下；

[0053]

[0054]

[0055] 其中，MIj’为归一化后的内部粘着力MI(W)，MImax、MImin分别为内部粘着力MI(W)的最大值、最小值，MIj为特征性句干j的内部粘着力MI(W)，Hj’为归一化后的最终边界熵H(W)，Hmax、Hmin分别为最终边界熵H(W)的最大值、最小值，Hj为特征性句干j的最终边界熵H(W)，将MIj’与Hj’相乘即得消重参数GI；然后，根据局部最大值消重法在提取的特征性句干中进行筛选；

[0056] 然后，根据局部最大值消重法在提取的特征性句干中进行筛选；

[0057] 局部最大值(Localmaxs)消重法：将该句干仅与n-1元子序列和n+1元母序列作比较，其中n为该句干包含的单词数，n-1元子序列是指该句干包含的长度为n-1个单词的句干序列，n+1母序列为包含该句干且长度为n+1个单词的句干序列，采用局部最大值对提取出来的所有候选句干序列消重处理，删除因重复切分而产生的不同长度的重叠序列，确保提取出的每一条特征性句干都是独立个体，不存在与其他n-1元序列和n+1元序列重叠的现象；

[0058] 局部最大值消重法的具体公式如下：

[0059] GI(Sn)>GI(Sn+1)if n＝2；

[0060] GI(Sn)>＝GI(Sn-1)∨GI(Sn)>GI(Sn+1)if 7>n>2；

[0061] GI(Sn)>＝GI(Sn-1)if n＝7；

[0062] 式中，Sn代表某个包含n个单词的特征性句干；

[0063] 本发明针对提取的特征性句干的筛选方法并不仅限于局部最大值(Localmaxs)消重法，全局最大值(Globalmaxs)消重法也可适用于本发明，可根据实际需求选取。

[0064] 全局最大值(Globalmaxs)消重法：将句干与长度为2～7词的所有子序列和母序列做比较，其中子序列指被该句干包含的所有2～7词句干序列，母序列为包含该句干的所有2～7词句干序列；采用全局最大值对提取出来的候选句干序列消重处理，删除因重复切分而产生的不同长度的重叠序列，确保提取出的每一条功能句干都是独立个体，不存在与其他句干重叠的现象；其具体公式如下：

[0065] GI(Sn)>GI(Ssuper-string)if n＝2；

[0066] GI(Sn)>＝GI(Ssub-string)∨GI(Sn)>GI(Ssuper-string)if 7>n>2；

[0067] GI(Sn)>＝GI(Ssub-string)if n＝7；

[0068] 式中，Sn代表某个包含n个单词的特征性句干，Ssub-string表示Sn的子序列，Ssuper-string表示Sn的母序列。

[0069] 如上所述的一种基于特征性句干提取的机器翻译方法，所述在特征性句干数据库中查找句干译文是指将句干与特征性句干数据库中的特征性句干比较，如句干与特征性句干数据库中的特征性句干一样，则该特征性句干的译文即为句干译文。如句干与特征性句干数据库中的特征性句干不一致，则分别翻译组成该句干的各短语，后按照目标语言语序组合各短语得到该句干的译文。

[0070] 本发明还提供一种采用如上所述的基于特征性句干提取的机器翻译方法的装置，包括特征性句干数据库单元、语言输入单元、句干提取单元、句干识别单元、翻译单元、组合单元；

[0071] 所述特征性句干数据库单元包括输入子单元、核心处理子单元及数据库子单元；所述输入子单元用于获取多词序列；所述核心处理子单元包括切词与统计计算模块、阈值筛选模块和消重模块；所述切词与统计计算模块主要由切词功能子模块和统计计算子模块组成，所述切词功能子模块用于识别结构满足句干要求的序列，所述统计计算子模块用于计算结构满足句干要求的序列的内部粘着力、外部边界独立性及篇章分布域；所述阈值筛选模块用于在结构满足句干要求的序列中提取特征性句干，所述消重模块主要由归一化子模块和消重子模块组成，所述归一化子模块是基于MIN-MAX归一化算法对内部粘着力值和边界熵值进行处理，所述消重子模块是根据局部最大值消重法对特征性句干进行筛选；所述数据库子单元用于将筛选所得特征性句干译为目标语言B，并记录特征性句干与其译文；

[0072] 所述语言输入单元，用于输入待翻译的语言A文本；

[0073] 所述句干提取单元，逐句提取语言A文本的句干；

[0074] 所述句干识别单元，在特征性句干数据库中查找句干译文；

[0075] 所述翻译单元，将句干外的词语译为目标语言B；

[0076] 所述组合单元，其对句干译文及句干外的词语的译文进行组合，得到译文；

[0077] 所述语言输入单元、句干提取单元、句干识别单元及组合单元依次连接，句干提取单元、翻译单元与组合单元依次连接，所述特征性句干数据库单元中输入子单元、切词功能子模块、统计计算子模块、阈值筛选模块、归一化子模块、消重子模块及数据库子单元依次连接，所述数据库子单元与句干识别单元连接。

[0078] 如上所述的装置，所述语言输入子单元包括路径选择模块，用户可根据需求任意选择输入文件的路径和输出文件的路径，软件将在用户选择的输出路径下自动新建ExtractingOutput文件夹用以保存已有结果文件，所述切词与统计计算模块负责生成初始的备选序列数据库，在切词功能子模块中，用户可根据需求自行设置切分句干的长度和范围，所切句干序列的长度可在2词到7词之间任意选择，自行设置句干长度，本系统软件将根据用户设置的范围来对输入文件中的句干进行线性切分，最后生成不同长度的多词序列。在统计计算子模块中，软件将自动计算内部粘着力MI值和边界熵H值，并记录每个序列的左右邻接词的出现频数和文本位置，最后分别保存在对应的文件中，所述阈值筛选模块包括参数设定与筛选单元，在进行完句干提取和阈值计算之后，用户可以自行设定三个参数的大小，软件将自动筛选出所有在参数范围内的话语行为句干。在归一化子模块中，用户可以根据需求选择是否需要对MI值和H值进行归一化(To Normalise)，并且计算MI和H的乘积得到消重参数。如果选择归一化，软件将使用MIN-MAX归一化方法对MI值和H值进行线性变换，使两个阈值均在0～1之间，从而尽可能的减小在筛选过程中由于阈值之间差距过大造成的不良影响；如果选择非标准化，软件将使用原始的MI值和H值；所述结果展示部分的最终结果展示页面包括四个部分：句干显示框：该框位于界面的最上方，用于突出显示用户当前选中的句干及其对应的词性码；句干信息表：该表格位于结果界面的左侧，显示7列数据，分别为话语行为句干、句干对应的词性码、用户选择的消重参数值、句干频数、互信息值边界熵值、以及篇章分布域值；文本选择下拉框：该下拉框位于界面的右边；文本显示框：该文本显示框位于结果界面的右侧，用于显示所选句干的原文本内容和句干每一次出现的上下文语境；所述输出功能部分，其输出文件为指定路径下按照处理时间排序的已处理文件，格式为txt文本。

[0079] 如上所述的装置，所述参数设定与筛选子模块中设定的参数为内部粘着力MI(W)、最终边界熵H(W)、篇章分布域D的阈值。

[0080] 发明机理：

[0081] 本发明首先引入了内部粘着力、外部边界独立性及篇章分布域对识别的多词序列进行评价并从中选取特征性句干，而后独创性的使用了MIN-MAX归一化算法，对特征性句干的内部粘着力值和边界熵值进行归一化处理，再采用局部最大值消重法筛选特征性句干，翻译特征性句干得到特征性句干数据库，后基于特征性句干数据库对语言A文本进行翻译。

[0082] 其中归一化处理既可以最大程度的保留原始数据之间的性质，还可以控制各参数对提取结果的影响的平衡，本发明筛选得到特征性句干少，可显著提高处理效率，减少处理时间。采用本发明的方法，在同等运算环境条件下，100万词的处理时间仅为2分钟，而500万词的处理时间也仅为12分钟(电脑型号：HP348G3，处理器： CoreTMi7-6500U CPU@2.50GHz 2.60GHz，内存：8.00GB，系统类型：64位操作系统)。此外，本发明的装置具有较高的灵活性和可靠性，可根据使用者输入的不同参数进行计算处理，使用者可依据需要来选择相应的文本路径而不需要指定固定的路径，装置可以对相同的待处理文本进行不限次数的提取操作，如果已经存在相同的结果文件，该装置会自动提示可查看的结果以及询问使用者是否需要进行覆盖。

[0083] 有益效果：

[0084] (1)本发明的一种基于特征性句干提取的机器翻译方法，翻译效率高，处理时间短，极具应用前景；

[0085] (2)本发明的一种基于特征性句干提取的机器翻译装置，灵活、可靠，使用者可根据实际情况设定参数及路径。附图说明：

[0086] 图1为本发明的特征性句干数据库的建立流程图；

[0087] 图2为n词序列(n≥2)内部的可能的离散点示意图；

[0088] 图3为本发明的一种基于特征性句干提取的机器翻译方法的具体翻译流程图；

[0089] 图4为本发明的一种基于特征性句干提取的机器翻译装置的结构组成图；

[0090] 其中，“*”为可能的离散点。

具体实施方式

[0091] 下面结合具体实施方式，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

[0092] 一种基于特征性句干提取的机器翻译方法，具体步骤如下：

[0093] (1)建立特征性句干数据库，其步骤如图1所示：

[0094] 1.1)在语言A语料库中获取多词序列：

[0095] 首先获取未赋码语言A文本语料库，对文本进行词性赋码；然后对赋码后的文本进行线性切分，得到若干序列，生成2～7词的多词序列集合，接着对切分好的线性序列进行预加工处理得到多词序列；预加工处理包括删除乱码、删除序列内部标点及统计每个序列的频数；语言A为英文时，利用赋码软件的C7赋码集或TreeTagger对文本进行词性赋码，如语言A为中文时，赋码软件为ICTCLAS；如语言A为法文、德文或意大利文时，赋码软件为TreeTagger；如语言A为日文时，赋码软件为Mecab。

[0096] 1.2)在多词序列中识别结构满足句干要求的序列；

[0097] 首先在多词序列中搜寻具有主谓结构的句干序列；然后针对上述主谓搭配类别中不包括的谓语省略(如if possible)的情况进行单独处理，在提取主谓结构的过程中，结合各句式中词类的分布特点，对动词和名词在句中的位置进行限定。经过此步骤，提取出结构上符合句干要求的多词序列，具有主谓结构的句干序列包括有主语类型和无主语类型；

[0098] 1.3)基于内部粘着力、外部边界独立性及篇章分布域在结构满足句干要求的序列中确定特征性句干，具体如下：

[0099] 1.3.1)计算内部粘着力；

[0100] 1.3.1.1)根据假拟二元序列化理论，将n词序列转化成假拟二词序列化，n≥2；

[0101] 1.3.1.2)针对n词序列，无重复选取n-1个离散点，逐一计算各个离散点两边的吸引力MIi，MIi代表该部分序列的内部粘着力，1≤i≤n-1，i为n词序列内部的可能离散点；

[0102] 1.3.1.3)使用概率均值加权法计算每个假拟二词序列MI值的出现概率，并且对其权重；

[0103] 1.3.1.4)对权重后的所有MI值求和，公式如下；

[0104] MI＝P(MI1)MI1+P(MI2)MI2+P(MI3)MI3+…+P(MIn-1)MIn-1＝∑P(MIi)MIi；

[0105] 式中P(MIi)表示MIi的概率；

[0106] 采用概率均值加权法调整后的n词序列MI(W)计算公式如下：

[0107]

[0108] 式中W表示n词序列，W＝{w1,w2,w3，…，wn}；i为序列W内部的可能离散点，将W分成w1,w2....,wi和w(i+1)....,wn两个部分，1≤i≤n-1,n≥2；其中，w1、w2、....wn分别为序列W的第一个、第二个、....第n个构成单词，w1,w2....,wi表示被离散点i分割的假拟二元序列的第一部分，w(i+1)....,wn表示被离散点i分割的假拟二元序列的第二部分，n词序列(n≥2)内部的可能的离散点示意图如图2所示，P(W)为序列W出现概率的实际观察值，P(w1,w2....,wi)为序列{w1,w2....,wi}的实际出现概率，P(w(i+1)....,wn)为序列{w(i+1)....,wn}的实际出现概率，为当离散点为i时，对应的序列W的出现概率的理论期望值；

[0109] 1.3.2)测量边界独立性；

[0110] 1.3.2.1)对于每个候选句干序列W，自动生成左边界搭配词和右边界搭配词两个集合，包含W左侧相邻位置出现的所有单词的集合A＝{ak|k为正整数}，ak为W左侧相邻位置出现的从左往右数第k个单词，W右侧相邻位置出现的所有单词的集合B＝{bk|k为正整数}，bk为W右侧相邻位置出现的从左往右数第k个单词；

[0111] 1.3.2.2)计算每个句干的左边界最大熵H(W)left和右边界最大熵H(W)right，公式如下；

[0112]

[0113]

[0114] 式中P(aW|W)表示序列W左边界出现单词a的条件概率，P(Wb|W)为W右边界出现b的条件概率；

[0115] 1.3.2.3)计算句干的最终边界熵H(W)，公式如下：

[0116]

[0117] 式中F(W)表示序列W出现的总频数；

[0118] 当句干序列中以上三个属性高于阈值，即内部粘着力MI(W)大于1.8、最终边界熵H(W)大于0.5、篇章分布域值大于2时，该序列被确定为特征性句干并提取；

[0119] 1.4)基于MIN-MAX归一化算法和局部最大值消重法对特征性句干进行筛选；

[0120] 1.4.1)基于MIN-MAX归一化算法对内部粘着力值和边界熵值归一化处理，得到消重参数；

[0121] MIN-MAX归一化算法的公式如下；

[0122]

[0123]

[0124] 其中，MIj’为归一化后的内部粘着力MI(W)，MImax、MImin分别为内部粘着力MI(W)的最大值、最小值，MIj为特征性句干j的内部粘着力MI(W)，Hj’为归一化后的最终边界熵H(W)，Hmax、Hmin分别为最终边界熵H(W)的最大值、最小值，Hj为特征性句干j的最终边界熵H(W)，将MIj’与Hj’相乘即得消重参数GI；然后，根据局部最大值消重法在提取的特征性句干中进行筛选；

[0125] 1.4.2)根据局部最大值消重法在提取的特征性句干中进行筛选；

[0126] 其具体公式如下：

[0127] GI(Sn)>GI(Sn+1)if n＝2；

[0128] GI(Sn)>＝GI(Sn-1)∨GI(Sn)>GI(Sn+1)if 7>n>2；

[0129] GI(Sn)>＝GI(Sn-1)if n＝7；

[0130] 式中，GI(Sn)代表某个包含n个单词的特征性句干的消重参数，GI(Sn+1)代表某个包含n+1个单词的特征性句干的消重参数，GI(Sn-1)代表某个包含n-1个单词的特征性句干的消重参数，Sn代表某个包含n个单词的特征性句干；

[0131] 1.5)将筛选所得的特征性句干译为目标语言，记录各特征性句干与其译文即得特征性句干数据库；

[0132] 本发明的具体翻译流程如图3所示，具体步骤如步骤(2)～(5)所述：

[0133] (2)输入待翻译的语言A文本；

[0134] (3)逐句提取语言A文本的句干；

[0135] (4)在特征性句干数据库中查找句干译文，具体为：

[0136] 将句干与特征性句干数据库中的特征性句干比较，如句干与特征性句干数据库中的特征性句干一样，则该特征性句干的译文即为句干译文；如句干与特征性句干数据库中的特征性句干不一致，则分别翻译组成该句干的各短语，后按照目标语言B语序组合各短语得到该句干的译文；

[0137] (5)翻译句干外的词语，再将句干外的词语的译文按照目标语言B的语序组合到句干译文中得到译文。

[0138] 采用上述机器翻译方法的装置，其结构组成图如图4所示，包括特征性句干数据库单元、语言输入单元、句干提取单元、句干识别单元、翻译单元及组合单元；

[0139] 特征性句干数据库单元包括输入子单元、核心处理子单元及数据库子单元；

[0140] 输入子单元用于获取多词序列，其包括用于选择输入、输出路径的路径选择模块；

[0141] 核心处理子单元包括切词与统计计算模块、阈值筛选模块和消重模块；

[0142] 切词与统计计算模块负责生成初始的备选序列数据库，主要由切词功能子模块和统计计算子模块组成，切词功能子模块用于识别结构满足句干要求的序列，统计计算子模块用于计算结构满足句干要求的序列的内部粘着力、外部边界独立性及篇章分布域；

[0143] 阈值筛选模块用于在结构满足句干要求的序列中提取特征性句干，其包括参数设定与筛选子模块，参数设定与筛选子模块中设定的参数为内部粘着力、边界熵、篇章分布域的阈值；

[0144] 消重模块主要由归一化子模块和消重子模块组成，归一化子模块是基于MIN-MAX归一化算法对内部粘着力值和边界熵值进行处理，消重子模块是根据局部最大值消重法对特征性句干进行筛选；数据库子单元用于将筛选所得特征性句干译为目标语言B，并记录特征性句干与其译文；

[0145] 语言输入单元，用于输入待翻译的语言A文本；

[0146] 句干提取单元，逐句提取语言A文本的句干；

[0147] 句干识别单元，在特征性句干数据库中查找句干译文；

[0148] 翻译单元，将句干外的词语译为目标语言B；

[0149] 组合单元，其对句干译文及句干外的词语的译文进行组合，得到译文；

[0150] 语言输入单元、句干提取单元、句干识别单元及组合单元依次连接，句干提取单元、翻译单元与组合单元依次连接，特征性句干数据库单元与句干识别单元连接，特征性句干数据库单元中输入子单元、切词功能子模块、统计计算子模块、阈值筛选模块、归一化子模块、消重子模块及数据库子单元依次连接，数据库子单元与句干识别单元连接。

一种基于特征性句干提取的机器翻译方法及装置转让专利

申请号 : CN201810544842.1

文献号 : CN108763229B

文献日 : 2020-06-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李晶洁 , 胡文杰

申请人 : 东华大学

摘要 :

权利要求 :

说明书 :

一种基于特征性句干提取的机器翻译方法及装置

技术领域

背景技术

发明内容

具体实施方式