一种稀疏名词对齐方法及系统转让专利

申请号 : CN202010501226.5

文献号 : CN111797607A

文献日 : 2020-10-20

本发明实施例提供一种稀疏名词对齐方法及系统，该方法包括：根据待处理语料的语系，选取对应的分割方式，对待处理语料进行分割，获取每一分割词语；根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将对齐关系矩阵输入到稀疏词语对齐模型的softmax函数中，获取目标词向量与每一预测词汇向量的对齐概率向量；根据对齐概率向量获取目标词汇对齐的译文中词汇。本发明首次提出一种针对稀疏词语的稀疏稀疏词语对齐模型，对于比较稀疏词汇对齐效果比较好。

1.一种稀疏名词对齐方法，其特征在于，包括：

根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

2.根据权利要求1所述的稀疏名词对齐方法，其特征在于，所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量的对齐关系矩阵，具体包括：将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中，获取中间结果；

将所述中间结果作为所述稀疏词语对齐模型的对齐层，获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。

3.根据权利要求1所述的稀疏名词对齐方法，其特征在于，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，具体包括：将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层，获取每一预测词汇向量；

计算每一预测词汇向量和参考词汇向量之间的交叉熵损失；

通过反向传播更新所述稀疏词语对齐模型的参数，重复上述过程，进行梯度下降找到局部最优解，获取训练后的稀疏词语对齐模型。

4.根据权利要求3所述的稀疏名词对齐方法，其特征在于，所述输入层包括第一输入单元和第二输入单元，其中：所述第一输入单元由N个GRU神经网络组成，每一GRU神经网络按照预设方向依次连接，N表示所述待处理语料中所有分割词语的数量；

所述第二输入单元由N个GRU神经网络组成，每一GRU神经网络按照与所述预设方向相反的方向依次连接；

所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。

5.根据权利要求4所述的稀疏名词对齐方法，其特征在于，所述对齐层由N个GRU神经网络组成，每一GRU神经网络按照所述预设方向依次连接；

所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。

6.根据权利要求5所述的稀疏名词对齐方法，其特征在于，所述稀疏词语对齐模型还包括输出层，所述输出层由M个GRU神经网络组成，每一GRU神经网络按照与所述预设方向依次连接，M表示所述预设目标语言中所有分割词语的数量；

若M大于N，则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接；

若M小于N，则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。

7.根据权利要求1所述的稀疏名词对齐方法，其特征在于，所述根据待处理语料的语系对应的分割方式，对所述待处理语料进行分割，获取每一分割词语，具体包括：若所述待处理语料为拉丁语系，则对所述待处理语料按空格进行分割，获取每一分割词语；

若所述待处理语料为非拉丁语系，则对所述待处理语料按字符进行分割，获取每一分割词语。

8.一种稀疏名词对齐系统，其特征在于，包括：

分割模块，用于根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

词汇模块，用于根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

概率模块，用于将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

对齐模块，用于根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的稀疏名词对齐方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述稀疏的名词对齐方法的步骤。

一种稀疏名词对齐方法及系统

技术领域

[0001] 本发明涉及计算机技术领域，尤其涉及一种稀疏名词对齐方法及系统。

背景技术

[0002] 目前主要的词对齐方式是基于统计概率模型或者词典等语言知识库的规则混合，常见的统计概率模型有HMM或者其改良模型，但是对于比较稀疏词汇例如人物的姓名、小说创造的非常见姓名、或者小说中作者创造的“招式”“功法”等翻译，因为只在一本小说出现一次非常稀疏，通过统计很难获得其概率模型。

[0003] 因此，亟需一种针对稀疏名词的对齐方法。

发明内容

[0004] 为了解决上述问题，本发明实施例提供一种稀疏名词对齐方法及系统。

[0005] 第一方面，本发明实施例提供一种稀疏名词对齐方法，包括：

[0006] 根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

[0007] 根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

[0008] 将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

[0009] 根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

[0010] 优选地，所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量的对齐关系矩阵，具体包括：

[0011] 将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中，获取中间结果；

[0012] 将所述中间结果作为所述稀疏词语对齐模型的对齐层，获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。

[0013] 优选地，所述所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，具体包括：

[0014] 将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层，获取每一预测词汇向量；

[0015] 计算每一预测词汇向量和参考词汇向量之间的交叉熵损失；

[0016] 通过反向传播更新所述稀疏词语对齐模型的参数，重复上述过程，进行梯度下降找到局部最优解，获取训练后的稀疏词语对齐模型。

[0017] 优选地，所述输入层包括第一输入单元和第二输入单元，其中：

[0018] 所述第一输入单元由N个GRU神经网络组成，每一GRU神经网络按照预设方向依次连接，N表示所述待处理语料中所有分割词语的数量；

[0019] 所述第二输入单元由N个GRU神经网络组成，每一GRU神经网络按照与所述预设方向相反的方向依次连接；

[0020] 所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。

[0021] 优选地，所述对齐层由N个GRU神经网络组成，每一GRU神经网络按照所述预设方向依次连接；

[0022] 所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。

[0023] 优选地，所述稀疏词语对齐模型还包括输出层，所述输出层由M个GRU神经网络组成，每一GRU神经网络按照与所述预设方向依次连接，M表示所述预设目标语言中所有分割词语的数量；

[0024] 若M大于N，则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接；

[0025] 若M小于N，则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。

[0026] 优选地，所述根据待处理语料的语系对应的分割方式，对所述待处理语料进行分割，获取每一分割词语，具体包括：

[0027] 若所述待处理语料为拉丁语系，则对所述待处理语料按空格进行分割，获取每一分割词语；

[0028] 若所述待处理语料为非拉丁语系，则对所述待处理语料按字符进行分割，获取每一分割词语。

[0029] 第二方面，本发明实施例提供一种稀疏名词对齐系统，包括：

[0030] 分割模块，用于根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

[0031] 词汇模块，用于根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

[0032] 概率模块，用于将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

[0033] 对齐模块，用于根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

[0034] 第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面提供的一种稀疏词语对齐方法的步骤。

[0035] 第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面提供的一种稀疏词语对齐方法的步骤。

[0036] 本发明实施例提供一种稀疏词语的对齐方法及系统，首次提出一种针对稀疏词语的稀疏稀疏词语对齐模型，该稀疏稀疏词语对齐模型为神经网络模型，对于比较稀疏词汇对齐效果比较好。

附图说明

[0037] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0038] 图1为本发明实施例提供的一种稀疏名词对齐方法的流程图；

[0039] 图2为本发明实施例中利用稀疏词语对齐模型进行测试的示意图；

[0040] 图3为本发明实施例中稀疏词语对齐模型的训练过程示意图；

[0041] 图4为本发明实施例中进行训练的过程示意图；

[0042] 图5为本发明实施例提供的一种稀疏名词对齐系统的结构示意图；

[0043] 图6为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

[0044] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0045] 对于比较不常见的或者特有的词汇，通常将这类词汇称为稀疏词汇，现有技术中对稀疏词汇的对齐方法效果不佳，针对该问题，本发明实施例提供一种针对稀疏词汇的对齐方法。

[0046] 图1为本发明实施例提供的一种稀疏名词对齐方法的流程图，如图1所示，该方法包括：

[0047] S1，根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

[0048] 首先获取待处理语料，根据待处理语料所处的语系，选择与每个语系对应的分割方式，对待处理语料进行分割，得到分割词语。

[0049] 例如，待处理语料为“半截面包从艾林的嘴边掉了下来”，那么分割词语为“半|截|面|包|从|艾|林|的|嘴|边|掉|了|下|来|”；如果待处理语料为“One-half of a bread fell from Ayrin's mouth”，那么分割词语为“One-half|of|a|bread|fell|from|Ayrin's|mouth.|”。

[0050] S2，根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

[0051] 然后根据每个分割词语，按照多空间词嵌入的方法，得到若干个空间词汇向量。

[0052] S3，将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到。

[0053] 首先将每个词汇向量输入到稀疏词语对齐模型的输入层中，得到多个预测词汇向量，预测词汇向量相当于是根据待处理语料的词汇向量得到的所有可能的译文结果。目标词向量是待处理语料中的一个词汇对应的向量，然后将目标词向量和每一预测词汇向量输入到稀疏词语对齐模型的对齐层中，得到目标词向量和每个预测词汇向量之间的对齐关系矩阵，对齐关系矩阵表示的是目标词向量和每个预测词汇向量之间的对齐概率。

[0054] 然后将目标词向量和每个预测词汇向量之间的对齐关系矩阵输入到稀疏词语对齐模型的softmax函数中，得到目标词向量和每个预测词汇向量之间的对齐概率向量，稀疏词语对齐模型是一个神经网络模型，可以通过训练后直接拿来使用，具体在训练时是通过若干词汇向量样本对稀疏词语对齐模型进行训练得到。

[0055] S4，根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

[0056] 然后根据前面得到的对齐概率向量，选择对齐概率最大的词汇作为目标词汇对齐的译文中词汇。

[0057] 举例地，待处理语料为：半截面包从艾林的嘴边掉了下来。

[0058] 分割词语为：半|截|面|包|从|艾|林|的|嘴|边|掉|了|下|来|。

[0059] 预设目标语言为：One-half of a bread fell fromAyrin's mouth。

[0060] 假设目标词向量为One-half，该目标词向量与每个预测词汇向量之间的概率为[0.8,0.5,0.2,.0.02...]，根据其中最大概率找对齐关系，那么，就可以判定这个句子中One-half和“半截”为对齐关系。

[0061] 本发明实施例提供一种稀疏词语的对齐方法，首次提出一种针对稀疏词语的稀疏词语对齐模型，该稀疏词语对齐模型为神经网络模型，对于比较稀疏词汇对齐效果比较好。

[0062] 图2为本发明实施例中利用稀疏词语对齐模型进行测试的示意图，如图2所示，在上述实施例的基础上，优选地，所述将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量的对齐关系矩阵，具体包括：

[0063] 将每一词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的输入层中，获取中间结果；

[0064] 将所述中间结果作为所述稀疏词语对齐模型的对齐层，获取所述目标词向量和每一预测词汇向量之间的对齐关系矩阵。

[0065] 将每一预测词汇向量和所述目标词向量输入到所述稀疏词语对齐模型的对齐层，获取所述目标词向量与每一预测词汇向量之间对齐关系矩阵。

[0066] 将目标词向量和每一预测词汇向量之间对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵。

[0067] 最后输出的向量[a1,a2,…,ai]就是目标词向量与每个预测词汇向量对齐的概率，ai计算方式是标准的softmax：

[0068]

[0069] 其中，ai表示目标词向量和第i个预测词汇向量的对齐关系矩阵，yi表示输入到softmax的第i个GRU的输出，yj表示求和公式表示1-N个的自然对数GRU输出之和。

[0070] 在上述实施例的基础上，优选地，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，具体包括：

[0071] 将每一空间词汇向量样本输入到所述稀疏词语对齐模型的输入层，获取每一预测词汇向量；

[0072] 计算每一预测词汇向量和参考词汇向量之间的交叉熵损失；

[0073] 通过反向传播更新所述稀疏词语对齐模型的参数，重复上述过程，进行梯度下降找到局部最优解，获取训练后的稀疏词语对齐模型。

[0074] 图3为本发明实施例中稀疏词语对齐模型的训练过程示意图，图4为本发明实施例中进行训练的过程示意图，结合图3和图4所示，以“你还好吗”空间词汇向量样本为例进行说明，将“你还好吗”对应的空间词汇向量样本输入到输入层中，得到对应的预测词汇向量。

[0075] 然后将每个空间词汇向量样本与预测词汇向量之间的对齐关系，具体地，以“你”这个空间词汇向量样本为例进行说明，“你”与预测输出词汇向量之间的对齐关系包括：“你”和“are”之间的概率、“你”和“you”之间的概率、“你”和“ok”之间的概率。

[0076] 将“你”与预测输出词汇之间的对齐关系输入到输出层中，得到下一个词汇向量“好”与预测输出词汇之间的对齐关系。

[0077] 在训练过程中不断通过比较“预测词汇向量”和“真正的译文向量”之间的“损失”，通过反向传播修改整个神经网络(包括对齐层)的“参数权重”达到训练目的。对齐层和输入层的”参数权重”就是本发明实施例需要训练的东西。

[0078] 在上述实施例的基础上，优选地，所述输入层包括第一输入单元和第二输入单元，其中：

[0079] 所述第一输入单元由N个GRU神经网络组成，每一GRU神经网络按照预设方向依次连接，N表示所述待处理语料中所有分割词语的数量；

[0080] 所述第二输入单元由N个GRU神经网络组成，每一GRU神经网络按照与所述预设方向相反的方向依次连接；

[0081] 所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。

[0082] 如图3所示，图中给出了本发明实施例中输入层的结构，从图3中可以看出，输入层由第一输入单元和第二输入单元组成，第一输入单元由N个GRU神经网络组成，并且每个GRU神经网络按照预设方向依次连接，图中水平箭头所指的方向就是预设方向，第一输入单元中的每个GRU神经网络按照向右的方向依次连接。

[0083] 第二输入单元由N个GRU神经网络按照与预设方向相反的方向依次连接，从图中可以看出来，预设方向为向右的方向，与预设方向相反的方向为向左的方向，第二输入单元中每个GRU神经网络按照向左的方向依次连接。

[0084] 并且，第一输入单元中每个GRU神经网络还与第二输入单元中每个GRU神经网络一一对应连接。

[0085] 具体地，第一输入单元记录一个句子的各个空间词汇向量，按照顺序，输入到神经网络之后的。

[0086] 第二输入单元则是为了防止输入顺序对对齐结果影响过大对输入反向调整再输入一次。

[0087] 在上述实施例的基础上，优选地，所述对齐层由N个GRU神经网络组成，每一GRU神经网络按照所述预设方向依次连接；

[0088] 所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。

[0089] 具体地，对齐层由N个GRU神经网络组成，每个GRU神经网络按照向右的方向依次连接。第二输入单元中每个GRU神经网络和对齐层中每个GRU神经网络一一对应连接。

[0090] 在上述实施例的基础上，优选地，所述稀疏词语对齐模型还包括输出层，所述输出层由M个GRU神经网络组成，每一GRU神经网络按照与所述预设方向依次连接，M表示所述预设目标语言中所有分割词语的数量；

[0091] 若M大于N，则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接；

[0092] 若M小于N，则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。

[0093] 具体地，输出层有M个GRU神经网络组成，每个GRU神经网络按照向右的方向依次连接，M表示预设目标语言中所有分割词语的数量。

[0094] 由于在实际应用中，M很可能与N不相等，因此，按照顺序将对齐层的GRU神经网络和输出层的GRU神经网络对齐。

[0095] 基于该稀疏词语对齐模型，经过多方实验验证，本发明实施例提出的方法对稀疏词语的对齐效果比现有技术好。

[0096] 在上述实施例的基础上，优选地，所述根据待处理语料的语系对应的分割方式，对所述待处理语料进行分割，获取每一分割词语，具体包括：

[0097] 若所述待处理语料为拉丁语系，则对所述待处理语料按空格进行分割，获取每一分割词语；

[0098] 若所述待处理语料为非拉丁语系，则对所述待处理语料按字符进行分割，获取每一分割词语。

[0099] 具体，如果待处理语料的语系为拉丁语系，则按照空格对待处理语料进行分割，如果代处理器语料的语系为非拉丁语系，则按照字符的方式对待处理语料进行分割。

[0100] 图5为本发明实施例提供的一种稀疏名词对齐系统的结构示意图，如图5所示，该系统包括：分割模块501、词汇模块502、概率模块503和对齐模块504，其中：

[0101] 分割模块501用于根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

[0102] 词汇模块502用于根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

[0103] 概率模块503用于将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

[0104] 对齐模块504用于根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

[0105] 本实施例为与上述方法相对应的系统实施例，详情请参考上述方法实施例，本系统实施例在此不再赘述。

[0106] 图6为本发明实施例提供的一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和总线604，其中，处理器601，通信接口602，存储器603通过总线604完成相互间的通信。通信接口602可以用于电子设备的信息传输。处理器601可以调用存储器603中的逻辑指令，以执行包括如下的方法：

[0107] 根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

[0108] 根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

[0109] 将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

[0110] 根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

[0111] 此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0112] 另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：

[0113] 根据待处理语料的语系，选取对应的分割方式，对所述待处理语料进行分割，获取每一分割词语；

[0114] 根据每一分割词语，按照多空间词嵌入的方法，获取若干空间词汇向量；

[0115] 将目标词向量和每一词汇向量输入到稀疏词语对齐模型的输入层和对齐层中，获取目标词向量与每一预测词汇向量之间的对齐关系矩阵，并将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中，获取所述目标词向量与每一预测词汇向量的对齐概率向量，所述稀疏词语对齐模型是以若干词汇向量样本进行训练得到，预测词汇向量根据所述词汇向量得到；

[0116] 根据所述对齐概率向量获取所述目标词汇对齐的译文中词汇，所述目标词汇为所述待处理语料中的一个分割词语，所述目标词向量为所述目标词汇对应的向量。

[0117] 以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

[0118] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

[0119] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

一种稀疏名词对齐方法及系统转让专利

申请号 : CN202010501226.5

文献号 : CN111797607A

文献日 : 2020-10-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 蔡洁

申请人 : 语联网(武汉)信息技术有限公司

摘要 :

权利要求 :

说明书 :