一种嵌入外部词典信息的词向量改进方法转让专利

申请号 : CN201811087244.2

文献号 : CN109271635B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄淼鑫潘嵘

申请人 : 中山大学

摘要 :

本发明涉及自然语言处理的技术领域,更具体地,涉及一种嵌入外部词典信息的词向量改进方法。本发明在普通词向量的基础上融合了相似词词典和相关词词典的信息,相比于普通词向量,本发明可以较好的分离共现词的影响,同时缩小词义相近的词的词向量距离,使得最终的词向量更接近词的客观词义;另一方面,因为词向量是很多自然语言处理任务的底层技术,更接近客观词义的词向量有助于下游任务的提升。外部预训练的高质量词向量在一些任务中还能缓解标注数据不足的问题。

权利要求 :

1.一种嵌入外部词典信息的词向量改进方法,其特征在于,包括以下步骤:S1: 准备一个大型语料库和一个电子词典;

S2: 相似词词典:电子词典的每个词可能会附带有近义词和同义词,利用脚本将其抽取出来并记录;

S3: 相关词词典:在大型语料库中,使用统计方法寻找相关词对,按照两个相关词的联合概率远大于两个词的单独概率乘积的原则,将相关词对识别出来并记录;

S4: 针对语料库,统计出现的所有词及其词频,构建一个词汇表;

S5: 在语料库中设定一个滑动窗口,窗口大小为n,取窗口的中间词为中心词,将中心词和其他词构成正例pair;

S6: 在词汇表中依据词频确定被采样概率,采样出若干个词,和中心词一起构成负例pair;

S7: 如果S5的中心词出现在相似词词典中,则分别把中心词和相似词典记录的对应词构成pair,加入到正例pair中;

S8: 如果S5的中心词出现在相关词词典中,则分别把中心词和相关词典记录的对应词构成pair,加入到负例pair中;

S9: 搭建一个单层且无偏置参数的全连接神经网络,将正例pair和负例pair作为输入,利用sigmoid函数输出pair是正例或负例的概率;

S10: 利用均方差计算输出loss,使用梯度下降法使loss下降;

S11: 重复S5到S10,直到loss收敛;

S12: 全连接网络的权重矩阵即是所有词语的词向量构成的矩阵。

说明书 :

一种嵌入外部词典信息的词向量改进方法

技术领域

[0001] 本发明涉及自然语言处理的技术领域,更具体地,涉及一种嵌入外部词典信息的词向量改进方法。

背景技术

[0002] 当前自然语言处理底层技术中常常用到的词向量是词的向量化表示,向量的各维度往往带有一定的跟词义相关的物理含义。现阶段应用最广的词向量技术是word2vec,属于分布式词向量。它服从一个分布式假设,即词的词义由上下文包含的词共同决定。word2vec的实现方法有CBOW模型和skip‑gram模型两种,其中CBOW模型的思想是根据中心词周围的若干个词来预测中心词,而skip‑gram模型的思想是根据中心词来预测中心词周围的其他词。
[0003] word2vec等分布式词向量方法不需要标注语料就可以较好的得到接近客观词义的词向量。但由于分布式假设存在问题,即中心词的上下文包含的词只能决定中心词的语法,而不是决定中心词的语义,故这些方法得到的词向量距离客观词义还有差距。
[0004] 上述技术的大前提是分布式假设。这个假设会导致两个主要问题及其原因:
[0005] (1)有一些词义完全不同,但是经常共同出现的词,由于具有相似的语境,最终会导致这些词的词向量在空间上距离很接近。如果把这些词向量等同于词义,在实际应用中会引入词义混淆。之所以有这样的缺点,是因为中心词周围包含的词只能决定中心词的用法,无法直接决定中心词的词义。
[0006] (2)由于语料是人工编写的,两个词义相近的词被用到的频率有时候是很不同的,这会导致频率低的词训练不充分,词义挖掘不足。

发明内容

[0007] 本发明为克服上述现有技术所述的至少一种缺陷,提供一种嵌入外部词典信息的词向量改进方法,本发明要解决的问题是针对当前经典词向量方法的缺陷,考虑结合外部词典信息,以得到更接近客观词义的词向量。
[0008] 本发明的技术方案是:一种嵌入外部词典信息的词向量改进方法,其中,包括以下步骤:
[0009] S1: 准备一个大型语料库和一个电子词典;
[0010] S2: 相似词词典:电子词典的每个词可能会附带有近义词和同义词,利用脚本将其抽取出来并记录;
[0011] S3: 相关词词典:在大型语料库中,使用统计方法寻找相关词对,按照两个相关词的联合概率远大于两个词的单独概率乘积的原则,将相关词对识别出来并记录;
[0012] S4: 针对语料库,统计出现的所有词及其词频,构建一个词汇表;
[0013] S5: 在语料库中设定一个滑动窗口,窗口大小为n,取窗口的中间词为中心词,将中心词和其他词构成正例pair;
[0014] S6: 在词汇表中依据词频确定被采样概率,采样出若干个词,和中心词一起构成负例pair;
[0015] S7: 如果S5的中心词出现在相似词词典中,则分别把中心词和相似词典记录的对应词构成pair,加入到正例pair中;
[0016] S8: 如果S5的中心词出现在相关词词典中,则分别把中心词和相关词典记录的对应词构成pair,加入到负例pair中;
[0017] S9: 搭建一个单层且无偏置参数的全连接神经网络,将正例pair和负例pair作为输入,利用sigmoid函数输出pair是正例或负例的概率;
[0018] S10: 利用均方差计算输出loss,使用梯度下降法使loss下降;
[0019] S11: 重复S5到S10,直到loss收敛;
[0020] S12: 全连接网络的权重矩阵即是所有词语的词向量构成的矩阵。
[0021] 本发明创造希望得到更接近客观词义的词向量。本发明认为现有的词向量技术的缺陷是把共现的词误判为词义接近,同时某些词义接近的词没有被覆盖。通过分析导致现有技术缺点的原因,本发明考虑引入两个外部词典,一个是词义相关词词典,一个是词义相似词词典,在现有词向量技术的训练过程中融合这两个词典的信息,以得到更接近客观词义的词向量。
[0022] 与现有技术相比,有益效果是:本发明在普通词向量的基础上融合了相似词词典和相关词词典的信息,相比于普通词向量,本发明可以较好的分离共现词的影响,同时缩小词义相近的词的词向量距离,使得最终的词向量更接近词的客观词义。
[0023] 另一方面,因为词向量是很多自然语言处理任务的底层技术,更接近客观词义的词向量有助于下游任务的提升。外部预训练的高质量词向量在一些任务中还能缓解标注数据不足的问题。

附图说明

[0024] 图1是本发明整体示意图。

具体实施方式

[0025] 附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
[0026] 如图1所示,一种嵌入外部词典信息的词向量改进方法,其中,包括以下步骤:
[0027] S1: 准备一个大型语料库和一个电子词典;
[0028] S2: 相似词词典:电子词典的每个词可能会附带有近义词和同义词,利用脚本将其抽取出来并记录;
[0029] S3: 相关词词典:在大型语料库中,使用统计方法寻找相关词对,按照两个相关词的联合概率远大于两个词的单独概率乘积的原则,将相关词对识别出来并记录;
[0030] S4: 针对语料库,统计出现的所有词及其词频,构建一个词汇表;
[0031] S5: 在语料库中设定一个滑动窗口,窗口大小为n,取窗口的中间词为中心词,将中心词和其他词构成正例pair;
[0032] S6: 在词汇表中依据词频确定被采样概率,采样出若干个词,和中心词一起构成负例pair;
[0033] S7: 如果S5的中心词出现在相似词词典中,则分别把中心词和相似词典记录的对应词构成pair,加入到正例pair中;
[0034] S8: 如果S5的中心词出现在相关词词典中,则分别把中心词和相关词典记录的对应词构成pair,加入到负例pair中;
[0035] S9: 搭建一个单层且无偏置参数的全连接神经网络,将正例pair和负例pair作为输入,利用sigmoid函数输出pair是正例或负例的概率;
[0036] S10: 利用均方差计算输出loss,使用梯度下降法使loss下降;
[0037] S11: 重复S5到S10,直到loss收敛;
[0038] S12: 全连接网络的权重矩阵即是所有词语的词向量构成的矩阵。
[0039] 本发明创造希望得到更接近客观词义的词向量。本发明认为现有的词向量技术的缺陷是把共现的词误判为词义接近,同时某些词义接近的词没有被覆盖。通过分析导致现有技术缺点的原因,本发明考虑引入两个外部词典,一个是词义相关词词典,一个是词义相似词词典,在现有词向量技术的训练过程中融合这两个词典的信息,以得到更接近客观词义的词向量。
[0040] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。