一种训练样本数据的生成方法、装置及电子设备转让专利

申请号 : CN201910312576.4

文献号 : CN110032650A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郑孙聪

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本发明公开了一种训练样本数据的生成方法、装置及电子设备,其中训练样本数据的生成方法包括:确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集;获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集;根据匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词;从匹配语句集中获取与特征词相匹配的目标匹配语句,得到训练样本数据。本发明基于知识图谱中关系的特征词对匹配语句集中的匹配语句进行了过滤,避免了在训练样本数据中引入大量的噪声数据,提高了训练样本数据的质量,确保了基于该训练样本数据得到的抽取模型的可靠性以及该抽取模型的训练速度。

权利要求 :

1.一种训练样本数据的生成方法,其特征在于,所述方法包括:确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集;

获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集;

根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词;

从所述匹配语句集中获取与所述特征词相匹配的目标匹配语句,得到训练样本数据。

2.根据权利要求1所述的训练样本数据的生成方法,其特征在于,所述根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词包括:对所述匹配语句集中的匹配语句进行分词处理,得到对应的关系三元组集的词语集;

根据所述词语集中词语出现的频率,确定所述词语集中词语的第一权重;

根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集对应的关系与所述词语集中所述第一词语的关联度,以及所述词语集中所述第一词语的第二权重;

根据所述第一权重、关联度以及第二权重确定所述词语集中的目标词语,并将所述目标词语作为所述关系三元组集对应的关系的特征词。

3.根据权利要2所述的训练样本数据的生成方法,其特征在于,所述根据所述词语集中词语出现的频率,确定所述词语集中词语的第一权重包括:确定所述词语集中词语的词频和逆文档词频;

计算所述词频和逆文档词频的乘积,并将所述乘积作为所述词语集中词语的第一权重。

4.根据权利要2所述的训练样本数据的生成方法,其特征在于,所述根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集对应的关系与所述词语集中所述第一词语的关联度包括:从所述匹配语句集中选取目标匹配语句集;

确定所述目标匹配语句集中所述第一匹配语句的第一数量,以及所述目标匹配语句集中不包括所述第一词语的第二匹配语句的第二数量;

确定剩余匹配语句集中所述第一匹配语句的第三数量,以及所述剩余匹配语句集中所述第二匹配语句的第四数量;所述剩余匹配语句集为除所述目标匹配语句集之外的匹配语句集;

根据所述第一数量、第二数量、第三数量和第四数量,计算所述目标匹配语句集的词语集对应的关系与所述词语集中所述第一词语的关联度。

5.根据权利要2所述的训练样本数据的生成方法,其特征在于,所述根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集中所述第一词语的第二权重包括:确定每个匹配语句集中第一匹配语句在所述匹配语句集中的第一占比;

确定每个匹配语句集中第一匹配语句在所有匹配语句集中的第二占比;

确定知识图谱中关系的数量;

根据所述第一占比、第二占比以及所述知识图谱中关系的数量,计算所述词语集中第一词语的第二权重。

6.根据权利要2所述的训练样本数据的生成方法,其特征在于,所述根据所述第一权重、关联度以及第二权重确定所述词语集中的目标词语包括:计算所述第一权重、关联度以及第二权重的和值,并将所述和值作为所述词语集中词语的特征值;

将所述词语集中所述特征值满足预设条件的词语确定为所述目标词语。

7.根据权利要1所述的训练样本数据的生成方法,其特征在于,所述从所述匹配语句集中获取与所述特征词相匹配的目标匹配语句,得到训练样本数据包括:获取所述特征词的词向量;

计算所述特征词的词向量的平均词向量,并将所述特征词的词向量的平均词向量作为对应的关系的第一基准向量;

根据每个特征词的词向量与所述第一基准向量之间的相似度,获取所述特征词中的第一目标特征词;

从所述匹配语句集中获取与所述第一目标特征词相匹配的目标匹配语句,得到训练样本数据。

8.根据权利要7所述的训练样本数据的生成方法,其特征在于,所述从所述匹配语句集中获取与所述第一目标特征词相匹配的目标匹配语句,得到训练样本数据包括:获取所述第一目标特征词的词向量;

计算所述第一目标特征词的词向量的平均词向量,并将所述第一目标特征词的词向量的平均词向量作为对应的关系的第二基准向量;

根据词向量库中词向量与所述第二基准向量之间的相似度,获取所述词向量库中的目标词;

组合所述词向量库中的目标词和所述第一目标特征词,得到第二目标特征词;

从所述匹配语句集中获取与所述第二目标特征词相匹配的目标匹配语句,得到训练样本数据。

9.一种训练样本数据的生成装置,其特征在于,所述装置包括:第一确定模块,用于确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集;

第一获取模块,用于获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集;

第二确定模块,用于根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词;

第二获取模块,用于从所述匹配语句集中获取与所述特征词相匹配的目标匹配语句,得到训练样本数据。

10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-8任一项所述的训练样本数据的生成方法。

说明书 :

一种训练样本数据的生成方法、装置及电子设备

技术领域

[0001] 本发明涉及计算机技术领域,特别涉及一种训练样本数据的生成方法、装置及电子设备。

背景技术

[0002] 知识图谱,从本质上来讲,是一种描述真实世界中存在的各种实体或概念之间关系的语义网络,各种实体或概念作为语义网络的节点,关系作为连接节点的边。随着人工智能技术的快速发展,知识图谱已成为问答系统、搜索引擎等智能工具的重要数据资源。
[0003] 知识图谱的基本组成单元为三元组数据,三元组数据的表现形式一般为(头实体,关系,尾实体),其中,头实体是主语,尾实体是宾语,如三元组数据(张三,妻子,李四)。大部分的三元组数据是在非结构化的语句中,所以构建有效或可靠的抽取模型从语句中抽取对应的三元组数据显得十分重要。
[0004] 在构建抽取模型时,需要采用训练样本数据对抽取模型进行训练,训练样本数据质量的高低对抽取模型的有效性或可靠性至关重要。现有技术中获取训练样本数据的方法常常会引入大量的噪声数据,使得训练样本数据的质量低,进而导致基于该训练样本数据训练得到的抽取模型的误差大,并降低了抽取模型的训练速度。

发明内容

[0005] 为了解决现有技术的问题,本发明实施例提供了一种训练样本数据的生成方法、装置及电子设备。所述技术方案如下:
[0006] 一方面,提供了一种训练样本数据的生成方法,所述方法包括:
[0007] 确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集;
[0008] 获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集;
[0009] 根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词;
[0010] 从所述匹配语句集中获取与所述特征词相匹配的目标匹配语句,得到训练样本数据。
[0011] 另一方面,提供了一种训练样本数据的生成装置,所述装置包括:
[0012] 第一确定模块,用于确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集;
[0013] 第一获取模块,用于获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集;
[0014] 第二确定模块,用于根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词;
[0015] 第二获取模块,用于从所述匹配语句集中获取与所述特征词相匹配的目标匹配语句,得到训练样本数据。
[0016] 另一方面,提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述训练样本数据的生成方法。
[0017] 本发明实施例通过确定知识图谱中具有相同关系的三元组数据以得到多个关系三元组集,获取语料库中多个三元组集中三元组数据对应的匹配语句以得到对应于每个关系三元组集的匹配语句集,然后根据匹配语句集中的匹配语句确定每个关系三元组集对应的关系的特征词,并从匹配语句集中获取与特征词相匹配的目标匹配语句以得到训练样本数据,从而基于关系的特征词对匹配语句集中的匹配语句进行了过滤,避免了在训练样本数据中引入大量的噪声数据,提高了训练样本数据的质量,进而确保了基于该训练样本数据得到的抽取模型的可靠性以及该抽取模型的训练速度。

附图说明

[0018] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019] 图1是本发明实施例提供的一种训练样本数据的生成方法的流程示意图;
[0020] 图2是本发明实施例提供的根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词的一种方法的流程示意图;
[0021] 图3是本发明实施例提供的根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集对应的关系与所述词语集中所述第一词语的关联度的一种方法的流程示意图;
[0022] 图4是本发明实施例提供的根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集中所述第一词语的第二权重的一种方法的流程示意图;
[0023] 图5是本发明实施例提供的另一种训练样本数据的生成方法的流程示意图;
[0024] 图6是本发明实施例提供的从所述匹配语句集中获取与所述第一目标特征词相匹配的目标匹配语句得到训练样本数据的一种方法的流程示意图;
[0025] 图7是本发明实施例提供的一种训练样本数据的生成装置的结构示意图;
[0026] 图8是本发明实施例提供的第二确定模块的一种结构示意图;
[0027] 图9是本发明实施例提供的第四确定模块的一种结构示意图;
[0028] 图10是本发明实施例提供的第二获取模块的一种结构示意图;
[0029] 图11是本发明实施例提供的第五获取模块的一种结构示意图;
[0030] 图12是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

[0031] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0032] 知识图谱作为重要的数据资源,其基本组成单元为三元组数据,而大部分三元组数据是在非结构化的语句中,需要利用有效的抽取模型从语句中进行抽取,抽取模型的误差大小对于抽取的三元组数据的准确性至关重要,而训练样本数据的质量又决定了训练得到的抽取模型的有效性或可靠性。
[0033] 一种生成训练样本数据的方式是利用知识图谱中已知的三元组数据去匹配语料库中的句子,如果句子中同时包含三元组数据中的主语即头实体和宾语即尾实体,则该句子和对应的三元组数据构成一条训练样本数据。例如,(张三,妻子,李四)是知识图谱中的一个三元组数据,该三元组数据在语料库中可以匹配到两个句子,分别为句子1“xxxx年,张三随香港明星足球队赴A城市时,结识了李四”和句子2“xxxx年x月xx日,张三与李四在美国拉斯维加斯注册结婚”。依据现有生成训练样本数据的方法,句子1和句子2中均同时包含“张三”和“李四”,句子1和句子2可以作为训练样本数据用于训练抽取模型。但是,很显然句子1中虽然同时包含了张三和李四,该句子中并没有描述二者之间有任何的夫妻关系,即现有生成训练样本数据的方法使得训练样本数据中引入了噪声数据,训练样本数据的质量低,进而导致基于该训练样本数据训练得到的抽取模型的误差大,并降低了抽取模型的训练速度。
[0034] 鉴于此,本发明实施例提供一种训练样本数据的生成方法,该训练样本数据的生成方法可应用于本发明实施例的训练样本数据的生成装置,该训练样本数据的生成装置可配置于电子设备中,该电子设备可以是终端或者服务器。其中,终端可以是智能手机、台式电脑、平板电脑、笔记本电脑等具有各种操作系统的硬件设备。服务器可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。
[0035] 请参阅图1,其所示为本发明实施例提供的一种训练样本数据的生成方法的流程示意图,需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的,如图1所示,所述方法包括:
[0036] S101,确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集。
[0037] 在本说明书实施例中,知识图谱中三元组数据的表现形式为(头实体,关系,尾实体),其中,头实体是主语,尾实体是宾语,关系用于表示头实体与尾实体的之间的关系。例如,(张三,妻子,李四)以及(张三,出生地,香港) 中,“妻子”和“出生地”是对应三元组数据的关系。
[0038] 本说明书实施例将知识图谱中具有相同关系的三元组数据确定为一个关系三元组集,从而可以得到多个关系三元组集。例如,(张三,配偶,李四)和(郭靖,配偶,黄蓉)具有相同的关系“配偶”,因此可以确定为属于“配偶”这一关系的关系三元组集中的三元组数据。
[0039] S103,获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集。
[0040] 在本说明书实施例中,语料库是指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料,例如文学作品、报刊杂志的语句段落等等,语料库包括多个语句,各语句包括至少一个词语,即语句包括一个词语或句法上有关联的一组词语。
[0041] 在本说明书实施例中,三元组数据对应的匹配语句为语料库中同时包含该三元组数据的头实体和尾实体的语句,例如,语料库中的语句“张三的老婆是李四”包括主语张三和宾语李四,因此语句“张三的老婆是李四”是(张三,配偶,李四)对应的匹配语句。实际应用中,每个三元组数据可以在语料库中匹配到多个匹配语句,即每个三元组数据对应一个匹配语句子集,关系三元组集中的三元组数据对应的匹配语句子集构成了该关系三元组集的匹配语句集。
[0042] 在一些实施例中,在步骤103之前,可以从语料库中获取知识图谱中各个三元组数据对应的匹配语句,得到对应于每个三元组数据的匹配语句子集,并将三元组数据与匹配语句子集以一一对应的方式存储在指定存储空间中,则在执行该步骤103时,可以从指定存储空间中获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集。
[0043] S105,根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词。
[0044] 在本说明书实施例中,特征词为表征三元组数据中关系的词语,如关系为“配偶”,则用于表征“配偶”的特征词可以包括结婚,婚姻,嫁给,迎娶,妻子,丈夫等等。
[0045] 在本说明书实施例中,所述根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词可以采用图2所示的方法,该方法可以包括:
[0046] S201,对所述匹配语句集中的匹配语句进行分词处理,得到对应的关系三元组集的词语集。
[0047] 具体的,可以采用现有的分词工具对匹配语句集中的每个匹配语句进行分词处理,从而得到该匹配语句集对应的关系三元组集的词语集,其中分词工具可以包括但不限于AnsjSeg工具、IKAnalyzer工具。为了提高词语集中词语的有效性,在分词处理过程中可以使用停用词库将得到的停用词剔除掉。
[0048] S203,根据所述词语集中词语出现的频率,确定所述词语集中词语的第一权重。
[0049] 在本说明书实施例中,一方面将关系三元组集的匹配语句集看作文档,匹配语句集中的匹配语句作为该文档的文档内容,并从文档的角度来对匹配语句中词语的重要性进行度量。
[0050] 在一些实施例中,在根据词语集中词语出现的频率,确定词语集中词语的第一权重时,可以确定词语集中词语的词频和逆文档词频,然后计算词频与逆文档词频的乘积,并将该乘积作为词语集中词语的第一权重。具体计算公式如下:
[0051]
[0052]
[0053] tfidfj,i=tfj,i×idfi   (3)
[0054] 其中,公式(1)中tfj,i表示关系为j的关系三元组集对应的词语集中词语i 的归一化词频;nj,i表示关系为j的关系三元组集对应的词语集中词语i出现的次数;∑knk,i表示每个关系的关系三元组集对应的词语集中词语i出现的次数总和。
[0055] 公式(2)中idfi表示词语i的逆文档词频;|D|表示文档的总数量,由于每个关系三元组集的匹配语句集看作一个文档,因此,|D|的取值可以为关系三元组集的个数;|j:ti∈dj|表示包含词语i的文档数目,即包含词语i的词语集的数目。
[0056] 公式(3)中tfidfj,i表示关系为j的关系三元组集对应的词语集中词语i的第一权重。
[0057] 需要说明的是,上述只是基于文档的角度确定词语集中词语的第一权重的一个示例,实际应用中,还可以采用其他的计算方法来确定词语集中词语的第一权重,如TexTrank算法等,本发明对此不作具体限定。
[0058] S205,根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集对应的关系与所述词语集中所述第一词语的关联度,以及所述词语集中所述第一词语的第二权重。
[0059] 在本说明书实施例中,另一方面将匹配语句集对应的关系三元组集的关系作为匹配语句集中匹配语句的类别标签,并从分类任务的角度来对匹配语句中词语的重要性进行度量。
[0060] 在一些实施例中,所述根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集对应的关系与所述词语集中所述第一词语的关联度可以采用图3所示的方法,该方法可以包括:
[0061] S301,从所述匹配语句集中选取目标匹配语句集。
[0062] 其中,目标匹配语句集可以是所有匹配语句集中的任意一个匹配语句集。
[0063] S303,确定所述目标匹配语句集中所述第一匹配语句的第一数量,以及所述目标匹配语句集中不包括所述第一词语的第二匹配语句的第二数量。
[0064] 在本说明书实施例中,匹配语句集中的匹配语句可以分为两类,一类是包括第一词语的第一匹配语句,另一类是不包括第一词语的第二匹配语句,其中,第一词语为对应的词语集中的任意一个词语。目标匹配语句集中第一匹配语句的第一数量与第二匹配语句的第二数量的和即为目标匹配语句中包含的匹配语句的总数量。
[0065] S305,确定剩余匹配语句集中所述第一匹配语句的第三数量,以及所述剩余匹配语句集中所述第二匹配语句的第四数量。
[0066] 在本说明书实施例中,所述剩余匹配语句集为除所述目标匹配语句集之外的匹配语句集,可以为除目标匹配语句集之外剩余的所有匹配语句集。剩余匹配语句集中第一匹配语句的第三数量与第二匹配语句的第四数量的和即为剩余匹配语句集所包含的匹配语句的总数量。
[0067] S307,根据所述第一数量、第二数量、第三数量和第四数量,计算所述目标匹配语句集的词语集对应的关系与所述词语集中所述第一词语的关联度。
[0068] 具体的,根据所述第一数量、第二数量、第三数量和第四数量,按照以下公式(4)计算所述目标匹配语句集的词语集对应的关系与所述词语集中所述第一词语的关联度:
[0069]
[0070] 其中,w表示目标匹配语句集的词语集中的第一词语;cj表示目标匹配语句集的词语集对应的关系;χ2(w,cj)表示第一词语w与关系cj的关联度;A表示目标匹配语句集中第一匹配语句的第一数量;B表示剩余匹配语句集中第一匹配语句的第三数量;C表示目标匹配语句集中第二匹配语句的第二数量;D表示剩余匹配语句集中第二匹配语句的第四数量;N表示目标匹配语句集与剩余匹配语句集所包含的匹配语句的总数量,即N=A+B+C+D。
[0071] 在一些实施例中,所述根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集中所述第一词语的第二权重可以采用图4所示的方法,该方法可以包括:
[0072] S401,确定每个匹配语句集中第一匹配语句在所述匹配语句集中的第一占比。
[0073] 具体的,计算每个匹配语句集中第一匹配语句的数量以及该匹配语句集中所包含的匹配语句的总数量的比值,该比值即为所述第一占比。
[0074] S403,确定每个匹配语句集中第一匹配语句在所有匹配语句集中的第二占比。
[0075] 具体的,可以先获取所有匹配语句集中所包含的匹配语句的总数量,然后遍历每一个匹配语句集,在遍历每一个匹配语句集时,计算该匹配语句集中第一匹配语句的数量与所有匹配语句集中所包含的匹配语句的总数量的比值,该比值即为对应的第二占比。
[0076] S405,确定知识图谱中关系的数量。
[0077] 具体的,可以将关系三元组集的具体数量确定为知识图谱中关系的数量。
[0078] S407,根据所述第一占比、第二占比以及所述知识图谱中关系的数量,计算所述词语集中第一词语的第二权重。
[0079] 具体的,根据所述第一占比、第二占比以及所述知识图谱中关系的数量,按照以下公式(5)计算所述词语集中第一词语的第二权重:
[0080]
[0081] 其中,I(w)表示词语集中第一词语w的第二权重;Pi表示匹配语句集中第一匹配语句的数量;pi表示第一占比;F(w)表示第二占比;k表示知识图谱中关系的数量。
[0082] 应理解的,上述只是给出了从分类任务的角度来对词语集中每一个词语的重要性进行度量的两个示例,实际应用中,还可以基于分类任务的其他方法来对词语集中每一个词语的重要性进行度量。
[0083] S207,根据所述第一权重、关联度以及第二权重确定所述词语集中的目标词语,并将所述目标词语作为所述关系三元组集对应的关系的特征词。
[0084] 在一些实施例中,在根据第一权重、关联度以及第二权重确定词语集中的目标词语时,可以计算第一权重、关联度以及第二权重的和值,并将该和值作为词语集中词语的特征值,然后将词语集中特征值满足预设条件的词语确定为目标词语。其中,预设条件可以是大于预先设定的特征值阈值,即将词语集中特征值大于特征值阈值的词语确定为目标词语。
[0085] 在另一些实施例中,在根据第一权重、关联度以及第二权重确定词语集中的目标词语时,可以根据第一权重、关联度以及第二权重分别对词语集中的词语进行降序排列,以得到对应的三个排序词语集;然后从这三个排序词语集中分别获取前预设数量个词语以得到对应的三个候选目标词语集,对这三个候选目标词语集取交集,该交集中的词语即为目标词语。其中,对应于上述三个排序词语集的前预设数量个词语的具体数值可以设定为相同数值,也可以设定为不同数值。
[0086] S107,从所述匹配语句集中获取与所述特征词相匹配的目标匹配语句,得到训练样本数据。
[0087] 具体的,可以判断匹配语句集的匹配语句中是否包括对应的特征词,若包括特征词,则确定该匹配语句与特征词相匹配,将该匹配语句作为目标匹配语句,从而可以得到每个关系三元组集中三元组数据对应的目标匹配语句,所有三元组数据及其对应的目标匹配语句即可以构成训练样本数据。由于目标匹配语句为包括对应的关系的特征词的匹配语句,因此该目标匹配语句是能够有效的反映该关系的匹配语句,从而将匹配语句集中不能够有效的反映对应的关系的匹配语句过滤掉。
[0088] 举例而言,通过本说明书实施例的前述方法确定出关系为“配偶”的特征词包括(结婚,婚姻,嫁给,迎娶,妻子,丈夫),对应于“配偶”关系的匹配语句集包括如下两个匹配语句:匹配语句1“xxxx年,张三随香港明星足球队赴A城市时,结识了李四”和匹配语句2“xxxx年x月xx日,张三与李四在美国拉斯维加斯注册结婚”。其中,匹配语句2中包括特征词“结婚”即匹配语句 2为目标匹配语句,获取该匹配语句2从而可以将匹配语句1过滤掉,最终得到的训练样本数据中不存在匹配语句1,提高了训练样本数据的质量。
[0089] 由本发明实施例的上述技术方案可见,本发明实施例基于知识图谱中关系的特征词对匹配语句集中的匹配语句进行了过滤,避免了在训练样本数据中引入大量的噪声数据,提高了训练样本数据的质量,进而确保了基于该训练样本数据得到的抽取模型的可靠性以及该抽取模型的训练速度。
[0090] 此外,本发明实施例中在确定每个关系对应的特征词时,从多个角度对关系对应的匹配语句集中的匹配语句的词语的重要性进行了度量,从而确保了每个关系的特征词的准确性,进而使得后续基于该特征词进行的匹配语句的筛选更加准确,有利于提高最终得到的训练样本数据的质量。
[0091] 实际应用中,关系为“配偶”对应的特征词中可能会包括“相识”,但显然相识不一定就是配偶。为了进一步提高每个关系对应的特征词的准确性以确保训练样本数据的质量,本发明实施例提供了另一种训练样本数据的生成方法,如图5所示,该方法可以包括:
[0092] S501,确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集。
[0093] S503,获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集。
[0094] S505,根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词。
[0095] 具体的,步骤S501至步骤S505的详细内容可以参见前述图1所示方法实施例的对应步骤的内容,在此不再赘述。
[0096] S507,获取所述特征词的词向量。
[0097] 其中,特征词的词向量用于描述特征词特性的向量表述,可以很好地刻画特征词的语义特性。在本说明书实施例中,词向量指的是基于词嵌入技术构造的词语向量的表述。例如,可以采用神经网络语言模型中词嵌入技术Word2Vec 方法来获取特征词的词向量。当然,还可以采用其他的能够获取词语的词向量的方法,本发明对此不作具体限定。
[0098] S509,计算所述特征词的词向量的平均词向量,并将所述特征词的词向量的平均词向量作为对应的关系的第一基准向量。
[0099] S511,根据每个特征词的词向量与所述第一基准向量之间的相似度,获取所述特征词中的第一目标特征词。
[0100] 在本说明书实施例中,通过特征词的词向量与对应的关系的第一基准向量的相似度来度量该特征词隶属于该关系的程度,当特征词的词向量与第一基准向量之间的相似度满足预设条件时,可以确定该特征词隶属于该关系,即确定该特征词为第一目标特征词。
[0101] 实际应用中,可以通过两个向量之间的距离来表征两个向量的相似度,如果两个向量之间的距离小于预设距离,则表明这两个向量之间的相似度满足预设条件。预设距离可以根据实际需要进行设定,一般预设距离设定的越小,获取的第一目标特征词的准确性越高,反之,预设距离设定的越大,获取的第一目标特征词的准确性越低。具体的,两个向量之间的距离可以采用余弦距离、欧式距离等等,本发明对此不作具体限定。
[0102] S513,从所述匹配语句集中获取与所述第一目标特征词相匹配的目标匹配语句,得到训练样本数据。
[0103] 具体的,可以判断匹配语句集的匹配语句中是否包括对应的第一目标特征词,若包括第一目标特征词,则确定该匹配语句与第一目标特征词相匹配,将该匹配语句作为目标匹配语句,从而可以得到每个关系三元组集中三元组数据对应的目标匹配语句,所有三元组数据及其对应的目标匹配语句即可以构成训练样本数据。
[0104] 本发明实施例的上述技术方案进一步提高了每个关系对应的特征词的准确性,进而进一步确保了训练样本数据的准确性,使得训练样本数据的质量更高。
[0105] 实际应用中,特征词中经常会遗漏一些在语言的实际使用过程中出现概率比较低的小众词语,例如“妻妾”,为了确保特征词的全面性以使得训练样本数据的质量更好,本说明书实施例中,如图6所示,所述从所述匹配语句集中获取与所述第一目标特征词相匹配的目标匹配语句,得到训练样本数据可以包括:
[0106] S601,获取所述第一目标特征词的词向量。
[0107] 在本说明书实施例中,词向量指的是基于词嵌入技术构造的词语向量的表述。例如,可以采用神经网络语言模型中词嵌入技术Word2Vec方法来获取特征词的词向量。当然,还可以采用其他的能够获取词语的词向量的方法,本发明对此不作具体限定。
[0108] S603,计算所述第一目标特征词的词向量的平均词向量,并将所述第一目标特征词的词向量的平均词向量作为对应的关系的第二基准向量。
[0109] S605,根据词向量库中词向量与所述第二基准向量之间的相似度,获取所述词向量库中的目标词。
[0110] 词向量库中比较全面的存储了语言材料中的词语以及词语对应的词向量。在本说明书实施例中,可以遍历词向量库中的各个词向量,计算第二基准向量与词向量库中每个词向量之间的相似度,从这些相似度中筛选出满足预设条件的相似度,并将词向量库中的与筛选出的相似度对应的词向量作为目标词向量,获取词向量库中目标词向量对应的目标词。
[0111] 实际应用中,可以通过两个向量之间的距离来表征两个向量的相似度,如果两个向量之间的距离小于预设距离,则表明这两个向量之间的相似度满足预设条件,预设距离可以根据需要进行设定,例如可以设定为0.3或者0.5。具体的,两个向量之间的距离可以采用余弦距离、欧式距离等等,本发明对此不作具体限定。
[0112] S607,组合所述词向量库中的目标词和所述第一目标特征词,得到第二目标特征词。
[0113] 在本说明书实施例中,通过组合词向量库中的目标词和第一目标特征词,可以将从词向量库中获取的目标词扩充到第一目标特征词中以得到第二目标特征词。
[0114] S609,从所述匹配语句集中获取与所述第二目标特征词相匹配的目标匹配语句,得到训练样本数据。
[0115] 具体的,可以判断匹配语句集的匹配语句中是否包括对应的第二目标特征词,若包括第二目标特征词,则确定该匹配语句与第二目标特征词相匹配,将该匹配语句作为目标匹配语句,从而可以得到每个关系三元组集中三元组数据对应的目标匹配语句,所有三元组数据及其对应的目标匹配语句即可以构成训练样本数据。
[0116] 本发明实施例的上述技术方案使得每个关系对应的特征词更加全面,避免了对一些出现概率比较低的小众特征词的遗漏,使得基于扩充后的特征词得到的训练样本数据的质量更高。
[0117] 与上述几种实施例提供的训练样本数据的生成方法相对应,本发明实施例还提供一种训练样本数据的生成装置,由于本发明实施例提供的训练样本数据的生成装置与上述几种实施例提供的训练样本数据的生成方法相对应,因此前述训练样本数据的生成方法的实施方式也适用于本实施例提供的训练样本数据的生成装置,在本实施例中不再详细描述。
[0118] 请参阅图7,其所示为本发明实施例提供的一种训练样本数据的生成装置的结构示意图,如图7所示,该装置可以包括:第一确定模块710、第一获取模块720、第二确定模块730和第二获取模块740,其中,
[0119] 第一确定模块710,用于确定知识图谱中具有相同关系的三元组数据,得到多个关系三元组集;
[0120] 第一获取模块720,用于获取语料库中所述多个关系三元组集中三元组数据对应的匹配语句,得到对应于每个关系三元组集的匹配语句集;
[0121] 第二确定模块730,用于根据所述匹配语句集中的匹配语句,确定每个关系三元组集对应的关系的特征词;
[0122] 第二获取模块740,用于从所述匹配语句集中获取与所述特征词相匹配的目标匹配语句,得到训练样本数据。
[0123] 可选的,如图8所示,所述第二确定模块730可以包括:
[0124] 分词处理模块7310,用于对所述匹配语句集中的匹配语句进行分词处理,得到对应的关系三元组集的词语集;
[0125] 第三确定模块7320,用于根据所述词语集中词语出现的频率,确定所述词语集中词语的第一权重;
[0126] 第四确定模块7330,用于根据所述匹配语句集中包括第一词语的第一匹配语句,确定所述词语集对应的关系与所述词语集中所述第一词语的关联度,以及所述词语集中所述第一词语的第二权重;
[0127] 第五确定模块7340,用于根据所述第一权重、关联度以及第二权重确定所述词语集中的目标词语,并将所述目标词语作为所述关系三元组集对应的关系的特征词。
[0128] 可选的,所述第三确定模块7320,具体用于:确定所述词语集中词语的词频和逆文档词频;计算所述词频和逆文档词频的乘积,并将所述乘积作为所述词语集中词语的第一权重。
[0129] 可选的,如图9所示,所述第四确定模块7330可以包括:
[0130] 选取模块7331,用于从所述匹配语句集中选取目标匹配语句集;
[0131] 第六确定模块7332,用于确定所述目标匹配语句集中所述第一匹配语句的第一数量,以及所述目标匹配语句集中不包括所述第一词语的第二匹配语句的第二数量;
[0132] 第七确定模块7333,用于确定剩余匹配语句集中所述第一匹配语句的第三数量,以及所述剩余匹配语句集中所述第二匹配语句的第四数量;所述剩余匹配语句集为除所述目标匹配语句集之外的匹配语句集;
[0133] 第一计算模块7334,用于根据所述第一数量、第二数量、第三数量和第四数量,计算所述目标匹配语句集的词语集对应的关系与所述词语集中所述第一词语的关联度。
[0134] 第八确定模块7335,用于确定每个匹配语句集中第一匹配语句在所述匹配语句集中的第一占比;
[0135] 第九确定模块7336,用于确定每个匹配语句集中第一匹配语句在所有匹配语句集中的第二占比;
[0136] 第十确定模块7337,用于确定知识图谱中关系的数量;
[0137] 第二计算模块7338,用于根据所述第一占比、第二占比以及所述知识图谱中关系的数量,计算所述词语集中第一词语的第二权重。
[0138] 可选的,所述第五确定模块7340在根据所述第一权重、关联度以及第二权重确定所述词语集中的目标词语时,计算所述第一权重、关联度以及第二权重的和值,并将所述和值作为所述词语集中词语的特征值;将所述词语集中所述特征值满足预设条件的词语确定为所述目标词语。
[0139] 在一些实施例中,如图10所示,所述第二获取模块740可以包括:
[0140] 第三获取模块7410,用于获取所述特征词的词向量;
[0141] 第三计算模块7420,用于计算所述特征词的词向量的平均词向量,并将所述特征词的词向量的平均词向量作为对应的关系的第一基准向量;
[0142] 第四获取模块7430,用于根据每个特征词的词向量与所述第一基准向量之间的相似度,获取所述特征词中的第一目标特征词;
[0143] 第五获取模块7440,用于从所述匹配语句集中获取与所述第一目标特征词相匹配的目标匹配语句,得到训练样本数据。
[0144] 在另一些实施例中,如图11所示,所述第五获取模块7440可以包括:
[0145] 第六获取模块7441,用于获取所述第一目标特征词的词向量;
[0146] 第四计算模块7442,用于计算所述第一目标特征词的词向量的平均词向量,并将所述第一目标特征词的词向量的平均词向量作为对应的关系的第二基准向量;
[0147] 第七获取模块7443,用于根据词向量库中词向量与所述第二基准向量之间的相似度,获取所述词向量库中的目标词;
[0148] 组合模块7444,用于组合所述词向量库中的目标词和所述第一目标特征词,得到第二目标特征词;
[0149] 第八获取模块7445,用于从所述匹配语句集中获取与所述第二目标特征词相匹配的目标匹配语句,得到训练样本数据。
[0150] 需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0151] 本发明实施例基于知识图谱中关系的特征词对匹配语句集中的匹配语句进行了过滤,避免了在训练样本数据中引入大量的噪声数据,提高了训练样本数据的质量,进而确保了基于该训练样本数据得到的抽取模型的可靠性以及该抽取模型的训练速度。
[0152] 此外,本发明实施例中在确定每个关系对应的特征词时,从多个角度对关系对应的匹配语句集中的匹配语句的词语的重要性进行了度量,从而确保了每个关系的特征词的准确性,进而使得后续基于该特征词进行的匹配语句的筛选更加准确,有利于提高最终得到的训练样本数据的质量。
[0153] 请参阅图12,其所示为本发明实施例提供的一种电子设备的结构示意图,该电子设备用于实施上述实施例中提供的训练样本数据的生成方法。该电子设备可以是诸如PC(PersonalComputer,个人计算机)、手机、PDA(平板电脑)等终端设备,也可以是诸如应用服务器、集群服务器等服务设备。请参见图12,该电子设备的内部结构可包括但不限于:处理器、网络接口及存储器。其中,电子设备内的处理器、网络接口及存储器可通过总线或其他方式连接,在本说明书实施例所示图12中以通过总线连接为例。
[0154] 其中,处理器(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器可以是高速RAM存储设备,也可以是非不稳定的存储设备(non-volatile memory),例如至少一个磁盘存储设备;可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间,该存储空间存储了电子设备的操作系统,可包括但不限于:Windows 系统(一种操作系统),Linux(一种操作系统),Android(安卓,一种移动操作系统) 系统、IOS(一种移动操作系统)系统等等,本发明对此并不作限定;并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。在本说明书实施例中,处理器加载并执行存储器中存放的一条或一条以上指令,以实现上述方法实施例提供的训练样本数据的生成方法。
[0155] 本发明的实施例还提供了一种存储介质,所述存储介质可设置于电子设备之中以保存用于实现方法实施例中的一种训练样本数据的生成方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集可由电子设备的处理器加载并执行以实现上述方法实施例提供的训练样本数据的生成方法。
[0156] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0157] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0158] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0159] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0160] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。