知识库扩展装置专利检索-知识库计算机网络专利检索查询-专利查询网

积极推动地理标志专门立法

2022-03-10 地理标志，立法，知识产权
保护知识产权是对创新最大的激励

2022-03-10 保护知识产权，创新，激励
谢商华：加快制定知识产权基本法

2022-03-10 知识产权基本法
擦亮“双奥之城”品牌

2022-03-10 双奥，知识产权
让冰雪运动“热”力全开

2022-03-10 冰雪运动，知识产权
携手共奋进　走好强国路

2022-03-10 强国，知识产权
坚持创新引领　方能稳中求进

2022-03-10 创新，稳中求进，知识产权
答好“两张卷” 奋进新征程

2022-03-10 知识产权
专家解读政府工作报告中的创新和知识产权相关部署

2022-03-10 政府工作报告，创新，知识产权
今年政府工作报告指出：加强知识产权保护和运用

2022-03-10 政府工作报告，知识产权保护

知识库扩展装置

阅读：701发布：2020-05-11

IPRDB可以提供知识库扩展装置专利检索，专利查询，专利分析的服务。并且一种知识库扩展装置，该装置包括：数据获取模块，用以获取待扩展问题，并对所述待扩展问题进行分词，以得到多个原始词语，所述待处理问题为知识库中的标准问或扩展问；替换模块，用以对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合组合的多个扩展问句；判断模块，用以对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；过滤模块，用以根据判断结果对所述多个扩展问句进行过滤；输出模块，用以将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。通过本发明技术方案可以自动生成扩展问并保证扩展问的有效性。，下面是知识库扩展装置专利的具体信息内容。

权利要求

1.一种知识库扩展装置，其特征在于，包括：

词向量模型训练模块，用以利用预设原始语料对词向量模型进行训练；

更新模块，用以利用训练完成的词向量模型获取多组新增相关词，并更新同义词词典，以用于进行相关词替换；所述更新模块包括：第一词向量计算单元，用以利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量；第一相关词确定单元，用以根据词向量之间的距离确定所述多组新增相关词；

数据获取模块，用以获取待扩展问题，并对所述待扩展问题进行分词，以得到多个原始词语，所述待处理问题为知识库中的标准问或扩展问；

替换模块，用以对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合组合的多个扩展问句；

判断模块，用以对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；

过滤模块，用以根据判断结果对所述多个扩展问句进行过滤；

输出模块，用以将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。

2.根据权利要求1所述的知识库扩展装置，其特征在于，所述替换模块包括：第一更换单元，用以利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换；

第二更换单元，用以利用同义词词典对所述多个原始词语进行同义词替换。

3.根据权利要求2所述的知识库扩展装置，其特征在于，所述判断模块包括：组合概率确定单元，用以确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；

有效分数计算单元，用以利用所述组合概率计算扩展问句的有效分数；

存储单元，用于存储设定阈值；

比较单元，用以将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。

4.根据权利要求3所述的知识库扩展装置，其特征在于，所述过滤模块包括：保留单元，用以在所述判断结果表示所述扩展问句的有效分数达到所述设定阈值时，保留所述扩展问句，以作为所述待扩展问题的扩展问。

5.根据权利要求3所述的知识库扩展装置，其特征在于，所述有效分数计算单元计算所述组合概率之和，以作为所述扩展问句的有效分数。

6.根据权利要求3所述的知识库扩展装置，其特征在于，所述组合概率确定单元利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。

7.根据权利要求6所述的知识库扩展装置，其特征在于，还包括：语言模型训练模块，用以利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。

8.根据权利要求1所述的知识库扩展装置，其特征在于，所述知识库包括多个知识点，每个知识点包括一个标准问、一个或多个扩展问和一个答案。

说明书全文

知识库扩展装置

技术领域

[0001] 本发明涉及自然语言处理技术领域，尤其涉及一种知识库扩展装置。

背景技术

[0002] 现有技术中，用于问答的知识库通常包括多个知识点，每一知识点包括一个标准问、标准问对应的一个或多个扩展问以及答案。为了实现问答的准确性，需要在知识库中对标准问进行扩展，形成尽可能多的扩展问。知识库中的扩展问通常需要人工写。或者使用语义模板、语义表达式生成扩展问。

[0003] 但是，现有技术中上述生成扩展问的方式所形成的扩展问的数量有限；此外，形成的扩展问中存在无效扩展问，占用系统资源，还导致用户问题无法与标准问和扩展问匹配，影响问答的准确性。

发明内容

[0004] 本发明解决的技术问题是如何自动生成扩展问并保证扩展问的有效性。

[0005] 为解决上述技术问题，本发明实施例提供一种知识库扩展装置，包括：

[0006] 词向量模型训练模块，用以利用预设原始语料对词向量模型进行训练；

[0007] 更新模块，用以利用训练完成的词向量模型获取多组新增相关词，并更新同义词词典，以用于进行相关词替换；所述更新模块包括：第一词向量计算单元，用以利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量；第一相关词确定单元，用以根据词向量之间的距离确定所述多组新增相关词；

[0008] 数据获取模块，用以获取待扩展问题，并对所述待扩展问题进行分词，以得到多个原始词语，所述待处理问题为知识库中的标准问或扩展问；

[0009] 替换模块，用以对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合组合的多个扩展问句；

[0010] 判断模块，用以对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；

[0011] 过滤模块，用以根据判断结果对所述多个扩展问句进行过滤；

[0012] 输出模块，用以将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。

[0013] 可选地，所述替换模块包括：

[0014] 第一更换单元，用以利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换；

[0015] 第二更换单元，用以利用同义词词典对所述多个原始词语进行同义词替换。

[0016] 可选地，所述判断模块包括：

[0017] 组合概率确定单元，用以确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；

[0018] 有效分数计算单元，用以利用所述组合概率计算扩展问句的有效分数；

[0019] 存储单元，用于存储设定阈值；

[0020] 比较单元，用以将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。

[0021] 可选地，所述过滤模块包括：

[0022] 保留单元，用以在所述判断结果表示所述扩展问句的有效分数达到所述设定阈值时，保留所述扩展问句，以作为所述待扩展问题的扩展问。

[0023] 可选地，所述有效分数计算单元计算所述组合概率之和，以作为所述扩展问句的有效分数。

[0024] 可选地，所述组合概率确定单元利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。

[0025] 可选地，所述知识库扩展装置还包括：

[0026] 语言模型训练模块，用以利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。

[0027] 可选的，所述知识库包括多个知识点，每个知识点包括一个标准问、一个或多个扩展问和一个答案。

[0028] 与现有技术相比，本发明实施例的技术方案具有以下有益效果：

[0029] 本发明技术方案通过获取待扩展问题，并对所述待扩展问题进行分词，以得到多个原始词语；对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句；对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；根据判断结果对所述多个扩展问进行过滤。本发明技术方案中，由于每一词语对应大量相关词，因此通过对待扩展问题中的原始词语进行相关词替换后，可以得到数量庞大的扩展问句；此外，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来过滤无效扩展问，从而保证了所形成的扩展问的有效性；进而可以保证所形成的扩展问能够与用户问题相匹配，提高后续用户问答的及时性和准确性。

[0030] 进一步，所述对所述多个原始词语进行相关词替换包括：利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换；或者，利用同义词词典对所述多个原始词语进行同义词替换。本发明技术方案中，可以利用词类或同义词词典进行相关词替换；由于词类和同义词词典中包括与原始词语语义相似的词语，因此在利用词类或同义词词典进行相关词替换后，可以获得与待扩展问题语义相似的多个扩展问句。此外，词类和同义词词典可以进行更新和扩展词汇量，进而保证获得的扩展问句的数量。

[0031] 进一步，所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括：确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；利用所述组合概率计算扩展问句的有效分数；将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。本发明技术方案中，相邻词语之间的组合概率可以表示相邻词语在语法上组合的有效性；通过扩展问句的相邻词语之间的组合概率可以计算扩展问句的有效分数，以表示扩展问句在语法上的有效性，从而可以根据扩展问句的有效分数与设定阈值对扩展问句进行判断，保证了对扩展问句进行有效性判断的准确性。

[0032] 进一步，所述获取待扩展的问句之前还包括：利用预设原始语料对词向量模型进行训练；利用训练完成的词向量模型获取多组新增相关词，并更新同义词词典，以用于进行相关词替换。本发明技术方案中，通过训练词向量模型来获取多组相关词，可以扩展同义词词典的词汇量；进而在利用同义词词典进行相关词替换时，可以获得更多的扩展问句。此外，通过词向量模型获得的多组相关词质量较高，从而可以提高后续利用同义词词典获得的扩展问句的质量。

附图说明

[0033] 图1是本发明实施例一种知识库扩展装置的结构示意图；

[0034] 图2是图1所示判断模块的一种具体结构示意图；

[0035] 图3是本发明实施例另一种知识库扩展装置的部分结构示意图；

[0036] 图4是图3所示更新模块的一种具体结构示意图；

[0037] 图5是图3所示更新模块的另一种具体结构示意图。

具体实施方式

[0038] 如背景技术中所述，现有技术中上述生成扩展问的方式所形成的扩展问的数量有限；此外，形成的扩展问中存在无效扩展问，占用系统资源，还导致用户问题无法与标准问和扩展问匹配，影响问答的准确性。

[0039] 本发明技术方案中，由于每一词语对应大量相关词，因此通过对待扩展问题中的原始词语进行相关词替换后，可以得到数量庞大的扩展问；此外，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来过滤无效扩展问，从而保证了所形成的扩展问的有效性；进而可以保证所形成的扩展问能够与用户问题相匹配，提高后续用户问答的及时性和准确性。

[0040] 为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

[0041] 如图1所示，本发明实施例提供一种知识库扩展装置60，其可以包括：

[0042] 数据获取模块601，用以获取待扩展问题，并对所述待扩展问题进行分词，以得到多个原始词语，所述待处理问题为知识库中的标准问或扩展问；

[0043] 替换模块602，用以对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合组合的多个扩展问句；

[0044] 判断模块603，用以对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；

[0045] 过滤模块604，用以根据判断结果对所述多个扩展问句进行过滤；

[0046] 输出模块(图中未示出)，用以将过滤后的多个扩展问句作为待处理问题的扩展问加入知识库。

[0047] 由于后续的相关词替换是针对词语进行的，因此在数据获取模块601的具体实施中，对待扩展问题进行分词处理，以得到待扩展问题的多个原始词语。具体而言，所述待扩展问题可以为文本。如果待扩展问题为语音，则需要将语音转换为文本，再进行分词处理。

[0048] 通过对多个原始词语进行相关词替换，可以得到多个扩展问句。多个扩展问句包括原始词语与相关词组合形成的扩展问句，以及相关词与相关词组合形成的扩展问句。具体而言，每一原始词语对应相关词。在进行相关词替换时，将原始词语对应的相关词对其进行替换。

[0049] 例如，待扩展问题分词后得到原始词语1和原始词语2；原始词语1对应相关词1和相关词2，原始词语2对应相关词A和相关词B；那么，相关词1和相关词2可以对原始词语1进行替换，相关词A和相关词B可以对原始词语2进行替换。在经过相关词替换后，形成的扩展问句包括以下几种：相关词1和原始词语2、相关词2和原始词语2、原始词语1和相关词A、原始词语1和相关词B、相关词1和相关词A、相关词2和相关词A、相关词1和相关词B以及相关词2和相关词B。

[0050] 可以理解的是，原始词语对应的相关词可以是与原始词语语义相似的词语，例如语义相似可以是语义相似度大于预设值。

[0051] 在获得多个扩展问句后，多个扩展问句中可能存在无效扩展问句。无效扩展问可以是不符合语法标准的扩展问句。由于无效扩展问在使用时无法与用户问题进行匹配，因此需要对无效扩展问进行过滤，并保留除无效扩展问之外的有效扩展问。

[0052] 判断模块603可以得到对每两个相邻词语之间的组合有效性的判断结果。以及根据扩展问句中每两个相邻词语之间的组合有效性的判断结果确定该扩展问句是否有效，进而过滤模块604可以过滤无效扩展问，保留有效扩展问。

[0053] 本发明实施例中，由于每一词语对应大量相关词，因此通过对待扩展问题中的原始词语进行相关词替换后，可以得到数量庞大的扩展问句；此外，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来过滤无效扩展问，从而保证了所形成的待扩展问题的有效性；进而可以保证所形成的待扩展问题能够与用户问题相匹配，提高后续用户问答的及时性和准确性。

[0054] 本发明实施例可以应用于机器人问答系统中扩展问句的自动生成，可以丰富机器人的问答知识库，提升机器人问答效果。

[0055] 通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来确定该扩展问句是否是无效扩展问。也就是说，通过判断扩展问中每两个相邻词语之间的组合是否有效，可以确定该扩展问句是否有效。如果扩展问句中存在至少两个相邻词语的组合无效，则该扩展问句为无效扩展问。

[0056] 具体而言，相邻词语之间的组合有效性可以是指相邻词语之间的组合是否符合语法标准。

[0057] 需要说明的是，对相邻词语之间的组合是否符合语法标准的判断可以采用任意可实施的方式，本发明实施例对此不做限制。

[0058] 本发明实施例中，由于每一词语对应大量相关词，因此通过对待扩展问题中的原始词语进行相关词替换后，可以得到数量庞大的扩展问句；此外，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来过滤无效扩展问，从而保证了所形成的待扩展问题的有效性；进而可以保证所形成的待扩展问题能够与用户问题相匹配，提高后续用户问答的及时性和准确性。

[0059] 输出模块用以将过滤后的多个扩展问句进行输出，以加入知识库，其中，所述过滤后的多个扩展问句为所述待扩展问题的有效扩展问。

[0060] 本实施例中，经过过滤模块604后，得到过滤后的多个扩展问句。过滤后的多个扩展问句为待扩展问题的有效扩展问，也即为符合语法标准的扩展问句。由此，输出模块可以将过滤后的多个扩展问句进行输出至知识库中。更具体而言，输出模块将过滤后的多个扩展问句加入待扩展问题所属的知识点。

[0061] 本发明一个优选实施例中，所述替换模块602可以包括第一更换单元，用以利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换。

[0062] 本实施例中，可以利用多个原始词语对应的词类对所述多个原始词语进行相关词替换。具体而言，每一词类可以包括多个词语；词类可以是按照词语的语义进行划分的，一组语义相关的词组织在一起可以形成词类。具体地，词类可以由词类名和一组语义相关词语所组成。词类名可以是在这组相关词中具有标签作用的词，即词类的代表。一个词类中至少包括一个词(即词类名本身)。例如，词类名为“手机”的词类可以包括多个词语“手机”、“mobile”、“mobilephone”、“电话”等。

[0063] 由于词类中包括与原始词语语义相似的词语，因此在利用词类对该原始词语进行相关词替换后，可以获得与待扩展问题语义相似的多个扩展问句。此外，词类可以定期进行更新和扩展词汇量，进而保证获得的扩展问句的数量。

[0064] 或者，所述替换模块602可以包括第二更换单元，用以利用同义词词典对所述多个原始词语进行同义词替换。

[0065] 本发明技术方案中，可以利用同义词词典进行相关词替换。同义词词典包括多组语义相近的词语。在实际的应用中，同义词词典有多种版本，本发明实施例不限制同义词词典的具体类型。

[0066] 由于同义词词典中包括与原始词语语义相似的词语，因此在利用同义词词典进行相关词替换后，可以获得与待扩展问题语义相似的多个扩展问句。此外，同义词词典可以定期进行更新和扩展词汇量，进而保证获得的扩展问句的数量。

[0067] 如图2所示，判断模块603可以包括：组合概率确定单元6031，用以确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；有效分数计算单元6032，用以利用所述组合概率计算扩展问句的有效分数；存储单元6033，用于存储设定阈值；比较单元6034，用以将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。

[0068] 本发明实施例给出了得到判断结果的一个具体实施方式。在具体实施中，相邻词语之间的组合概率可以表示包括所述相关词的相邻词语的组合有效性。确定组合概率可以采用任意可实施的算法或模型，本发明实施例对此不做限制。

[0069] 进一步地，可以利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。

[0070] 本实施例中，汉语语言模型或神经网络语言模型可以是预先配置的。将分词后的扩展问句输入至汉语语言模型或神经网络语言模型，汉语语言模型或神经网络语言模型可以输出该扩展问句中每两个相邻词语之间的组合概率。

[0071] 具体实施中，所述有效分数计算单元6032计算所述组合概率之和，以作为所述扩展问句的有效分数。

[0072] 具体实施中，所述组合概率确定单元6031利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。

[0073] 进一步地，图5所示知识库扩展装置60还可以包括语言模型训练模块，用以利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。

[0074] 本实施例中，在对待扩展问题进行扩展之前，需要的准备工作是获得训练完成的汉语语言模型或所述神经网络语言模型，以用以判断相邻词语的组合有效性。

[0075] 具体而言，预设原始语料可以是大量的问答数据。所述问答数据的来源可以是通过爬虫爬取的，也可以是人工问答数据。在保证预设原始语料的数据量足够大的基础上，可以保证对所述汉语语言模型或所述神经网络语言模型的训练效果，进而保证汉语语言模型或所述神经网络语言模型对相邻词语进行组合有效性判断的准确性。

[0076] 进一步而言，所述预设原始语料可以是针对特定业务领域的，也可以是覆盖多种业务领域的。

[0077] 如前所述，扩展问句中所有每两个相邻词语的组合有效性可以标识该扩展问句的有效性。在本实施例中，相邻词语的组合有效性由组合概率表示，由此，可以利用所述组合概率计算扩展问句的有效分数。具体而言，有效分数可以是多个组合概率的加权平均；也可以是多个组合概率的加权之和；还可以是多个组合概率的乘积等。

[0078] 进一步地，可以计算所述组合概率之和，以作为所述扩展问句的有效分数。

[0079] 扩展问句的有效分数可以表示扩展问句的有效性。将扩展问句的有效分数与设定阈值比较，可以得到扩展问句是否有效的判断结果。具体而言，扩展问句的有效分数越高，该扩展问句的有效性越高；反之则越低。如果扩展问句的有效分数达到所述设定阈值，则表示该扩展问句为有效扩展问；否则该扩展问句为无效扩展问。

[0080] 可以理解的是，在实际的应用中，设定阈值的具体数值可以根据实际应用环境进行适应性配置，本发明实施例对此不做限制。

[0081] 进一步地，所述过滤模块604可以包括保留单元，保留单元用以在所述判断结果表示所述扩展问句的有效分数达到所述设定阈值时，保留所述扩展问句，以作为所述待扩展问题的扩展问句。

[0082] 如前所述，如果扩展问句的有效分数达到所述设定阈值，则表示该扩展问句为有效扩展问，则可以保留该扩展问句。该扩展问句将作为待扩展问题的扩展问句。该装置可以将该扩展问句与待扩展问题作为一个知识点放入知识库中，并用以与用户问题进行匹配。

[0083] 由于本发明实施例中保留的扩展问句是经过有效性筛选的，因此在利用知识点与用户问题进行匹配时，可以避免无法匹配的情况，可以提高匹配的准确性。

[0084] 在本发明又一个具体实施例中，所述待扩展问题为知识点中的标准问或有效扩展问。本实施例中，通过对知识点中的标准问或有效扩展问进行扩展，可以得到标准问或有效扩展问的多个有效扩展问。一方面保证了知识点中扩展问句的数量，另一方面保证了知识点中扩展问句的质量；进而在利用知识点进行用户问答时，可以提高答案回复的准确性。

[0085] 进一步地，如图3所示，图3所示知识库扩展装置60还可以包括词向量模型训练模块605和更新模块606。词向量模型训练模块605用以利用预设原始语料对词向量模型进行训练；更新模块606用以利用训练完成的词向量模型获取多组新增相关词，并更新同义词词典，以用于进行相关词替换。

[0086] 具体实施中，预设原始语料可以是预先配置的。例如可以是大量的自然语言数据。用预设原始语料对词向量模型进行训练完成后，训练完成的词向量模型可以获取词语的词向量。也就是说，利用训练完成的词向量模型获取预设原始语料中的多组相关词；通过与同义词词典中的同义词相比较，可以确定多组相关词中的多组新增相关词。通过将多组新增相关词添加至同义词词典，可以实现对同义词词典的扩展。进一步地，每组新增相关词包括多个语义相近的词语。

[0087] 具体而言，根据词语的词向量可以计算词语之间的语义相似度，根据词语之间的语义相似度可以确定多组相关词。例如，两个词语之间的语义相似度大于预设值时，两个词语互为相关词。

[0088] 本发明实施例中，通过训练词向量模型来获取多组相关词，可以扩展同义词词典的词汇量；进而在利用同义词词典进行相关词替换时，可以获得更多的扩展问句。此外，通过词向量模型获得的多组相关词质量较高，从而可以提高后续利用同义词词典获得的扩展问句的质量。

[0089] 本实施例中，同义词词典可以用于进行相关词替换。为了保证对原始词语进行相关词替换后扩展问句的丰富性，在利用同义词词典对原始词语进行相关词替换之前，可以对同义词词典进行更新和扩展，以提高同义词词典的丰富性。

[0090] 在一种具体实施例中，如图4所示，更新模块606可以包括第一词向量计算单元6061，用以利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量；第一相关词确定单元6062，用以根据词向量之间的距离确定所述多组新增相关词。

[0091] 本发明实施例中，同义词词典具备多组同义词。可以利用训练完成的词向量模型获取多组同义词的词向量以及预设原始语料中所有词语的词向量。对于一组同义词，可以计算得到该组同义词中每一词语的相关词。也即，根据词向量之间的距离确定每一词语的相关词。

[0092] 由此，对于一组同义词中多个词语，可以得到多组相关词。由于多组相关词之间可能有重复，因此将每组同义词中所有词语的相关词取交集，以确定所述多组新增相关词。

[0093] 本发明实施例中，词向量之间的距离可以表征词向量对应的词语的语义相似性。利用训练完成的词向量模型获取预设原始预料中所有的词向量后，可以分别计算每两个词向量之间的距离，并根据距离确定多组新增相关词。具体地，两个词向量之间的距离达到预设数值时，确定该词向量对应的词语为相关词。

[0094] 在另一种具体实施例中，如图5所示，更新模块606可以包括第二词向量计算单元6063，用以利用所述训练完成的词向量模型获取每组同义词中所有词语的词向量，以及所述预设原始语料中所有词语的词向量；相关词计算单元6064，用以根据词向量之间的距离确定每组同义词中所有词语的相关词；第二相关词确定单元6065，用以将每组同义词中所有词语的相关词取交集，以确定所述多组新增相关词。

[0095] 虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

标题	发布/更新时间	阅读量
缺陷知识库-专利编号CN1392954A	2020-05-11	793
知识库管理系统-专利编号CN108388567A	2020-05-12	433
一种知识库系统-专利编号CN107526843A	2020-05-13	833
知识库数据更新方法、系统及知识库-专利编号CN103177092B	2020-05-13	771
知识库卫生纸-专利编号CN1489968A	2020-05-12	794
知识库建立方法-专利编号CN109858873A	2020-05-12	889
私人知识库系统-专利编号CN110222038A	2020-05-11	859
智能语音知识库-专利编号CN103810211A	2020-05-13	307
缺陷知识库-专利编号CN101246834A	2020-05-11	346
知识库扩展装置-专利编号CN109933777A	2020-05-11	700

知识库扩展装置

知识库扩展装置

技术领域

背景技术

发明内容

附图说明

具体实施方式

IPRDB

热门服务

关于我们

友情链接

联系方式