基于知识库的辅助设计方法、装置、终端和存储介质转让专利

申请号 : CN202011643855.8

文献号 : CN112733492B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王伟杨栋

申请人 : 平安医疗健康管理股份有限公司

摘要 :

本发明实施例公开了一种基于知识库的辅助设计方法、装置、终端和存储介质,其中,方法包括,获取至少一个词组,对至少一个词组进行聚类处理,得到N个词组集合,确定目标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景对应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组对参考词组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程中基于知识库进行辅助设计,提升编写的数据的规范性。

权利要求 :

1.一种基于知识库的辅助设计方法,其特征在于,包括:获取至少一个词组,对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;

确定目标场景对应的目标筛选方式,并基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;

基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;

当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目标标准词组;

基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。

2.根据权利要求1所述的方法,其特征在于,所述聚类处理的方式包括基于语义聚类,所述对所述至少一个词组进行聚类处理,得到N个词组集合,包括:确定所述至少一个词组中每个词组的语义信息;

基于各个所述词组的语义信息对所述各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息的词组。

3.根据权利要求1所述的方法,其特征在于,所述目标筛选方式包括基于目标场景下的词组出现频次进行筛选,基于所述目标筛选方式从N个词组集合中任意一个第一词组集合中筛选出一个词组作为所述词组集合中的标准词组的方式包括:获取所述第一词组集合中各个词组在目标场景下的出现频次;

从所述第一词组集合中筛选出出现频次最高的词组作为所述第一词组集合中的标准词组。

4.根据权利要求1所述的方法,其特征在于,所述基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库,包括:确定所述N个标准词组与所述目标场景之间的相关性,所述相关性由所述标准词组在所述目标场景下的出现频次确定;

基于各个标准词组与所述目标场景之间的相关性,确定所述各个标准词组所在的词组集合在数据库中对应的存储位置;

将所述各个词组集合存储于所述数据库中对应的存储位置处,得到目标知识库,不同存储位置存储的词组集合的调用优先级不同。

5.根据权利要求1‑4任一项所述的方法,其特征在于,所述从所述目标知识库中确定出所述参考词组对应的目标词组集合,包括:确定所述参考词组的第一词向量,以及所述目标知识库中每个词组的第二词向量;

计算所述第一词向量与各个第二词向量之间的距离,并确定出与所述第一词向量之间距离最近的目标第二词向量;

将所述目标第二词向量对应的词组确定为与所述参考词组相匹配的匹配词组,并将所述匹配词组所在的词组集合确定为所述参考词组对应的目标词组集合。

6.根据权利要求1所述的方法,其特征在于,所述辅助设计的方式包括词组推荐、词组评分和词组替换,所述基于所述目标标准词组对所述参考词组进行辅助设计,包括:将所述目标标准词组在所述参考词组所在的显示页面中进行推荐,以实现基于所述目标标准词组对所述参考词组进行词组推荐;

确定所述目标标准词组与所述参考词组之间的相似度,并基于相似度与评分的对应关系确定所述参考词组的评分,以实现基于所述目标标准词组对所述参考词组进行词组评分;

当接收到针对所述推荐的目标标准词组的选择操作时,将所述参考词组替换为所述目标标准词组,以实现基于所述目标标准词组对所述参考词组进行词组替换。

7.根据权利要求2所述的方法,其特征在于,所述基于所述目标标准词组对所述参考词组进行辅助设计之后,所述方法还包括:若所述目标知识库中不存在所述参考词组,则校验所述目标知识库中是否存在与所述参考词组具有相同的语义信息的匹配词组;

若存在所述匹配词组,则将所述参考词组添加至所述匹配词组所在的词组集合中;

若不存在所述匹配词组,则在所述目标知识库中创建一个新建词组集合,并将所述参考词组添加至所述新建词组集合中。

8.一种基于知识库的辅助设计装置,其特征在于,所述装置包括:获取模块,用于获取至少一个词组,聚类模块,用于对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;

确定模块,用于确定目标场景对应的目标筛选方式;

筛选模块,用于基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;

构建模块,用于基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;

所述确定模块,还用于当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目标标准词组;

辅助模块,用于基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。

9.一种终端,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1‑7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1‑7任一项所述的方法。

说明书 :

基于知识库的辅助设计方法、装置、终端和存储介质

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种基于知识库的辅助设计方法、装置、终端和存储介质。

背景技术

[0002] 数据标准是进行数据标准化、消除数据业务歧义的主要参考和依据。传统的数据标准管理强调对现有数据的管理,通过制定规则来管制架构和维护流程。
[0003] 具体的,制定一些规则,来判断用户编写的数据是否符合数据标准,如制定语言规则、字体规则、标点符号规则等,然而,通过规则制定通常只能使得用户发现编写的数据中
的形式问题,对于编写数据中用词的规范性、语句是否累赘等问题却无法得知,导致用户编
写的数据的规范性较低。

发明内容

[0004] 本发明实施例提供了一种基于知识库的辅助设计方法、装置、终端和存储介质,通过构建知识库,并在用户编写数据的过程中基于知识库进行辅助设计,提升编写的数据的
规范性。
[0005] 一方面,本发明实施例提供了一种基于知识库的辅助设计方法,所述方法包括:
[0006] 获取至少一个词组,对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;
[0007] 确定目标场景对应的目标筛选方式,并基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;
[0008] 基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;
[0009] 当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目标标准词组;
[0010] 基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。
[0011] 一方面,本发明实施例提供了一种基于知识库的辅助设计装置,所述装置包括:
[0012] 获取模块,用于获取至少一个词组,
[0013] 聚类模块,用于对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;
[0014] 确定模块,用于确定目标场景对应的目标筛选方式;
[0015] 筛选模块,用于基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;
[0016] 构建模块,用于基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;
[0017] 所述确定模块,还用于当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目标
标准词组;
[0018] 辅助模块,用于基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。
[0019] 一方面,本发明实施例提供了一种终端,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机
程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述
基于数据分析的问卷数据处理方法。
[0020] 一方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理
器执行时使所述处理器执行所述基于知识库的辅助设计方法。
[0021] 本发明实施例中,终端获取至少一个词组,对至少一个词组进行聚类处理,得到N个词组集合,确定目标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中
筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景对
应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组对
参考词组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程中
基于知识库进行辅助设计,提升编写的数据的规范性。

附图说明

[0022] 为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普
通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023] 图1是本发明实施例提供的一种基于知识库的辅助设计方法的流程示意图;
[0024] 图2是本发明实施例提供的另一种基于知识库的辅助设计方法的流程示意图;
[0025] 图3是本发明实施例提供的一种基于知识库的辅助设计装置的结构示意图;
[0026] 图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

[0027] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发
明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
[0028] 本发明实施例提供的基于知识库的辅助设计方法实现于终端,终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。
[0029] 图1是本发明实施例中一种基于知识库的辅助设计方法的流程示意图,如图1所示,本实施例中的基于知识库的辅助设计方法的流程可以包括:
[0030] S101、获取至少一个词组,并对至少一个词组进行聚类处理,得到N个词组集合。
[0031] 本发明实施例中,终端可以从数据源中所有的词组,得到至少一个词组,数据源包括数据库、数据仓库、数据库湖、数据沼泽等,可选的,数据源中可以包括了不同用户在一种
场景下使用过的所有词组,如在编写分析报告场景下使用过的所有词组,编写论文场景下
使用过的所有词组等。终端获取到至少一个词组之后,可以对该至少一个词组进行聚类处
理,得到N个词组集合,N为正整数;其中,聚类处理的方式包括基于语义进行聚类,基于词性
进行聚类,或者基于数据来源进行聚类等。
[0032] 在一种实现方式中,终端对至少一个词组进行聚类处理的方式包括基于语义进行聚类,具体的,终端确定至少一个词组中每个词组的语义信息,并基于各个词组的语义信息
对各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息的词
组。其中,终端可以基于百科工具确定每个词组的语义信息,例如,通过百科工具确定词组
“学校”、词组“school”和词组“学院”的语义信息均为“有计划、有组织、有领导地进行系统
教育的机构”,则确定“学校”、“school”和“学院”具有相同的语义信息,将“学校”、“school”
和“学院”归类于同一集合中。
[0033] 在一种实现方式中,终端对至少一个词组进行聚类处理的方式包括基于词向量进行聚类,具体的,终端调用向量化模型对至少一个词组进行向量化处理,得到至少一个词向
量,计算各个词向量之间的距离,并将距离小于预设距离的词组归类于同一集合中,其中,
向量化模型具体可以预先训练得到,词义相近的词组,经向量化模型处理后,得到的词向量
之间的距离也越近。通过上述方式,可以将词义相近的词组聚为一类。
[0034] 在一种实现方式中,终端对至少一个词组进行聚类处理的方式包括基于词性进行聚类,具体的,终端确定至少一个词组中各个词组的词性,并基于各个词组的词性对各个词
组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同词性的词组,其中,词性
包括动词、名词、形容词、副词等。
[0035] 在一种实现方式中,终端可以接收用户针对至少一个词组输入的操作信息,并基于操作信息对至少一个词组进行聚类处理,即基于人为操作对词组进行聚类。
[0036] S102、确定目标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中筛选出一个标准词组,得到N个标准词组。
[0037] 本发明实施例中,终端得到N个词组集合之后,可以确定目标场景对应的目标筛选方式,以及基于目标筛选方式从每个词组集合中筛选出一个标准词组,得到N个标准词组。
具体实现中,目标场景可以为编写场景,具体分为编写医疗报告的场景、编写金融分析报告
的场景、编写测试报告的场景等,针对不同的场景,场景下词组的标准描述不同,如针对编
写幼儿文本的场景,词组“老师”为标准描述,针对编写分析报告的场景,词组“教师”为标准
描述。因此,针对不同场景,对应的从词组集合中筛选出标准描述的方式不同,因此,不同场
景下对于标准词组的筛选方式也不同。
[0038] 具体实现中,终端可以基于预先建立的场景与筛选方式的对应关系,确定目标场景对应的目标筛选方式,目标筛选方式用于从词组集合中筛选出符合目标场景的编写标准
的标准词组。进一步的,终端基于目标筛选方式从每个词组集合中筛选出一个标准词组,下
面具体以终端针对N个词组集合中任意一个词组集合中筛选出一个标准词组的方式,来对
终端基于目标筛选方式从每个词组集合中筛选出一个标准词组的方式进行说明。
[0039] 在一种实现方式中,目标筛选方式为基于目标场景下的词组出现频次进行筛选,具体可以将每个词组集合中在目标场景下出现频次最高的词组作为每个词组集合的标准
词组。针对N个词组集合中的任意一个第一词组集合,终端基于目标筛选方式从第一词组集
合中筛选出一个标准词组的方式包括,终端获取第一词组集合中各个词组在目标场景下的
出现频次,并从第一词组集合中筛选出出现频次最高的词组作为第一词组集合中的标准词
组。例如,第一词组集合中包括词组“教师”、“老师”和“teacher”,目标场景为编写幼儿期刊
的场景,从收集的各个幼儿期刊中发现“老师”的出现频次为100、“教师”的出现频次为5,
“teacher”的出现频次为2,则确定词组“老师”出现频次最高,第一词组集合中的标准词组
为“老师”。又如,目标场景为编写分析报告的场景,从收集的各个分析报告中发现“老师”的
出现频次为10、“教师”的出现频次为500,“teacher”的出现频次为22,则确定词组“教师”出
现频次最高,第一词组集合中的标准词组为“教师”。通过上述方式,实现了针对不同的场
景,采用不同的筛选方式从词组集合中筛选出符合标准描述的词组。
[0040] 在一种实现方式中,目标筛选方式为基于目标场景下的词组的来源进行筛选,具体可以将每个词组集合中具有最高优先级来源的词组作为每个词组集合的标准词组,具体
的,针对N个词组集合中的任意一个第一词组集合,终端基于目标筛选方式从第一词组集合
中筛选出一个标准词组的方式包括,终端确定第一词组集合中各个词组的数据来源,并基
于数据来源与优先级的对应关系,确定各个词组的优先级,并将优先级最高的词组作为第
一词组集合中的标准词组,例如,第一词组集合中包括词组1和词组2,词组1来源于国家期
刊,词组2来源于地方方言期刊,目标场景下国家期刊的优先级高于地方方言期刊,则将词
组1确定为目标场景下第一词组集合中的标准词组。在一种实现方式中,终端也可以基于各
个词组的来源和出现频次综合确定目标标准词组,如基于词组的来源确定词组的权重,并
采用权重对出现频次进行加权处理,得到每个词组的加权频次,并将加权频次最高的词组
确定为标准词组。
[0041] 在一种实现方式中,终端可以基于用户输入的操作确定目标场景下的目标筛选方式,即基于用户输入的操作从各个集合中筛选出标准词组。
[0042] S103、基于N个词组集合和N个标准词组构建目标场景对应的目标知识库。
[0043] 本发明实施例中,终端确定N个词组集合和每个词组集合中的标准词组之后,将基于N个词组集合和N个标准词组构建目标场景对应的目标知识库。具体实现中,终端可以将N
个词组集合和N个标准词组对应存储至数据库中,得到目标知识库。
[0044] 在一种实现方式中,不同词组集合在数据库中的存储位置由对应的标准词组确定,终端基于N个词组集合和N个标准词组构建目标场景对应的目标知识库的具体方式可以
为,终端确定N个标准词组与目标场景之间的相关性,相关性由标准词组在目标场景下的出
现频次确定;基于各个标准词组与目标场景之间的相关性,确定各个标准词组所在的词组
集合对应的存储位置;将各个词组集合存储于数据库中对应的存储位置处,得到目标知识
库,其中,不同存储位置存储的词组集合的调用优先级不同。具体的,词组集合中的标准词
组与目标场景的相关性越高,词组集合对应的存储位置的调用优先级越高。通过上述方式,
可以基于词组集合中标准词组与目标场景的相关性,为每个词组集合设置相应的调用优先
级,使得在词组调用发生冲突时,优先调用优先级较高的词组。并且,相关性由标准词组在
目标场景下的出现频次确定,即使得高频词组所在集合的调用优先级越高,且优先级越高
的词组集合所在的存储位置能够更为快速的被查询,使得在后续使用目标知识库的过程
中,可以使得常用数据更为快速的从目标知识库中相应找到,提升目标知识库中数据的查
询效率。
[0045] 在一种实现方式中,不同词组集合在数据库中的存储位置由不同词组集合中标准词组间的关联性确定,终端基于N个词组集合和N个标准词组构建目标场景对应的目标知识
库的具体方式可以为,终端确定各个词组集合中标准词组之间的关联性,不同标准词组间
的关联性具体由标准词组在同一文本中的共现频次确定,针对各个词组集合中的任意一个
第一标准词组,终端确定其他词组集合中的第二标准词组与第一标准词组的关联性的具体
方式可以为,终端确定第一标准词组与第二标准词组在目标场景下同一文本中的出现频
次,并根据出现频次与关联性的对应关系,确定第一标准词组与第二标准词组之间的关联
性,其中,共现频次越多,关联性越高。通过上述方式,终端可以确定各个词组集合中标准词
组之间的关联性,进一步的,终端将各个词组集合中标准词组之间的关联性确定为词组集
合之间的关联性,终端从N个词组集合中随机筛选出一个第一词组集合存储于数据库中第
一位置处,并基于词组集合之间的关联性确定其他N‑1个词组集合的存储与第一位置之间
的距离,其中,关联性越高,距离越近。如从其他N‑1个词组集合确定出与第一词组集合之间
关联性最高的第二词组集合,存储于数据库中与第一位置相邻的第二位置处。通过上述方
式,可以确定出各个词组集合之间的关联性大小,并基于关联性大小确定词组集合的存储
位置,使得关联性较大的词组集合存储位置接近,关联性较小的词组集合存储位置较远,通
过上述方式,可以使得在后续对目标知识库进行数据检索的过程中,检索到一个词组集合
后,快速的查询到与该词组集合关联性较高的其他词组集合,提升数据的检索效率。
[0046] S104、当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考词组对应的目标词组集合,并确定目标词组集合中的目标标准词组。
[0047] 本发明实施例中,终端构建目标场景对应的目标知识库之后,可以检测在目标场景下输入的信息,当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组。
[0048] 在一种实现方式中,终端从目标知识库中确定出参考词组对应的目标词组集合的具体方式可以为,终端从目标知识库中确定出与参考词组相匹配的匹配词组,其中,当目标
知识库中存储有参考词组时,匹配词组为与参考词组相同的词组;当目标知识库中为存储
参考词组时,匹配词组与参考词组的词义最为相近的词组。终端将匹配词组所在的词组集
合,确定为参考词组对应的目标词组集合。
[0049] 在一种实现方式中,终端从目标知识库中确定出参考词组对应的目标词组集合的具体方式可以为,终端确定参考词组的第一词向量,以及目标知识库中每个词组的第二词
向量;计算第一词向量与各个第二词向量之间的距离,并确定出与第一词向量之间距离最
近的目标第二词向量;将目标第二词向量对应的词组确定为与参考词组相匹配的匹配词
组,并将匹配词组所在的词组集合确定为参考词组对应的目标词组集合。
[0050] 在一个实施例中,终端确定参考词组的第一词向量,以及目标知识库中每个词组的第二词向量的方式可以为,终端可以预先建立字典,字典中存储了词向量与词组之间的
对应关系,需要说明的是,字典中词组的词义相近,则词组的词向量之间的距离也是相近
的,词组相同时,对应的词向量也相同,相同词向量之间的距离最近。终端基于字典对参考
词组和目标知识库中每个词组进行词向量化处理,得到第一词向量和各个第二词向量。具
体实现中,终端可以预先获取目标场景下的K个词组,并基于K个词组建立K维向量字典,其
中,词义相近的词组距离相近,K具体可以为网络中所有词组的数量。例如,针对3个词组“学
校”、“学院”、“书院”,“学校”和“学院”词义较近,“学院”和“书院”较近,则终端可以基于上
述3个词组得到字典,其中“学校”对应的词向量为“100”,“学院”对应的词向量为“010”,“书
院”对应的词向量为“001”。终端获取到词组之后,将基于字典查询到词组对应的词向量。距
离具体可以为欧式距离、汉明距离等,在此不做限定,或者,可以构建词向量模型,并对词向
量模型进行训练,使得训练后的词向量模型可以输出每个词组对应的词向量,且词义越相
近的词组对应的词向量距离越近,终端将参考词组和目标知识库中每个词组输入至训练完
成的词向量模型中,由词向量模型输出第一词向量和各个第二词向量。
[0051] 进一步的,终端从目标知识库中确定出参考词组对应的目标词组集合之后,可以从目标词组集合中的标准词组,即目标标准词组。
[0052] S105、基于目标标准词组对参考词组进行辅助设计。
[0053] 本发明实施例中,终端确定目标词组集合中的目标标准词组之后,可以基于目标标准词组对参考词组进行辅助设计,辅助设计的方式包括词组推荐、词组评分和词组替换
中的至少一种。
[0054] 在一种实现方式中,辅助设计的方式包括词组推荐,终端基于目标标准词组对参考词组进行辅助设计的方式可以为,终端将目标标准词组在参考词组所在的显示页面中进
行推荐,以实现基于目标标准词组对参考词组进行词组推荐。例如,参考词组为“老师”,目
标标准词组为“教师”,则终端可以将“教师”在显示页面中进行推荐。可选的,终端也可以将
目标标准词组所在的词组集合中的各个词组进行显示,以实现基于目标标准词组对参考词
组进行词组推荐。可选的,终端还可以将与目标标准词组具有关联关系的关联标准词组进
行显示,以实现基于目标标准词组对参考词组进行词组推荐,词组间的关联关系可以由研
发人员预先在目标知识库中进行设置。
[0055] 在一种实现方式中,辅助设计的方式包括词组评分,终端基于目标标准词组对参考词组进行辅助设计的方式可以为,终端确定目标标准词组与参考词组之间的相似度,并
基于相似度与评分的对应关系确定参考词组的评分,以实现基于目标标准词组对参考词组
进行词组评分。其中,目标标准词组与参考词组之间相似度的计算方式可以为,获取目标标
准词组和参考词组中相同字符的数量,以及参考词组中字符的总数量,将相同字符的数量
与总数量之间的比值确定为目标标准词组与参考词组之间相似度。例如,参考词组为“老
师”,目标标准词组为“教师”,则终端确定相同字符的数量与总数量之间的比值为50%,即
参考词组与目标标准词组之间的相似度为50%,进一步的,基于相似度与评分的对应关系
确定参考词组的评分为50分。或者,确定目标标准词组的目标词向量以及参考词组的参考
词向量,基于目标词向量和参考词向量之间的距离确定目标词组与参考词组之间的相似
度,其中,距离越小,相似度越高,如相似度为距离的倒数。相似度与评分的对应关系可以为
相似度越高,评分越高,具体可以由研发人员预先设置。
[0056] 在一种实现方式中,辅助设计的方式包括词组替换,终端基于目标标准词组对参考词组进行辅助设计的方式可以为,当接收到针对目标标准词组输入的选择操作时,将参
考词组替换为目标标准词组,以实现基于目标标准词组对参考词组进行词组替换。例如,例
如,参考词组为“老师”,目标标准词组为“教师”,则终端可以将参考词组“老师”替换为目标
标准词组“教师”。
[0057] 在一种实现方式中,辅助设计的方式包括词组评分、词组推荐和词组替换,终端基于目标标准词组对参考词组进行辅助设计的方式可以为,终端将目标标准词组在参考词组
所在的显示页面中进行推荐,以实现基于目标标准词组对参考词组进行词组推荐;确定目
标标准词组与参考词组之间的相似度,并基于相似度与评分的对应关系确定参考词组的评
分,以实现基于目标标准词组对参考词组进行词组评分;当接收到针对推荐的目标标准词
组的选择操作时,将参考词组替换为目标标准词组,以实现基于目标标准词组对参考词组
进行词组替换。
[0058] 本发明实施例中,终端获取至少一个词组,对至少一个词组进行聚类处理,得到N个词组集合,确定目标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中
筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景对
应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组对
参考词组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程中
基于知识库进行辅助设计,使得用户编写的数据符合数据规范,提升编写数据的规范性。
[0059] 图2是本发明实施例中另一种基于知识库的辅助设计方法的流程示意图,如图2所示,本实施例中的基于知识库的辅助设计方法的流程可以包括:
[0060] S201、获取至少一个词组,并确定至少一个词组中每个词组的语义信息。
[0061] 本发明实施例中,终端可以获取到数据库中存储的所有词组,得到至少一个词组,终端可以确定至少一个词组中每个词组的语义信息,语义信息可以为词组的释义,例如针
对词组“学校”,其对应的释义为“有计划、有组织、有领导地进行系统教育的机构”。或者,语
义信息也可以为词组的其他语种表达,如针对词组“学校”,其对应的英语表达为“school”。
可选的,本方案中的词组也可以为程序代码,则词组的语义信息为词组的注解。
[0062] S202、基于各个词组的语义信息对各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息的词组。
[0063] 本发明实施例中,终端确定每个词组的语义信息之后,可以基于各个词组的语义信息对各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息
的词组。例如,通过百科工具确定词组“学校”和词组“学院”的释义均为“有计划、有组织、有
领导地进行系统教育的机构”,则将“学校”和“学院”放入同一集合中,即聚为一类。或者,通
过百科工具确定词组“学校”和词组“学院”的英语表达均为“school”,则将“学校”和“学院”
放入同一集合中,即聚为一类。又如,如程序代码1和程序代码2都用于创建一个对象,则可
以将程序代码1和程序代码2放入同一集合中,即聚为一类,其中,程序代码1和程序代码2可
以为采用不同语言编写的代码。
[0064] S203、确定目标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中筛选出一个标准词组,得到N个标准词组。
[0065] 本发明实施例中,终端得到N个词组集合之后,可以确定目标场景对应的目标筛选方式,以及基于目标筛选方式从每个词组集合中筛选出一个标准词组,得到N个标准词组。
具体实现中,目标场景可以为编写场景,具体分为编写医疗报告的场景、编写金融分析报告
的场景、编写测试报告的场景、编写图书的场景等,针对不同的场景,场景下词组的标准描
述不同,如针对编写幼儿图书的场景,词组“老师”为标准描述,针对编写分析报告的场景,
词组“教师”为标准描述。因此,针对不同场景,对应的从词组集合中筛选出标准描述的方式
不同,因此,不同场景下对于标准词组的筛选方式也不同。针对目标场景,终端可以确定目
标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中筛选出一个标准词
组,标准词组即目标场景下的标准描述。
[0066] S204、基于N个词组集合和N个标准词组构建目标场景对应的目标知识库。
[0067] 本发明实施例中,终端确定N个词组集合和每个词组集合中的标准词组之后,将基于N个词组集合和N个标准词组构建目标场景对应的目标知识库。具体实现中,终端可以将N
个词组集合和N个标准词组对应存储至数据库中,得到目标知识库。
[0068] S205、当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考词组对应的目标词组集合,并确定目标词组集合中的目标标准词组。
[0069] 本发明实施例中,终端构建目标场景对应的目标知识库之后,可以检测在目标场景下输入的信息,当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组。
[0070] S206、基于目标标准词组对参考词组进行辅助设计。
[0071] 本发明实施例中,终端确定目标词组集合中的目标标准词组之后,可以基于目标标准词组对参考词组进行辅助设计,辅助设计的方式包括词组推荐、词组评分和词组替换
中的至少一种。
[0072] S207、若目标知识库中不存在参考词组,则校验目标知识库中是否存在与参考词组具有相同的语义信息的匹配词组。
[0073] 本发明实施例中,针对用户输入的一个参考词组,终端可以校验目标知识库中是否存在该参考词组,若不存在,则可以基于参考词组对目标知识库进行更新。具体更新方式
可以为,终端校验目标知识库中是否存在与参考词组具有相同的语义信息的匹配词组,若
存在,则执行步骤S208,若不存在,则执行步骤S209。具体实现中,终端可以获取目标指示库
中每个词组的语义信息,以及参考词组的语义信息,若目标知识库中存在与参考词组之间
具有相同的语义信息的词组,则将该词组确定为与参考词组匹配的匹配词组。例如,参考词
组为“学院”,其语义信息为“进行系统教育的机构”,而目标知识库中存储了词组“学院”,其
语义信息也为“进行系统教育的机构”,则终端确定“学校”为与参考词组具有相同的语义信
息的匹配词组。
[0074] S208、若存在匹配词组,则将参考词组添加至匹配词组所在的词组集合中。
[0075] 本发明实施例中,终端确定目标知识库中存在与参考词组具有相同的语义信息的匹配词组之后,可以将参考词组添加至匹配词组所在的词组集合中,以实现对目标知识库
的更新。
[0076] S209、若不存在匹配词组,则在目标知识库中创建一个新建词组集合,并将参考词组添加至新建词组集合中。
[0077] 本发明实施例中,终端确定目标知识库中不存在与参考词组具有相同的语义信息的匹配词组之后,可以在目标知识库中创建一个新建词组集合,并将参考词组添加至新建
词组集合中,以实现对目标知识库的更新。
[0078] 本发明实施例中,终端获取至少一个词组,对至少一个词组进行聚类处理,得到N个词组集合,确定目标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中
筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景对
应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组对
参考词组进行辅助设计,并基于参考词组更新目标知识库。通过实施上述方法,可以构建知
识库,并在用户编写数据的过程中基于知识库进行辅助设计,使得用户编写的数据符合数
据规范,提升编写数据的规范性,并且,可以不断接收输入的数据,实现对知识库的自动更
新,提升知识库的更新效率。
[0079] 下面将结合附图3对本发明实施例提供的基于知识库的辅助设计装置进行详细介绍。需要说明的是,附图3所示的基于知识库的辅助设计装置,用于执行本发明图1‑图2所示
实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示
的,经参照本发明图1‑图2所示的实施例。
[0080] 请参见图3,为本发明提供的一种基于知识库的辅助设计装置的结构示意图,该基于知识库的辅助设计装置30可包括:获取模块301、聚类模块302、确定模块303、筛选模块
304、构建模块305和辅助模块306。
[0081] 获取模块301,用于获取至少一个词组,
[0082] 聚类模块302,用于对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;
[0083] 确定模块303,用于确定目标场景对应的目标筛选方式;
[0084] 筛选模块304,用于基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;
[0085] 构建模块305,用于基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;
[0086] 所述确定模块303,还用于当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目
标标准词组;
[0087] 辅助模块306,用于基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。
[0088] 在一种实现方式中,聚类模块302,具体用于:
[0089] 确定所述至少一个词组中每个词组的语义信息;
[0090] 基于各个所述词组的语义信息对所述各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息的词组。
[0091] 在一种实现方式中,所述目标筛选方式包括基于目标场景下的词组出现频次进行筛选,筛选模块304,具体用于:
[0092] 获取所述第一词组集合中各个词组在目标场景下的出现频次;
[0093] 从所述第一词组集合中筛选出出现频次最高的词组作为所述第一词组集合中的标准词组。
[0094] 在一种实现方式中,构建模块305,具体用于:
[0095] 确定所述N个标准词组与所述目标场景之间的相关性,所述相关性由所述标准词组在所述目标场景下的出现频次确定;
[0096] 基于各个标准词组与所述目标场景之间的相关性,确定所述各个标准词组所在的词组集合在数据库中对应的存储位置;
[0097] 将所述各个词组集合存储于所述数据库中对应的存储位置处,得到目标知识库,不同存储位置存储的词组集合的调用优先级不同。
[0098] 在一种实现方式中,确定模块303,具体用于:
[0099] 确定所述参考词组的第一词向量,以及所述目标知识库中每个词组的第二词向量;
[0100] 计算所述第一词向量与各个第二词向量之间的距离,并确定出与所述第一词向量之间距离最近的目标第二词向量;
[0101] 将所述目标第二词向量对应的词组确定为与所述参考词组相匹配的匹配词组,并将所述匹配词组所在的词组集合确定为所述参考词组对应的目标词组集合。
[0102] 在一种实现方式中,所述辅助模块306,具体用于:
[0103] 将所述目标标准词组在所述参考词组所在的显示页面中进行推荐,以实现基于所述目标标准词组对所述参考词组进行词组推荐;
[0104] 确定所述目标标准词组与所述参考词组之间的相似度,并基于相似度与评分的对应关系确定所述参考词组的评分,以实现基于所述目标标准词组对所述参考词组进行词组
评分;
[0105] 当接收到针对所述推荐的目标标准词组的选择操作时,将所述参考词组替换为所述目标标准词组,以实现基于所述目标标准词组对所述参考词组进行词组替换。
[0106] 在一种实现方式中,所述辅助模块306,还用于:
[0107] 若所述目标知识库中不存在所述参考词组,则校验所述目标知识库中是否存在与所述参考词组具有相同的语义信息的匹配词组;
[0108] 若存在所述匹配词组,则将所述参考词组添加至所述匹配词组所在的词组集合中;
[0109] 若不存在所述匹配词组,则在所述目标知识库中创建一个新建词组集合,并将所述参考词组添加至所述新建词组集合中。
[0110] 本发明实施例中,获取模块301获取至少一个词组,聚类模块302对至少一个词组进行聚类处理,得到N个词组集合,确定模块303确定目标场景对应的目标筛选方式,筛选模
块304基于目标筛选方式从每个词组集合中筛选出一个标准词组,得到N个标准词组;构建
模块305基于N个词组集合和N个标准词组构建目标场景对应的目标知识库;当检测到在目
标场景下输入的参考词组时,确定模块303从目标知识库中确定出参考词组对应的目标词
组集合,并确定目标词组集合中的目标标准词组;辅助模块306基于目标标准词组对参考词
组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程中基于知
识库进行辅助设计,提升编写的数据的规范性。
[0111] 请参见图4,为本发明实施例提供了一种终端的结构示意图。如图4所示,该终端包括:至少一个处理器401,输入设备403,输出设备404,存储器405,至少一个通信总线402。其
中,通信总线402用于实现这些组件之间的连接通信。其中,输入设备403可以是控制面板或
者麦克风等,输出设备404可以是显示屏等。其中,存储器405可以是高速RAM存储器,也可以
是非不稳定的存储器(non‑voIatiIe memory),例如至少一个磁盘存储器。存储器405可选
的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所
描述的装置,存储器405中存储一组程序代码,且处理器401,输入设备403,输出设备404调
用存储器405中存储的程序代码,用于执行以下操作:
[0112] 处理器401,用于获取至少一个词组,对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;
[0113] 处理器401,用于确定目标场景对应的目标筛选方式,并基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;
[0114] 处理器401,用于基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;
[0115] 处理器401,用于当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目标标准词
组;
[0116] 处理器401,用于基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。
[0117] 在一种实现方式中,处理器401,具体用于:
[0118] 确定所述至少一个词组中每个词组的语义信息;
[0119] 基于各个所述词组的语义信息对所述各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息的词组。
[0120] 在一种实现方式中,处理器401,具体用于:
[0121] 获取所述第一词组集合中各个词组在目标场景下的出现频次;
[0122] 从所述第一词组集合中筛选出出现频次最高的词组作为所述第一词组集合中的标准词组。
[0123] 在一种实现方式中,处理器401,具体用于:
[0124] 确定所述N个标准词组与所述目标场景之间的相关性,所述相关性由所述标准词组在所述目标场景下的出现频次确定;
[0125] 基于各个标准词组与所述目标场景之间的相关性,确定所述各个标准词组所在的词组集合在数据库中对应的存储位置;
[0126] 将所述各个词组集合存储于所述数据库中对应的存储位置处,得到目标知识库,不同存储位置存储的词组集合的调用优先级不同。
[0127] 在一种实现方式中,处理器401,具体用于:
[0128] 确定所述参考词组的第一词向量,以及所述目标知识库中每个词组的第二词向量;
[0129] 计算所述第一词向量与各个第二词向量之间的距离,并确定出与所述第一词向量之间距离最近的目标第二词向量;
[0130] 将所述目标第二词向量对应的词组确定为与所述参考词组相匹配的匹配词组,并将所述匹配词组所在的词组集合确定为所述参考词组对应的目标词组集合。
[0131] 在一种实现方式中,处理器401,具体用于:
[0132] 将所述目标标准词组在所述参考词组所在的显示页面中进行推荐,以实现基于所述目标标准词组对所述参考词组进行词组推荐;
[0133] 确定所述目标标准词组与所述参考词组之间的相似度,并基于相似度与评分的对应关系确定所述参考词组的评分,以实现基于所述目标标准词组对所述参考词组进行词组
评分;
[0134] 当接收到针对所述推荐的目标标准词组的选择操作时,将所述参考词组替换为所述目标标准词组,以实现基于所述目标标准词组对所述参考词组进行词组替换。
[0135] 在一种实现方式中,处理器401,具体用于:
[0136] 若所述目标知识库中不存在所述参考词组,则校验所述目标知识库中是否存在与所述参考词组具有相同的语义信息的匹配词组;
[0137] 若存在所述匹配词组,则将所述参考词组添加至所述匹配词组所在的词组集合中;
[0138] 若不存在所述匹配词组,则在所述目标知识库中创建一个新建词组集合,并将所述参考词组添加至所述新建词组集合中。
[0139] 本发明实施例中,处理器401获取至少一个词组,对至少一个词组进行聚类处理,得到N个词组集合,确定目标场景对应的目标筛选方式,基于目标筛选方式从每个词组集合
中筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景
对应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参
考词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组
对参考词组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程
中基于知识库进行辅助设计,提升编写的数据的规范性。
[0140] 本发明实施例中所述模块,可以通过通用集成电路,例如CPU(CentraI Processing Unit,中央处理器),或通过ASIC(AppIication Specific Integrated 
Circuit,专用集成电路)来实现。
[0141] 应当理解,在本发明实施例中,所称处理器401可以是中央处理模块(CentraI Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitaI 
SignaI Processor,DSP)、专用集成电路(AppIication Specific Integrated Circuit,
ASIC)、现成可编程门阵列(FieId‑ProgrammabIe Gate Array,FPGA)或者其他可编程逻辑
器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处
理器也可以是任何常规的处理器等。
[0142] 总线402可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互联(PeripheraI Component,PCI)总线或扩展工业标准体系结构(EItended 
Industry Standard Architecture,EISA)总线等,该总线402可以分为地址总线、数据总
线、控制总线等,为便于表示,图4仅用一条粗线表示,但并不表示仅有一根总线或一种类型
的总线。
[0143] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该程
序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁
碟、光盘、只读存储记忆体(Read‑OnIy Memory,ROM)或随机存储记忆体(Random Access 
Memory,RAM)等。
[0144] 所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节
点的使用所创建的数据等。
[0145] 其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一
串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,
用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平
台产品服务层以及应用服务层等。
[0146] 以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。