基于知识库的辅助设计方法、装置、终端和存储介质转让专利
申请号 : CN202011643855.8
文献号 : CN112733492B
文献日 : 2022-05-03
发明人 : 王伟 , 杨栋
申请人 : 平安医疗健康管理股份有限公司
摘要 :
权利要求 :
1.一种基于知识库的辅助设计方法,其特征在于,包括:获取至少一个词组,对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;
确定目标场景对应的目标筛选方式,并基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;
基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;
当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目标标准词组;
基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述聚类处理的方式包括基于语义聚类,所述对所述至少一个词组进行聚类处理,得到N个词组集合,包括:确定所述至少一个词组中每个词组的语义信息;
基于各个所述词组的语义信息对所述各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息的词组。
3.根据权利要求1所述的方法,其特征在于,所述目标筛选方式包括基于目标场景下的词组出现频次进行筛选,基于所述目标筛选方式从N个词组集合中任意一个第一词组集合中筛选出一个词组作为所述词组集合中的标准词组的方式包括:获取所述第一词组集合中各个词组在目标场景下的出现频次;
从所述第一词组集合中筛选出出现频次最高的词组作为所述第一词组集合中的标准词组。
4.根据权利要求1所述的方法,其特征在于,所述基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库,包括:确定所述N个标准词组与所述目标场景之间的相关性,所述相关性由所述标准词组在所述目标场景下的出现频次确定;
基于各个标准词组与所述目标场景之间的相关性,确定所述各个标准词组所在的词组集合在数据库中对应的存储位置;
将所述各个词组集合存储于所述数据库中对应的存储位置处,得到目标知识库,不同存储位置存储的词组集合的调用优先级不同。
5.根据权利要求1‑4任一项所述的方法,其特征在于,所述从所述目标知识库中确定出所述参考词组对应的目标词组集合,包括:确定所述参考词组的第一词向量,以及所述目标知识库中每个词组的第二词向量;
计算所述第一词向量与各个第二词向量之间的距离,并确定出与所述第一词向量之间距离最近的目标第二词向量;
将所述目标第二词向量对应的词组确定为与所述参考词组相匹配的匹配词组,并将所述匹配词组所在的词组集合确定为所述参考词组对应的目标词组集合。
6.根据权利要求1所述的方法,其特征在于,所述辅助设计的方式包括词组推荐、词组评分和词组替换,所述基于所述目标标准词组对所述参考词组进行辅助设计,包括:将所述目标标准词组在所述参考词组所在的显示页面中进行推荐,以实现基于所述目标标准词组对所述参考词组进行词组推荐;
确定所述目标标准词组与所述参考词组之间的相似度,并基于相似度与评分的对应关系确定所述参考词组的评分,以实现基于所述目标标准词组对所述参考词组进行词组评分;
当接收到针对所述推荐的目标标准词组的选择操作时,将所述参考词组替换为所述目标标准词组,以实现基于所述目标标准词组对所述参考词组进行词组替换。
7.根据权利要求2所述的方法,其特征在于,所述基于所述目标标准词组对所述参考词组进行辅助设计之后,所述方法还包括:若所述目标知识库中不存在所述参考词组,则校验所述目标知识库中是否存在与所述参考词组具有相同的语义信息的匹配词组;
若存在所述匹配词组,则将所述参考词组添加至所述匹配词组所在的词组集合中;
若不存在所述匹配词组,则在所述目标知识库中创建一个新建词组集合,并将所述参考词组添加至所述新建词组集合中。
8.一种基于知识库的辅助设计装置,其特征在于,所述装置包括:获取模块,用于获取至少一个词组,聚类模块,用于对所述至少一个词组进行聚类处理,得到N个词组集合,N为正整数;
确定模块,用于确定目标场景对应的目标筛选方式;
筛选模块,用于基于所述目标筛选方式从每个所述词组集合中筛选出一个标准词组,得到N个标准词组;
构建模块,用于基于所述N个词组集合和所述N个标准词组构建所述目标场景对应的目标知识库;
所述确定模块,还用于当检测到在所述目标场景下输入的参考词组时,从所述目标知识库中确定出所述参考词组对应的目标词组集合,并确定所述目标词组集合中的目标标准词组;
辅助模块,用于基于所述目标标准词组对所述参考词组进行辅助设计,所述辅助设计的方式包括词组推荐、词组评分和词组替换中的至少一种。
9.一种终端,其特征在于,包括处理器、输入接口、输出接口和存储器,所述处理器、输入接口、输出接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1‑7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1‑7任一项所述的方法。
说明书 :
基于知识库的辅助设计方法、装置、终端和存储介质
技术领域
背景技术
的形式问题,对于编写数据中用词的规范性、语句是否累赘等问题却无法得知,导致用户编
写的数据的规范性较低。
发明内容
规范性。
标准词组;
程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述
基于数据分析的问卷数据处理方法。
器执行时使所述处理器执行所述基于知识库的辅助设计方法。
筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景对
应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组对
参考词组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程中
基于知识库进行辅助设计,提升编写的数据的规范性。
附图说明
通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
场景下使用过的所有词组,如在编写分析报告场景下使用过的所有词组,编写论文场景下
使用过的所有词组等。终端获取到至少一个词组之后,可以对该至少一个词组进行聚类处
理,得到N个词组集合,N为正整数;其中,聚类处理的方式包括基于语义进行聚类,基于词性
进行聚类,或者基于数据来源进行聚类等。
对各个词组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同语义信息的词
组。其中,终端可以基于百科工具确定每个词组的语义信息,例如,通过百科工具确定词组
“学校”、词组“school”和词组“学院”的语义信息均为“有计划、有组织、有领导地进行系统
教育的机构”,则确定“学校”、“school”和“学院”具有相同的语义信息,将“学校”、“school”
和“学院”归类于同一集合中。
量,计算各个词向量之间的距离,并将距离小于预设距离的词组归类于同一集合中,其中,
向量化模型具体可以预先训练得到,词义相近的词组,经向量化模型处理后,得到的词向量
之间的距离也越近。通过上述方式,可以将词义相近的词组聚为一类。
组进行聚类处理,得到N个词组集合,每个词组集合中包括具有相同词性的词组,其中,词性
包括动词、名词、形容词、副词等。
具体实现中,目标场景可以为编写场景,具体分为编写医疗报告的场景、编写金融分析报告
的场景、编写测试报告的场景等,针对不同的场景,场景下词组的标准描述不同,如针对编
写幼儿文本的场景,词组“老师”为标准描述,针对编写分析报告的场景,词组“教师”为标准
描述。因此,针对不同场景,对应的从词组集合中筛选出标准描述的方式不同,因此,不同场
景下对于标准词组的筛选方式也不同。
的标准词组。进一步的,终端基于目标筛选方式从每个词组集合中筛选出一个标准词组,下
面具体以终端针对N个词组集合中任意一个词组集合中筛选出一个标准词组的方式,来对
终端基于目标筛选方式从每个词组集合中筛选出一个标准词组的方式进行说明。
词组。针对N个词组集合中的任意一个第一词组集合,终端基于目标筛选方式从第一词组集
合中筛选出一个标准词组的方式包括,终端获取第一词组集合中各个词组在目标场景下的
出现频次,并从第一词组集合中筛选出出现频次最高的词组作为第一词组集合中的标准词
组。例如,第一词组集合中包括词组“教师”、“老师”和“teacher”,目标场景为编写幼儿期刊
的场景,从收集的各个幼儿期刊中发现“老师”的出现频次为100、“教师”的出现频次为5,
“teacher”的出现频次为2,则确定词组“老师”出现频次最高,第一词组集合中的标准词组
为“老师”。又如,目标场景为编写分析报告的场景,从收集的各个分析报告中发现“老师”的
出现频次为10、“教师”的出现频次为500,“teacher”的出现频次为22,则确定词组“教师”出
现频次最高,第一词组集合中的标准词组为“教师”。通过上述方式,实现了针对不同的场
景,采用不同的筛选方式从词组集合中筛选出符合标准描述的词组。
的,针对N个词组集合中的任意一个第一词组集合,终端基于目标筛选方式从第一词组集合
中筛选出一个标准词组的方式包括,终端确定第一词组集合中各个词组的数据来源,并基
于数据来源与优先级的对应关系,确定各个词组的优先级,并将优先级最高的词组作为第
一词组集合中的标准词组,例如,第一词组集合中包括词组1和词组2,词组1来源于国家期
刊,词组2来源于地方方言期刊,目标场景下国家期刊的优先级高于地方方言期刊,则将词
组1确定为目标场景下第一词组集合中的标准词组。在一种实现方式中,终端也可以基于各
个词组的来源和出现频次综合确定目标标准词组,如基于词组的来源确定词组的权重,并
采用权重对出现频次进行加权处理,得到每个词组的加权频次,并将加权频次最高的词组
确定为标准词组。
个词组集合和N个标准词组对应存储至数据库中,得到目标知识库。
为,终端确定N个标准词组与目标场景之间的相关性,相关性由标准词组在目标场景下的出
现频次确定;基于各个标准词组与目标场景之间的相关性,确定各个标准词组所在的词组
集合对应的存储位置;将各个词组集合存储于数据库中对应的存储位置处,得到目标知识
库,其中,不同存储位置存储的词组集合的调用优先级不同。具体的,词组集合中的标准词
组与目标场景的相关性越高,词组集合对应的存储位置的调用优先级越高。通过上述方式,
可以基于词组集合中标准词组与目标场景的相关性,为每个词组集合设置相应的调用优先
级,使得在词组调用发生冲突时,优先调用优先级较高的词组。并且,相关性由标准词组在
目标场景下的出现频次确定,即使得高频词组所在集合的调用优先级越高,且优先级越高
的词组集合所在的存储位置能够更为快速的被查询,使得在后续使用目标知识库的过程
中,可以使得常用数据更为快速的从目标知识库中相应找到,提升目标知识库中数据的查
询效率。
库的具体方式可以为,终端确定各个词组集合中标准词组之间的关联性,不同标准词组间
的关联性具体由标准词组在同一文本中的共现频次确定,针对各个词组集合中的任意一个
第一标准词组,终端确定其他词组集合中的第二标准词组与第一标准词组的关联性的具体
方式可以为,终端确定第一标准词组与第二标准词组在目标场景下同一文本中的出现频
次,并根据出现频次与关联性的对应关系,确定第一标准词组与第二标准词组之间的关联
性,其中,共现频次越多,关联性越高。通过上述方式,终端可以确定各个词组集合中标准词
组之间的关联性,进一步的,终端将各个词组集合中标准词组之间的关联性确定为词组集
合之间的关联性,终端从N个词组集合中随机筛选出一个第一词组集合存储于数据库中第
一位置处,并基于词组集合之间的关联性确定其他N‑1个词组集合的存储与第一位置之间
的距离,其中,关联性越高,距离越近。如从其他N‑1个词组集合确定出与第一词组集合之间
关联性最高的第二词组集合,存储于数据库中与第一位置相邻的第二位置处。通过上述方
式,可以确定出各个词组集合之间的关联性大小,并基于关联性大小确定词组集合的存储
位置,使得关联性较大的词组集合存储位置接近,关联性较小的词组集合存储位置较远,通
过上述方式,可以使得在后续对目标知识库进行数据检索的过程中,检索到一个词组集合
后,快速的查询到与该词组集合关联性较高的其他词组集合,提升数据的检索效率。
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组。
知识库中存储有参考词组时,匹配词组为与参考词组相同的词组;当目标知识库中为存储
参考词组时,匹配词组与参考词组的词义最为相近的词组。终端将匹配词组所在的词组集
合,确定为参考词组对应的目标词组集合。
向量;计算第一词向量与各个第二词向量之间的距离,并确定出与第一词向量之间距离最
近的目标第二词向量;将目标第二词向量对应的词组确定为与参考词组相匹配的匹配词
组,并将匹配词组所在的词组集合确定为参考词组对应的目标词组集合。
对应关系,需要说明的是,字典中词组的词义相近,则词组的词向量之间的距离也是相近
的,词组相同时,对应的词向量也相同,相同词向量之间的距离最近。终端基于字典对参考
词组和目标知识库中每个词组进行词向量化处理,得到第一词向量和各个第二词向量。具
体实现中,终端可以预先获取目标场景下的K个词组,并基于K个词组建立K维向量字典,其
中,词义相近的词组距离相近,K具体可以为网络中所有词组的数量。例如,针对3个词组“学
校”、“学院”、“书院”,“学校”和“学院”词义较近,“学院”和“书院”较近,则终端可以基于上
述3个词组得到字典,其中“学校”对应的词向量为“100”,“学院”对应的词向量为“010”,“书
院”对应的词向量为“001”。终端获取到词组之后,将基于字典查询到词组对应的词向量。距
离具体可以为欧式距离、汉明距离等,在此不做限定,或者,可以构建词向量模型,并对词向
量模型进行训练,使得训练后的词向量模型可以输出每个词组对应的词向量,且词义越相
近的词组对应的词向量距离越近,终端将参考词组和目标知识库中每个词组输入至训练完
成的词向量模型中,由词向量模型输出第一词向量和各个第二词向量。
中的至少一种。
行推荐,以实现基于目标标准词组对参考词组进行词组推荐。例如,参考词组为“老师”,目
标标准词组为“教师”,则终端可以将“教师”在显示页面中进行推荐。可选的,终端也可以将
目标标准词组所在的词组集合中的各个词组进行显示,以实现基于目标标准词组对参考词
组进行词组推荐。可选的,终端还可以将与目标标准词组具有关联关系的关联标准词组进
行显示,以实现基于目标标准词组对参考词组进行词组推荐,词组间的关联关系可以由研
发人员预先在目标知识库中进行设置。
基于相似度与评分的对应关系确定参考词组的评分,以实现基于目标标准词组对参考词组
进行词组评分。其中,目标标准词组与参考词组之间相似度的计算方式可以为,获取目标标
准词组和参考词组中相同字符的数量,以及参考词组中字符的总数量,将相同字符的数量
与总数量之间的比值确定为目标标准词组与参考词组之间相似度。例如,参考词组为“老
师”,目标标准词组为“教师”,则终端确定相同字符的数量与总数量之间的比值为50%,即
参考词组与目标标准词组之间的相似度为50%,进一步的,基于相似度与评分的对应关系
确定参考词组的评分为50分。或者,确定目标标准词组的目标词向量以及参考词组的参考
词向量,基于目标词向量和参考词向量之间的距离确定目标词组与参考词组之间的相似
度,其中,距离越小,相似度越高,如相似度为距离的倒数。相似度与评分的对应关系可以为
相似度越高,评分越高,具体可以由研发人员预先设置。
考词组替换为目标标准词组,以实现基于目标标准词组对参考词组进行词组替换。例如,例
如,参考词组为“老师”,目标标准词组为“教师”,则终端可以将参考词组“老师”替换为目标
标准词组“教师”。
所在的显示页面中进行推荐,以实现基于目标标准词组对参考词组进行词组推荐;确定目
标标准词组与参考词组之间的相似度,并基于相似度与评分的对应关系确定参考词组的评
分,以实现基于目标标准词组对参考词组进行词组评分;当接收到针对推荐的目标标准词
组的选择操作时,将参考词组替换为目标标准词组,以实现基于目标标准词组对参考词组
进行词组替换。
筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景对
应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组对
参考词组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程中
基于知识库进行辅助设计,使得用户编写的数据符合数据规范,提升编写数据的规范性。
对词组“学校”,其对应的释义为“有计划、有组织、有领导地进行系统教育的机构”。或者,语
义信息也可以为词组的其他语种表达,如针对词组“学校”,其对应的英语表达为“school”。
可选的,本方案中的词组也可以为程序代码,则词组的语义信息为词组的注解。
的词组。例如,通过百科工具确定词组“学校”和词组“学院”的释义均为“有计划、有组织、有
领导地进行系统教育的机构”,则将“学校”和“学院”放入同一集合中,即聚为一类。或者,通
过百科工具确定词组“学校”和词组“学院”的英语表达均为“school”,则将“学校”和“学院”
放入同一集合中,即聚为一类。又如,如程序代码1和程序代码2都用于创建一个对象,则可
以将程序代码1和程序代码2放入同一集合中,即聚为一类,其中,程序代码1和程序代码2可
以为采用不同语言编写的代码。
具体实现中,目标场景可以为编写场景,具体分为编写医疗报告的场景、编写金融分析报告
的场景、编写测试报告的场景、编写图书的场景等,针对不同的场景,场景下词组的标准描
述不同,如针对编写幼儿图书的场景,词组“老师”为标准描述,针对编写分析报告的场景,
词组“教师”为标准描述。因此,针对不同场景,对应的从词组集合中筛选出标准描述的方式
不同,因此,不同场景下对于标准词组的筛选方式也不同。针对目标场景,终端可以确定目
标场景对应的目标筛选方式,并基于目标筛选方式从每个词组集合中筛选出一个标准词
组,标准词组即目标场景下的标准描述。
个词组集合和N个标准词组对应存储至数据库中,得到目标知识库。
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组。
中的至少一种。
可以为,终端校验目标知识库中是否存在与参考词组具有相同的语义信息的匹配词组,若
存在,则执行步骤S208,若不存在,则执行步骤S209。具体实现中,终端可以获取目标指示库
中每个词组的语义信息,以及参考词组的语义信息,若目标知识库中存在与参考词组之间
具有相同的语义信息的词组,则将该词组确定为与参考词组匹配的匹配词组。例如,参考词
组为“学院”,其语义信息为“进行系统教育的机构”,而目标知识库中存储了词组“学院”,其
语义信息也为“进行系统教育的机构”,则终端确定“学校”为与参考词组具有相同的语义信
息的匹配词组。
的更新。
词组集合中,以实现对目标知识库的更新。
筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景对
应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参考
词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组对
参考词组进行辅助设计,并基于参考词组更新目标知识库。通过实施上述方法,可以构建知
识库,并在用户编写数据的过程中基于知识库进行辅助设计,使得用户编写的数据符合数
据规范,提升编写数据的规范性,并且,可以不断接收输入的数据,实现对知识库的自动更
新,提升知识库的更新效率。
实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示
的,经参照本发明图1‑图2所示的实施例。
304、构建模块305和辅助模块306。
标标准词组;
评分;
块304基于目标筛选方式从每个词组集合中筛选出一个标准词组,得到N个标准词组;构建
模块305基于N个词组集合和N个标准词组构建目标场景对应的目标知识库;当检测到在目
标场景下输入的参考词组时,确定模块303从目标知识库中确定出参考词组对应的目标词
组集合,并确定目标词组集合中的目标标准词组;辅助模块306基于目标标准词组对参考词
组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程中基于知
识库进行辅助设计,提升编写的数据的规范性。
中,通信总线402用于实现这些组件之间的连接通信。其中,输入设备403可以是控制面板或
者麦克风等,输出设备404可以是显示屏等。其中,存储器405可以是高速RAM存储器,也可以
是非不稳定的存储器(non‑voIatiIe memory),例如至少一个磁盘存储器。存储器405可选
的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所
描述的装置,存储器405中存储一组程序代码,且处理器401,输入设备403,输出设备404调
用存储器405中存储的程序代码,用于执行以下操作:
组;
评分;
中筛选出一个标准词组,得到N个标准词组;基于N个词组集合和N个标准词组构建目标场景
对应的目标知识库;当检测到在目标场景下输入的参考词组时,从目标知识库中确定出参
考词组对应的目标词组集合,并确定目标词组集合中的目标标准词组;基于目标标准词组
对参考词组进行辅助设计。通过实施上述方法,可以构建知识库,并在用户编写数据的过程
中基于知识库进行辅助设计,提升编写的数据的规范性。
Circuit,专用集成电路)来实现。
SignaI Processor,DSP)、专用集成电路(AppIication Specific Integrated Circuit,
ASIC)、现成可编程门阵列(FieId‑ProgrammabIe Gate Array,FPGA)或者其他可编程逻辑
器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处
理器也可以是任何常规的处理器等。
Industry Standard Architecture,EISA)总线等,该总线402可以分为地址总线、数据总
线、控制总线等,为便于表示,图4仅用一条粗线表示,但并不表示仅有一根总线或一种类型
的总线。
序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机存储介质可为磁
碟、光盘、只读存储记忆体(Read‑OnIy Memory,ROM)或随机存储记忆体(Random Access
Memory,RAM)等。
点的使用所创建的数据等。
串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,
用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平
台产品服务层以及应用服务层等。