应用于知识图谱的属性数据的处理方法及电子设备转让专利
申请号 : CN202110317025.4
文献号 : CN112699252B
文献日 : 2021-07-23
发明人 : 黄庆娇 , 陈刚 , 杨志勤 , 向波 , 查琳 , 张晨 , 何青松 , 王振宇 , 邢尚合 , 冶莎 , 覃晨 , 姚苗 , 周智海 , 王芳杰 , 吴桐 , 周凡吟
申请人 : 成都数联铭品科技有限公司
摘要 :
权利要求 :
1.应用于知识图谱的属性数据的处理方法,其特征在于,数据导入阶段:接收用户针对于具有多种格式的数据,进行的多种格式的数据导入配置,并在数据导入完成后,记录属性、数据格式、数据类型之间的映射关系;所述数据导入配置由用户通过前端页面配置的数据兼容模块进行;所述具有多种格式的数据为时间数据,所述多种格式包括:年‑月‑日,月/日/年,年/月/日,年‑月‑日 时:分:秒,月/日/年 时:分:秒,以及年/月/日 时:分:秒;
图谱操作阶段:接收用户对图谱中的属性数据进行的操作,并根据数据导入阶段记录的所述映射关系,将所述操作中填入的数据,自动以所述操作中用户选择的属性所对应的格式进行存储。
2.根据权利要求1所述的应用于知识图谱的属性数据的处理方法,其特征在于,在图谱操作阶段,所述数据兼容模块接收用户通过数据值选择方式填入的时间数据。
3.根据权利要求1所述的应用于知识图谱的属性数据的处理方法,其特征在于,在数据导入阶段,针对于只有一种格式的数据,接收用户通过前端页面配置的数据兼容模块进行的数据导入配置,并在数据导入完成后,记录属性、数据格式、数据类型之间的映射关系。
4.根据权利要求3所述的应用于知识图谱的属性数据的处理方法,其特征在于,在图谱操作阶段,若填入的数据的数据类型为整型,则判断用户输入的数据的组成结构,如果是整数则全部保存,如果是字母或字符,则在文本框中失去光标时清除掉用户输入的数据,如果是带有小数点的数字,则在文本框中失去光标时仅在文本框中保留小数点前面的整数。
5.根据权利要求3所述的应用于知识图谱的属性数据的处理方法,其特征在于,在图谱操作阶段,若填入的数据的数据类型为浮点型,则判断用户输入的数据的组成结构,如果是数字则保存,如果是非数字则在文本框中失去光标时清除掉用户输入的数据。
6.根据权利要求3所述的应用于知识图谱的属性数据的处理方法,其特征在于,在图谱操作阶段,若填入的数据的数据类型为布尔型,则通过el‑checkbox插件表示,选中则为true,未选中则为false。
7.根据权利要求3所述的应用于知识图谱的属性数据的处理方法,其特征在于,在图谱操作阶段,若填入的数据的数据类型为地理坐标类型,则判断数据的组成,若由逗号隔开的前后两部分数字组成,且前部分数字的取值范围为‑180到+180,后部分数字的取值范围为‑
90到+90,则保存用户输入的数据,否则在文本框中失去光标时清除掉用户输入的数据。
8.根据权利要求1‑7任一所述的应用于知识图谱的属性数据的处理方法,其特征在于,所述操作包括修改、增加和搜索处理的条件设置中的任一项。
9.根据权利要求8所述的应用于知识图谱的属性数据的处理方法,其特征在于,当所述操作为修改或增加时,所述存储包括前端页面的临时存储和最终写入图数据库的存储。
10.根据权利要求8所述的应用于知识图谱的属性数据的处理方法,其特征在于,当所述操作为搜索处理的条件设置时,所述存储为前端页面的临时存储。
11.一种电子设备,其特征在于,包括:存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1‑10任一所述方法。
说明书 :
应用于知识图谱的属性数据的处理方法及电子设备
技术领域
背景技术
资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱中包括
节点和边,边就是指节点之间的关系,知识图谱中存储着节点和关系的属性,且不同属性具
有不同的数据类型,每种数据类型具有一种或多种数据格式。
才能被接受,否则不能被接受,因此用户在录入、修改或新增时间属性值时,需要先调出并
查看系统限定的格式(查看配置表 ),然后根据该格式输入对应格式的属性值;第二种是用
户输入的各种格式虽然都接受,但是需要在底层将各种格式的属性值转换为系统限定的格
式后再存储。第一种方式存在的缺点是用户体验差,效率低,第二种方式存在的缺点是需要
数据底层进行格式转换,修改了原来的数据格式,构建图谱的数据与原始数据已经不一致,
且数据格式转换需要占用较大资源,造成资源浪费,且效率也低。
发明内容
低资源浪费。
据导入完成后,记录属性、数据格式、数据类型之间的映射关系;所述数据导入配置由用户
通过前端页面配置的数据兼容模块进行;
应的格式进行存储。
段,通过读取数据导入阶段生成的配置表进行格式的识别和自动保存,首先保障了用户操
作后的数据格式完全和原有数据格式的对应,避免错误数据和格式混乱写入数据库,保障
了图谱操作阶段的数据存储格式与原图谱数据格式的一致性,保证了图谱数据的规范准
确,保证后续图计算的正常实现。
是最费时且耗用资源的。上述方案中,通过配置在前端的数据兼容模块提供多种存储格式,
数据导入阶段一般情况下用户输入的时间格式属性数据都能被原样保存;在图谱操作阶段
通过系统自动读取配置表因此用户无需查看系统限制的映射配置表,图计算时在前端页面
即可自动实现对用户输入数据进行数据格式转换,资源占用少。
自动识别并进行格式转化),进行一种形式的操作就可以保证所输入的数据格式与原格式
一致,极大方便了用户的操作。另外,还可以避免输入不存在的日期的情况发生。
间的映射关系。
输入的数据,如果是带有小数点的数字,则在文本框中失去光标时仅在文本框中保留小数
点前面的整数。
数据。
字的取值范围为‑90到+90,则保存用户输入的数据,否则在文本框中失去光标时清除掉用
户输入的数据。
据的正确性,以保障在图计算时不因数据错误而影响计算结果,甚至影响计算的实施。
述的应用于知识图谱的属性数据的处理方法。
据数据本身的情况选择多种对应的时间格式进行数据导入和保存;这样用户输入的属性数
据都能被原格式保存,提高了数据的兼容性。
的数据类型和格式,与选择属性的数据类型和格式保持一致。
范了用户的行为,同时又兼容不同格式使得数据保留了多样性。
附图说明
对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他相关的附图。
具体实施方式
此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因
此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的
范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做
出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
式的数据导入配置及存储功能,使得在后期进行图谱操作时,可以保存多种格式的数据,且
针对同一种属性,保存格式一致。
配置表)。其中,所述数据导入配置由用户通过前端页面配置的数据兼容模块进行。例如,图
6a为数据导入阶段属性配置的页面示意图,图6b为数据导入后得到的映射关系的展示截面
图,数据导入后可以得到属性、数据格式、数据类型之间相应的映射关系。
对应的格式进行存储。即,通过调取在数据导入阶段用户选择保存的属性格式,读取出属性
与数据格式之间的对应关系,用户在前端操作选择属性后,即可将相应的数据以该属性对
应的数据格式进行存储。
有映射关系,属性sc与格式C具有映射关系。在图谱操作阶段,例如要修改属性sb的数据值,
则不管用户输入的是格式A 、格式B还是C,都将会以格式B进行存储。
式,为用户操作提供了极大的便利,同时也提高了数据输入的效率。另一方面,本方案可以
保存不同格式的数据,但是针对于同一种属性只能存储为一种格式,继而保障数据的规范
性,也无需执行多种数据格式转换为一种数据格式的数据转换过程,因此不会额外占用资
源,降低资源消耗。
但是时间格式不像其他数据格式那么相对单一,时间数据本身就有很多种被大家认可的格
式,正是有这样的本身被大家都认可的多种表达格式,造成了从不同渠道或者不同数据持
有者处获取的数据格式的多样性,甚至同一批数据中同一个节点不同属性之间的时间格式
不同;时间格式数据的格式统一性处理成了创建知识图谱的必要环节,极大限制了知识图
谱的创建效率。基于此,具有多种格式的数据中,本实施例中重点对时间数据进行了举例说
明。
性,在图谱操作阶段存储的数据格式与数据导入阶段配置的格式保持一致。
间选择窗口,用户点击选择相应的数据值后,就只会以例如:2018‑11‑26格式录入到文本
框,即只会以2018‑11‑26格式进行保存。
间选择窗口,用户点击选择相应的数据值后,就只会以如:11/26/2018格式录入到文本框。
data3所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:2018/11/26格式录
入到文本框。
中属性update_time所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:2018‑
11‑07 12:24:04录入到文本框。
中属性update_time2所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:
2018/11/07 12:24:04录入到文本框。
中属性update_time3所示时间选择窗口,用户点击选择相应的数据值后,就只会以如:11/
07/2018 12:24:04录入到文本框。
通过选择的方式,这样的好处是可以避免用户录入错误数据(例如2月30日),也方便于用户
操作。当然地,选择的方式作为优选实施方案,本发明也不排除直接录入的可实施方式。针
对于直接录入的方式,针对于某个属性,如果用户输入的数据格式不是记录的映射关系中
该属性对应的格式,那么在存储时也会将用户录入的数据的格式转换为该属性对应的格式
进行存储。
便利,也大大提高业务处理效率。
下表1所示。按传统方式处理,因时间格式的不兼容,需要对其他时间格式如2018/11/27进
行清洗,解析为同一种时间格式,如下表2所示,然后生成图谱如图8a所示。然而采用本发明
上述方法,无需进行格式转换,生成图谱如图8b所示。本发明方法既保留了原始数据,又少
了一个时间格式清洗解析转换的步骤,在生成大数据集图谱时大大的节约了时间和资源的
占用。
53:18 53:18
53:18 18
8b所示的任一格式的属性。
可以实现以各种格式的时间作为搜索条件。
知晓具体是何种格式,但是基于本发明方法则可以任意输入各种格式的数据,既节省时间,
又使得分析人员的体验好。
面就保障用户输入的数据格式正确,避免对后期的图计算产生影响。
除掉该值,即不保存;若输入的为带有小数点的数字,在文本框失去光标时会清除小数点及
小数点后面的数字,仅保留前面的整数,即只保存小数点前面的整数,如:图6a中属性id显
示。
会自动清除掉该值。如:图6a中属性amount显示。
范围为‑180到+180,纬度范围为‑90到+90,如果不满足此规则,则在文本框中失去光标自动
清空错误的输入值。如:图6a中属性locationid显示。
储存时的属性数据保存。本发明方法可以将图谱生成时数据接入、图谱使用时数据的新增/
修改/筛选/比较、图谱储存时数据的落地,三者融合为一个整体,保持在整个过程中数据类
型与格式的一致,规范了用户的行为,同时又兼容不同格式使得数据保留了多样性。
Transfer的uid为K14541SB23BQM8A,节点Account的uid为B51E24HJ769N47C,映射配置中数
据类型及格式配置如图2和图3所示,图2为transfer节点的数据类型与格式配置,图3为关
系in(收入)的数据类型与格式配置。
条件使得数据类型保持修改前后一致。
以进行基于属性条件的搜索和筛选。
式。例如,当所述操作为属性的修改或增加时,所述存储包括前端页面的临时存储和最终写
入图数据库的存储两个过程;当所述操作为搜索处理的条件设置时,所述存储为前端页面
的临时存储。所述临时存储是指在前端页面比如浏览器中有专门存储临时用户操作信息的
存储模块(比如缓存,用户操作结束或者系统断电后,临时存储的信息可被系统自动清除);
写入图数据库的存储将是长期的,如果用户没有删除或者更改已存在于图数据库中的数
据,该数据就将持续存储在图数据库中。需要理解的是,此处的临时存储与长期存储是相对
概念,本实施例中对临时存储的存储时长,或者对长期存储的存储时长,都没有具体限定。
方,也都是基于适应的思想去满足系统的要求。例如对于属性数据的接入与存储,目前都是
基于背景技术中所提及的两种方式进行处理,在属性数据较少的情况下,这样的不便利或
者资源占用对用户的影响较小,但是当有大量属性数据需要录入时,就会严重影响处理效
率,且用户的体验感很差。本发明方案可以完美地解决该技术问题,对前端技术人员的图谱
构建、信息挖掘等操作带来了极大的便利,且通过在前端网页增加数据兼容模块的方式并
不会对既有的图谱构建系统造成不良影响,因此可实施性强,具有很好的应用前景。
盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。