基于材料数据库的信息校验方法、装置、设备及介质转让专利

申请号 : CN202311135607.6

文献号 : CN116861042B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李庚孟祥飞杨灿群龚春叶菅晓东高英翔石冬婕

申请人 : 国家超级计算天津中心中国人民解放军国防科技大学先进计算与关键软件(信创)海河实验室

摘要 :

本公开实施例涉及一种基于材料数据库的信息校验方法、装置、设备及介质,涉及材料数据库技术领域,该方法包括:获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据;对多个原始数据进行整合处理,得到目标材料的目标综合元数据;确定目标综合元数据中待校验属性信息的关联属性信息;其中,关联属性信息为目标综合元数据中与待校验属性信息关联的属性信息;根据关联属性信息确定待校验属性信息的校验结果。本公开实施例,基于目标材料本身具备关联关系的属性信息实现了属性信息的校验,实现了属性信息可靠性的确定。

权利要求 :

1.一种基于材料数据库的信息校验方法,其特征在于,包括:

获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据;

对所述多个原始数据进行整合处理,得到所述目标材料的目标综合元数据;其中,所述目标综合元数据包括属性值缺失的缺失属性信息,所述目标综合元数据所在的材料数据库中同一属性名称对应的名称属性值位于同一列;

确定所述目标综合元数据中待校验属性信息的关联属性信息;其中,所述关联属性信息为所述目标综合元数据中与所述待校验属性信息关联的属性信息;

根据所述关联属性信息确定所述待校验属性信息的校验结果;

获取所述材料数据库中第一预设数量的连续多行候选综合元数据;其中,所述候选综合元数据包括所述目标综合元数据,所述材料数据库中的综合元数据根据其对应的材料的材料相似度排序;

获取所述多行候选综合元数据中第二预设数量的连续多列名称属性值,根据所述多列名称属性值生成原始属性矩阵;其中,所述多列名称属性值包括所述缺失属性信息的缺失属性值;

将所述原始属性矩阵分解为两个分解属性矩阵,根据所述两个分解属性矩阵的关联属性矩阵确定所述缺失属性值的补充属性值,并将所述补充属性值作为所述缺失属性信息的属性值;

根据所述关联属性矩阵与所述原始属性矩阵的相似度,确定包括所述补充属性值的缺失属性信息的校验结果。

2.根据权利要求1所述的方法,其特征在于,所述对所述多个原始数据进行整合处理,得到所述目标材料的目标综合元数据,包括:根据各所述原始数据的程序标识确定各所述原始数据对应的数据提取模板;其中,所述程序标识和所述材料计算程序一一对应;

根据所述数据提取模板提取对应的原始数据,得到所述多个原始数据对应的多个目标初始元数据;

根据所述多个目标初始元数据生成所述目标综合元数据。

3.根据权利要求2所述的方法,其特征在于,所述根据所述多个目标初始元数据生成所述目标综合元数据,包括:将所述多个目标初始元数据对应的多个属性名称分别确定为待处理属性名称;其中,一个所述属性名称包括语义相同的多个属性字段,或者一个所述属性名称包括一个属性字段;

若所述待处理属性名称对应多个字段属性值,则计算所述多个字段属性值的离散度,若所述离散度小于预设离散度阈值,则将所述多个字段属性值中精确度最高的字段属性值确定为所述待处理属性名称的名称属性值;其中,所述字段属性值为所述属性字段的属性值;

根据各所述属性名称和所述名称属性值,确定所述目标综合元数据。

4.根据权利要求1所述的方法,其特征在于,所述待校验属性信息与所述关联属性信息的对应关系包括以下至少一种:若所述待校验属性信息为原子数量信息,则所述关联属性信息为原子坐标信息;若所述待校验属性信息为晶系信息,则所述关联属性信息为晶胞信息;若所述待校验属性信息为化学式信息,则所述关联属性信息为所述原子数量信息。

5.根据权利要求1所述的方法,其特征在于,所述根据所述关联属性信息确定所述待校验属性信息的校验结果,包括:根据所述关联属性信息计算所述待校验属性信息的校验参考值,若所述校验参考值与所述待校验属性信息的待校验属性值的第一误差小于第一误差阈值,则确定所述校验结果为校验通过;或者,根据所述待校验属性信息计算所述关联属性信息的关联参考值,若所述关联参考值与所述关联属性信息的关联属性值的第二误差小于第二误差阈值,则确定所述校验结果为校验通过。

6.一种基于材料数据库的信息校验装置,其特征在于,包括:

第一获取模块,用于获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据;

整合模块,用于对所述多个原始数据进行整合处理,得到所述目标材料的目标综合元数据;其中,所述目标综合元数据包括属性值缺失的缺失属性信息,所述目标综合元数据所在的材料数据库中同一属性名称对应的名称属性值位于同一列;

第一确定模块,用于确定所述目标综合元数据中待校验属性信息的关联属性信息;其中,所述关联属性信息为所述目标综合元数据中与所述待校验属性信息关联的属性信息;

第二确定模块,用于根据所述关联属性信息确定所述待校验属性信息的校验结果;

第二获取模块,用于获取所述材料数据库中第一预设数量的连续多行候选综合元数据;其中,所述候选综合元数据包括所述目标综合元数据,所述材料数据库中的综合元数据根据其对应的材料的材料相似度排序;

生成模块,用于获取所述多行候选综合元数据中第二预设数量的连续多列名称属性值,根据所述多列名称属性值生成原始属性矩阵;其中,所述多列名称属性值包括所述缺失属性信息的缺失属性值;

补充模块,用于将所述原始属性矩阵分解为两个分解属性矩阵,根据所述两个分解属性矩阵的关联属性矩阵确定所述缺失属性值的补充属性值,并将所述补充属性值作为所述缺失属性信息的属性值;

第三确定模块,用于根据所述关联属性矩阵与所述原始属性矩阵的相似度,确定包括所述补充属性值的缺失属性信息的校验结果。

7.一种电子设备,其特征在于,所述电子设备包括:

处理器;

用于存储所述处理器可执行指令的存储器;

所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1‑5中任一所述的基于材料数据库的信息校验方法。

8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1‑5中任一所述的基于材料数据库的信息校验方法。

说明书 :

基于材料数据库的信息校验方法、装置、设备及介质

技术领域

[0001] 本公开涉及材料数据库技术领域,尤其涉及一种基于材料数据库的信息校验方法、装置、设备及介质。

背景技术

[0002] 随着材料基因工程的发展,数据越加重要。在材料领域中,存在大量不同材料的不同来源的数据。这些数据具有较强的封闭性,且规范性较低。
[0003] 相关技术中,可以将相同材料的不同来源的数据整合存储在材料数据库中。但是,无法确定基于不同来源获得的整合数据是否具备可靠性。

发明内容

[0004] 为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种基于材料数据库的信息校验方法、装置、设备及介质。
[0005] 本公开实施例提供了一种基于材料数据库的信息校验方法,包括:
[0006] 获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据;
[0007] 对所述多个原始数据进行整合处理,得到所述目标材料的目标综合元数据;
[0008] 确定所述目标综合元数据中待校验属性信息的关联属性信息;其中,所述关联属性信息为所述目标综合元数据中与所述待校验属性信息关联的属性信息;
[0009] 根据所述关联属性信息确定所述待校验属性信息的校验结果。
[0010] 本公开实施例还提供了一种基于材料数据库的信息校验装置,包括:
[0011] 第一获取模块,用于获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据;
[0012] 整合模块,用于对所述多个原始数据进行整合处理,得到所述目标材料的目标综合元数据;
[0013] 第一确定模块,用于确定所述目标综合元数据中待校验属性信息的关联属性信息;其中,所述关联属性信息为所述目标综合元数据中与所述待校验属性信息关联的属性信息;
[0014] 第二确定模块,用于根据所述关联属性信息确定所述待校验属性信息的校验结果。
[0015] 本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的基于材料数据库的信息校验方法。
[0016] 本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的基于材料数据库的信息校验方法。
[0017] 本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例中提供的基于材料数据库的信息校验方案,包括:获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据;对多个原始数据进行整合处理,得到目标材料的目标综合元数据;确定目标综合元数据中待校验属性信息的关联属性信息;其中,关联属性信息为目标综合元数据中与待校验属性信息关联的属性信息;根据关联属性信息确定待校验属性信息的校验结果。采用上述技术方案,对不同材料计算程序计算得到的原始数据进行整合,得到目标材料的目标综合元数据,通过该目标综合元数据中具备关联关系的待校验属性信息和关联属性信息确定了该待校验属性信息是否通过校验,从而基于目标材料本身具备关联关系的属性信息实现了属性信息的校验,实现了属性信息可靠性的确定。

附图说明

[0018] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0019] 为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020] 图1为本公开实施例提供的一种基于材料数据库的信息校验方法的流程示意图;
[0021] 图2为本公开实施例提供的一种目标综合元数据的确定方法的流程示意图;
[0022] 图3为本公开实施例提供的一种补充属性值的确定方法的流程示意图;
[0023] 图4为本公开实施例提供的另一种基于材料数据库的信息校验方法的流程示意图;
[0024] 图5为本公开实施例提供的一种基于材料数据库的信息校验装置的结构示意图;
[0025] 图6为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

[0026] 为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0027] 在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0028] 随着材料基因工程中多尺度材料计算、人工智能材料计算等方法的发展,数据的重要性愈加突出,数据驱动的材料研发分析和性质预测成为了材料研究的新手段。
[0029] 目前,在材料领域中存在大量通过不同计算软件计算得到的不同类型材料的实验数据、模拟数据等,这些原始数据具有封闭性、数据孤岛性、缺乏规范标准的特点,基于该原始数据不利于数据的管理、分析和共享。现有的材料数据库无法解决复杂的多尺度、多场耦合的物理问题。并且,现有的材料数据库中对原始数据进行整合得到整合数据之后,将该整合数据存储至数据库,无法确定整合数据是否具备可靠性。
[0030] 为了解决上述问题,本公开实施例提供了一种基于材料数据库的信息校验方法,下面结合具体的实施例对该方法进行介绍。
[0031] 图1为本公开实施例提供的一种基于材料数据库的信息校验方法的流程示意图,该方法可以由基于材料数据库的信息校验装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中,如图1所示,该基于材料数据库的信息校验方法包括:
[0032] 步骤101,获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据。
[0033] 其中,材料计算程序可以为能够对材料进行模拟计算的软件,该材料计算程序又称材料多尺度模拟计算软件。本实施例对该材料计算程序的种类不做限制,例如,该材料计算程序可以为以下计算程序中的一种或多种:密度泛函理论计算程序(例如,VASP计算程序、Gaussian计算程序)、从头算方法计算程序(例如,cp2k计算程序)、分子/量子动力学计算程序(例如,Lammps计算程序)。目标材料可以为需要进行模拟计算的材料,本实施例对该材料的类型不做限制,例如,该材料可以为纯净物或混合物。
[0034] 原始数据可以包括模拟计算的输入文件、模拟计算的输出文件、中间数据、解析数据中的一个或多个中的材料属性数据,其中,中间数据可以为模拟计算过程中产生的数据,解析数据可以为对输出文件进行解析获得的数据。可选的,一个原始数据可以包括材料计算程序的一组输入数据以及输出数据。本实施例对该原始数据的文件类型不做限制,以材料的结构数据为例,该原始数据为结构数据的文件类型可以包括以下一种或多种:POSCAR文件、cif文件、xyz文件、gjf文件、pdb文件、mol文件。该原始数据的科学数据类型有多种,本实施例不做限制,例如,该原始数据的科学数据类型可以包括:离散型数据、高通量计算数据、数据库数据中的一个或多个。本实施例对该原始数据的产生终端、登录用户、应用场景等也不做限制。可选的,在一些应用场景中,可以将实验数据补充入该原始数据中,得到更新后的原始数据。本公开实施例中对该原始数据的精度、赝势、泛函等也不做限制。
[0035] 以VASP计算程序为例,为获得材料的电子性质,需要依次对材料的结构进行多个步骤的计算,并根据多个步骤的计算结果获取对应的输入信息,获取材料计算完成后的数据,将该数据作为部分原始数据。
[0036] 不同材料计算程序生成的原始数据的文件类型格式等存在差别,并且不同的材料尺度(例如,宏观、微观、介观等)也会对原始数据的文件类型格式等产生影响。通过材料计算程序生成的原始数据具有多类型、多源、异构等特点。
[0037] 在本公开实施例中,用户可以通过根据不同材料计算程序的计算功能,预先为目标材料设计每个材料计算程序对应的输入文件。将输入文件输入相应的材料计算程序,得到每个输入文件对应的输出文件,信息校验装置可以将输入文件、输出文件、中间数据、解析数据中的一个或多个作为原始数据,每个材料计算程序存在对应的原始数据,得到多个原始数据。
[0038] 一种可选的实施方式中,可以预先在各材料计算程序所在的物理设备设置数据采集终端。并且在信息校验装置中预先设置数据采集控件,响应于用户对该数据采集控件的触发操作,向各数据采集终端发送数据采集执行,以使数据采集终端采集材料计算程序的原始数据,并将该原始数据发送至信息检验装置,信息检验装置获取多个数据采集终端发送的多个原始数据。可选的,在采集原始数据的过程中,可以对文件、数据等进行过滤、识别、格式转化等操作,以便于后续的属性信息的规范化和标准化。从而,实现了原始数据的一键式加载,并且能够获取不同材料计算程序、不同数据格式、不同场景下的原始数据。
[0039] 步骤102,对多个原始数据进行整合处理,得到目标材料的目标综合元数据。
[0040] 其中,元数据可以为根据预先设置的模板或标准或框架等对原始数据进行提取获得到的数据。举例而言,预先设置的模板可以包括材料结构、电子性质、力学性质、声子性质、介电性能、谱图数据、晶胞信息中的一个或多个,根据该预设模板提取原始数据中的相应信息,进而得到相应的元数据。综合元数据可以为基于同一材料的多个元数据整合确定的数据,该多个元数据可以为基于多个原始数据提取的元数据。目标综合元数据可以为目标材料对应的综合元数据。可选的,该目标综合元数据可以存储在预先设置的中心控制存储数据库中。
[0041] 在本公开实施例中,信息校验装置可以对多个材料计算程序模拟计算得到的多个原始数据进行解析,得到目标材料对应的属性信息,根据该属性信息确定目标材料的目标综合元数据。
[0042] 图2为本公开实施例提供的一种目标综合元数据的确定方法的流程示意图,如图2所述出,在本公开一些实施例中,对多个原始数据进行整合处理,得到目标材料的目标综合元数据,包括:
[0043] 步骤201,根据各原始数据的程序标识确定各原始数据对应的数据提取模板;其中,程序标识和材料计算程序一一对应。
[0044] 其中,程序标识可以为表征材料计算程序的标识,该程序标识可以根据用户需求等进行设置,本实施例不做限制。数据提取模板可以为用于对原始数据进行元数据提取的数据模板,该数据提取模板可以根据原始数据中的属性字段确定,由于不同材料计算程序中输入数据和/或输出数据中含义相同的材料属性数据中的属性字段可能不同,为了实现元数据的提取,预先为每个材料计算程序设计相应的数据提取模板。
[0045] 在本实施例中,可以预先设置程序标识与数据提取模板之间的程序模板对应关系,根据原始数据的程序标识对该程序模板对应关系进行查询,确定该程序标识对应的数据提取模板。
[0046] 步骤202,根据数据提取模板提取对应的原始数据,得到多个原始数据对应的多个目标初始元数据。
[0047] 其中,目标初始元数据可以为对一个原始数据进行数据提取得到的元数据。该目标初始元数据可以与原始数据一一对应。
[0048] 在本实施例中,在确定目标材料对应的多个原始数据,以及每个原始数据对应的数据提取模板之后,信息校验装置可以根据数据提取模板中的属性字段提取原始数据中相应的字段属性值,将字段属性值填充至数据提取模板中相应属性字段的位置,将完成填充的数据提取模板作为该原始数据的目标初始元数据。
[0049] 步骤203,根据多个目标初始元数据生成目标综合元数据。
[0050] 在本实施例中,在确定各原始数据对应的目标初始元数据之后,对该多个目标初始元数据进行整合,得到目标综合元数据。
[0051] 在本公开一些实施例中,根据多个目标初始元数据生成目标综合元数据,包括:将多个目标初始元数据对应的多个属性名称分别确定为待处理属性名称;其中,一个属性名称包括语义相同的多个属性字段,或者一个属性名称包括一个属性字段;若待处理属性名称对应多个字段属性值,则计算多个字段属性值的离散度,若离散度小于预设离散度阈值,则将多个字段属性值中精确度最高的字段属性值确定为待处理属性名称的名称属性值;其中,字段属性值为属性字段的属性值;根据各属性名称和名称属性值,确定目标综合元数据。
[0052] 其中,属性字段可以为目标初始元数据中的记录材料属性名称的参数,该属性字段可以理解为键值对中的键。可以理解地,在不同的目标初始元数据中,表征相同语义的属性字段的数量可以为多个。举例而言,不同材料计算程序对应的原始数据中,表征原子数目的属性字段可以不同。字段属性值可以为目标初始元数据中的记录材料属性的具体值的参数,该字段属性值可以理解为键值对中的值。
[0053] 属性名称可以为目标综合元数据中记录材料属性名称的参数,该属性名称可以理解为键值对中的键,该属性名称可以理解为同一语义的属性字段的统称。待处理属性名称可以为当前进行处理的属性名称,该待处理属性名称的处理顺序可以为串行依次进行处理,也可以为并行同时进行处理,本实施例不做限制。名称属性值可以为目标综合元数据中的记录材料属性的具体值的参数,该名称属性值可以理解为键值对中的值。
[0054] 离散度可以为表征属性值分散程度的参数,该离散度有多种,本实施例不做限制,例如,该离散度可以为方差或者标准差等。离散度阈值可以为用于判断离散度是否过大的阈值,该离散度阈值可以根据用户需求等进行设置,本实施例不做限制。精确度可以为表征属性值精确程度的参数,该精确度可以通过有效位数确定,有效位数越多,则精确度越高。
[0055] 在本实施例,信息校验装置可以确定多个目标初始元数据中的多个属性字段以及每个属性字段对应的字段属性值。进一步地,通过语义识别或者预先设置的字段关系等,将该多个属性字段中具有相同语义的属性字段划分为同一个属性名称,得到多个属性名称,分别将每个属性名称确定为待处理属性名称。
[0056] 若该待处理属性名称中包括多个属性字段,该多个属性字段对应多个字段属性值;或者,若该待确认属性信息中包括一个属性字段,并且该一个属性字段对应多个字段属性值,则确定该待确认属性信息对应的多个字段属性值。即,在不同的材料计算程序生成的原始数据中,该待处理属性名称对应不同的字段属性值。进一步地,计算该多个字段属性值的离散度,若该离散度小于预设离散度阈值,说明该多个字段属性值的分布较为集中,该多个字段属性值的可信度较高。则将该多个字段属性值中有效位数最多的字段属性值作为该待确认属性名称的名称属性值。
[0057] 若该离散度大于或等于预设离散度阈值,说明该多个字段属性值的分布过于分散,该多个字段属性值的可信度较低。则信息校验装置生成离散度提示信息,并向用户展示该离散度提示信息。
[0058] 若待确认属性名称对应一个字段属性值,将该字段属性值确定为该待确认属性名称的名称属性值。进而,分别确定各属性名称的名称属性值,得到目标综合元数据。
[0059] 步骤103,确定目标综合元数据中待校验属性信息的关联属性信息;其中,关联属性信息为目标综合元数据中与待校验属性信息关联的属性信息。
[0060] 其中,待校验属性信息可以为待校验属性值是否具备可靠性的属性信息。关联属性信息可以为与待校验属性信息具备相关性的属性信息,本实施例对该相关性不做限制,例如,该相关性可以为物理性质相关性或化学性质相关性等。
[0061] 一种可选的实施方式中,待校验属性信息与关联属性信息的对应关系包括以下至少一种:若待校验属性信息为原子数量信息,则关联属性信息为原子坐标信息;若待校验属性信息为晶系信息,则关联属性信息为晶胞信息;若待校验属性信息为化学式信息,则关联属性信息为原子数量信息。
[0062] 其中,原子数量信息可以为表征目标材料包括的原子数量的信息,原子坐标信息可以为表征目标材料的晶胞中原子位置的信息,晶系信息可以为表征目标材料所属晶系的信息,晶胞信息可以为表征目标材料晶胞特征的信息,化学式信息可以为目标材料化学组成的信息。
[0063] 在本实施例中,用户可以预先根据具备关联关系的属性信息确定属性信息之间的校验关系,将待校验属性信息在该校验关系中进行查询,确定该校验属性信息对应的关联属性信息。
[0064] 步骤104,根据关联属性信息确定待校验属性信息的校验结果。
[0065] 其中,校验结果可以为表征待校验属性信息可靠程度的参数,该校验结果可以包括校验通过或校验不通过,或者,该校验结果可以为评分。可选地,该校验结果可以通过第一性原理获得。
[0066] 在本公开实施例中,信息校验装置在确定待校验属性信息对应的关联属性信息之后,根据待校验属性信息与关联属性信息之间的关联关系,确定关联属性信息与待校验属性信息是否一致。
[0067] 在本公开一些实施例中,根据关联属性信息确定待校验属性信息的校验结果,包括:根据关联属性信息计算待校验属性信息的校验参考值,若校验参考值与待校验属性信息的待校验属性值的第一误差小于第一误差阈值,则确定校验结果为校验通过;或者,根据待校验属性信息计算关联属性信息的关联参考值,若关联参考值与关联属性信息的关联属性值的第二误差小于第二误差阈值,则确定校验结果为校验通过。
[0068] 其中,校验参考值可以为基于待校验属性信息与关联属性信息之间的关联关系,对关联属性信息中的属性值进行计算,确定的校验属性信息的属性值的参考值。关联参考值可以为基于待校验属性信息与关联属性信息之间的关联关系,对待校验属性信息中的属性值进行计算,确定的关联属性信息的属性值的参考值。
[0069] 第一误差阈值可以为待校验属性信息维度的属性值的最大误差,该第一误差阈值可以根据用户需求等进行设置,本实施例不做限制。第二误差阈值可以为关联属性信息维度的属性值的最大误差,该第二误差阈值可以根据用户需求等进行设置,本实施例不做限制。
[0070] 在本实施例中,在确定待校验属性信息的关联属性信息之后,可以根据待校验属性信息和关联属性信息之间的关联关系,对其中一个属性信息进行转换,并根据转换结果和另一个属性信息确定校验结果。
[0071] 一种可选的实施方式中,校验装置可以根据关联关系将关联属性信息的关联属性值转换为与待校验属性信息相同维度的校验参考值,并将该校验参考值与待校验属性信息的待校验属性值的差的绝对值作为第一误差,若该第一误差小于第一误差阈值,则说明该待校验属性信息的待校验属性值的可靠性较高,校验结果为校验通过。
[0072] 另一种可选的实施方式中,校验装置可以根据关联关系将待校验属性信息的待校验属性值转换认为与关联属性信息相同维度的关联参考值,并将该关联参考值与关联属性信息的关联属性值的差的绝对值作为第二误差,若该第二误差小于第二误差阈值,则说明该待校验属性信息的待校验属性值的可靠性较高,校验结果为校验通过。
[0073] 上述方案中,由于属性信息的属性值可能为不同材料计算程序的计算结果,为了确定各属性值是一致的,基于属性信息之间的转换关系,对属性信息的属性值进行校验,基于该校验结果确定了属性值是否具备可靠性。
[0074] 可选的,信息校验装置可以根据材料数据库中各名称属性值的精确度确定该名称属性值对应的属性值权重,并将名称属性值与属性值权重的乘积作为该名称属性值的子校验值,该各名称属性值的子校验值相加,得到材料数据库的数据库校验值,该数据库校验值可以理解为数据库的校验结果。
[0075] 本公开实施例提供的基于材料数据库的信息校验方法,包括:获取通过多个材料计算程序对目标材料进行材料模拟计算生成的多个原始数据;对多个原始数据进行整合处理,得到目标材料的目标综合元数据;确定目标综合元数据中待校验属性信息的关联属性信息;其中,关联属性信息为目标综合元数据中与待校验属性信息关联的属性信息;根据关联属性信息确定待校验属性信息的校验结果。采用上述技术方案,对不同材料计算程序计算得到的原始数据进行整合,得到目标材料的目标综合元数据,通过该目标综合元数据中具备关联关系的待校验属性信息和关联属性信息确定了该待校验属性信息是否通过校验,从而基于目标材料本身具备关联关系的属性信息实现了属性信息的校验,实现了属性信息可靠性的确定。
[0076] 在本公开一些实施例中,目标综合元数据包括属性值缺失的缺失属性信息,目标综合元数据所在的材料数据库中同一属性名称对应的名称属性值位于同一列,图3为本公开实施例提供的一种补充属性值的确定方法的流程示意图,如图3所示,该信息校验方法还包括:
[0077] 步骤301,获取材料数据库中第一预设数量的连续多行候选综合元数据;其中,候选综合元数据包括目标综合元数据,材料数据库中的综合元数据根据其对应的材料的材料相似度排序。
[0078] 其中,第一预设数量可以为选取的材料的数量,该第一预设数量可以根据用户需求等进行设置,本实施例不做限制。候选综合元数据可以为材料数据库中的材料对应的综合元数据。材料相似度可以为表征材料相似程度的参数,该材料相似度可以根据用户需求等进行设置,本实施例不做限制,该材料相似度包括但不限于:组成成分相似度、分子结构相似度等相似度中的一个或多个的综合。
[0079] 在本实施例中,信息校验装置可以根据材料的材料性质对材料数据库中的材料进行排序,可以理解地,经过排序之后,材料数据库中的材料性质相似的材料对应的候选综合元数据相邻。一种可选的实施方式中,可以根据材料的成分或者化学式对材料进行排序。
[0080] 进一步地,以目标综合元数据为基准,将位于目标综合元数据前M行的综合元数据,以及位于目标综合元数据后N行的综合元数据,以及该目标综合元数据本身确定为连续多行候选综合数据。其中,M、N均为非负整数,第一预设数量为M与N的和加1。
[0081] 步骤302,获取多行候选综合元数据中第二预设数量的连续多列名称属性值,根据多列名称属性至生成原始属性矩阵;其中,多列名称属性值包括缺失属性信息的缺失属性值。
[0082] 其中,第二预设数量可以为选取的名称属性值的列数量。该第二预设数量可以根据用户需求等进行设置,本实施例不做限制。缺失属性信息可以为不存在属性值的属性信息,该缺失属性信息的缺失属性值可以为空或者0等表征属性值不存在的字符。
[0083] 在本实施例中,信息校验装置可以将候选综合元数据中相同属性名称的名称属性值设置在同一列。信息校验装置可以以缺失属性值所在的缺失列为基准,确定材料数据库中位于缺失列前O列的第一名称属性值,并且确定位于缺失列后P列的第二名称属性值,以及该缺失列本身的第三名称属性值。根据该第一名称属性值、第二名称属性值、第三名称属性值在材料数据库中的位置关系确定原始属性矩阵中各元素的位置,将各名称属性值填入相应的位置,得到原始属性矩阵。可以理解地,由于该名称属性值包括缺失属性值,因而该原始属性矩阵包括至少一个值为空的元素。其中,O、P均为非负整数,第二预设数量为O与P的和加1。
[0084] 步骤303,将原始属性矩阵分解为两个分解属性矩阵,根据两个分解属性矩阵的关联属性矩阵确定缺失属性值的补充属性值,并将补充属性值作为缺失属性信息的属性值。
[0085] 其中,关联属性矩阵可以为对分解属性矩阵进行关联运算得到的矩阵。本实施例对该关联运算不做限制,例如该关联运算可以为矩阵乘法等运算。
[0086] 在本实施例中,信息校验装置可以通过矩阵分解等技术将原始属性矩阵分解为两个分解属性矩阵,将该两个分解属性矩阵相乘,得到关联属性矩阵。确定原始属性矩阵中具体值缺失的缺失位置,将关联属性矩阵中该缺失位置的具体值确定为目标数值,将该目标数值确定为缺失属性值的补充属性值,并将该补充属性值作为缺失信息的属性值。
[0087] 上述方案中,基于材料数据库中相邻行和相邻列的候选属性信息的属性值确定了原始属性矩阵,基于该原始属性矩阵确定了缺失属性信息的补充属性值,实现了空缺属性值的补充。
[0088] 在本公开一些实施例中,该信息校验方法还包括:根据关联属性矩阵与原始属性矩阵的相似度,确定包括补充属性值的缺失属性信息的校验结果。
[0089] 其中,相似度可以为表征两个矩阵之间相似程度的参数,该相似度的计算方法有多种,本实施例不做限制,例如,该相似度可以为余弦相似度或者皮尔逊相关系数相似度。
[0090] 在本实施例中,信息校验装置可以根据预先设置的相似度计算方法计算关联属性矩阵和原始属性矩阵之间的相似度。将该相似度与预先设置的相似度阈值进行比较,以相似度越小表征关联属性矩阵和原始属性矩阵越相似为例,若该相似度大于相似度阈值,则说明关联属性矩阵和原始属性矩阵差别较大,该补充了补充属性值的缺失属性信息的校验结果为校验不通过。若该相似度小于或等于相似度阈值,则说明关联属性矩阵和原始属性矩阵的差别较小,该补充了补充属性值的缺失属性信息的均价结果为校验通过。
[0091] 上述方案中,基于关联属性矩阵和原始属性矩阵确定了缺失属性信息的校验结果,从确定补充属性值的原理出发,确定了对应的校验结果,从而提高了该校验结果的准确性。
[0092] 在本公开一些实施例中,可以预先建立各材料对应的候选综合元数据的索引标识,该索引标识可以包括:索引序号、材料元素、材料性质、材料化学式、能带间隙、能量、原子数量中的一个或多个。信息校验装置获取用户输入的索引信息,根据索引信息与索引标识的匹配结果,确定展示给用户的候选综合元数据。并且,还可以预先设置数据传输接口,通过该数据传输接口能够接收不同材料计算程序产生的原始数据。可选的,该索引信息可以为对用户输入的语音信息通过语音网络模型对该语义信息进行分析,确定的语义关键词。
[0093] 在本公开一些实施例中,该基于材料数据库的信息校验方法还包括:通过预先设置的开发数据统计展示软件和物理性能展示软件,展示候选综合元数据中的结构性能内禀关联关系。展示给用户预先设置的材料知识图谱和材料异构信息,以方便用户对材料数据库进行查看和检索。通过预先设置的数据下载接口和数据规范,将材料数据库中的候选综合元数据发送至第三方软件。
[0094] 接下来通过一个具体的示例对本公开实施例中的基于材料数据库的信息校验方法,进行进一步说明。图4为本公开实施例提供的另一种基于材料数据库的信息校验方法的流程示意图,如图4所示,该方法包括:
[0095] 步骤401,识别原始数据的程序标识。不同材料计算程序产生的数据格式和类型不同。
[0096] 步骤402,对原始数据进行数据解析,得到解析数据。
[0097] 具体地,材料计算程序的输出文件具有固定格式,并且关键信息(字段属性值)存在对应的描述,根据原始数据对应的原始数据内容和数据格式,依据预先设置的物理化学公式,进行数据计算,得到计算属性信息,将该计算属性信息合并至原始数据中,得到解析数据。
[0098] 步骤403,对新的解析数据进行数据过滤,得到过滤数据。
[0099] 具体地,通过模拟计算确定的数据量大且格式复杂,须去重,删错,补漏等,获得格式和类型一致的过滤数据。
[0100] 步骤404,依据预设的元数据模板,对过滤数据进行标准化,得到综合元数据。
[0101] 步骤405,将综合元数据存储至预先设置的目标数据库,并建立目标综合元数据的查询接口。
[0102] 步骤406,对综合元数据进行可视化解析,得到可视化数据,以使该可视化数据满足可视化插件、组件进行数据读取数据的需求。
[0103] 步骤407,对可视化数据进行模型结构、物理参数、物理图像、物理过程的可视化展示。
[0104] 从而,方便用户对比查看,实现数据的重复利用,发挥数据价值。
[0105] 上述方案中,原始数据可以通过第一性原理计算程序、量化计算程序等材料计算程序产生,并且能够实现输入文件输出文件的文件类型的识别、内容解析、结构提取、数据过滤、数据规范化、自动入库等功能。获取的数据经过接口进行数据标准化得到与数据库字段对应相同的格式,同时通过前端根据数据库中的元数据进行展示。从而,提供了一种针对多类型、多源、异构的材料基因数据的高精度数据库构建,针对超算大数据的异构性、多元性和用户需求的复杂性,抽取数据本征的物理特征,定义通用语义的元数据,通过数据本征特征提取和智能推送共享的算法,实现了科学计算数据的可发现、可获取、可循环再生、可交互操作、可共享复用。
[0106] 图5为本公开实施例提供的一种基于材料数据库的信息校验装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,如图5所示,该装置,包括:
[0107] 第一获取模块501,用于获取通过多个材料计算程序对目标材料进行材料模拟计算的多个原始数据;
[0108] 整合模块502,用于对所述多个原始数据进行整合处理,得到所述目标材料的目标综合元数据;
[0109] 第一确定模块503,用于确定所述目标综合元数据中待校验属性信息的关联属性信息;其中,所述关联属性信息为所述目标综合元数据中与所述待校验属性信息关联的属性信息;
[0110] 第二确定模块504,用于根据所述关联属性信息确定所述待校验属性信息的校验结果。
[0111] 可选地,所述整合模块502,包括:
[0112] 确定单元,用于根据各所述原始数据的程序标识确定各所述原始数据对应的数据提取模板;其中,所述程序标识和所述材料计算程序一一对应;
[0113] 提取单元,用于根据所述数据提取模板提取对应的原始数据,得到所述多个原始数据对应的多个目标初始元数据;
[0114] 生成单元,用于根据所述多个目标初始元数据生成所述目标综合元数据。
[0115] 可选地,所述生成单元,用于:
[0116] 将所述多个目标初始元数据对应的多个属性名称分别确定为待处理属性名称;其中,一个所述属性名称包括语义相同的多个属性字段,或者一个所述属性名称包括一个属性字段;
[0117] 若所述待处理属性名称对应多个字段属性值,则计算所述多个字段属性值的离散度,若所述离散度小于预设离散度阈值,则将所述多个字段属性值中精确度最高的字段属性值确定为所述待处理属性名称的名称属性值;其中,所述字段属性值为所述属性字段的属性值;
[0118] 根据各所述属性名称和所述名称属性值,确定所述目标综合元数据。
[0119] 可选地,所述待校验属性信息与所述关联属性信息的对应关系包括以下至少一种:若所述待校验属性信息为原子数量信息,则所述关联属性信息为原子坐标信息;若所述待校验属性信息为晶系信息,则所述关联属性信息为晶胞信息;若所述待校验属性信息为化学式信息,则所述关联属性信息为所述原子数量信息。
[0120] 可选的,所述第二确定模块504,用于:
[0121] 根据所述关联属性信息计算所述待校验属性信息的校验参考值,若所述校验参考值与所述待校验属性信息的待校验属性值的第一误差小于第一误差阈值,则确定所述校验结果为校验通过;或者,
[0122] 根据所述待校验属性信息计算所述关联属性信息的关联参考值,若所述关联参考值与所述关联属性信息的关联属性值的第二误差小于第二误差阈值,则确定所述校验结果为校验通过。
[0123] 可选地,所述目标综合元数据包括属性值缺失的缺失属性信息,所述目标综合元数据所在的材料数据库中同一属性名称对应的名称属性值位于同一列,所述装置还包括:
[0124] 第二获取模块,用于获取所述材料数据库中第一预设数量的连续多行候选综合元数据;其中,所述候选综合元数据包括所述目标综合元数据,所述材料数据库中的综合元数据根据其对应的材料的材料相似度排序;
[0125] 生成模块,用于获取所述多行候选综合元数据中第二预设数量的连续多列名称属性值,根据所述多列名称属性值生成原始属性矩阵;其中,所述多列名称属性值包括所述缺失属性信息的缺失属性值;
[0126] 补充模块,用于将所述原始属性矩阵分解为两个分解属性矩阵,根据所述两个分解属性矩阵的关联属性矩阵确定所述缺失属性值的补充属性值,并将所述补充属性值作为所述缺失属性信息的属性值。
[0127] 可选地,所述装置还包括:
[0128] 第三确定模块,用于根据所述关联属性矩阵与所述原始属性矩阵的相似度,确定包括所述补充属性值的缺失属性信息的校验结果。
[0129] 本公开实施例所提供的基于材料数据库的信息校验装置可执行本公开任意实施例所提供的基于材料数据库的信息校验方法,具备执行方法相应的功能模块和有益效果。
[0130] 图6为本公开实施例提供的一种电子设备的结构示意图。如图6所示,电子设备600包括一个或多个处理器601和存储器602。
[0131] 处理器601可以是中央处理单元(CPU)或者具有基于材料数据库的信息校验能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备600中的其他组件以执行期望的功能。
[0132] 存储器602可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器601可以运行所述程序指令,以实现上文所述的本公开的实施例的基于材料数据库的信息校验方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0133] 在一个示例中,电子设备600还可以包括:输入装置603和输出装置604,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0134] 此外,该输入装置603还可以包括例如键盘、鼠标等等。
[0135] 该输出装置604可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置604可以包括例如显示器、扬声器、打印 机、以及通信网络及其所连接的远程输出设备等等。
[0136] 当然,为了简化,图6中仅示出了该电子设备600中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备600还可以包括任何其他适当的组件。
[0137] 除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的基于材料数据库的信息校验方法。
[0138] 所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0139] 此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的基于材料数据库的信息校验方法。
[0140] 所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0141] 需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0142] 以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。