元数据管理方法及系统转让专利

申请号 : CN202011616780.4

文献号 : CN112465075B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 鲁裕毛倜李翔

申请人 : 杭银消费金融股份有限公司

摘要 :

本申请实施例提供一种元数据管理方法及系统,涉及计算机信息技术领域。将需管理的数据进行数据内容分析得到对应的关联数据,获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下文顺序形成需分类的输入源信息,将需分类的输入源信息输入经训练得到的深度学习模型得到分类结果,根据分类结果得到所述当前需管理的数据对应的数据管理结果。通过采用深度学习模型,可通过大数据量的训练数据构建高准确率的深度学习模型,将通信数据中的元数据及其描述的数据进行分类管理,提高数据管理结果的可靠性,进而提升通信数据规范管理后的数据利用价值。

权利要求 :

1.一种元数据管理方法,应用于元数据管理服务器,其特征在于,所述方法包括:获取通信记录,根据所述通信记录得到原始通信数据,将所述原始通信数据分解得到需管理的数据,其中,需管理的数据包括数据本身以及描述该数据的元数据;

将所述需管理的数据进行数据内容分析得到对应的关联数据;

获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下文顺序形成需分类的输入源信息;

将所述需分类的输入源信息输入经训练得到的深度学习模型,得到分类结果;

根据所述分类结果对所述当前需管理的数据中的元数据及元数据描述的数据进行数据管理;

其中,所述深度学习模型通过以下方式训练得到:获取样本通信数据,所述样本通信数据为历史通信数据,所述样本通信数据包括样本数据和对应的数据分类信息;

将所述样本数据进行数据内容分析得到对应的关联样本数据;

根据所述预设的邻近规则将各个关联样本数据作为标的关联样本数据,获取各个标的关联样本数据的邻近关联样本数据,将各个标的关联样本数据与匹配的邻近关联样本数据按上下文顺序形成各个初始训练信息,将各个初始训练信息与对应的标的关联样本数据的数据分类信息构成训练数据;

将所述训练数据输入深度学习模型进行训练,直到深度学习模型收敛,将收敛时得到的深度学习模型作为训练好的深度学习模型;

所述将所述需管理的数据进行数据内容分析得到对应的关联数据的步骤包括:获取所需管理的数据与对应的关联数据之间的相关性比较结果,其中,所述所需管理的数据与对应的关联数据之间的相关性比较结果基于原始通信数据中所需管理的数据和关联数据之间的上下文数据序列获得;

获取所述所需管理的数据与所述关联数据对于上下文语义的关联语义信息,根据所述关联语义信息获取对上下文中的关联数据进行校验得到的标的校验数据信息,其中,所述上下文中的关联数据集合包括关联数据和与所述关联数据对应的关联信息;

从所述标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量,并获取所述第一校验数据分量与所述第二校验数据分量之间的第一数据分量关联参数,其中,所述第一校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二校验数据分量;

根据所述第一数据分量关联参数确定所述第二校验数据分量所表示的所述关联数据对应的关联信息的状态,在所述关联数据对应的关联信息存在变化的标的关联信息的情况下,将所述第二校验数据分量进行数据内容分析,对所述关联信息在所述关联数据处变化的过程进行数据内容分析。

2.根据权利要求1所述的元数据管理方法,其特征在于,所述获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下文顺序形成的步骤包括:从当前关联数据的上文获取第一设定数量的上文关联数据;

从当前关联数据的下文获取第二设定数量的下文关联数据;

将所述上文关联数据、当前关联数据、下文关联数据按上下文顺序形成需分类的输入源信息。

3.根据权利要求2所述的元数据管理方法,其特征在于,所述获取所述第一校验数据分量与所述第二校验数据分量之间的第一数据分量关联参数的步骤,包括:对比所述第一校验数据分量的特征信息量和所述第二校验数据分量的特征信息量,得到第一校验数据分量关联参数;

获取对比关联参数与所述第一校验数据分量关联参数之间的差异信息,作为所述第一数据分量关联参数,其中,所述对比关联参数为所述标的校验数据信息中第三校验数据分量和第四校验数据分量二者之间的第二校验数据分量关联参数,所述第三校验数据分量和所述第四校验数据分量是所述标的校验数据信息开始记录的标的校验位置中的校验数据分量。

4.根据权利要求1所述的元数据管理方法,其特征在于,所述根据所述第一数据分量关联参数确定所述第二校验数据分量所表示的所述关联数据对应的关联信息的状态的步骤,包括:

获取与所述标的校验数据信息对应的关联标签,其中,所述关联标签包括:用于表示所述关联数据对应的关联信息处于第一关联位置状态的第一关联标签和用于表示所述关联数据对应的关联信息处于第二关联位置状态的第二关联标签,其中,所述第二关联位置状态下所述关联数据对应的关联信息过渡量大于所述第一关联位置状态下所述关联数据对应的关联信息的过渡量;

在所述第一数据分量关联参数不大于第一关联参数阈值、且所述关联标签为第一关联标签的情况下,确定所述关联数据对应的关联信息的状态为过渡状态,其中,所述过渡状态用于指示所述关联数据的关联过程存在所述标的关联信息;

在所述第一数据分量关联参数不小于第二关联参数阈值、且所述关联标签为第二关联标签的情况下,确定所述关联数据对应的关联信息的状态为所述过渡状态;

其中,在所述关联标签为所述第一关联标签、且所述第一数据分量关联参数小于所述第一关联参数阈值的情况下,清除所述第一关联标签;

在所述关联标签为所述第二关联标签、且所述第一数据分量关联参数大于所述第一关联参数阈值且小于所述第二关联参数阈值的情况下,将所述第二关联标签变更为所述第一关联标签;

在所述关联标签为所述第二关联标签、且所述第一数据分量关联参数小于所述第一关联参数阈值的情况下,清除所述第二关联标签。

5.根据权利要求4所述的元数据管理方法,其特征在于,在所述获取与所述标的校验数据信息对应的关联标签之前,所述方法还包括:检测所述标的校验数据信息是否预先设置有所述关联标签;

在检测到所述标的校验数据信息未预先设置所述关联标签的情况下,确定所述标的校验数据信息中的第五校验数据分量与第六校验数据分量之间的第二数据关联参数,其中,所述第五校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第六校验数据分量;

在所述第二数据关联参数大于所述第一关联参数阈值且不大于所述第二关联参数阈值的情况下,生成所述第一关联标签;

在所述第二数据关联参数大于所述第二关联参数阈值的情况下,生成所述第二关联标签。

6.根据权利要求1或3所述的元数据管理方法,其特征在于,在所述关联数据对应的关联信息的状态指示存在变化的标的关联信息的情况下,将所述第二校验数据分量进行数据内容分析的步骤,包括:

在所述关联数据对应的关联信息的状态指示存在变化的标的关联信息的情况下,将所述第二校验数据分量添加至校验数据分量的序列中;

在所述校验数据分量的序列中校验数据分量的数量小于第一预设数量的情况下,将所述校验数据分量序列中校验数据分量按顺序依次排列;

在所述校验数据分量的序列中的校验数据分量的数量不小于所述第一预设数量的情况下,将所述校验数据分量的序列中的前预设个数的校验数据分量聚合为校验数据分量集合。

7.根据权利要求1‑5中任意一项所述的元数据管理方法,其特征在于,所述从所述标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量的步骤,包括:所述从所述标的校验数据信息中选取第一个校验数据分量和第二个校验数据分量,所述第一个校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二个校验数据分量;

从所述标的校验数据信息中选取第一个校验数据分量和第二个校验数据分量,所述第一个校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二个校验数据分量;

对所述第一个校验数据分量进行分解处理,得到第一分解校验数据分量序列,对所述第二个校验数据分量进行分解处理,得到第二分解校验数据分量序列;

将所述第一分解校验数据分量序列中的第i个分解校验数据分量作为所述第一校验数据分量,将所述第二分解校验数据分量序列中的第i个分解校验数据分量作为所述第二校验数据分量。

8.一种元数据管理系统,应用于元数据管理服务器,其特征在于,所述系统包括:第一获取模块,用于获取通信数据记录,根据所述通信数据记录得到原始通信数据,将所述原始通信数据分解得到需管理的数据,其中,需管理的数据包括数据本身以及描述该数据的元数据;

分析模块,用于将所述需管理的数据进行数据内容分析得到对应的关联数据;

第二获取模块,用于获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下文顺序形成需分类的输入源信息;

分类模块,用于将所述需分类的输入源信息输入经训练得到的深度学习模型,得到分类结果;

管理模块,用于根据所述分类结果对所述当前需管理的数据中的元数据及元数据描述的数据进行数据管理;

其中,所述深度学习模型通过以下方式训练得到:获取样本通信数据,所述样本通信数据为历史通信数据,所述样本通信数据括样本数据和对应的数据分类信息;

将所述样本数据进行数据内容分析得到对应的关联样本数据;

根据所述预设的邻近规则将各个关联样本数据作为标的关联样本数据,获取各个标的关联样本数据的邻近关联样本数据,将各个标的关联样本数据与匹配的邻近关联样本数据按上下文顺序形成各个初始训练信息,将各个初始训练信息与对应的标的关联样本数据的数据分类信息构成训练数据;

将所述训练数据输入深度学习模型进行训练,直到深度学习模型收敛,将收敛时得到的深度学习模型作为训练好的深度学习模型;

所述将所述需管理的数据进行数据内容分析得到对应的关联数据的步骤包括:获取所需管理的数据与对应的关联数据之间的相关性比较结果,其中,所述所需管理的数据与对应的关联数据之间的相关性比较结果基于原始通信数据中所需管理的数据和关联数据之间的上下文数据序列获得;

获取所述所需管理的数据与所述关联数据对于上下文语义的关联语义信息,根据所述关联语义信息获取对上下文中的关联数据进行校验得到的标的校验数据信息,其中,所述上下文中的关联数据集合包括关联数据和与所述关联数据对应的关联信息;

从所述标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量,并获取所述第一校验数据分量与所述第二校验数据分量之间的第一数据分量关联参数,其中,所述第一校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二校验数据分量;

根据所述第一数据分量关联参数确定所述第二校验数据分量所表示的所述关联数据对应的关联信息的状态,在所述关联数据对应的关联信息存在变化的标的关联信息的情况下,将所述第二校验数据分量进行数据内容分析,对所述关联信息在所述关联数据处变化的过程进行数据内容分析。

9.如权利要求8所述的元数据管理系统,其特征在于,所述第二获取模块具有用于:从当前关联数据的上文获取第一设定数量的上文关联数据;

从当前关联数据的下文获取第二设定数量的下文关联数据;

将所述上文关联数据、当前关联数据、下文关联数据按上下文顺序形成需分类的输入源信息。

说明书 :

元数据管理方法及系统

技术领域

[0001] 本申请涉及数据信息处理技术领域,具体而言,涉及一种元数据管理方法及系统。

背景技术

[0002] 通信数据泛指所有通信过程中的交互信息,通信数据包括语音信息、视频信息及文本信息等,随着即时通信软件(比如,QQ、微信及钉钉等)的兴起,通信数据以指数级速度
增长。从庞杂的通信数据中获取有价值的数据信息,是需要本领域技术人员急需要解决的
技术问题。

发明内容

[0003] 为了至少克服现有技术中的上述不足,本申请的目的在于提供一种元数据管理方法及系统,将需管理的数据进行数据内容分析得到对应的关联数据,获取当前需管理的数
据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将
当前关联数据与邻近关联数据按上下文顺序形成需分类的输入源信息,将需分类的输入源
信息输入经训练得到的深度学习模型,得到分类结果,根据分类结果得到所述当前需管理
的数据对应的数据管理结果,通过采用深度学习模型,可通过大数据量的训练数据构建高
准确率的深度学习模型,将通信数据中的元数据及其描述的数据进行分类管理,提高数据
管理结果的可靠性,进而提升通信数据规范管理后的数据利用价值。
[0004] 第一方面,本申请提供一种元数据管理方法,应用于元数据管理服务器,所述方法包括:
[0005] 获取通信数据记录,根据所述通信数据记录得到原始通信数据,将所述原始通信数据分解得到需管理的数据,其中,需管理的数据包括数据本身以及描述该数据的元数据;
[0006] 将所述需管理的数据进行数据内容分析得到对应的关联数据;
[0007] 获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下文顺序形成需分类的输
入源信息;
[0008] 将所述需分类的输入源信息输入经训练得到的深度学习模型,得到分类结果;
[0009] 根据所述分类结果对所述当前需管理的数据中的元数据及元数据描述的数据进行数据管理
[0010] 其中,所述深度学习模型通过以下方式训练得到:
[0011] 获取样本通信数据,所述样本通信数据为历史通信数据,所述样本通信数据包括样本数据和对应的数据分类信息;
[0012] 将所述样本数据进行数据内容分析得到对应的关联样本数据;
[0013] 根据预设的邻近规则将各个关联样本数据作为标的关联样本数据,获取各个标的关联样本数据的邻近关联样本数据,将各个标的关联样本数据与匹配的邻近关联样本数据
按上下文顺序形成各个初始训练信息,将各个初始训练信息与对应的标的关联样本数据的
数据分类信息构成训练数据;
[0014] 将所述训练数据输入深度学习模型进行训练,直到深度学习模型收敛,将收敛时得到的深度学习模型作为训练好的深度学习模型。
[0015] 在一种可能的实现方式中,所述获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数
据按上下文顺序形成的步骤包括:
[0016] 从当前关联数据的上文获取第一设定数量的上文关联数据;
[0017] 从当前关联数据的下文获取第二设定数量的下文关联数据;
[0018] 将所述上文关联数据、当前关联数据、下文关联数据按上下文顺序形成需分类的输入源信息。
[0019] 在一种可能的实现方式中,所述将所述需管理的数据进行数据内容分析得到对应的关联数据的步骤包括:
[0020] 获取所需管理的数据与对应的关联数据之间的相关性比较结果,其中,所述所需管理的数据与对应的关联数据之间的相关性比较结果基于原始通信数据中所需管理的数
据和关联数据之间的上下文数据序列获得;
[0021] 获取所述所需管理的数据与所述关联数据对于上下文语义的关联语义信息,根据所述关联语义信息获取对上下文中的关联数据进行校验得到的标的校验数据信息,其中,
所述上下文中的关联数据集合包括关联数据和与所述关联数据对应的关联信息;
[0022] 从所述标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量,并获取所述第一校验数据分量与所述第二校验数据分量之间的第一数据分量关联参
数,其中,所述第一校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第
二校验数据分量;
[0023] 根据所述第一数据分量关联参数确定所述第二校验数据分量所表示的所述关联数据对应的关联信息的状态,在所述关联数据对应的关联信息存在变化的标的关联信息的
情况下,将所述第二校验数据分量进行数据内容分析,其中,对所述关联信息在所述关联数
据处变化的过程进行数据内容分析。
[0024] 在一种可能的实现方式中,所述获取所述第一校验数据分量与所述第二校验数据分量之间的第一数据分量关联参数的步骤,包括:
[0025] 对比所述第一校验数据分量的特征信息量和所述第二校验数据分量的特征信息量,得到第一校验数据分量关联参数;
[0026] 获取对比关联参数与所述第一校验数据分量关联参数之间的差异信息,作为所述第一数据分量关联参数,其中,所述对比关联参数为所述标的校验数据信息中第三校验数
据分量和第四校验数据分量二者之间的第二校验数据分量关联参数,所述第三校验数据分
量和所述第四校验数据分量是所述标的校验数据信息开始记录的标的校验位置中的校验
数据分量。
[0027] 在一种可能的实现方式中,所述根据所述第一数据分量关联参数确定所述第二校验数据分量所表示的所述关联数据对应的关联信息的状态的步骤,包括:
[0028] 获取与所述标的校验数据信息对应的关联标签,其中,所述关联标签包括:用于表示所述关联数据对应的关联信息处于第一关联位置状态的第一关联标签和用于表示所述
关联数据对应的关联信息处于第二关联位置状态的第二关联标签,其中,所述第二关联位
置状态下所述关联数据对应的关联信息过渡量大于所述第一关联位置状态下所述关联数
据对应的关联信息的过渡量;
[0029] 在所述第一数据分量关联参数不大于第一关联参数阈值、且所述关联标签为第一关联标签的情况下,确定所述关联数据对应的关联信息的状态为过渡状态,其中,所述过渡
状态用于指示所述关联数据的关联过程存在所述标的关联信息;
[0030] 在所述第一数据分量关联参数不小于第二关联参数阈值、且所述关联标签为第二关联标签的情况下,确定所述关联数据对应的关联信息的状态为所述过渡状态;
[0031] 其中,在所述关联标签为所述第一关联标签、且所述第一数据分量关联参数小于所述第一关联参数阈值的情况下,清除所述第一关联标签;
[0032] 在所述关联标签为所述第二关联标签、且所述第一数据分量关联参数大于所述第一关联参数阈值且小于所述第二关联参数阈值的情况下,将所述第二关联标签变更为所述
第一关联标签;
[0033] 在所述关联标签为所述第二关联标签、且所述第一数据分量关联参数小于所述第一关联参数阈值的情况下,清除所述第二关联标签。
[0034] 在一种可能的实现方式中,在所述获取与所述标的校验数据信息对应的关联标签之前,所述方法还包括:
[0035] 检测所述标的校验数据信息是否预先设置有所述关联标签;
[0036] 在检测到所述标的校验数据信息未预先设置所述关联标签的情况下,确定所述标的校验数据信息中的第五校验数据分量与第六校验数据分量之间的第二数据关联参数,其
中,所述第五校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第六校验
数据分量;
[0037] 在所述第二数据关联参数大于所述第一关联参数阈值且不大于所述第二关联参数阈值的情况下,生成所述第一关联标签;
[0038] 在所述第二数据关联参数大于所述第二关联参数阈值的情况下,生成所述第二关联标签。
[0039] 在一种可能的实现方式中,在所述关联数据对应的关联信息的状态指示存在变化的标的关联信息的情况下,将所述第二校验数据分量进行数据内容分析的步骤,包括:
[0040] 在所述关联数据对应的关联信息的状态指示存在变化的标的关联信息的情况下,将所述第二校验数据分量添加至校验数据分量的序列中;
[0041] 在所述校验数据分量的序列中校验数据分量的数量小于第一预设数量的情况下,将所述校验数据分量序列中校验数据分量按顺序依次排列;
[0042] 在所述校验数据分量的序列中的校验数据分量的数量不小于所述第一预设数量的情况下,将所述校验数据分量的序列中的前预设个数的校验数据分量聚合为校验数据分
量集合。
[0043] 在一种可能的实现方式中,所述从所述标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量的步骤,包括:
[0044] 所述从所述标的校验数据信息中选取第一个校验数据分量和第二个校验数据分量,所述第一个校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二个
校验数据分量;
[0045] 从所述标的校验数据信息中选取第一个校验数据分量和第二个校验数据分量,所述第一个校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二个校验
数据分量;
[0046] 对所述第一个校验数据分量进行分解处理,得到第一分解校验数据分量序列,对所述第二个校验数据分量进行分解处理,得到第二分解校验数据分量序列;
[0047] 将所述第一分解校验数据分量序列中的第i个分解校验数据分量作为所述第一校验数据分量,将所述第二分解校验数据分量序列中的第i个分解校验数据分量作为所述第
二校验数据分量。
[0048] 第二方面,一种元数据管理系统,应用于元数据管理服务器,所述装置包括:
[0049] 获取模块,用于获取通信数据记录,根据所述通信数据记录得到原始通信数据,将所述原始通信数据分解得到需管理的数据,其中,需管理的数据包括数据本身以及描述该
数据的元数据;
[0050] 分析模块,用于将所述需管理的数据进行数据内容分析得到对应的关联数据;
[0051] 获取模块,用于获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下文顺序
形成需分类的输入源信息;
[0052] 分类模块,用于将所述需分类的输入源信息输入经训练得到的深度学习模型,得到分类结果;
[0053] 管理模块,用于根据所述分类结果对所述当前需管理的数据中的元数据及元数据描述的数据进行数据管理;
[0054] 其中,所述深度学习模型通过以下方式训练得到:
[0055] 获取样本通信数据,所述样本通信数据为历史通信数据,所述样本通信数据括样本数据和对应的数据分类信息;
[0056] 将所述样本数据进行数据内容分析得到对应的关联样本数据;
[0057] 根据预设的邻近规则将各个关联样本数据作为标的关联样本数据,获取各个标的关联样本数据的邻近关联样本数据,将各个标的关联样本数据与匹配的邻近关联样本数据
按上下文顺序形成各个初始训练信息,将各个初始训练信息与对应的标的关联样本数据的
数据分类信息构成训练数据;
[0058] 将所述训练数据输入深度学习模型进行训练,直到深度学习模型收敛,将收敛时得到的深度学习模型作为训练好的深度学习模型。
[0059] 在一种可能的实现方式中,所述第二获取模块具有用于:从当前关联数据的上文获取第一设定数量的上文关联数据;
[0060] 从当前关联数据的下文获取第二设定数量的下文关联数据;
[0061] 将所述上文关联数据、当前关联数据、下文关联数据按上下文顺序形成需分类的输入源信息。
[0062] 第三方面,本申请实施例还提供一种元数据管理服务器,所述元数据管理服务器包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所
述处理器之间通过总线系统相连,所述网络接口用于与至少一个通信数据提供端通信连
接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读
存储介质中的程序、指令或代码,以执行第一方面所述的元数据管理方法。
[0063] 第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能
的实现方式中的元数据管理方法
[0064] 基于上述任意一个方面,本申请将需管理的数据进行数据内容分析得到对应的关联数据,获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前
关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下文顺序形成需分类的输
入源信息,将需分类的输入源信息输入经训练得到的深度学习模型,得到分类结果,根据分
类结果得到所述当前需管理的数据中的元数据及该元数据描述的数据进行管理,通过采用
深度学习模型,可通过大数据量的训练数据构建高准确率的深度学习模型,将通信数据中
的元数据及其描述的数据进行分类管理,提高数据管理结果的可靠性,进而提升通信数据
规范管理后的数据利用价值。

附图说明

[0065] 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要调用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其它相关的附图。
[0066] 图1为本申请实施例提供的元数据管理方法的应用场景示意图;
[0067] 图2为本申请实施例提供的元数据管理方法的流程示意图;
[0068] 图3为图2中的步骤S120的子步骤流程示意图;
[0069] 图4为本申请实施例提供的元数据管理系统的功能模块示意图;
[0070] 图5为本申请实施例提供的用于实现上述的元数据管理方法的元数据管理服务器的结构组件示意框图。

具体实施方式

[0071] 下面结合说明书附图对本申请进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
[0072] 图1是本申请一种实施例提供适用于本申请技术方案的应用场景示意图。在该应用场景下,可以包括元数据管理服务器100以及与元数据管理服务器100通信连接的通信数
据提供端200,其中,通信数据提供端200可以是个人用户使用的终端设备,比如,手机、平板
电脑等,也可以是即时通信软件开发商的后台服务器,该后台服务器记录有各个用户的通
信数据。图1所示应用场景示意图仅仅只是一种可行的示例,在其它可行的实施例中,应用
场景也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。
[0073] 本实施例中,元数据管理服务器100可以通过以下方法实施例所描述的元数据管理方法,具体元数据管理服务器100执行步骤部分可以参照以下方法实施例的详细描述。
[0074] 为了解决前述背景技术中的技术问题,图2为本申请实施例提供的元数据管理方法的流程示意图,本实施例提供的元数据管理方法可以由图1中所示的元数据管理服务器
100执行,下面对该元数据管理方法进行详细介绍。
[0075] 步骤S110,获取通信数据记录,根据通信数据记录得到原始通信数据,将原始通信数据分解得到需管理的数据。
[0076] 通信数据记录是指通信过程中产生并记录的数据,它可以包括通信过程中的多人聊天记录,该聊天记录可以是文本信息也可以是音频或视频信息。原始通信数据是从众多
通信数据记录中提取出来的数据集合。
[0077] 在本实施例中,需管理的数据包括数据本身及描述数据的元数据,其中,数据本身用于表示真实世界的交易、事件、对象及关系等,比如,聊天信息“我们今年的年度目标是开
发10个大客户”,其中,10个大客户就是数据。元数据用于表示数据的交易、事件、对象及关
系等,比如,“我们今年的年度目标是开发10个大客户”,其中,我们今年的年度目标就是元
数据。
[0078] 步骤S120,将需管理的数据进行数据内容分析得到对应的关联数据。
[0079] 由于通信数据记录记载了通信过程中产生的各种数据,数据类型比较杂乱,在基于通信数据记录得到原始通信数据中,数据类型也是杂乱无序的。通过对原始通信数据中
分解得到的需管理的数据进行数据内容分析,可以确定数据之间的关联关系,便于找到属
于同一类的数据。关联数据是指与需管理的数据类型相同的数据,在需要管理的数据为通
信的聊天记录时,根据聊天记录的不同话题可以分为不同兴趣的通话内容。在本实施例中,
可以预先根据需管理的数据的类型配置与之关联或感兴趣的数据类型,以便通过数据内容
分析得到对应的关联数据,建立数据之间的映射对应关系。
[0080] 步骤S130,获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取当前关联数据的邻近关联数据,并将当前关联数据与邻近关联数据,将当前关联数据与
邻近关联数据按上下文顺序形成需分类的输入源信息。
[0081] 根据当前关联数据与邻近关联数据基于上下文顺序形成的输入源信息,以便后续对输入源信息进行分类。
[0082] 步骤S140,将需分类的输入源信息输入经训练得到的深度学习模型,得到分类结果。
[0083] 在本申请实施例中,深度学习模型可以通过以下方式训练得到。
[0084] 首先,获取样本通信数据,所述样本通信数据为历史通信数据,所述样本通信数据包括样本数据和对应的数据分类信息。其中,样本数据包括各种通信数据,数据分类信息是
指对应样本数据分类,样本通信数据中的数据分类信息可以通过人工方式进行标注。
[0085] 接着,将所述样本数据进行数据内容分析得到对应的关联样本数据。在本实施例中,以对元数据进行数据内容分析为例,可以采用血缘分析、影响分析、全链分析、关联度分
析、属性值差异分析等分析方法进行数据内容分析,得到对应的关联样本数据。
[0086] 再接着,根据预设的邻近规则将各个关联样本数据作为标的关联样本数据,获取各个标的关联样本数据的邻近关联样本数据,将各个标的关联样本数据与匹配的邻近关联
样本数据按上下文顺序形成各个初始训练信息,将各个初始训练信息与对应的标的关联样
本数据的数据分类信息构成训练数据。相邻数据大概率是同一类数据,通过由邻近关联样
本数据组成训练数据可以减小所需分类训练数据的数量。
[0087] 最后,将训练数据输入深度学习模型进行训练,直到深度学习模型收敛,将收敛时得到的深度学习模型作为训练好的深度学习模型。通过不断迭代,并调整深度学习模型的
参数,直到深度学习模型收敛。将收敛时深度学习模型的参数作为训练好的深度学习模型
的参数,得到训练好的深度学习模型。
[0088] 步骤S150,根据分类结果对当前需管理的数据中的元数据及元数据描述的数据进行数据管理。
[0089] 在本申请实施例中,根据分类结果将需管理的元数据及该元数据描述的数据进行存储,并根据需管理的数据之间的关联关系建立的映射关系构建数据资产地图。其中数据
资产地图用于记录数据的类型,数据的存储位置及数据的作用。
[0090] 上述技术方案,将需管理的数据进行数据内容分析得到对应的关联数据,获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近
关联数据,将当前关联数据与邻近关联数据按上下文顺序形成需分类的输入源信息,将需
分类的输入源信息输入经训练得到的深度学习模型,得到分类结果,根据分类结果得到所
述当前需管理的数据对应的数据管理结果,通过采用深度学习模型,可通过大数据量的训
练数据构建高准确率的深度学习模型,将通信数据中的元数据及其描述的数据进行分类管
理,提高数据管理结果的可靠性,进而提升通信数据规范管理后的数据利用价值。比如,根
据管理的元数据及其对应的数据监控通信数据的数据质量,将高频元数据设置较高的优先
级,以提高元数据管理的质量。
[0091] 在一种可能的实现方式中,针对步骤S130,在获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据
与邻近关联数据按上下文顺序形成需分类的输入源信息的流程中,可以通过方式来实现。
[0092] 首先,从当前关联数据的上文获取第一设定数量的上文关联数据。
[0093] 然后,从当前关联数据的下文获取第二设定数量的下文关联数据。
[0094] 最后,将所述上文关联数据、当前关联数据、下文关联数据按上下文顺序形成需分类的输入源信息。
[0095] 在本实施例中,第一设定数量和第二设定数量可以不同,也可以相同。通过上述方式将关联数据整合成输入源信息,将同一类的数据整合在一起作为输入源信息,可以减小
输入深度学习模型中训练数据的数量,提高数据分类的效率,进而提高数据管理的效率。
[0096] 请参照图3,在一种可能的实现方式中,针对步骤S120,将所述需管理的数据进行数据内容分析得到对应的关联数据的流程中,可以通过以下示例性的子步骤来实现。
[0097] 子步骤S121,获取所需管理的数据与对应的关联数据之间的相关性比较结果。
[0098] 其中,所述所需管理的数据与对应的关联数据之间的相关性比较结果基于原始通信数据中所需管理的数据和关联数据之间的上下文数据序列获得。 其中,相关性比较结果
可以是相关和不相关的比较结果,也可以是根据一比较参数得到的比较结果,比如,在比较
参数在第一阈值范围时,比较结果为一般相关;在比较参数在第二阈值范围时,比较结果为
很相关;在比较参数在第三阈值范围时,比较结果为无关。
[0099] 子步骤S122,获取所述所需管理的数据与所述关联数据对于上下文语义的关联语义信息,根据所述关联语义信息获取对上下文中的关联数据进行校验得到的标的校验数据
信息
[0100] 其中,所述上下文中的关联数据集合包括关联数据和与所述关联数据对应的关联语义信息。关联语义信息是指关联数据在上下文中的文本含义,校验数据信息是指用于基
于关联语义信息定义的用于校验关联数据的信息,比如,在关联信息为某一个话题的聊天
信息时,可以设置对应的校验数据信息(比如,该话题的关键字),以便通过该校验数据信息
找出满足相同规则的关联数据。
[0101] 子步骤S123,从标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量,并获取所述第一校验数据分量与所述第二校验数据分量之间的第一数据分量
关联参数。
[0102] 其中,所述第一校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二校验数据分量。第一数据分量关联参数表示第一校验数据分量与第二校验数据分量
的关联关系,其中,在第一校验数据分量和第二校验数据分量属于同一话题中的相邻数据
时,第一数据分量关联参数越高,在第一校验数据分量和第二校验数据分量不属于同一话
题且相距较远时,第一数据分量关联参数越低。
[0103] 子步骤S124,根据所述第一数据分量关联参数确定所述第二校验数据分量所表示的关联数据对应的关联信息的状态,在关联数据对应的关联信息存在变化的标的关联信息
的情况下,将所述第二校验数据分量进行数据内容分析,对关联信息在所述关联数据处变
化的过程进行数据内容分析。
[0104] 在第二校验数据分量所表示的关联数据对应的关联信息存在变化的标的关联信息的情况下,表明在第二校验数据分量所在位置处出现了上下文含义改变(可以理解为话
题转变)。第二校验数据分量与第一校验数据分量将可能不存在关联,需要对第二校验数据
分量进行数据内容分析,以对关联信息在所述关联数据处变化的过程进行数据内容分析。
[0105] 进一步地,在一种可能的实现方式中,针对子步骤S123,从标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量,并获取所述第一校验数据分量与所
述第二校验数据分量之间的第一数据分量关联参数的流程中,可以通过以下方式来实现。
[0106] 首先,对比第一校验数据分量的特征信息量和第二校验数据分量的特征信息量,得到第一校验数据分量关联参数。其中,特征信息量可以用于表征校验数据分量,比如,校
验数据分量的词性或词量。
[0107] 接着,获取对比关联参数与所述第一校验数据分量关联参数之间的差异信息,作为所述第一数据分量关联参数,其中,所述对比关联参数为所述标的校验数据信息中第三
校验数据分量和第四校验数据分量二者之间的第二校验数据分量关联参数,所述第三校验
数据分量和所述第四校验数据分量是所述标的校验数据信息开始记录的标的校验位置中
的校验数据分量。
[0108] 第三校验数据分量与第四校验数据分量与前面所述的第一校验数据分量与第二校验数据分量类似,第二校验数据分量关联参数与前述第一校验数据分量关联参数类似,
在此就不再说明。
[0109] 进一步地,在一种可能的实现方式中,针对子步骤S124,根据所述第一数据分量关联参数确定所述第二校验数据分量所表示的所述关联数据对应的关联信息的状态的流程
中,可以通过以下方式来实现。
[0110] 首先,获取与标的校验数据信息对应的关联标签。
[0111] 其中,所述关联标签包括:用于表示所述关联数据对应的关联信息处于第一关联位置状态的第一关联标签和用于表示所述关联数据对应的关联信息处于第二关联位置状
态的第二关联标签,其中,所述第二关联位置状态下所述关联数据对应的关联信息过渡量
大于所述第一关联位置状态下所述关联数据对应的关联信息的过渡量。其中,过渡量用于
关联信息之间的相关性或表征话题是否切换参量。
[0112] 接着,在所述第一数据分量关联参数不大于第一关联参数阈值、且所述关联标签为第一关联标签的情况下,确定所述关联数据对应的关联信息的状态为过渡状态,其中,所
述过渡状态用于指示所述关联数据的关联过程存在所述标的关联信息。
[0113] 再接着,在所述第一数据分量关联参数不小于第二关联参数阈值、且所述关联标签为第二关联标签的情况下,确定所述关联数据对应的关联信息的状态为所述过渡状态。
[0114] 其中,在所述关联标签为所述第一关联标签、且所述第一数据分量关联参数小于所述第一关联参数阈值的情况下,清除所述第一关联标签。
[0115] 然后,在所述关联标签为所述第二关联标签、且所述第一数据分量关联参数大于所述第一关联参数阈值且小于所述第二关联参数阈值的情况下,将所述第二关联标签变更
为所述第一关联标签。
[0116] 最后,在所述关联标签为所述第二关联标签、且所述第一数据分量关联参数小于所述第一关联参数阈值的情况下,清除所述第二关联标签。
[0117] 在本申请实施例中,在一种可能的实现方式中,在所述获取与所述标的校验数据信息对应的关联标签过程之前,所述方法还包括:
[0118] 首先,检测所述标的校验数据信息是否预先设置有所述关联标签。
[0119] 接着,在检测到所述标的校验数据信息未预先设置所述关联标签的情况下,确定所述标的校验数据信息中的第五校验数据分量与第六校验数据分量之间的第二数据关联
参数,其中,所述第五校验数据分量在所述标的校验数据信息中出现的校验位置先于所述
第六校验数据分量。
[0120] 其中,第五校验数据分量与第六校验数据分量与前面所述的第一校验数据分量与第二校验数据分量类似。
[0121] 然后,在所述第二数据关联参数大于所述第一关联参数阈值且不大于所述第二关联参数阈值的情况下,生成所述第一关联标签;在所述第二数据关联参数大于所述第二关
联参数阈值的情况下,生成所述第二关联标签。
[0122] 在一种可能的实现方式中,在所述关联数据对应的关联信息的状态指示存在变化的标的关联信息的情况下,将所述第二校验数据分量进行数据内容分析的过程可以包括:
[0123] 首先,在所述关联数据对应的关联信息的状态指示存在变化的标的关联信息的情况下,将所述第二校验数据分量添加至校验数据分量的序列中;
[0124] 接着,在所述校验数据分量的序列中校验数据分量的数量小于第一预设数量的情况下,将所述校验数据分量序列中校验数据分量按顺序依次排列;
[0125] 最后,在所述校验数据分量的序列中的校验数据分量的数量不小于所述第一预设数量的情况下,将所述校验数据分量的序列中的前预设个数的校验数据分量聚合为校验数
据分量集合。
[0126] 在一种可能的实现方式中,所述从所述标的校验数据信息中确定出待校验的第一校验数据分量与第二校验数据分量的过程,包括:
[0127] 首先,所述从所述标的校验数据信息中选取第一个校验数据分量和第二个校验数据分量,所述第一个校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第
二个校验数据分量;
[0128] 接着,从所述标的校验数据信息中选取第一个校验数据分量和第二个校验数据分量,所述第一个校验数据分量在所述标的校验数据信息中出现的校验位置先于所述第二个
校验数据分量;
[0129] 再接着,对所述第一个校验数据分量进行分解处理,得到第一分解校验数据分量序列,对所述第二个校验数据分量进行分解处理,得到第二分解校验数据分量序列;
[0130] 最后,将所述第一分解校验数据分量序列中的第i个分解校验数据分量作为所述第一校验数据分量,将所述第二分解校验数据分量序列中的第i个分解校验数据分量作为
所述第二校验数据分量。
[0131] 请参照图4,图4为本公开实施例提供的元数据管理系统300的功能模块示意图,本实施例可以根据上述元数据管理服务器100执行的方法实施例对该元数据管理系统300进
行功能模块的划分,也即该元数据管理系统300所对应的以下各个功能模块可以用于执行
上述元数据管理服务器100执行的各个方法实施例。其中,该基于元数据管理系统300可以
包括第一获取模块310、分析模块320、第二获取模块330、分类模块340及管理模块350,下面
分别对该元数据管理系统300的各个功能模块的功能进行详细阐述。
[0132] 第一获取模块310,用于将所述需管理的数据进行数据内容分析得到对应的关联数据。其中,第一获取模块310可以用于执行上述的步骤S110,关于第一获取模块310的详细
实现方式可以参照上述针对步骤S110的详细描述即可。
[0133] 分析模块320,用于将所述需管理的数据进行数据内容分析得到对应的关联数据,其中,分析模块320可以用于执行上述的步骤S120,关于分析模块320的详细实现方式可以
参照上述针对步骤S120的详细描述即可。
[0134] 第二获取模块330,用于获取当前需管理的数据对应的当前关联数据,根据预设的邻近规则获取所述当前关联数据的邻近关联数据,将当前关联数据与邻近关联数据按上下
文顺序形成需分类的输入源信息。第二获取模块330执行上述的步骤S130,关于第二获取模
块330的详细实现方式可以参照上述针对步骤S130的详细描述即可。
[0135] 分类模块340,用于将所述需分类的输入源信息输入经训练得到的深度学习模型,得到分类结果。其中,分类模块340可以用于执行上述的步骤S140,关于分类模块340的详细
实现方式可以参照上述针对步骤S140的详细描述即可。
[0136] 管理模块350,用于根据所述分类结果对所述当前需管理的数据进行数据管理。其中,管理模块350可以用于执行上述的步骤S150,关于管理模块350的详细实现方式可以参
照上述针对步骤S150的详细描述即可。
[0137] 在本申请实施例的一种可能的实现方式中,所述第二获取模块330具有用于:从当前关联数据的上文获取第一设定数量的上文关联数据;
[0138] 从当前关联数据的下文获取第二设定数量的下文关联数据;
[0139] 将所述上文关联数据、当前关联数据、下文关联数据按上下文顺序形成需分类的输入源信息。
[0140] 需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以
全部以软件(比如,开源软件)通过处理元件调用的形式实现。也可以全部以硬件的形式实
现。还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例
如,第一获取模块310可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中
实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处
理元件调用并执行以上第一获取模块310的功能。其它模块的实现与之类似。此外这些模块
全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电
路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理
器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0141] 请参照图5,图5示出了本公开实施例提供的用于实现上述的元数据管理方法的元数据管理服务器100的硬件结构示意图,元数据管理服务器100可以在云端服务器上实现。
如图5所示,元数据管理服务器100可包括处理器110、机器可读存储介质120、总线130以及
射频单元140。
[0142] 在具体实现过程中,至少一个处理器110执行机器可读存储介质120存储的计算机执行指令(例如图3中所示的基于云计算和大数据的信息解析装置300包括的第一获取模块
310、分析模块320、第二获取模块330、分类模块340及管理模块350),使得处理器110可以执
行如上方法实施例的元数据管理方法,其中,处理器110、机器可读存储介质120以及射频单
元140通过总线130连接,处理器110可以用于控制射频单元140的收发动作。
[0143] 处理器110的具体实现过程可参见上述元数据管理服务器100执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0144] 机器可读存储介质120可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
[0145] 总线130可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
[0146] 此外,本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上元数据管理方法。
[0147] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的次序来
执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定次
序或者连续次序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可
以的或者可能是有利的。
[0148] 最后,应当理解的是,本说明书中实施例仅用以说明本说明书实施例的原则。其它的变形也可能属于本说明书范围。因此,作为示例而非限制,本说明书实施例的替代配置可
视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描
述的实施例。