数据集质量评估方法、装置、计算机设备及存储介质转让专利

申请号 : CN202110999774.X

文献号 : CN113448955B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马影周晓勇魏国富刘胜夏玉明

申请人 : 上海观安信息技术股份有限公司

摘要 :

本发明公开了一种数据集质量评估方法、装置、计算机设备及存储介质,涉及信息技术领域,主要在于能够提高数据集质量的评估精度和评估效率。其中方法包括:获取数据集中的待评估数据;分别统计所述待评估数据在多个评估维度下的属性特征;基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。本发明适用于数据集质量的评估。

权利要求 :

1.一种数据集质量评估方法,其特征在于,包括:获取数据集中的待评估数据;

分别统计所述待评估数据在数据规模、数据均衡性、数据准确性、数据污染、数据偏见评估维度下的属性特征;

基于所述属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述数据规模、数据均衡性、数据准确性、数据污染、数据偏见评估维度下的质量评估结果;

其中,所述待评估数据为训练数据集中的结构化数据,统计所述待评估数据在数据污染评估维度下的属性特征,包括:根据所述结构化数据及其对应的标签类别,利用预设插值算法拟合所述结构化数据对应的函数曲线;

利用所述函数曲线对所述结构化数据进行预测,得到所述结构化数据对应的预测标签类别;

基于所述预测标签类别和所述结构化数据对应的标签类别,判定所述结构化数据是否为噪声数据;

基于所述数据污染评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据在所述数据污染评估维度下的质量评估结果,包括:分别统计所述噪声数据对应的第一数据量,以及结构化数据对应的第二数据量,并根据所述第一数据量和所述第二数据量,计算所述噪声数据与所述结构化数据之间的第一数据比例;

若所述第一数据比例大于预设噪声数据比例,则确定所述结构化数据不满足数据污染评估标准。

2.根据权利要求1所述的方法,其特征在于,所述待评估数据为预测数据集中的非结构化数据,统计所述待评估数据在数据污染评估维度下的属性特征,包括:分别利用第一预设压缩器和第二预设压缩器对所述非结构化数据进行压缩处理,得到所述非结构化数据对应的第一压缩数据和第二压缩数据;

分别对所述非结构化数据、所述第一压缩数据和所述第二压缩数据进行预测,得到所述非结构化数据对应的原始预测结果,所述第一压缩数据对应的第一预测结果,以及所述第二压缩数据对应的第二预测结果;

分别计算所述原始预测结果与所述第一预测结果之间的第一差值,以及所述原始预测结果与所述第二预测结果之间的第二差值;

基于所述第一差值和所述第二差值,判定所述非结构化数据是否为对抗数据;

基于所述数据污染评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据在所述数据污染评估维度下的质量评估结果,包括:分别统计所述对抗数据对应的第三数据量,以及所述非结构化数据对应的第四数据量,并根据所述第三数据量和所述第四数据量,计算所述对抗数据与所述非结构化数据之间的第二数据比例;

若所述第二数据比例大于预设对抗数据比例,则确定所述非结构化数据不满足数据污染评估标准。

3.根据权利要求1所述的方法,其特征在于,所述待评估数据为训练数据集中的结构化数据,统计所述待评估数据在数据偏见评估维度下的属性特征,包括:确定所述结构化数据对应的各个特征;

利用预设偏见语料库初步检测所述各个特征中存在的偏见特征,并从所述各个特征和所述训练数据集中分别排除所述偏见特征及其对应的结构化数据,得到排除后的各个特征和排除后的结构化数据;

根据所述排除后的结构化数据,分析所述排除后的各个特征是否为偏见特征。

4.根据权利要求3所述的方法,其特征在于,所述根据所述排除后的结构化数据,分析所述排除后的各个特征是否为偏见特征,包括:若所述排除后的结构化数据存在相应的标签类别,则将所述排除后的各个特征与各个标签类别进行组合,得到多个组合结果;

确定所述排除后的各个特征对应的特征值,并根据所述多个组合结果,分析在不同标签分类下各个特征值对应的第一数据量分布信息;

基于所述第一数据量分布信息,判定所述排除后的各个特征是否为偏见特征。

5.根据权利要求3所述的方法,其特征在于,所述根据所述排除后的结构化数据,分析所述排除后的各个特征是否为偏见特征,包括:若所述排除后的结构化数据不存在相应的标签类别,利用预设聚类算法对所述排除后的结构化数据进行聚类处理,得到不同分类下的结构化数据;

确定所述排除后的各个特征对应的特征值,并分析在不同分类下各个特征值对应的第二数据量分布信息;

基于所述第二数据量分布信息,判定所述排除后的各个特征是否为偏见特征。

6.一种数据集质量评估装置,其特征在于,包括:获取单元,用于获取数据集中的待评估数据;

统计单元,用于分别统计所述待评估数据在数据规模、数据均衡性、数据准确性、数据污染、数据偏见评估维度下的属性特征;

评估单元,用于基于所述属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述数据规模、数据均衡性、数据准确性、数据污染、数据偏见评估维度下的质量评估结果;

统计单元,具体用于当所述待评估数据为训练数据集中的结构化数据时,根据所述结构化数据及其对应的标签类别,利用预设插值算法拟合所述结构化数据对应的函数曲线;

利用所述函数曲线对所述结构化数据进行预测,得到所述结构化数据对应的预测标签类别;基于所述预测标签类别和所述结构化数据对应的标签类别,判定所述结构化数据是否为噪声数据;

评估单元,具体用于分别统计所述噪声数据对应的第一数据量,以及结构化数据对应的第二数据量,并根据所述第一数据量和所述第二数据量,计算所述噪声数据与所述结构化数据之间的第一数据比例;若所述第一数据比例大于预设噪声数据比例,则确定所述结构化数据不满足数据污染评估标准。

7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

说明书 :

数据集质量评估方法、装置、计算机设备及存储介质

技术领域

[0001] 本发明涉及信息技术领域,尤其是涉及一种数据集质量评估方法、装置、计算机设备及存储介质。

背景技术

[0002] 数据是人工智能开发和应用的基础,数据集对于人工智能算法来说至关重要,使用不同质量的数据集会在训练之后得到不同的模型参数,产生不同的执行效果,进而影响
人工智能算法的安全性,如果非法分子利用攻击手段对数据集进行恶意修改和添加,会导
致模型预测出错,因此如何有效地对数据集质量进行检测和评估,成为了人工智能安全亟
需解决的问题。
[0003] 目前,通常由技术人员根据各自的经验对数据集的质量进行评估。然而,这种质量评估方式,较为依赖技术人员的工作经验,评估结果受人为主观因素的影响较大,因此很可
能无法对数据集的质量作出准确评估,进而造成人工智能安全事故,此外,这种人为评估数
据集质量的方式,评估效率较低,而且增加了技术人员的工作量。

发明内容

[0004] 本发明提供了一种数据集质量评估方法、装置、计算机设备及存储介质,主要在于能够提高数据集质量的评估精度和评估效率。
[0005] 根据本发明的第一个方面,提供一种数据集质量评估方法,包括:
[0006] 获取数据集中的待评估数据;
[0007] 分别统计所述待评估数据在多个评估维度下的属性特征;
[0008] 基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。
[0009] 根据本发明的第二个方面,提供一种数据集质量评估装置,包括:
[0010] 获取单元,用于获取数据集中的待评估数据;
[0011] 统计单元,用于分别统计所述待评估数据在多个评估维度下的属性特征;
[0012] 评估单元,用于基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。
[0013] 根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
[0014] 获取数据集中的待评估数据;
[0015] 分别统计所述待评估数据在多个评估维度下的属性特征;
[0016] 基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。
[0017] 根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
[0018] 获取数据集中的待评估数据;
[0019] 分别统计所述待评估数据在多个评估维度下的属性特征;
[0020] 基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。
[0021] 本发明提供的一种数据集质量评估方法、装置、计算机设备及存储介质,与目前由技术人员根据各自的经验对数据集的质量进行评估的方式相比,本方明能够获取数据集中
的待评估数据;并分别统计所述待评估数据在多个评估维度下的属性特征;与此同时,基于
所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据
分别在所述多个评估维度下的质量评估结果,由此通过统计待评估数据在多个评估维度下
的属性特征,能够从多个评估维度对数据集的质量进行自动评估,从而能够提高数据集质
量的评估精度和评估效率,有效地保证了人工智能开发过程中数据集的安全。

附图说明

[0022] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0023] 图1示出了本发明实施例提供的一种数据集质量评估方法流程图;
[0024] 图2示出了本发明实施例提供的另一种数据集质量评估方法流程图;
[0025] 图3示出了本发明实施例提供的一种数据集质量评估装置的结构示意图;
[0026] 图4示出了本发明实施例提供的另一种数据集质量评估装置的结构示意图;
[0027] 图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

[0028] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0029] 目前,通常由技术人员根据各自的经验对数据集的质量进行评估。然而,这种质量评估方式,较为依赖技术人员的工作经验,评估结果受人为主观因素的影响较大,因此很可
能无法对数据集的质量作出准确评估,进而造成人工智能安全事故,此外,这种人为评估数
据集质量的方式,评估效率较低,而且增加了技术人员的工作量。
[0030] 为了解决上述问题,本发明实施例提供了一种数据集质量评估方法,如图1所示,所述方法包括:
[0031] 101、获取数据集中的待评估数据。
[0032] 其中,数据集包括训练数据集和预测数据集,待评估数据具体可以为训练数据集中的各个样本数据,或者预测数据集中的各个预测数据。为了克服现有技术中数据集质量
的评估精度和评估效率较低的缺陷,本发明实施例开发了一套数据集质量评估工具,通过
统计待评估数据在多个评估维度下的属性特征,能够从多个评估维度对数据集的质量进行
自动评估,进而提高了数据集质量的评估精度和评估效率,同时保证了人工智能开发过程
中数据集的安全。本发明实施例主要应用于对数据集质量进行多维度评估的场景。本发明
实施例的执行主体为能够对数据集质量进行评估的装置或者设备,具体可以设置在服务器
一侧。
[0033] 对于本发明实施例,预先收集需要进行质量评估的训练数据集和预测数据集,该训练数据集和预测数据集中的数据具体可以为结构化数据,也可以为非结构化数据,如图
像数据。在获取待评估的训练数据集或者预测数据集之后,技术人员可以点击数据集质量
评估工具界面的文件上传按钮,将待评估的训练数据集或者预测数据集上传至数据集质量
评估工具中,以便数据集质量评估工具对待评估的数据集进行多维度的质量评估。
[0034] 102、分别统计所述待评估数据在多个评估维度下的属性特征。
[0035] 其中,多个评估维度包括数据规模评估维度、数据均衡性评估维度、数据准确性评估维度、数据污染评估维度和数据偏见评估维度,需要说明的是,本发明实施例中的评估维
度并不局限于上述列举出来的评估维度,还可以包括其他评估维度,具体可以根据实际的
业务需求进行设定。进一步地,待评估数据在数据规模评估维度下的属性特征包括:数据总
量、特征数量、数据所占内存大小、数据是否有标签等;待评估数据在数据均衡下评估维度
下的属性特征包括各类标签下的数据量占比;待评估数据在数据准确性评估维度下的属性
特征包括:数据总量、标签缺失总量、各类标签是否异常等;待评估数据在数据污染评估维
度下的属性特征包括:噪声数据量、对抗数据量等;待评估数据在数据偏见评估维度下的属
性特征包括待评估数据对应的偏见特征。
[0036] 对于本发明实施例,可以采用不同的统计方式,分别统计待评估数据在数据规模评估维度、数据均衡性评估维度、数据准确性评估维度、数据污染评估维度和数据偏见评估
维度下的属性特征,针对不同评估维度所采用的具体统计方式不同,具体见步骤202‑206。
[0037] 103、基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。
[0038] 对于本发明实施例,不同评估维度对应的评估标准不同,在利用多个评估维度下的属性特征对待评估数据进行质量评估的过程中,如果待评估数据不满足任意一个评估维
度对应的评估标准,则确定待评估数据存在质量问题,无法利用该数据集对模型进行训练
或者预测,技术人员需要重新收集数据集或者对存在质量问题的数据集进行数据清洗。例
如,待评估数据在数据均衡性评估维度下的“是”标签对应的数据量占比为90%,“否”标签对
应的数据量占比为10%,两类标签的数据量占比之差达到80%,由于该数据量占比之差大于
预设数据量占比之差60%,因此确定待评估数据不满足数据均衡性评估标准,如果利用这种
不满足数据均衡性评估标准的数据对模型进行训练,很可能影响模型的执行效果,无法保
证人工智能算法的安全,同理还可以从数据规模评估维度、数据准确性评估维度、数据污染
评估维度、数据偏见评估维度对待评估数据进行质量评估,若待评估数据不满足上述维度
对应的评估标准,则确定待评估数据存在质量问题,无法利用其对模型进行训练或者预测,
针对不同评估维度的质量评估过程具体见步骤202‑206。
[0039] 本发明实施例提供的一种数据集质量评估方法,与目前由技术人员根据各自的经验对数据集的质量进行评估的方式相比,本方明能够获取数据集中的待评估数据;并分别
统计所述待评估数据在多个评估维度下的属性特征;与此同时,基于所述多个评估维度下
的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估
维度下的质量评估结果,由此通过统计待评估数据在多个评估维度下的属性特征,能够从
多个评估维度对数据集的质量进行自动评估,从而能够提高数据集质量的评估精度和评估
效率,有效地保证了人工智能开发过程中数据集的安全。
[0040] 进一步的,为了更好的说明上述数据集的质量评估过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种污染样本数据的检测方法,如图2所示,所述方法包
括:
[0041] 201、获取数据集中的待评估数据。
[0042] 其中,数据集包括训练数据集和预测数据集,待评估数据具体可以为训练数据集中的各个样本数据,或者预测数据集中的各个预测数据。对于本发明实施例,在对数据集进
行质量评估之前,需要获取待评估的数据集,数据集的具体获取方式与步骤101完全相同,
在此不再赘述。
[0043] 202、统计所述待评估数据在数据污染评估维度下的属性特征,并基于所述数据污染评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据在所述
数据污染评估维度下的质量评估结果。
[0044] 对于本发明实施例,如果待评估数据是训练数据集中的结构化数据,则在对待评估数据进行污染评估的过程中,需要检测待评估数据中是否存在噪声数据,因为噪声数据
对模型训练的干扰较大,容易影响模型的执行效果,针对识别噪声数据的具体过程,作为一
种可选实施方式,步骤202具体包括:根据所述结构化数据及其对应的标签类别,利用预设
插值算法拟合所述结构化数据对应的函数曲线;利用所述函数曲线对所述结构化数据进行
预测,得到所述结构化数据对应的预测标签类别;基于所述预测标签类别和所述结构化数
据对应的标签类别,判定所述结构化数据是否为噪声数据。
[0045] 具体地,训练数据集中存在大量的结构化数据,将每一个结构化数据作为一个样本点(x,y),并利用这些样本点 ,来拟合一个函数曲线y=f(x),由于
待评估的结构化数据可能存在数据缺陷的现象,因此在利用大量样本点拟合函数曲线之
前,需要利于预设插值算法对结构化数据进行插值处理,该预设插值算法具体可以为预设
克里金插值算法,首先,确定待插值的结构化数据,并计算待插值的结构化数据与这些已知
分类结果的结构化数据之间的距离,并根据该距离确定已知分类结构的结构化数据对应的
数据权重,之后根据已知分类结果的结构化数据对应的权重和该分类结果,计算待插值的
结构化数据对应的分类结果。其中,该分类结果具体可以为结构化数据对应的分类概率值。
[0046] 例如,已知分类结果的结构化数据为x1,x2,x3,确定待插值的结构化数据为x4,由于待插值的结构数据x4对应的分类结果是未知的,因此可以利用已知分类结果的结构化数
据x1,x2,x3,预估待插值的结构化数据x4对应的分类结果,具体地,分别计算待插值的结构
化数据x4与已知分类结果的结构化数据x1,x2,x3之间的距离,距离越大,说明该已知分类
结果的结构化数据与待插值的结构化数据相距越远,其对待插值的结构化数据的影响较
小,因此其对应的数据权重越小;相反距离越小,说明该已知分类结果的结构化数据与待插
值的结构化数据相距越近,其对待插值的结构化数据的影响较大,因此其对应的数据权重
越大,进一步地,在确定已知分类结果的结构化数据对应的数据权重之后,将已知分类结果
的结构化数据对应的数据权重和分类结果相乘,得到待插值的结构化数据对应的分类结
果。接着将确定完分类结果的待插值的结构化数据插入至已知分类结果的结构化数据中,
由此能够解决数据缺失的问题。
[0047] 进一步地,将上述结构化数据共同作为样本点,利用这些样本点进行曲线拟合,得到函数曲线y=f(x),由于训练数据集中结构化数据对应的分类结果是已知的,即属于真实
标签类别的概率值是已知的,接下来可以利用函数曲线对上述的结构化数据进行预测,得
到结构化数据对应的预测结果,即属于预测标签类别的概率值。进一步地,将结构化数据属
于预测标签类别的概率值与属于真实标签类别的概率值相减,得到结构化数据对应的概率
差,如果该概率差大于预设概率差,则确定该结构化数据属于噪声数据。例如,结构化数据A
属于真实标签类别的概率值为0.87,属于预测标签类别的概率值为0.27,概率差为0.87‑
0.27=0.5,由于该概率差大于预设概率差0.2,因此确定结构化数据A为噪声数据。由此按照
上述方式能够确定训练数据集中的每个结构化数据是否为噪声数据。
[0048] 进一步地,在确定训练数据集中的噪声数据之后,需要对该训练数据集中的结构化数据进行污染评估,基于此,所述方法包括:分别统计所述噪声数据对应的第一数据量,
以及结构化数据对应的第二数据量,并根据所述第一数据量和所述第二数据量,计算所述
噪声数据与所述结构化数据之间的第一数据比例;若所述第一数据比例大于预设噪声数据
比例,则确定所述结构化数据不满足数据污染评估标准。其中,该预设噪声数据比例可以根
据实际的业务需求进行设定。
[0049] 例如,设定预设噪声数据比例为10%,在确定训练数据集中存在的噪声数据之后,统计噪声数据的总量(第一数据量)为200个,训练数据集中结构化数据的总量(第二数据
量)为1000个,由此能够计算噪声数据对应的第一数据量与结构化数据对应的第二数据量
之间的第一数据比例为200/1000=20%,由于该第一数据比例20%大于预设噪声数据比例
10%,因此确定该训练数据集不满足数据污染评估标准,即该训练数据集存在质量问题,不
能够用于模型训练。
[0050] 在具体应用场景中,如果待评估数据是预测数据集中的非结构化数据,则对待评估数据进行污染评估的过程中,需要检测待评估数据中是否存在对抗数据,即检测待评估
数据中是否存在攻击者恶意打造的数据,因为预测数据集中一旦混入这种对抗数据,将会
直接影响模型的预测结果,针对识别对抗数据的具体过程,作为一种可选实施方式,步骤
202具体包括:分别利用第一预设压缩器和第二预设压缩器对所述非结构化数据进行压缩
处理,得到所述非结构化数据对应的第一压缩数据和第二压缩数据;分别对所述非结构化
数据、所述第一压缩数据和所述第二压缩数据进行预测,得到所述非结构化数据对应的原
始预测结果,所述第一压缩数据对应的第一预测结果,以及所述第二压缩数据对应的第二
预测结果;分别计算所述原始预测结果与所述第一预测结果之间的第一差值,以及所述原
始预测结果与所述第二预测结果之间的第二差值;基于所述第一差值和所述第二差值,判
定所述非结构化数据是否为对抗数据。
[0051] 其中,第一预设压缩器和第二预设压缩器能够对非结构化数据中的特征进行压缩,以减少不必要特征的输入,降低非结构化数据对应的维度,第一预设压缩器所压缩的特
征与第二预设压缩器所压缩的特征并不相同,如输入的非结构化数据包括10个特征,即非
结构化数据对应的输入维度是10,第一预设压缩器能够对非结构化数据中的第一个特征和
第二个特征进行压缩,第二预设压缩器能够对非结构化数据中的第三个特征和第四个特征
进行压缩。需要说明的是,本发明实施例中所采用的压缩器的数量并不局限于两个,具体可
以根据实际的业务需求和特征数量,设定压缩器的数量。此外,本发明实施例中的原始预测
结果、第一预测结果和第二预测结果为非结构化数据属于相应标签类别的概率值。
[0052] 例如,将非结构化数据A分别输入至第一预设压缩器和第二预设压缩器中进行特征压缩处理,得到非结构化数据A对应的第一压缩数据和第二压缩数据,之后将非结构化数
据A、第一压缩数据和第二压缩数据分别输入至构建的模型中进行预测,得到结构化数据A
对应的原始预测结果0.78,第一压缩数据对应的第一预测结果0.56,第二压缩数据对应的
第二预测结果0.63,进一步地,将原始预测结果与第一预测结果相减,得到第一差值为
0.22,将原始预测结果与第二预测结果相减,得到第二差值为0.15,之后从第一差值和第二
差值中选择一个最大差值与预设差值进行比较,如果最大差值大于预设差值,则确定非结
构化数据A为对抗数据;如果最大差值小于预设差值,则确定非结构化数据A不是对抗数据,
如设定预设差值为0.2,由于最大差值0.22大于预设差值0.2,因此确定非结构化数据是对
抗数据。由此按照上述方式能够确定预测数据集中存在的所有对抗数据。
[0053] 进一步地,在确定预测数据集中的对抗数据之后,需要对该预测数据集中的非结构化数据进行污染评估,基于此,所述方法包括:分别统计所述对抗数据对应的第三数据
量,以及所述非结构化数据对应的第四数据量,并根据所述第三数据量和所述第四数据量,
计算所述对抗数据与所述非结构化数据之间的第二数据比例;若所述第二数据比例大于预
设对抗数据比例,则确定所述非结构化数据不满足数据污染评估标准。其中,该预设对抗数
据比例可以根据实际的业务需求进行设定。
[0054] 例如,设定预设对抗数据比例为10%,在确定预测数据集中存在的对抗数据之后,统计对抗数据的总量(第三数据量)为300个,预测数据集中非结构化数据的总量(第四数据
量)为1000个,由此能够计算对抗数据对应的第三数据量与非结构化数据对应的第四数据
量之间的第二数据比例为300/1000=30%,由于该第二数据比例30%大于预设对抗数据比例
10%,因此确定该预测数据集不满足数据污染评估标准,即该预测数据集存在质量问题,不
能够用于模型预测。
[0055] 203、统计所述待评估数据在数据偏见评估维度下的属性特征,并基于所述数据偏见评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据在所述
数据偏见评估维度下的质量评估结果。
[0056] 对于本发明实施例,如果待评估数据是训练数据集中的结构化数据,则在对待评估数据进行偏见评估的过程中,需要检测待评估数据对应的各个特征是否为偏见特征,因
为偏见特征的存在,可能会导致人工智能的决策结果带有歧视,针对确定偏见特征的具体
过程,作为一种可选实施方式,步骤203具体包括:确定所述结构化数据对应的各个特征;利
用预设偏见语料库初步检测所述各个特征中存在的偏见特征,并从所述各个特征和所述训
练数据集中分别排除所述偏见特征及其对应的结构化数据,得到排除后的各个特征和排除
后的结构化数据;根据所述排除后的结构化数据,分析所述排除后的各个特征是否为偏见
特征。其中,预测偏见语料库中存储有大量偏见特征,如性别、年龄、地域、收入等。
[0057] 例如,训练数据集中的结构化数据对应的特征包括:教育程度、工作、收入、病史、性别,将结构化数据对应的上述特征与预设偏见语料库中的各个特征进行匹配,通过匹配
可以发现,结构化数据对应的特征中收入特征和性别特征为偏见特征,为提高偏见特征的
检测精度,还需要进一步分析其他特征是否为偏见特征,从结构化数据中排除该偏见特征
对应的结构化数据,之后利用排除后的结构化数据,分析剩余的各个特征是否为偏见特征。
[0058] 进一步地,针对分析剩余的各个特征是否为偏见特征的具体过程,作为一种可选实施方式,所述方法包括:若所述排除后的结构化数据存在相应的标签类别,则将所述排除
后的各个特征与各个标签类别进行组合,得到多个组合结果;确定所述排除后的各个特征
对应的特征值,并根据所述多个组合结果,分析在不同标签分类下各个特征值对应的第一
数据量分布信息;基于所述第一数据量分布信息,判定所述排除后的各个特征是否为偏见
特征。
[0059] 例如,排除后的结构化数据存在的标签类别包括“是”和“否”,排除后的各个特征包括“教育程度”和“工作”,将上述特征与标签类别进行组合,得到“教育程度‑是”、“教育程
度‑否”、“工作‑是”和“工作‑否”,之后确定教育程度对应的特征值包括本科以上、本科、本
科以下,工作对应的特征值包括有工作和无工作,进一步地,首先分析标签类别为“是”的结
构化数据中教育程度分别为本科以上、本科、本科以下的数据量,如统计教育程度为本科以
上、本科、本科以下的数据量分别为1000人,200人和800人,标签类别为“是”的结构化数据
总量为2000人,由此可知,本科以上、本科、本科以下非结构化数据的占比分别为50%,10%和
40%,由于本科以上的数据量与本科的数据量占比之差为40%超过预设占比之差20%,因此可
以确定特征教育程度为偏见特征。由此按照上述方式能够确定存在标签类别的结构化数据
对应的剩余特征是否为偏见特征。
[0060] 进一步地,针对分析剩余的各个特征是否为偏见特征的具体过程,作为一种可选实施方式,所述方法还包括:若所述排除后的结构化数据不存在相应的标签类别,利用预设
聚类算法对所述排除后的结构化数据进行聚类处理,得到不同分类下的结构化数据;确定
所述排除后的各个特征对应的特征值,并分析在不同分类下各个特征值对应的第二数据量
分布信息;基于所述第二数据量分布信息,判定所述排除后的各个特征是否为偏见特征。其
中,该预设聚类算法具体可以为DBSCAN聚类算法。
[0061] 具体地,排除后的结构化数据可能不存在相应的标签类别,此时便无法将标签类别和特征进行组合,分析不同标签类别下各个特征值对应的第一数据量分布,因此在不知
道结构化数据对应的标签类别的情况下,可以通过对排除后的结构化数据进行聚类,之后
再分析在不同分类下各个特征值对应的第二数据量分布情况,在利用DBSCAN聚类算法对排
除后的结构化数据进行聚类的过程中,首先设定结构化数据对应的邻域半径和领域中结构
化数据量阈值,之后任意选择一个结构化数据A,并计算出每一个结构化数据到达该结构化
数据的距离,根据计算的各个距离,确定结构化数据A对应的邻域中包括的各个结构化数据
B、C、D,如果结构化数据A对应的邻域中包括的结构化数据数量大于结构化数据量阈值,则
确定结构化数据A为核心点,并以结构化数据A为核心点建立簇C1,找出所有从结构化数据A
密度可达的点,结构化数据A邻域内的所有结构化数据都是结构化数据A密度可达的点,都
属于C1,此外,确定结构化数据B对应的邻域中包括的结构化数据,如包括结构化数据E,由
于结构化数据A密度可达结构化数据B,结构化数据B密度可达结构化数据E,所以结构化数
据A密度可达结构化数据E,即结构化数据E也属于C1,由此按照上述方式能够找到簇C1中的
所有的结构化数据,继续在寻找排除后的结构化数据中的其他数据,按照上述方式能够得
到簇C2,通过分成多个簇完成对排除后的结构化数据的聚类,即将排除后的结构化数据分
成多个类别,之后再分析在不同分类下各个特征值对应的第二数据量分布情况,分析第二
数据量分布情况的方式与第一数据量分布情况相同,在此不再赘述。
[0062] 204、统计所述待评估数据在数据规模评估维度下的属性特征,并基于所述数据规模评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据在所述
数据规模评估维度下的质量评估结果。
[0063] 其中,待评估数据在数据规模评估维度下的属性特征包括数量总量、特征数量、数据所占内存大小、数据是否有标签等。对于本发明实施例,在对待评估数据进行规模评估的
过程中,需要统计待评估数据对应的数据总量,特征数量、所占内存大小,以及数据是否有
标签,如果存在标签缺失的情况,缺失标签的数据量为多少。例如,待评估数据对应的数据
量为300,所占内存大小为11.3KB,特征数为13个,数据均有标签。
[0064] 进一步地,在统计完成待评估数据对应的数量总量、特征数量、所占内存大小,以及是否有标签后,需要对待评估数据进行规模评估。需要说明的是,针对不同模型算法,数
据规模评估的标准不同,例如,针对翻译模型,如果待评估数据对应的数据总量小于1000
万,则确定待评估数据不满足数据规模评估标准,即不能够直接使用该数据集进行训练或
者预测,需要增加数量。
[0065] 205、统计所述待评估数据在数据均衡性评估维度下的属性特征,并基于所述数据均衡性评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据在
所述数据均衡性评估维度下的质量评估结果。
[0066] 对于本发明实施例,数据集的均衡性是影响人工智能算法效果的一个重要因素,数据集越均匀,待评估数据分布偏差越小,人工智能算法的运行效果越好,相反待评估数据
分布偏差越大,人工智能算法的运行效果越不好。例如,待评估数据对应的标签类别包括
“是”和“否”,分别统计标签类别为“是”的数据量,以及标签类别为“否”的数据量,并计算不
同标签类别的数量占比,如计算“是”标签对应的数据量占比为90%,“否”标签对应的数据量
占比为10%,两类标签的数据量占比之差达到80%,由于该数据量占比之差大于预设数据量
占比之差60%,因此确定待评估数据不满足数据均衡性评估标准。
[0067] 206、统计所述待评估数据在数据准确性评估维度下的属性特征,并基于所述数据准确性评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据在
所述数据准确性评估维度下的质量评估结果。
[0068] 其中,待评估数据在数据准确性评估维度下的属性特征包括数据总量、标签缺失总量和各类标签是否异常等。例如,统计待评估数据中缺失标签的数量总量,之后计算缺失
标签的数据总量与待评估数据对应的数量总量的比值,如果该比值大于预设比值,则确定
待评估数据不满足准确性评估标准。再比如,分别统计标签“是”和“否”对应的数据量,如果
某一标签下的数据量小于预设数据量,则确定该标签异常,进而能够确定待评估数据存在
异常标签,不满足准确性评估标准。
[0069] 在对待评估数据进行多维度评估后,得到待评估数据分别在多个评估维度下的质量评估结果,进而生成待评估数据对应的质量评估报告,供技术人员参考。需要说明的是,
以上202‑206各个步骤的执行顺序并不以图2及前述的顺序为限,在具体应用中,202‑206各
个步骤可以根据实际情况按照其他顺序执行,当然202‑206还可以并行执行,本发明对此不
做限制。
[0070] 本发明实施例提供的另一种数据集质量评估方法,与目前由技术人员根据各自的经验对数据集的质量进行评估的方式相比,本方明能够获取数据集中的待评估数据;并分
别统计所述待评估数据在多个评估维度下的属性特征;与此同时,基于所述多个评估维度
下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评
估维度下的质量评估结果,由此通过统计待评估数据在多个评估维度下的属性特征,能够
从多个评估维度对数据集的质量进行自动评估,从而能够提高数据集质量的评估精度和评
估效率,有效地保证了人工智能开发过程中数据集的安全。
[0071] 进一步地,作为图1的具体实现,本发明实施例提供了一种数据集质量评估装置,如图3所示,所述装置包括:获取单元31、统计单元32和评估单元33。
[0072] 所述获取单元31,可以用于获取数据集中的待评估数据。
[0073] 所述统计单元32,可以用于分别统计所述待评估数据在多个评估维度下的属性特征。
[0074] 所述评估单元33,可以用于基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下的质量评估结果。
[0075] 在具体应用场景中,所述统计单元32,具体可以用于分别统计所述待评估数据在数据规模评估维度、数据均衡性评估维度、数据准确性评估维度、数据污染评估维度、数据
偏见评估维度下的属性特征。
[0076] 所述评估单元33,具体可以用于基于所述数据规模评估维度、所述数据均衡性评估维度、所述数据准确性评估维度、所述数据污染评估维度和所述数据偏见评估维度下的
属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述数据规模评
估维度、所述数据均衡性评估维度、所述数据准确性评估维度、所述数据污染评估维度和所
述数据偏见评估维度下的质量评估结果
[0077] 进一步地,统计所述待评估数据在数据污染评估维度下的属性特征,如图4所示,所述统计单元32,包括:拟合模块321、预测模块322和判定模块323。
[0078] 所述拟合模块321,可以用于根据所述结构化数据及其对应的标签类别,利用预设插值算法拟合所述结构化数据对应的函数曲线。
[0079] 所述预测模块322,可以用于利用所述函数曲线对所述结构化数据进行预测,得到所述结构化数据对应的预测标签类别。
[0080] 所述判定模块323,可以用于基于所述预测标签类别和所述结构化数据对应的标签类别,判定所述结构化数据是否为噪声数据。
[0081] 基于此,所述评估单元33,包括:第一计算模块331和第一确定模块332。
[0082] 所述第一计算模块331,可以用于分别统计所述噪声数据对应的第一数据量,以及结构化数据对应的第二数据量,并根据所述第一数据量和所述第二数据量,计算所述噪声
数据与所述结构化数据之间的第一数据比例。
[0083] 所述第一确定模块332,可以用于当所述第一数据比例大于预设噪声数据比例时确定所述结构化数据不满足数据污染评估标准。
[0084] 进一步地,统计所述待评估数据在数据污染评估维度下的属性特征,所述统计单元32,还包括:压缩模块324和第二计算模块325。
[0085] 所述压缩模块324,可以用于分别利用第一预设压缩器和第二预设压缩器对所述非结构化数据进行压缩处理,得到所述非结构化数据对应的第一压缩数据和第二压缩数
据。
[0086] 所述预测模块322,可以用于分别对所述非结构化数据、所述第一压缩数据和所述第二压缩数据进行预测,得到所述非结构化数据对应的原始预测结果,所述第一压缩数据
对应的第一预测结果,以及所述第二压缩数据对应的第二预测结果。
[0087] 所述第二计算模块325,可以用于分别计算所述原始预测结果与所述第一预测结果之间的第一差值,以及所述原始预测结果与所述第二预测结果之间的第二差值。
[0088] 所述判定模块323,可以用于基于所述第一差值和所述第二差值,判定所述非结构化数据是否为对抗数据。
[0089] 所述第一计算模块331,还可以用于分别统计所述对抗数据对应的第三数据量,以及所述非结构化数据对应的第四数据量,并根据所述第三数据量和所述第四数据量,计算
所述对抗数据与所述非结构化数据之间的第二数据比例。
[0090] 所述第一确定模块332,还可以用于若所述第二数据比例大于预设对抗数据比例,则确定所述非结构化数据不满足数据污染评估标准。
[0091] 在具体应用场景中,为了统计所述待评估数据在数据偏见评估维度下的属性特征,所述统计单元32,还包括:第二确定模块326、排除模块327和分析模块328。
[0092] 所述第二确定模块326,可以用于确定所述结构化数据对应的各个特征。
[0093] 所述排除模块327,可以用于利用预设偏见语料库初步检测所述各个特征中存在的偏见特征,并从所述各个特征和所述训练数据集中分别排除所述偏见特征及其对应的结
构化数据,得到排除后的各个特征和排除后的结构化数据。
[0094] 所述分析模块328,可以用于根据所述排除后的结构化数据,分析所述排除后的各个特征是否为偏见特征。
[0095] 在具体应用场景中,为了分析所述排除后的各个特征是否为偏见特征,所述分析模块328,可以用于若所述排除后的结构化数据存在相应的标签类别,则将所述排除后的各
个特征与各个标签类别进行组合,得到多个组合结果;确定所述排除后的各个特征对应的
特征值,并根据所述多个组合结果,分析在不同标签分类下各个特征值对应的第一数据量
分布信息;基于所述第一数据量分布信息,判定所述排除后的各个特征是否为偏见特征。
[0096] 在具体应用场景中,为了分析所述排除后的各个特征是否为偏见特征,所述分析模块328,还可以用于若所述排除后的结构化数据不存在相应的标签类别,利用预设聚类算
法对所述排除后的结构化数据进行聚类处理,得到不同分类下的结构化数据;确定所述排
除后的各个特征对应的特征值,并分析在不同分类下各个特征值对应的第二数据量分布信
息;基于所述第二数据量分布信息,判定所述排除后的各个特征是否为偏见特征。
[0097] 需要说明的是,本发明实施例提供的一种数据集质量评估装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
[0098] 基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取数据集中的待评估
数据;分别统计所述待评估数据在多个评估维度下的属性特征;基于所述多个评估维度下
的属性特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估
维度下的质量评估结果。
[0099] 基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在
存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43
上。所述处理器41执行所述程序时实现以下步骤:分别统计所述待评估数据在多个评估维
度下的属性特征;基于所述多个评估维度下的属性特征,对所述待评估数据进行质量评估,
得到所述待评估数据分别在所述多个评估维度下的质量评估结果。
[0100] 通过本发明的技术方案,本方明能够获取数据集中的待评估数据;并分别统计所述待评估数据在多个评估维度下的属性特征;与此同时,基于所述多个评估维度下的属性
特征,对所述待评估数据进行质量评估,得到所述待评估数据分别在所述多个评估维度下
的质量评估结果,由此通过统计待评估数据在多个评估维度下的属性特征,能够从多个评
估维度对数据集的质量进行自动评估,从而能够提高数据集质量的评估精度和评估效率,
有效地保证了人工智能开发过程中数据集的安全。
[0101] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成
的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储
在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示
出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或
步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0102] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包括在本发明的保护范围之内。