一种基于多源异构特征的文本数据集质量评估方法转让专利

申请号 : CN202110548575.7

文献号 : CN112989827B

文献日 : 2021-08-27

相似专利: 请登录后查看

本发明公开了一种基于多源异构特征的文本数据集质量评估方法，属于文本数据质量评估领域；在获取待评估的文本数据集后，通过识别文本数据集的数据类型，得到待评估文本数据集是结构化数据还是半结构化数据以及非结构化数据，并根据文本数据集的数据类型计算文本数据集的指标。最后根据指标生成文本数据集的质量评估报告。由于不同数据类型采用的指标不同，因此针对不同的数据类型可以给出精确的质量评估报告。

1.一种基于多源异构特征的文本数据集质量评估方法，其特征在于，包括以下步骤：获取待评估的文本数据集；

识别所述文本数据集的数据类型，所述数据类型包括结构化数据、半结构化数据以及非结构化数据；

根据所述文本数据集的数据类型的计算所述文本数据集的指标，不同数据类型的文本数据要计算的指标不同；

根据所述指标生成所述文本数据集的质量评估报告；

当所述数据类型是非结构化数据时，所述根据所述文本数据集的数据类型的计算所述文本数据集的指标包括：

将非结构化数据转换为结构化数据；

对转换后的结构化数据进行预处理；

根据预处理后的数据采用word2vec技术生成关键词库；

采用TF‑IDF技术从所述关键词库中获取文本特征；

通过Featuretools工具，使用深度特征合成技术根据所述文本特征创建新特征，将所述新特征作为通用特征；

根据得到的通用特征计算所述结构化数据的文本信息保真度、特征相似性指数和多成分文本结构相似性指数；

当所述数据类型是半结构化数据时，所述根据所述文本数据集的数据类型的计算所述文本数据集的指标包括：

将所述半结构化数据分为结构化数据成分和非结构化数据成分；

计算结构化数据成分的基于阈值的均方误差和计算非结构化数据成分的文本结构相似性指数、多成分文本结构相似性指数。

2.根据权利要求1所述的方法，其特征在于：所述识别所述文本数据集的数据类型包括采用预训练的数据类型识别模型识别所述文本数据集的类型。

3.根据权利要求1所述的方法，其特征在于：当所述数据类型是结构化数据时，所述根据所述文本数据集的数据类型的计算所述文本数据集的指标包括：提取所述结构化数据的文本特征；

将提取的文本特征采用深度特征合成方式得到通用特征；

根据得到的通用特征计算所述结构化数据的准确性、完整性和一致性。

4.根据权利要求3所述的方法，其特征在于：所述提取所述结构化数据的文本特征包括：

对所述结构化数据进行预处理；

根据预处理后的所述结构化数据采用word2vec技术生成关键词库；

采用TF‑IDF技术从所述关键词库中获取文本特征。

5.根据权利要求4所述的方法，其特征在于：所述将提取的文本特征采用深度特征合成方式得到通用特征包括：

通过Featuretools工具，使用深度特征合成技术根据所述文本特征创建新特征，将所述新特征作为通用特征。

6.根据权利要求1所述的方法，其特征在于，还包括：将计算得到的每个指标作为一个维度得到多维结构数据集；

采用拓扑分析方法将高维数据信息映射到低维空间，使每个多维结构数据集生成一张多维拓扑分析图。

一种基于多源异构特征的文本数据集质量评估方法

技术领域

[0001] 本发明涉及文本数据质量评估技术，特别地，涉及一种基于多源异构特征的文本数据集质量评估方法。

背景技术

[0002] 当前人工智能发展的三大要素：数据、计算力和算法，数据集、计算力和算法是相辅相成、相互提升的，三者缺一不可。在学术界，数据集的意义更加直接：数据是基础，没有
数据集，就无法展开相应的研究工作，任何研究都离不开数据。在这个机器学习盛行的时
代，数据比算法更重要，很多算法得到的结果的质量完全取决于其和真实数据的拟合程度。
如果没有足够的数据支撑、检验，设计算法几乎等于闭门造车。需要研究人员了解数据集的
质量从而进行判断。

[0003] 由于电子数据如此普遍，数据质量在所有商业和政府应用中起着至关重要的作用。数据质量被认为是决策活动的操作过程的相关性能问题，以及组织间合作要求。公共和
私营部门已采取若干举措，数据质量起着主导作用，例如美国政府于 2002 年颁布的“数据
质量法”和数据质量倡议框架。

[0004] 与此同时，信息系统已经从分层/单一结构迁移到基于网络的结构，组织可以使用的潜在数据源集在规模和范围上大大增加。由于这种演变，数据质量问题变得更加复杂和
有争议。在网络信息系统中，过程涉及复杂的信息交换，并且通常根据从外部源获得的输入
进行操作，这些输入通常是先验未知的。因此，如果不控制过程和信息输入的质量，则流经
信息系统的数据的整体质量会随着时间的推移而迅速降低。但是在实际生活中，文本数据
种类较多，包括结构化、非结构化以及半结构化文本数据，每种文本数据评估时侧重点不
同，但是现有对文本数据集的评估都是采用统一的标准进行评估，无法对不同种类的文本
数据生成一份精确的评估报告。

发明内容

[0005] 为了克服现有技术的不足，本发明提供一种基于多源异构特征的文本数据集质量评估方法，以解决现有对文本数据集的评估都是采用统一的标准进行评估，无法对不同种
类的文本数据生成一份精确的评估报告的问题。

[0006] 本发明解决其技术问题所采用的技术方案是：

[0007] 一种基于多源异构特征的文本数据集质量评估方法，包括以下步骤：

[0008] 获取待评估的文本数据集；

[0009] 识别所述文本数据集的数据类型，所述数据类型包括结构化数据、半结构化数据以及非结构化数据；

[0010] 根据所述文本数据集的数据类型的计算所述文本数据集的指标；

[0011] 根据所述指标生成所述文本数据集的质量评估报告。

[0012] 进一步地，所述识别所述文本数据集的数据类型包括采用预训练的数据类型识别模型识别所述文本数据集的类型。

[0013] 进一步地，当所述数据类型是结构化数据时，所述根据所述文本数据集的数据类型的计算所述文本数据集的指标包括：

[0014] 提取所述结构化数据的文本特征；

[0015] 将提取的文本特征采用深度特征合成方式得到通用特征；

[0016] 根据得到的通用特征计算所述结构化数据的准确性、完整性和一致性。

[0017] 进一步地，所述提取所述结构化数据的文本特征包括：

[0018] 对所述结构化数据进行预处理；

[0019] 根据预处理后的所述结构化数据采用word2vec技术生成关键词库；

[0020] 采用TF‑IDF技术从所述关键词库中获取文本特征。

[0021] 进一步地，所述将提取的文本特征采用深度特征合成方式得到通用特征包括：

[0022] 通过Featuretools工具，使用深度特征合成技术根据所述文本特征创建新特征，将所述新特征作为通用特征。

[0023] 进一步地，当所述数据类型是非结构化数据时，所述根据所述文本数据集的数据类型的计算所述文本数据集的指标包括：

[0024] 将非结构化数据转换为结构化数据；

[0025] 对转换后的结构化数据进行预处理；

[0026] 根据预处理后的数据采用word2vec技术生成关键词库；

[0027] 采用TF‑IDF技术从所述关键词库中获取文本特征；

[0028] 通过Featuretools工具，使用深度特征合成技术根据所述文本特征创建新特征，将所述新特征作为通用特征；

[0029] 根据得到的通用特征计算所述结构化数据的文本信息保真度、特征相似性指数和多成分文本结构相似性指数。

[0030] 进一步地，还包括：

[0031] 将计算得到的每个指标作为一个维度得到多维结构数据集；

[0032] 采用拓扑分析方法将高维数据信息映射到低维空间，使每个多维结构数据集生成一张多维拓扑分析图。

[0033] 进一步地，当所述数据类型是半结构化数据时，所述根据所述文本数据集的数据类型的计算所述文本数据集的指标包括：

[0034] 将所述半结构化数据分为结构化数据成分和非结构化数据成分；

[0035] 计算结构化数据成分的基于阈值的均方误差和计算非结构化数据成分的文本结构相似性指数、多成分文本结构相似性指数。

[0036] 进一步地，还包括：

[0037] 将计算得到的每个指标作为一个维度得到多维结构数据集；

[0038] 采用拓扑分析方法将高维数据信息映射到低维空间，使每个多维结构数据集生成一张多维拓扑分析图。

[0039] 本申请采用以上技术方案，至少具备以下有益效果：

[0040] 本申请技术方案提供一种基于多源异构特征的文本数据集质量评估方法，在获取待评估的文本数据集后，通过识别文本数据集的数据类型，得到待评估文本数据集是结构
化数据还是半结构化数据以及非结构化数据，并根据文本数据集的数据类型计算文本数据
集的指标。最后根据指标生成文本数据集的质量评估报告。由于不同数据类型采用的指标
不同，因此针对不同的数据类型可以给出精确的质量评估报告。

附图说明

[0041] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以
根据这些附图获得其他的附图。

[0042] 图1是本发明实施例提供的一种基于多源异构特征的文本数据集质量评估方法。

具体实施方式

[0043] 为使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不
是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的
前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

[0044] 参照图1，本发明实施例提供一种基于多源异构特征的文本数据集质量评估方法，包括以下步骤：

[0045] 获取待评估的文本数据集；

[0046] 识别文本数据集的数据类型，数据类型包括结构化数据、半结构化数据以及非结构化数据；

[0047] 根据文本数据集的数据类型的计算文本数据集的指标；

[0048] 根据指标生成文本数据集的质量评估报告。

[0049] 本发明实施例提供的一种基于多源异构特征的文本数据集质量评估方法，在获取待评估的文本数据集后，通过识别文本数据集的数据类型，得到待评估文本数据集是结构
化数据还是半结构化数据以及非结构化数据，并根据文本数据集的数据类型计算文本数据
集的指标。最后根据指标生成文本数据集的质量评估报告。由于不同数据类型采用的指标
不同，因此针对不同的数据类型可以给出精确的质量评估报告。

[0050] 需要说明的是，所述识别所述文本数据集的数据类型包括采用预训练的数据类型识别模型识别所述文本数据集的类型。即先采集训练数据集，并为每个训练数据集的数据
类型标记，然后根据标记后的训练数据集训练识别模型，例如神经网络模型，通过训练好的
模型能够识别待评估的文本数据集的数据类型。

[0051] 一个实施例中，本发明提供一种结构化数据的指标计算以及报告生成的过程。

[0052] 本发明实施例通过 python 来实施结构化数据集质量评估报告自动生成。

[0053] 1、文本特征提取

[0054] 本发明中，利用 word2vec 技术将训练数据集中每一份报告中的词映射到一个向量，以判断其出现的频次，从而生成一个关键词库。并采用 TF‑IDF 技术来判断要素的重要
性，从而在报告生成模块中生成最终的准确描述缺陷的缺陷报告。比如处理由客户ID、出租
车ID、日期和时间信息组成的离散的元数据，通过

[0055] 进行"词频"标准化；然后计算逆文档频率过滤掉常见的词语，保留重要的词语；最后计算TF‑IDF=TF*IDF得到该词对报告的重要性程度值。选
取值最大的 k个词向量作为报告的关键词。

[0056] 2、通用特征选择

[0057] 本发明中采用自动化特征工程方法，从一组相关数据表中，通过Featuretools工具，使用深度特征合成（DFS）从单个数据帧和多个数据帧中创建新特征。DFS通过把特征基
元应用于实体集中的实体关系来创建特征，这些基元经常被用来手动生成特征：例如基元
“mean”可在聚合级别找到变量均值。

[0058] 通过Featuretools构造数据集后，再深度构造特征，主要步骤包括加载外部库和数据、数据预处理、使用Featuretools执行特征工程和构建模型。通过以上步骤即可自动
提取有用且有意义的特征（根据DFS构造特征为成熟技术，在此不在详述）。改进了传统手工
特征工程的标准流程，减少了特征工程所花费的时间，还通过DFS技术创建了可解释的特
征，一定程度上避免维度灾难。

[0059] 3、质量评估指标

[0060] 在本发明中，针对多源异构特性的结构化数据集，结合概率统计学知识，进行结构化数据集质量评估。使用数据特征处理技术，最终提取数据特征要素即上述步骤中的通用
特征，形成可解释的数据集质量评估报告。各指标及其计算方式如下：

[0061] ①准确性

[0062] 结构准确性

[0063] 让我们考虑由 K个属性组成的关系模式R和由N个元组组成的关系表 r。令qij是布尔变量，对应于值yij，如果使得yij在语法上是准确的，则qij等于 0；否则它等于 1。

[0064] 为了识别精度误差对关系表 r 与包含正确值的参考表 r’的影响与否，我们引入另一个布尔变量si，如果元组ti匹配了r’中的元组，那么si等于 0，否则si等于1。我们引入
三个指标来区分元组上下文中值准确性的相对重要性。

[0065] 第一个度量标准称为弱精度误差，计算公式为：

[0066]

[0067] 其中β(. )是一个布尔变量，如果括号中的条件为真，则等于1，否则为0。。这个度量考虑了对于元组ti，准确性虽然存在误差(qi> 0)，但并没有什
么影响的情况(si= 0)。

[0068] 第二个指标称为强精度误差，定义为：

[0069]

[0070] 这样的度量考虑了准确性存在误差(qi> 0)，并影响了元组ti的情况(si= 1)。

[0071] 第三个指标给出了与参考表匹配的元组数目百分比。它通过实际考虑精确的元组(qi> 0)的匹配率(si= 0)来表示关系实例 r 的句法准确度。

[0072]

[0073] 时效准确性

[0074] 数据拥有随时间变化和更新的特点。按照数据的变化情况，分为稳定型数据，缓慢变化和频繁变化三种类型。为表征上述三类数据而提出的主要时间相关维度是及时性，波
动性和时效性。

[0075] 及时性是表达数据是否根据现实世界中发生的变化而及时更新了。及时性定义为：

[0076] Currency = Age + (DeliveryTime – InputTime)

[0077] 其中 Age 测量时的时间，DeliveryTime 是信息产品交付给客户的时间，InputTime是获取数据单元的时间。

[0078] 波动率表征数据随时间变化的频率。波动率定义为数据保持有效时长。

[0079] 时效性表示当前数据对手头任务有效的程度。时效性定义为：

[0080] max{ 0,1 – currency/volatility}

[0081] currency表示当前数据，volatility表示手头任务。

[0082] 时效性范围是从 0 到 1，其中0 表示时效性低，1 表示时效性高。

[0083] ②完整性

[0084] 直观地说，表的完整性表征了表代表相应现实世界的程度。关系模型的完整性可以表征为（1）空值的存在/不存在，（2）开放世界假设（OWA）和闭合世界假设（CWA）的两个假
设之一的有效性。在数据库的逻辑模型中，例如关系模型，对关系实例 r 中表示的数据的
完整性有两种不同的假设。CWA 声明只有实际存在于关系表 r 中的值才表示事实。在 OWA
中，我们既不能说明 r 的元组中没有表示的事实的真实性，也不能表示虚假性。

[0085] 关系中的元组定义为完整的，前提是当且仅当所有数据值都是完整的（即，其任何数据值都不是“null”）。对于关系 R，设为R 中至少有一个“空”值的元组数，设为
R 中的元组总数，则R的完整性定义如下：

[0086]

[0087] ③一致性

[0088] 一致性维度捕获违反语义规则的数据项，其中数据项可以是关系表中的元组或文件中的记录。参考关系理论，完整性约束(Integrity Constraints)就是一种语义规则。在
数据统计中，数据编辑(Data Edits)是另一种可以用于检查完整性的语义规则。

[0089] 完整性约束是由数据库模式定义，数据库中的所有实例必须满足这些属性。但是，如果数据不是关系数据，仍然可以定义一致性规则。例如，在统计领域，来自人口普查问卷
的数据具有与问卷调查方案相对应的结构。因此，语义规则以非常类似于关系约束的方式
定义在这样的结构上。这样的规则称为编辑规则。

[0090] 一致性度量定义如下：

[0091]

[0092] 其中 r 是一组关联规则；w+（r）和w−（r）分别表示满足和违反关联规则的得分；w0（r）是不适用关联规则的得分（建议等于零）。一般来说，满足的关联规则有助于提高总分，
而违反的规则会导致总分下降，得分较高的元组被评估为更一致。

[0093] 本发明实施例针对结构化数据集多源异构的特征，能够自动化地提取包含不同数据类型和不同数据结构的结构化数据集的特征信息，为结构化数据集质量度量提供维度和
可执行方法，评估结构化数据集质量并生成一份质量评估报告，帮助组织或企业快速处理
以及了解结构化数据集相关信息，得到高质量的数据。

[0094] 另一个实施例中，本发明提供一种非结构化数据的指标计算以及报告生成的过程。

[0095] 步骤1：接收用户上传的各领域的异构数据集，同时将其中的非结构化文本数据解析为结构化数据；

[0096] 步骤2：对解析后的数据集进行维度选择；

[0097] 步骤3：根据质量评估指标对数据集进行计算；

[0098] 步骤4：生成质量评估报告。

[0099] 以下举关键步骤详细介绍。

[0100] 将其中的非结构化文本数据解析为结构化数据包括：

[0101] 1、定义需求：文本结构化通常是基于某一个场景的某一些需求；

[0102] 2、文本预处理：对于PDF等图像格式的文档需要PDFReader进行转化；对于篇幅较长的文档通常会将文档进行分段落处理，舍弃无意义的段落，截取感兴趣的段落；对于较难
获取文档中的文档结构信息、篇章层次信息、字体格式信息等情况，需要结合计算机图像处
理的技术以及OCR技术；

[0103] 3、信息抽取：基于句法依存树进行信息抽取；或使用parsing（词性标注+依存句法分析+语义角色标注）

[0104] 对输入的数据进行清洗，过滤掉错误数据、空白数据等无效数据，保留高质量数据。

[0105] 2）利用 word2vec 技术将训练数据集中每一份报告中的词映射到一个向量，以判断其出现的频次，从而生成一个关键词库。并采用 TF‑IDF 技术来判断要素的重要性，从而
在报告生成模块中生成最终的准确描述缺陷的缺陷报告。考虑到非结构化的文本数据有长
短之分，为了便于比较，通过进行"词频"标准化；然后计算逆文
档频率过滤掉常见的词语，保留重要的词语；最后计
算TF‑IDF=TF*IDF得到该词对报告的重要性程度值。选取值最大的k个词向量作为报告的关
键词，借此来进行自动化特征提取

[0106] 3）采用自动化特征工程方法，从一组相关数据表中，通过Featuretools工具，使用深度特征合成（DFS）从单个数据帧和多个数据帧中创建新特征。DFS通过把特征基元应用于
实体集中的实体关系来创建特征，这些基元经常被用来手动生成特征：例如基元“mean”可
在聚合级别找到变量均值。通过Featuretools构造数据集后，再深度构造特征，主要步骤包
括加载外部库和数据、数据预处理、使用Featuretools执行特征工程和构建模型。通过以上
步骤即可完成自动化特征选择，自动提取有用且有意义的特征，改进了传统手工特征工程
的标准流程，减少了特征工程所花费的时间，还通过DFS技术创建了可解释的特征，一定程
度上避免维度灾难。

[0107] 1）针对具有多源异构特性的非结构化文本数据集，参考数据质量评估技术，提出以下几点指标：可解释性、置信度、噪声数据的百分比和相关性。此外，非结构化文本数据的
准确性可以使用精度和准确性等评估指标，这些度量方法将自动注释的数据与表示真实世
界的部分数据（如手动注释的黄金标准语料库）进行比较。其中：

[0108] 可解释性：数据集和数据消费者预期的数据之间的相似程度。例如，一个用于将文本分段为句子的统计预处理器，如果它是在中文文本上训练并用于分割英文文本，则数据
集和数据消费者预期的数据不相似并且数据质量较低。

[0109] 置信度：也侧重于从统计分类器的角度来看文本数据质量。统计分类器评估数属于固定的类列表中每个类的概率，这些概率也称为置信度值。如果分类决策的概率非常高，
则统计分类器的置信度被认为是高的。置信度是区间[0,1]中的数字，可用于度量数据质
量。

[0110] 噪声数据的百分比：可以用自动语法分析器无法解析的语句百分比来表示，同时也包括文本中特殊符号的识别、拼写错误的计算方法等。

[0111] 相关性：对于文本数据，可以使用信息检索系统中相关性度量确定搜索结果与搜索者的信息需求的相关性，通过关键字或文档捕获信息需求，将其与输入文本中常见的关
键字进行比较，也可以使用如余弦相似性独立确定信息需求和文本的相似性。除了常见的
关键字外，特殊性还可以指示非结构化文本数据对于某个终端用户想要完成的任务的相关
性。

[0112] 2）采用拓扑分析方法将高维数据信息映射到低维空间上，每个多维结构数据集生成一张多维数据拓扑分析图。拓扑数据分析（TDA）的输入可以是一个距离矩阵，表示任意两
数据点之间的距离；TDA研究的数据形状，可以容忍数据小范围的变形与失真。其中拓扑数
据分析的主要步骤包括：

[0113] （1）用一个滤波函数对每个数据点计算一个滤波值。这个滤波函数可以是数据矩阵的线性投影，比如PCA。也可以是距离矩阵的密度估计或者中心度指标，比如L‑infinity
(L‑infinity的取值是该点到离它最远的点的距离，是一个中心度指标)。

[0114] （2）数据点按照其滤波值，从小到大被分到不同的滤波值区间里。需要注意的是，相邻的滤波值区间设置有一定的重叠区域，也就是重叠区域的点同时属于两个区间。

[0115] （3）对每个区间里的数据分别做聚类。把上一步骤中各区间聚类的得到的小类放在一起，每一个小类用一个大小不同的圆表示。若两个类之间存在相同的原始数据点，则在
它们之间加上一条边。对上述圆和边组成的图形施加一层力学布局，让其达到平衡，就得到
最终的“数据图形”。

[0116] 对于非结构化数据，需要计算的指标及其计算公式如下：

[0117] （1）文本信息保真度（TIF）。通过计算待评的信息来衡量数据的质量优劣。计算公式如下：

[0118]

[0119] 其中Ri为文本完整性。即非结构化数据转化为结构化数据后文本信息的完整程度。

[0120] （2）特征相似性指数（FSIM），FSIM 指数基于 HVS 理解图像的前提，主要是由于其低级特性，例如边缘和零交叉。为了评估图像的质量，FSIM 算法使用两种功能。生理学和
心理物理学实验已经证明，在具有高相位一致性（PC）的点，HVS 可以提取高信息量的特征。
因此，PC 被用作 FSIM算法的主要特征。然而，PC 是对比度不变的，我们对图像质量的感知
也受到该图像的局部对比度的影响。作为这种依赖性的结果，图像梯度幅度（GM）被用作
FSIM 算法中的次要特征。计算 FSIM 测量包括两个阶段：计算图像的 PC 和 GM，以及计
算参考图像和测试图像之间的相似性度量。通过以下公式进行计算。

[0121]

[0122] 具体FSIM内各参数的含义以及具体计算过程为本领域技术常用技术手段，在此不再详述，示例性的，详见：

[0123] https://blog.csdn.net/xiaoxifei/article/details/84949594《图像质量评估指标（3）特征相似度FSIM》

[0124] （3）多成分文本结构相似性指数（MS‑SSIM），多尺度方法（如 MS‑SSIM）的优势在于不同分辨率和观察条件下的图像细节被合并到质量评估算法中，通过以下公式进行计算。

[0125]

[0126]

[0127] 具体FSIM内各参数的含义以及具体计算过程为本领域技术常用技术手段多成分文本结构相似性指数，在此不再详述。

[0128] 本发明实施例针对非结构化文本数据提供数据清洗、标准化和归一化等解决处理方法，同时对多源数据采取接口化处理以得到一致性数据。如图书馆数据库中的文档，这些
文档可能包含结构字段，如标题、作者、出版日期等；也可能包含大量非结构化文本成分，如
摘要和正文内容。可以采用删除特殊字符及标签、词干提取和词性还原等文本预处理，再通
过词袋模型或TF‑IDF 模型等数据特征处理技术，自动化提取特征，最终生成统一化的结构
化数据。对前序数据处理后的数据概况通过多个指标展示，使用PCA主成分分析法，以降维
形式展示多维特征的数据拓扑图。选取预定义的多个指标，为用户建立对该数据集的初步
认知。

[0129] 另一个实施例中，本发明提供一种半结构化数据的指标计算以及报告生成的过程。

[0130] 步骤1：接收用户上传的各领域的异构数据集，同时将其中的半结构化数据解析为结构化数据；

[0131] 步骤2：对解析后的数据集进行清洗；

[0132] 步骤3：对清洗后的数据集进行特征选择；

[0133] 步骤4：计算质量评估指标，以此生成质量评估报告。

[0134] 以下举关键步骤详细介绍。

[0135] 1）对输入数据集进行数据结构检测，采用自动化特征工程方法，划分为结构化和非结构化的成分。结构化成分根据阈值建立起基于阈值的均方误差度量指标
MSEthreshold，根据每种成分yi的权重wi和该成分与阈值的误差进行评估。

[0136]

[0137] 利用TF‑IDF技术，从一组相关数据表的非结构化成分中自动提取关键词作为文本特征，根据每种数据成分的标签计算出文本结构相似性指数StextSIM和多成分的文本结构
相似性指数MS‑StextSIM。、分别表示非结构化成分的关键词X和非结构化数据成
分的标签Y的词向量的均值，分别表示X和Y的词向量的标准差，分
别表示X和Y的词向量的方差。代表X和Y的词向量协方差。C1，C2和C3为常数，是为了避
免分母为0而维持稳定。

[0138]

[0139] 当某个半结构化数据中包含M个非结构化成分时，该数据的和多成分的文本结构相似性指数MS‑StextSIM可被计算出来。

[0140]

[0141] 通过将半结构化数据中的文本特征定义为质量特征，改进了传统手工特征工程的标准流程，减少了特征工程所花费的时间，同时利用决策树技术建立可解释的特征，一定程
度上避免维度灾难。

[0142] 2）对数据进行清洗，设置空字段标志和噪音字段标志，对于包含大量空字段的数据进行丢弃，对于包含少量空字段的数据进行基于规则的补全，对噪音字段的数据实现数
据内部的噪音字段剔除，最终提取出高质量数据。

[0143] 3）自动化特征提取和自动化特征选择，将待评估的半结构化数据集中的每一份数据映射到一个词向量，从而用以判断其出现的频次，从而生成一个关键词库。并采用 TF‑
IDF 技术来判断要素的重要性，从而在报告生成模块中生成最终的准确描述质量的质量报
告。首先通过jieba分词库对长文本进行分词，分割成与其他数据项粒度一致的词单元；接
着分别计算词频(Term Frequency)和逆文本频率指数(Inverse Document Frequency)，公
式分别如下所示：

[0144] ，

[0145] ，

[0146] 进而得到每个词单元的重要程度；最后根据重要程度进行单元词的排序，得到当前非结构化数据中的核心主题词。

[0147] 1）对输入数据集进行数据结构检测，采用自动化特征工程方法，利用TF‑IDF技术，从一组相关数据表中自动提取半结构化文本特征，本方法将半结构化文本特征定义为质量
特征，改进了传统手工特征工程的标准流程，减少了特征工程所花费的时间，利用决策树技
术建立可解释的特征，一定程度上避免维度灾难。

[0148] 2）计算数据质量指标，我们针对多源异构特性的半结构化文本数据集本身，根据数据结构类型，参考数据质量评估技术，结合概率统计学知识，提出多套新指标，即针对结
构化数据成分的基于阈值的均方误差（MSEthreshold）和针对非结构化数据成分的文本结
构相似性指数（StextSIM）、多成分文本结构相似性指数（MS‑StextSIM）。

[0149] 3）生成多维拓扑图，采用拓扑分析方法将高维数据信息映射到低维空间上，每个多维结构数据集生成一张多维数据拓扑分析图。

[0150] 其中，1.针对结构化数据成分的基于阈值的均方误差（MSEthreshold）：

[0151] MSE 表示失真的功率，即参考图像和测试图像之间的差异，计算公式如下：

[0152]

[0153] MSE 通常转换为峰值信噪比（PSNR）。PSNR 是信号的最大可能功率与失真功率之比，它通过以下公式计算（其中 D 表示像素强度的动态范围）：

[0154]

[0155] 针对非结构化数据成分的文本结构相似性指数（StextSIM）:

[0156]

[0157] 设定，以及。

[0158] 多成分文本结构相似性指数（MS‑StextSIM）：

[0159]

[0160] 本发明实施例以大批量地针对多源异构特征的半结构化文本数据集进行质量评估，并有效生成质量评估报告，使得开发人员能够调整数据集，从而提高机器学习领域的模
型质量。

[0161] 可以理解的是，由于提出的指标采用的计算公式都有成熟的计算方式，因此对于计算公式中一些参数没有进行一一解释，本领域技术人员可以根据现有技术理解上述发明
实施例中的计算公式。

[0162] 需要说明的是，将上述各个实施例中计算得到的各指标与预设阈值比较；将全部符合预设阈值的文本数据集作为稳定训练数据。

[0163] 可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

[0164] 需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义
是指至少两个。

[0165] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部
分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺
序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请
的实施例所属技术领域的技术人员所理解。

[0166] 应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件
或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下
列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场
可编程门阵列（FPGA）等。

[0167] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介
质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

[0168] 此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模
块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机
可读取存储介质中。

[0169] 上述提到的存储介质可以是只读存储器，磁盘或光盘等。

[0170] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不
一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何
的一个或多个实施例或示例中以合适的方式结合。

[0171] 尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述
实施例进行变化、修改、替换和变型。

一种基于多源异构特征的文本数据集质量评估方法转让专利

申请号 : CN202110548575.7

文献号 : CN112989827B

文献日 : 2021-08-27

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 章海锋 , 刘晓雷 , 丁仙峰 , 于广郢

申请人 : 江苏数兑科技有限公司

摘要 :

权利要求 :

说明书 :