基于小概率数据的测试数据构造方法及装置转让专利

申请号 : CN202010971837.6

文献号 : CN112131106B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 安登坤刘梦娇强澄英

申请人 : 电信科学技术第十研究所有限公司

摘要 :

本发明公开了一种基于小概率数据的测试数据构造方法及装置,该方法包括:获取多种不同类型的样本数据源,并根据待测业务系统中各业务模型的算法特征抽取包含算法特征的抽样数据;对抽样数据按照类型分类后进行拟合优度检验,确定得到的各分类抽样数据的最佳分布形态;从各分类抽样数据中抽取满足预设抽取条件的小概率数据;对小概率数据进行汇总和聚类分析,并对应提取小概率数据的数据特征;构造多个用于对待测业务系统中各业务模型进行测试的测试数据。本发明能够使测试人员尽快的找出大数据系统中可能存在的模型错误或程序逻辑错误,有效提高了大数据模型测试的效率,也能够通过发现的小概率数据的数据特征,补充业务中可能遗漏的模型类型。

权利要求 :

1.一种基于小概率数据的测试数据构造方法,其特征在于,包括:

获取多种不同类型的样本数据源,并根据待测业务系统中各业务模型的算法特征,从所述样本数据源中抽取所有包含所述算法特征的抽样数据;

对所述抽样数据按照类型分类后进行拟合优度检验,确定得到的各分类抽样数据的最佳分布形态;

根据所述分类抽样数据的最佳分布形态,从各所述分类抽样数据中抽取满足预设抽取条件的小概率数据;

根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征;

根据各所述小概率数据的数据特征,分别构造多个用于对待测业务系统中各业务模型进行测试的测试数据;

所述根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征的步骤中,通过基于核的图像模糊局部聚类算法对所述小概率数据进行聚类分析,构造的目标函数如下:其中,X={x1,x2,...,xi,...,xn}为特征样本集合,n为样本总数,V={v1,v2,...,vj,...,vc}为区域的聚类中心,c为分类数,U为隶属度矩阵,uij为隶属度,即第i个样本xi与求得的最佳聚类中心点vj之间的隶属程度,ηij为中立度,即第i个样本xi属于不同聚类中心vj的程度,ξij为拒分度,即第i个样本xi不属于任何一个聚类中心vj的程度,Φ为核函数,α为控制拒分度的指数系数,NR与Nr均为邻域内样本的个数,m为模糊加权指数。

2.根据权利要求1所述的方法,其特征在于,在所述获取多种不同类型的样本数据源之后,还包括:将所述样本数据源输入待测业务系统中进行数据清洗操作,得到数据字段标准化后的样本数据源。

3.根据权利要求1所述的方法,其特征在于,对所述抽样数据按照类型分类后进行拟合优度检验之前,还包括:根据待测业务系统中各业务模型的算法特征,确定待测业务系统中各业务模型的主属性字段。

4.根据权利要求1所述的方法,其特征在于,所述根据所述分类抽样数据的最佳分布形态,从各所述分类抽样数据中抽取满足预设抽取条件的小概率数据的步骤中,所述预设抽取条件为所述分类抽样数据的一般概率小于5%。

5.一种基于小概率数据的测试数据构造装置,其特征在于,包括:

抽样数据抽取单元,用于获取多种不同类型的样本数据源,并根据待测业务系统中各业务模型的算法特征,从所述样本数据源中抽取所有包含所述算法特征的抽样数据;

分布形态确定单元,用于对所述抽样数据按照类型分类后进行拟合优度检验,确定得到的各分类抽样数据的最佳分布形态;

小概率数据抽取单元,用于根据所述分类抽样数据的最佳分布形态,从各所述分类抽样数据中抽取满足预设抽取条件的小概率数据;

数据特征提取单元,用于根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征;

基于小概率数据的测试数据构造单元,用于根据各所述小概率数据的数据特征,分别构造多个用于对待测业务系统中各业务模型进行测试的测试数据;

所述根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征的步骤中,通过基于核的图像模糊局部聚类算法对所述小概率数据进行聚类分析,构造的目标函数如下:其中,X={x1,x2,...,xi,...,xn}为特征样本集合,n为样本总数,V={v1,v2,...,vj,...,vc}为区域的聚类中心,c为分类数,U为隶属度矩阵,uij为隶属度,即第i个样本xi与求得的最佳聚类中心点vj之间的隶属程度,ηij为中立度,即第i个样本xi属于不同聚类中心vj的程度,ξij为拒分度,即第i个样本xi不属于任何一个聚类中心vj的程度,Φ为核函数,α为控制拒分度的指数系数,NR与Nr均为邻域内样本的个数,m为模糊加权指数。

6.根据权利要求5所述的装置,其特征在于,所述抽样数据抽取单元还用于:将所述样本数据源输入待测业务系统中进行数据清洗操作,得到数据字段标准化后的样本数据源。

7.根据权利要求6所述的装置,其特征在于,所述分布形态确定单元还用于:根据待测业务系统中各业务模型的算法特征,确定待测业务系统中各业务模型的主属性字段。

8.根据权利要求5所述的装置,其特征在于,所述预设抽取条件为所述分类抽样数据的一般概率小于5%。

说明书 :

基于小概率数据的测试数据构造方法及装置

技术领域

[0001] 本发明涉及计算机软件测试技术领域,具体涉及一种基于小概率数据的测试数据构造方法及装置。

背景技术

[0002] 随着时代的发展,人们逐步迈入到了大数据时代。目前,针对大数据挖掘的各项大数据技术,对企业的发展做出了不可突破性的贡献。然而,由于大数据的数据量量较大,且多样化,价值提取难度大,如何在较短的周期内,使用有效的方法构造出有效的测试数据找出大数据业务系统中建立的各个业务模型可能存在的数据缺陷或模型逻辑缺陷,是目前软件测试人员面临的重要问题。
[0003] 需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

[0004] 本发明实施例提供一种基于小概率数据的测试数据构造方法及装置,以解决现有技术中软件测试人员难以在较短的周期内构造出有效的测试数据来找出大数据业务系统中建立的各个业模型可能存在的缺陷的问题。
[0005] 第一方面,本发明实施例提供一种基于小概率数据的测试数据构造方法,包括:
[0006] 获取多种不同类型的样本数据源,并根据待测业务系统中各业务模型的算法特征,从所述样本数据源中抽取所有包含所述算法特征的抽样数据;
[0007] 对所述抽样数据按照类型分类后进行拟合优度检验,确定得到的各所述分类抽样数据的最佳分布形态;
[0008] 根据所述分类抽样数据的最佳分布形态,从各所述分类抽样数据中抽取满足预设抽取条件的小概率数据;
[0009] 根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征;
[0010] 根据各所述小概率数据的数据特征,分别构造多个用于对待测业务系统中各业务模型进行测试的测试数据。
[0011] 作为本发明第一方面的优选方式,在所述获取多种不同类型的样本数据源之后,还包括:
[0012] 将所述样本源数据输入待测业务系统中进行数据清洗操作,得到数据字段标准化后的样本数据源。
[0013] 作为本发明第一方面的优选方式,所述在对所述抽样数据分类型进行拟合优度检验之前,还包括:
[0014] 根据待测业务系统中各业务模型的算法特征,确定待测业务系统中各业务模型的主属性字段。
[0015] 作为本发明第一方面的优选方式,所述根据所述分类抽样数据的最佳分布形态,从各所述分类抽样数据中抽取满足预设抽取条件的小概率数据的步骤中,所述预设抽取条件为所述分类抽样数据的一般概率小于5%。
[0016] 作为本发明第一方面的优选方式,所述根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征的步骤中,通过基于核的图像模糊局部聚类算法对所述小概率数据进行聚类分析,构造的目标函数如下:
[0017]
[0018] 其中,X={x1,x2,…,xi,…,xn}为特征样本集合,n为样本总数,V={v1,v2,…,vj,…,vc}为区域的聚类中心,c为分类数,U为隶属度矩阵,uij为隶属度,即第i个样本xi与求得的最佳聚类中心点vj之间的隶属程度,ηij为中立度,即第i个样本xi属于不同聚类中心vj的程度,ξij为拒分度,即第i个样本xi不属于任何一个聚类中心vj的程度,Φ为核函数,α为控制拒分度的指数系数,N为核函数,NR与Nr均为邻域内样本的个数。
[0019] 第二方面,本发明实施例提供一种基于小概率数据的测试数据构造装置,包括:
[0020] 抽样数据抽取单元,用于获取多种不同类型的样本数据源,并根据待测业务系统中各业务模型的算法特征,从所述样本数据源中抽取所有包含所述算法特征的抽样数据;
[0021] 分布形态确定单元,用于对所述抽样数据按照类型分类后进行拟合优度检验,确定得到的各所述分类抽样数据的最佳分布形态;
[0022] 小概率数据抽取单元,用于根据所述分类抽样数据的最佳分布形态,从各所述分类抽样数据中抽取满足预设抽取条件的小概率数据;
[0023] 数据特征提取单元,用于根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征;
[0024] 测试数据构造单元,用于根据各所述小概率数据的数据特征,分别构造多个用于对待测业务系统中各业务模型进行测试的测试数据。
[0025] 作为本发明第二方面的优选方式,所述抽样数据抽取单元还用于:
[0026] 将所述样本源数据输入待测业务系统中进行数据清洗操作,得到数据字段标准化后的样本数据源。
[0027] 作为本发明第二方面的优选方式,所述分布形态确定单元还用于:
[0028] 根据待测业务系统中各业务模型的算法特征,确定待测业务系统中各业务模型的主属性字段。
[0029] 作为本发明第二方面的优选方式,所述预设抽取条件为所述分类抽样数据的一般概率小于5%。
[0030] 作为本发明第二方面的优选方式,通过基于核的图像模糊局部聚类算法对所述小概率数据进行聚类分析,构造的目标函数如下:
[0031]
[0032] 其中,其中,X={x1,x2,…,xi,…,xn}为特征样本集合,n为样本总数,V={v1,v2,…,vj,…,vc}为区域的聚类中心,c为分类数,U为隶属度矩阵,uij为隶属度,即第i个样本xi与求得的最佳聚类中心点vj之间的隶属程度,ηij为中立度,即第i个样本xi属于不同聚类中心vj的程度,ξij为拒分度,即第i个样本xi不属于任何一个聚类中心vj的程度,Φ为核函数,α为控制拒分度的指数系数,N为核函数,NR与Nr均为邻域内样本的个数。
[0033] 第三方面,本发明实施例提供一种计算设备,包括处理器和存储器,其中所述存储器内存储有执行指令,所述处理器读取所述存储器内的执行指令用于执行如上述基于小概率数据的测试数据构造方法所述的步骤。
[0034] 第四方面,本发明实施例提供一种计算机可读存储介质,包含计算机执行指令,所述计算机执行指令被用于执行如上述基于小概率数据的测试数据构造方法所述的步骤。
[0035] 本发明实施例提供的一种基于小概率数据的测试数据构造方法及装置,通过对大量样本数据进行抽取,再进行拟合优度检验、二次抽取、特征提取归类等方式,最终提取出可用的小概率数据来构造测试数据,从而对待测的大数据业务系统中各业务模型进行测试,能够使测试人员尽快的找出大数据系统中可能存在的模型错误或程序逻辑错误,有效提高了大数据模型测试的效率,也能够通过发现的小概率数据的数据特征,补充业务中可能遗漏的模型类型。

附图说明

[0036] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037] 图1为本发明实施例提供的一种基于小概率数据的测试数据构造方法的实现流程图;
[0038] 图2为本发明实施例提供的一种基于小概率数据的测试数据构造装置的结构示意图;
[0039] 图3为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

[0040] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0041] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0042] 参照图1所示,本发明实施例公开了一种基于小概率数据的测试数据构造方法,该方法主要包括以下步骤:
[0043] 101、获取多种不同类型的样本数据源,并根据待测业务系统中各业务模型的算法特征,从样本数据源中抽取所有包含算法特征的抽样数据;
[0044] 102、对抽样数据按照类型分类后进行拟合优度检验,确定得到的各分类抽样数据的最佳分布形态;
[0045] 103、根据分类抽样数据的最佳分布形态,从各分类抽样数据中抽取满足预设抽取条件的小概率数据;
[0046] 104、根据待测业务系统中各业务模型的算法规则,对小概率数据进行汇总和聚类分析,并对应提取小概率数据的数据特征;
[0047] 105、根据各小概率数据的数据特征,分别构造多个用于对待测业务系统中各业务模型进行测试的测试数据。
[0048] 目前,大数据技术对企业的发展做出了不可突破性的贡献。然而,由于大数据的数据量量较大,且多样化,价值提取难度大,如何在较短的周期内,使用有效的方法构造出有效的测试数据找出大数据业务系统中建立的各个业务模型可能存在的数据缺陷或模型逻辑缺陷,是目前软件测试人员面临的重要问题。
[0049] 虽然大数据自身存在多样性和复杂性等特点,但是由于其数据量大所以具有完整性,因此也能被测试人员加以利用,用以寻找大数据业务系统中可能存在的问题。本发明将从大数据业务系统的大量数据本身出发,利用被人们忽视的“噪音”数据或被误认为不符合业务规律的数据,从其中提取出可用的小概率数据,形成一种可靠可行的测试方法,来完成对大数据业务系统的测试。
[0050] 该方法具有一定的通用性,小概率数据形成的测试数据,能够使测试人员尽快地找出大数据业务系统中可能存在的模型错误或程序逻辑错误,或者可通过相关数据,对发现的数据规律进行模型优化。另外,还能够快速地确认问题是否确实存在,且在回归测试和后续类似业务功能测试中,能够形成测试数据和测试方法的积累。
[0051] 在步骤101中,本实施例中需要测试的待测业务系统,其主要为大数据业务系统,这些大数据业务系统中均建立了多个业务模型。因此,对待测业务系统进行测试,即是使用有效的方法构造出有效的测试数据来找出大数据业务系统中建立的各个业务模型可能存在的数据缺陷或模型逻辑缺陷。
[0052] 在进行测试数据构造之前,先接收大数据业务系统的大量数据作为样本数据,再从中提取出可用的小概率数据来进行测试数据的构造。获取到多种不同类型的样本数据源后,可根据对原始的各类样本数据源先进行标记,可依次标记为D1样本数据源、D2样本数据源、D3样本数据源、……、Da样本数据源等。
[0053] 本实施例中,对样本数据源的获取和接收过程不做限定,本领域技术人员可以根据实际情况进行获取和接收。
[0054] 接着,根据待测业务系统中各业务模型的算法特征,可按照时序,或者结合业务依据其他顺序,从上述样本数据源中抽取出所有包含该算法特征的抽样数据。
[0055] 示例性地,对人物全息画像而言,可按照不同的数据类型,分别选取数据量集中、数据量较少等多种范围内的数据,但每种数据类型,必须为包含各业务模型的算法特征的全量数据。
[0056] 优选地,在步骤101中,执行完获取多种不同类型的样本数据源之后,还包括如下步骤:
[0057] 101‑1、将样本源数据输入待测业务系统中进行数据清洗操作,得到数据字段标准化后的样本数据源。
[0058] 上述获取到多种不同类型的样本数据源后,将样本数据源中的数据输入到待测业务系统已有的采集装置和清洗装置后,数据会依据业务架构的数据清洗规则等对数据的内容重新进行规整,得到数据字段标准化后的样本数据源,可以方便后续的操作。
[0059] 在步骤102中,使用Matlab、Minitab、Crystal Ball、Spss等统计工具,对之前抽取的全部抽样数据进行梳理,按照类型进行分类处理,对输出的每种类型的分类抽样数据拟合优度进行查看,确定各分类抽样数据的形式符合的最佳分布形态。
[0060] 一般情况下,拟合优度的分布形态基本上为正态分布、Gamma分布、卡方分布、泊松分布、二项分布、指数分布或Weibull分布等常见分布类型。具体情况,需本领域技术人员依据工具结果进行排除或判定。
[0061] 也可使用多个工具对拟合优度进行最终检验,多个工具的偏差结果应无较大差异。
[0062] 示例性地,在人物全息画像中的通信话单归属地模型中,分类抽样数据拟合优度最高的分布形态,经Minitab使用判定后,最满足的分布形态为正态分布,即本地市的通信话单必然处于正态曲线的均数中心位置,其他各地市的话单数量则按照钟型曲线规律逐步向两侧递减。
[0063] 此步骤完成后,输出符合某种分布状态的各分类抽样数据的最佳分布形态图形及数据列表。
[0064] 优选地,在步骤102中,执行对抽样数据分类型进行拟合优度检验之前,还包括如下步骤:
[0065] 102‑1、根据待测业务系统中各业务模型的算法特征,确定待测业务系统中各业务模型的主属性字段。
[0066] 待测业务系统中建立的一个或者多个业务模型,鉴于每个业务模型都有业务很强的算法特征,其输入的数据中,必然存在所需的主属性字段,因此可对单个业务模型的主属性字段进行确立,便于后续步骤具有针对性的统计和分析。每一个业务模型可以选择一个或者两个主属性字段,需根据待测的业务模型和用户关心的字段进行确定。
[0067] 确定好各业务模型的主属性字段后,可对抽样数据中的主属性数据字段及关联较强的数据字段,或用户所需的数据字段进行保存,可删除关联性较低的数据字段,从而输出该抽样数据。
[0068] 下面,本实施例中将列举Minitab的使用以说明具体方法的应用,其他工具的使用方式,本领域技术人员应结合自身技术及经验进行选择。
[0069] 假设抽样数据中,主属性字段是A1,用户关心的字段为B1,可使用Minitab导入所有的抽样数据中的数据。利用该工具的“个体分布标识”功能,选中“使用所有分布和变换”,该工具会自动对所有的分布和变化进行匹配计算,形成多个数据分布拟合图,并在每个图侧配有拟合优度检验。
[0070] 需注意的是,在“拟合优度检验”中,首先看该工具展示的AD值,AD值越小越好,其次看P值,P值最好大于0.10,当然P值也可进行设置;否则,按照大小次序选择。其中,本领域技术人员应根据该工具展示的图形对AD值与P值进行不断调整,最终依据拟合度获得最佳值。
[0071] 在步骤103中,根据上述输出的各分类抽样数据的最佳分布形态图形,对明显偏离中心区域的小概率数据再次进行抽取。本实施例中,小概率数据指一般概率小于某一预设值的数据。
[0072] 抽取时,需满足小概率数据的预设抽取条件,即其占比要求,会定义抽取的一般概率值。根据该概率值,从各分类抽样数据的最佳分布形态图形的边缘处进行抽取,并取出其对应的数据列表。
[0073] 最后,可对截取出的小概率数据进行观察,通过继续增加概率值或降低概率值,加入仍认为对业务有效的数据,形成最终的小概率数据。
[0074] 优选地,步骤103中,上述预设抽取条件为分类抽样数据的一般概率小于5%。
[0075] 从各分类抽样数据的最佳分布形态图形中抽取满足预设抽取条件的小概率数据时,该预设抽取条件设置为分类抽样数据的一般概率小于5%。
[0076] 示例性地,对于上述满足正态分布的通信归属地话单数据,从该最佳分布形态图形,即正态分布图形中抽取两侧的占全部数据5%的数据作为小概率数据。
[0077] 在步骤104中,根据待测业务系统中各业务模型的算法规则,对抽取出的小概率数据进行观察,然后对所有小概率数据进行汇总和聚类分析,比对应提取出小概率数据的数据特征,可以作为后续业务模型的待测数据。
[0078] 示例性地,针对人物全息画像的话单数据中,可能存在由于数据清洗规则不正确,造成的号码为0或为空的话单种类,或者存在过期证件号码等问题,也可能存在除本地市外,另一地市的话单占比也远远高于其他地市的占比高度等状况。
[0079] 若观察后,认为上述步骤抽取到的小概率数据可用价值不大,则可返回至根据待测业务系统中各业务模型的算法特征,从样本数据源中抽取所有包含算法特征的抽样数据的步骤,再次明确业务特点和算法特征,重新进行样本数据的抽取。
[0080] 具体地,在对小概率数据进行聚类分析时,常用的聚类分析方法包括观测值聚类、变量聚类、K均值聚类、C‑均值聚类、正态混合聚类等多种方法。示例性地,如采用C‑均值聚类时,由于传统的C‑均值聚类对异常数据十分敏感,导致聚类结果不能保持较好的区域一致性,区域内异常数据较多时,会使得聚类效果不理想,因此本实施例中提供一种新的聚类方法对数据进行分类,通过对传统的C‑均值聚类算法目标函数增加控制邻域数据的约束项来改变C均值算法的目标函数。
[0081] 优选地,步骤104中,通过基于核的图像模糊局部聚类算法对小概率数据进行聚类分析,构造的目标函数如下:
[0082]
[0083] 其中,X={x1,x2,…,xi,…,xn}为特征样本集合,n为样本总数,V={v1,v2,…,vj,…,vc}为区域的聚类中心,c为分类数,U为隶属度矩阵,uij为隶属度,即第i个样本xi与求得的最佳聚类中心点vj之间的隶属程度,ηij为中立度,即第i个样本xi属于不同聚类中心vj的程度,ξij为拒分度,即第i个样本xi不属于任何一个聚类中心vj的程度,Φ为核函数,α为控制拒分度的指数系数,N为核函数,NR与Nr均为邻域内样本的个数。
[0084] 传统的C‑均值聚类算法为:
[0085]
[0086] 其中,X={x1,x2,…,xn}是特征样本集合,N表示样本总数,c是分类数,V={v1,v2,…,vc}表示区域的聚类中心,U是隶属度矩阵。vk表示第i个聚类中心,m是模糊加权指数,2
uik表示第i个样本属于第k类的程度。d (xi,vk)表示第i个样本到第k个聚类中心的欧氏距离。一般取m=2。隶属度uik之和应满足:
[0087]
[0088] 为使目标函数最小化,利用拉格朗日乘子建立目标优化函数,求目标函数关于隶属度和聚类中心的偏导数,并令偏导数为0,求得的隶属度和聚类中心迭代更新表达式为:
[0089]
[0090]
[0091] 迭代式(3)和(4),若满足迭代条件t>T或 则停止计算。算法结束后,对样本数据进行分类,分类原则是遵循最大隶属度原则。若uji>ujk,则将xj归为第i类。
[0092] 增加控制邻域数据的约束项得到下式:
[0093]
[0094] 从而得到新的改进聚类算法。其中,Ni为落在以点vk为中心的邻域窗口内的邻域数据样本的近邻集合,NR为邻域内样本的个数,α为控制系数。约束条件为:
[0095]
[0096] 与标准FCM的求解过程相类似,采用拉格朗日乘数法得到的隶属度更新公式为:
[0097]
[0098]
[0099] 并且,为了将原空间的非线性信息转化为线性问题进行处理,提出一种改进的基于核的图像模糊局部聚类算法,其目标函数为:
[0100]
[0101] 其中,X={x1,x2,…,xi,…,xn}为特征样本集合,n为样本总数,V={v1,v2,…,vj,…,vc}为区域的聚类中心,c为分类数,U为隶属度矩阵,uij为隶属度,即第i个样本xi与求得的最佳聚类中心点vj之间的隶属程度,ηij为中立度,即第i个样本xi属于不同聚类中心vj的程度,ξij为拒分度,即第i个样本xi不属于任何一个聚类中心vj的程度,Φ为核函数,α为控制拒分度的指数系数,N为核函数,NR与Nr均为邻域内样本的个数。
[0102] 关于隶属度U的拉格朗日函数为:
[0103]
[0104] 由 得隶属度uij的表达式为:
[0105]
[0106] 关于V的拉格朗日函数为:
[0107]
[0108] 由 得聚类中心vj的表达式为:
[0109]
[0110] 在算法的具体实现时,使用简化后的下式来代替上式,从来达到减少计算的目的,实验结果表明,这样的简化并不会对聚类分割的质量产生影响。
[0111]
[0112] 关于η的拉格朗日函数为:
[0113]
[0114] 由 得:
[0115]
[0116] 求得中立度ηij表达式为:
[0117]
[0118] 求得隶属度uij和中立度ηij表达式后,通过yager生成算子可以求得拒分度ξij表达式为:
[0119] ξij=1‑(uij+ηij)‑(1‑(uij+ηij)α)1/α,
[0120] 其中α是PFS集中控制拒分度的指数系数,且α>0。
[0121] 通过该上述推倒过程获得的目标函数,可对步骤104中的数据完成聚类分析,提取出更具价值的测试数据。同时,还创建出多个测试数据集,并使得每一个数据集中各自的样本数据更加类似,剥离与数据集偏差较大的无效数据,可有效减少测试误差。
[0122] 通过该算法可以对大量数据进行更合理有效的分类,从而获得异常数据值。
[0123] 该过程中,仍可使用步骤102中的Minitab、Crystal Ball等工具输入各分类抽样数据的最佳分布形态图形对应的数据列表得出小概率数据,从而使得提取出的小概率数据更具有代表性。
[0124] 在步骤105中,根据上述各个小概率数据的数据特征,有针对性地构造多个测试数据用于对待测业务系统中各业务模型进行测试。使用该测试数据,能够使测试人员尽快地找出大数据系统中可能存在的模型错误或程序逻辑错误,有效提高了大数据模型测试的效率,也能够通过发现的小概率数据的数据特征,补充业务中可能遗漏的模型类型。
[0125] 本实施例中,对测试数据的具体构造过程不做限定,本领域技术人员可以依据实际情况选择合适的构造过程。
[0126] 本发明实施例提供的一种基于小概率数据的测试数据构造方法,通过对大量样本数据进行抽取,再进行拟合优度检验、二次抽取、特征提取归类等方式,最终提取出可用的小概率数据来构造测试数据,从而对待测的大数据业务系统中各业务模型进行测试,能够使测试人员尽快的找出大数据系统中可能存在的模型错误或程序逻辑错误,有效提高了大数据模型测试的效率,也能够通过发现的小概率数据的数据特征,补充业务中可能遗漏的模型类型。
[0127] 需要说明的是,对于上述方法的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
[0128] 参照图2所示,基于同一发明构思,本发明实施例提供一种基于小概率数据的测试数据构造装置,该装置主要包括:
[0129] 抽样数据抽取单元21,用于获取多种不同类型的样本数据源,并根据待测业务系统中各业务模型的算法特征,从所述样本数据源中抽取所有包含所述算法特征的抽样数据;
[0130] 分布形态确定单元22,用于对所述抽样数据按照类型分类后进行拟合优度检验,确定得到的各所述分类抽样数据的最佳分布形态;
[0131] 小概率数据抽取单元23,用于根据所述分类抽样数据的最佳分布形态,从各所述分类抽样数据中抽取满足预设抽取条件的小概率数据;
[0132] 数据特征提取单元24,用于根据待测业务系统中各业务模型的算法规则,对所述小概率数据进行汇总和聚类分析,并对应提取所述小概率数据的数据特征;
[0133] 测试数据构造单元25,用于根据各所述小概率数据的数据特征,分别构造多个用于对待测业务系统中各业务模型进行测试的测试数据。
[0134] 优选地,所述抽样数据抽取单元21还用于:
[0135] 将所述样本源数据输入待测业务系统中进行数据清洗操作,得到数据字段标准化后的样本数据源。
[0136] 优选地,所述分布形态确定单元22还用于:
[0137] 根据待测业务系统中各业务模型的算法特征,确定待测业务系统中各业务模型的主属性字段。
[0138] 优选地,所述预设抽取条件为所述分类抽样数据的一般概率小于5%。
[0139] 优选地,通过基于核的图像模糊局部聚类算法对所述小概率数据进行聚类分析,构造的目标函数如下:
[0140]
[0141] 其中,其中,X={x1,x2,…,xi,…,xn}为特征样本集合,n为样本总数,V={v1,v2,…,vj,…,vc}为区域的聚类中心,c为分类数,U为隶属度矩阵,uij为隶属度,即第i个样本xi与求得的最佳聚类中心点vj之间的隶属程度,ηij为中立度,即第i个样本xi属于不同聚类中心vj的程度,ξij为拒分度,即第i个样本xi不属于任何一个聚类中心vj的程度,Φ为核函数,α为控制拒分度的指数系数,N为核函数,NR与Nr均为邻域内样本的个数。
[0142] 综上所述,本发明实施例提供的一种基于小概率数据的测试数据构造装置,通过对大量样本数据进行抽取,再进行拟合优度检验、二次抽取、特征提取归类等方式,最终提取出可用的小概率数据来构造测试数据,从而对待测的大数据业务系统中各业务模型进行测试,能够使测试人员尽快的找出大数据系统中可能存在的模型错误或程序逻辑错误,有效提高了大数据模型测试的效率,也能够通过发现的小概率数据的数据特征,补充业务中可能遗漏的模型类型。
[0143] 需要说明的是,本发明实施例提供的基于小概率数据的测试数据构造装置与前述实施例所述的基于小概率数据的测试数据构造方法属于相同的技术构思,其具体实施过程可参照前述实施例中对方法步骤的说明,在此不再赘述。
[0144] 应当理解,以上一种基于小概率数据的测试数据构造装置包括的单元仅为根据该装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种基于小概率数据的测试数据构造装置所实现的功能与上述实施例提供的一种基于小概率数据的测试数据构造方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。
[0145] 参照图3所示,基于同一发明构思,该计算设备主要包括处理器31和存储器32,其中存储器32内存储有执行指令。该处理器31读取存储器32内的执行指令用于执行上述基于小概率数据的测试数据构造方法实施例中所述的步骤。或者,该处理器31读取存储器32内的执行指令用于实现上述基于小概率数据的测试数据构造装置实施例中各单元的功能。
[0146] 图3为本发明实施例提供的计算设备的一种结构示意图,如图3所示,该计算设备包括处理器31、存储器32和收发器33;其中,处理器31、存储器32和收发器33通过总线34相互连接。
[0147] 存储器32用于存储程序;具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器32可以包括易失性存储器(volatile memory),例如随机存取存储器(random‑access memory,简称RAM);存储器32也可以包括非易失性存储器(non‑volatilememory),例如快闪存储器(flash memory),硬盘(hard disk drive,简称HDD)或固态硬盘(solid‑state drive,简称SSD);存储器32还可以包括上述种类的存储器的组合。
[0148] 存储器32存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
[0149] 操作指令:包括各种操作指令,用于实现各种操作。
[0150] 操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
[0151] 总线34可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0152] 处理器31可以是中央处理器(central processing unit,简称CPU),网络处理器(network processor,简称NP)或者CPU和NP的组合。还可以是硬件芯片。上述硬件芯片可以是专用集成电路(application‑specific integrated circuit,简称ASIC),可编程逻辑器件(programmable logic device,简称PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex  programmable logic device,简称CPLD),现场可编程逻辑门阵列(fieldprogrammable gate array,简称FPGA),通用阵列逻辑(generic array logic,简称GAL)或其任意组合。
[0153] 本发明实施例还提供一种计算机可读存储介质,包含计算机执行指令,所述计算机执行指令被用于执行上述基于小概率数据的测试数据构造方法实施例中所述的步骤。或者,所述计算机执行指令被用于执行上述基于小概率数据的测试数据构造装置实施例中各单元的功能。
[0154] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0155] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。