一种基于数据分析的机器打分系统及方法转让专利

申请号 : CN202010058365.5

文献号 : CN111274234B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈红光张福秋

申请人 : 温州市中鼎网络科技有限公司

摘要 :

本发明属于数据分析技术领域,具体涉及一种基于数据分析的机器打分系统,包括:数据录入装置,用于录入学生的成绩数据;所述数据录入装置具有若干个,分配给不同的教师,教师分别通过专属的数据录入装置,录入学生的成绩信息;数据分析装置,用于对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密。数据安全性高,能够保证数据的私密性,保护学生隐私和数据安全,同时本发明的数据分析结果能够更加准确分析出学生成绩,更为客观展现学生成绩。

权利要求 :

1.一种基于数据分析的机器打分系统,包括:数据录入装置,用于录入学生的成绩数据;所述数据录入装置具有若干个,分配给不同的教师,教师分别通过专属的数据录入装置,录入学生的成绩信息;数据分析装置,用于对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密;其特征在于,

所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩的方法执行以下步骤:对采集的原始数据进行清洗和集成;对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的分析模型;将样本集中的另一份数据集作为测试集,利用得到的最终的分析模型进行测试,以得到分析结果;采用多种评估度量对分析结果的准确性进行评估;

所述构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的分析模型的方法执行以下步骤:基于训练集使用如下的转换函数,对数据进行线性变换,进行逻辑回归模型的参数进行求解:

* ′

其中,x为求解得到的参数;x为训练集;min为进行数据中的最小值计算;max为进行数据中的最大值计算;进行数据建模,得到分析模型;进行效果分析,包括:当模型训练结束后,采用如下公式,计算分析模型的分析结果与预测结果进行2

精准度计算,即得到R得分,得分越高,表示分析准确率越高;

其中y代表预测结果;

代表分析结果;

nsamples代表进入模型的样本量大小;

所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密的方法执行以下步骤:步骤1:设定第一加密密钥函数,用Si表示,将每个输入变量与相对应的权重函数进行卷积运算,得到第一加密密钥的中间结果;

步骤2:设定第二加密密钥函数,所述第二加密密钥函数为明函数:设定随机判定阈值为:P;将第一加密密钥函数和第二加密密钥函数以及随机判定阈值进行卷积运算,得到加密的结果为:步骤3:分析计算前向加密结果的误差;设定训练的输出变量EI为实际值,但模型训练后会产生一个预测值为Oi,故得出误差函数为: 其中m代表输入本次建模样本的数量,i表示第i个变量;

步骤4:反向传播更新权重w直到误差函数算出的值在设定的阈值范围内,将得到的最终结果作为加密后的结果进行存储。

2.如权利要求1所述的系统,其特征在于,所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩的方法执行以下步骤:对采集的原始数据进行清洗和集成;

对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的分析模型;将样本集中的另一份数据集作为测试集,利用得到的最终的分析模型进行测试,以得到分析结果;采用多种评估度量对分析结果的准确性进行评估。

3.如权利要求2所述的系统,其特征在于,所述数据分析装置,对采集的成绩信息进行清洗和集成的方法执行以下步骤:在坐标轴中设置四个象限的数据过滤集合分别采用如下公式进行表示:

其中,β为成绩信息, 为实数集合,p为第一参数,取值范围为:1~10;q为第二参数,取值范围为:11~100;将成绩信息落入数据过滤集合以外的数据进行剔除,完成数据的清洗和集成。

4.如权利要求3所述的系统,其特征在于,所述对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集的方法执行以下步骤:将数据清理和集成后的数据通过范式矩阵进行分离,将连续的数据进行离散化,简化后续计算的运算量;所述通过范式矩阵进行分离的方法使用如下公式进行分离:其中,||||2为进行范数运算,X为系数矩阵,其行列数与进行离散化的数据的种类一致,A为进行离散化的数据排列成的矩阵,G为调整系数,设置的范围为:0.2~0.7。

5.一种基于权利要求1至4之一所述系统的基于数据分析的机器打分方法,其特征在于,所述方法执行以下步骤:

首先,通过数据录入装置录入学生的成绩数据;

然后,通过数据分析装置对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密。

6.如权利要求5所述的方法,其特征在于,所述通过数据分析装置对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密的方法执行以下步骤:步骤1:设定第一加密密钥函数,用Si表示,将每个输入变量与相对应的权重函数进行卷积运算,得到第一加密密钥的中间结果;

步骤2:设定第二加密密钥函数,所述第二加密密钥函数为明函数:设定随机判定阈值为:P;将第一加密密钥函数和第二加密密钥函数以及随机判定阈值进行卷积运算,得到加密的结果为:步骤3:分析计算前向加密结果的误差;设定训练的输出变量EI为实际值,但模型训练后会产生一个预测值为Oi,故得出误差函数为: 其中m代表输入本次建模样本的数量,i表示第i个变量;

步骤4:反向传播更新权重w直到误差函数算出的值在设定的阈值范围内,将得到的最终结果作为加密后的结果进行存储。

7.如权利要求6所述的方法,其特征在于,所述通过数据分析装置对录入的成绩信息进行数据分析,得出学生的综合成绩的方法执行以下步骤:对采集的原始数据进行清洗和集成;对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的分析模型;将样本集中的另一份数据集作为测试集,利用得到的最终的分析模型进行测试,以得到分析结果;采用多种评估度量对分析结果的准确性进行评估。

8.如权利要求7所述的方法,其特征在于,所述通过数据分析装置对采集的成绩信息进行清洗和集成的方法执行以下步骤:在坐标轴中设置四个象限的数据过滤集合分别采用如下公式进行表示:

其中,β为成绩信息, 为实数集合,p为第一参数,取值范围为:1~10;q为第二参数,取值范围为:11~100;将成绩信息落入数据过滤集合以外的数据进行剔除,完成数据的清洗和集成。

9.如权利要求6所述的方法,其特征在于,所述对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集的方法执行以下步骤:将数据清理和集成后的数据通过范式矩阵进行分离,将连续的数据进行离散化,简化后续计算的运算量;所述通过范式矩阵进行分离的方法使用如下公式进行分离:其中,||||2为进行范数运算,X为系数矩阵,其行列数与进行离散化的数据的种类一致,A为进行离散化的数据排列成的矩阵,G为调整系数,设置的范围为:0.2~0.7。

说明书 :

一种基于数据分析的机器打分系统及方法

技术领域

[0001] 本发明属于数据分析技术领域,具体涉及一种基于数据分析的机器打分系统及方法。

背景技术

[0002] 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取
有用信息和形成结论而对数据加以详细研究和概括总结的过程。
[0003] 数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
[0004] 国际标准化组织(ISO)对计算机系统安全的定义是:为数据处理系统建立和采用的技术和管理的安全保护,保护计算机硬件、软件和数据不因偶然和恶意的原因遭到破坏、
更改和泄露。由此计算机网络的安全可以理解为:通过采用各种技术和管理措施,使网络系
统正常运行,从而确保网络数据的可用性、完整性和保密性。所以,建立网络安全保护措施
的目的是确保经过网络传输和交换的数据不会发生增加、修改、丢失和泄露等。
[0005] 信息安全或数据安全有对立的两方面的含义:一是数据本身的安全,主要是指采用现代密码算法对数据进行主动保护,如数据保密、数据完整性、双向强身份认证等,二是
数据防护的安全,主要是采用现代信息存储手段对数据进行主动防护,如通过磁盘阵列、数
据备份、异地容灾等手段保证数据的安全,数据安全是一种主动的包含措施,数据本身的安
全必须基于可靠的加密算法与安全体系,主要是有对称算法与公开密钥密码体系两种。
[0006] 数据处理的安全是指如何有效的防止数据在录入、处理、统计或打印中由于硬件故障、断电、死机、人为的误操作、程序缺陷、病毒或黑客等造成的数据库损坏或数据丢失现
象,某些敏感或保密的数据可能不具备资格的人员或操作员阅读,而造成数据泄密等后果。

发明内容

[0007] 本发明的主要目的在于提供一种基于数据分析的机器打分系统及方法,数据安全性高,能够保证数据的私密性,保护学生隐私和数据安全,同时本发明的数据分析结果能够
更加准确分析出学生成绩,更为客观展现学生成绩。
[0008] 为达到上述目的,本发明的技术方案是这样实现的:
[0009] 一种基于数据分析的机器打分系统,包括:数据录入装置,用于录入学生的成绩数据;所述数据录入装置具有若干个,分配给不同的教师,教师分别通过专属的数据录入装
置,录入学生的成绩信息;数据分析装置,用于对录入的成绩信息进行数据分析,得出学生
的综合成绩,以及对录入的成绩信息进行加密;其特征在于,所述数据分析装置,对录入的
成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密的方法执
行以下步骤:步骤1:设定第一加密密钥函数,用Si表示,将每个输入变量与相对应的权重函
数进行卷积运算,得到第一加密密钥的中间结果;步骤2:设定第二加密密钥函数,所述函数
为明函数: 设定随机判定阈值为:P;将第一加密密钥函数和第
二加密密钥函数以及随机判定阈值进行卷积运算,得到加密的结果为:
[0010] 步骤3:分析计算前向加密结果的误差;设定训练的输出变量EI为实际值,但模型训练后会产生一个预测值为Oi,故得出误差函数为:
其中m代表输入本次建模样本的数量,i表示
第i个变量;步骤4:反向传播更新权重w直到误差函数算出的值再设定的阈值范围内,将得
到的最终结果作为加密后的结果进行存储。
[0011] 进一步的,所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩的方法执行以下步骤:对采集的原始数据进行清洗和集成;对经预处理后的数据利用
熵进行离散化处理,以得到为标称型数据的样本集;构建用于训练的逻辑回归模型,从经数
据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模
型的参数进行求解,以得到最终的分析模型;将样本集中的另一份数据集作为测试集,利用
得到的最终的分析模型进行测试,以得到分析结果;采用多种评估度量对分析结果的准确
性进行评估。
[0012] 进一步的,所述数据分析装置,对采集的成绩信息进行清洗和集成的方法执行以下步骤:在坐标轴中设置四个象限的数据过滤集合分别采用如下公式进行表示:
其中,x为成绩信息, 为实数集合,p为第一参
数,取值范围为:(1~10);q为第一参数,取值范围为:(11~100);将成绩信息落入数据过滤
集合以外的数据进行剔除,完成数据的清洗和集成。
[0013] 进一步的,所述对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集的方法执行以下步骤:将数据清理和集成后的数据通过范式矩阵进行分离,将
连续的数据进行离散化,简化后续计算的运算量;所述通过范式矩阵进行分离的方法使用
如下公式进行分离:
[0014] 其中,||为进行范数运算,X为系数矩阵,其行列数与进行离散化的数据的种类一致,A为进行离散化的数据排列成的矩阵,G
为调整系数,设置的范围为:(0.2~0.7)。
[0015] 进一步的,所述构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得
到最终的分析模型的方法执行以下步骤:基于训练集使用如下的转换函数,对数据进行线
*
性变换,进行逻辑回归模型的的参数进行求解: 其中,x为求
解得到的参数;x为训练集;min为进行数据中的最小值计算;max为进行数据中的最大值计
算;进行数据建模,得到分析模型;进行效果分析,包括:当模型训练结束后,采用如下公式,
2
计算分析模型的分析结果与预测结果进行精准度计算,即得到R得分,得分越高,表示分析
准确率越高;
[0016]
[0017] 其中y代表预测结果;
[0018] 代表分析结果;
[0019] nsamples代表进入模型的样本量大小。
[0020] 一种基于数据分析的机器打分方法,所述方法执行以下步骤:数据录入装置,录入学生的成绩数据;数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩,
以及对录入的成绩信息进行加密。
[0021] 进一步的,所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密的方法执行以下步骤:步骤1:设定第一加密密钥函
数,用Si表示,将每个输入变量与相对应的权重函数进行卷积运算,得到第一加密密钥的中
间结果;步骤2:设定第二加密密钥函数,所述函数为明函数:
设定随机判定阈值为:P;将第一加密密钥函数和第二加密密钥函数以及随机判定阈值进行
卷积运算,得到加密的结果为:
[0022] 步骤3:分析计算前向加密结果的误差;设定训练的输出变量EI为实际值,但模型训练后会产生一个预测值为Oi,故得出误差函数为:
其中m代表输入本次建模样本的数量,i表示
第i个变量;步骤4:反向传播更新权重w直到误差函数算出的值再设定的阈值范围内,将得
到的最终结果作为加密后的结果进行存储。
[0023] 进一步的,所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩的方法执行以下步骤:对采集的原始数据进行清洗和集成;对经预处理后的数据利用
熵进行离散化处理,以得到为标称型数据的样本集;构建用于训练的逻辑回归模型,从经数
据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模
型的参数进行求解,以得到最终的分析模型;将样本集中的另一份数据集作为测试集,利用
得到的最终的分析模型进行测试,以得到分析结果;采用多种评估度量对分析结果的准确
性进行评估。
[0024] 进一步的,所述数据分析装置,对采集的成绩信息进行清洗和集成的方法执行以下步骤:在坐标轴中设置四个象限的数据过滤集合分别采用如下公式进行表示:
其中,x为成绩信息, 为实数集合,p为第一参
数,取值范围为:(1~10);q为第一参数,取值范围为:(11~100);将成绩信息落入数据过滤
集合以外的数据进行剔除,完成数据的清洗和集成。
[0025] 进一步的,所述对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集的方法执行以下步骤:将数据清理和集成后的数据通过范式矩阵进行分离,将
连续的数据进行离散化,简化后续计算的运算量;所述通过范式矩阵进行分离的方法使用
如下公式进行分离:
[0026] 其中,||为进行范数运算,X为系数矩阵,其行列数与进行离散化的数据的种类一致,A为进行离散化的数据排列成的矩阵,G
为调整系数,设置的范围为:(0.2~0.7)。
[0027] 本发明的供一种基于数据分析的机器打分系统及方法,具有如下有益效果:本发明通过对成绩信息采用基于卷积神经网络的新的加密方式,保证了数据的安全性,其经过
这种方式加密的数据,破解难度比常规加密方式更难,且其加密结果能够预测,也就是说加
密结果可以提前被解密方知道,不需要进行密钥的传输,进一步增强了数据的安全性;另
外,通过对数据采用四象限数据集合进行数据清洗和数据集成,其数据清洗的效率高、数据
过滤的结果更加准确,不会删除有效数据;进行数据离散化也能加速后期的数据分析过程;
同时,本发明使用模型分析,能够对分析结果进行预测,智能化程度高更高,具有学习能力,
分析效率也会逐步提升,从远期看,其数据分析的效率大大高于普通的数据分析方法。

附图说明

[0028] 图1为本发明的实施例提供的基于数据分析的机器打分系统及方法的系统结构示意图;
[0029] 图2为本发明的实施例提供的基于数据分析的机器打分方法的方法流程示意图;
[0030] 图3为本发明的实施例提供的基于数据分析的机器打分方法的整体方法流程示意图;
[0031] 图4为本发明的实施例提供的基于数据分析的机器打分系统及方法的加密后的数据信息被破解的破解率曲线示意图与现有技术的数据信息被破解的破解率曲线图的对比
实验图;
[0032] 图5为本发明的实施例提供的基于数据分析的机器打分系统及方法的数据分析效率的曲线示意图与现有技术的数据分析效率的曲线示意图的对比实验图。
[0033] 1‑本发明的实验曲线示意图,2‑现有技术的实验曲线示意图。

具体实施方式

[0034] 下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
[0035] 实施例1
[0036] 如图1、图3和图4所示,一种基于数据分析的机器打分系统,包括:数据录入装置,用于录入学生的成绩数据;所述数据录入装置具有若干个,分配给不同的教师,教师分别通
过专属的数据录入装置,录入学生的成绩信息;数据分析装置,用于对录入的成绩信息进行
数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密;其特征在于,所述数据
分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息
进行加密的方法执行以下步骤:步骤1:设定第一加密密钥函数,用Si表示,将每个输入变量
与相对应的权重函数进行卷积运算,得到第一加密密钥的中间结果;步骤2:设定第二加密
密钥函数,所述函数为明函数:
[0037] 设定随机判定阈值为:P;将第一加密密钥函数和第二加密密钥函数以及随机判定阈值进行卷积运算 ,得到 加密的结 果为:
步骤3:分析计算前向加密结果的误差;设定训练的输出变量EI
为实际值,但模型训练后会产生一个预测值为Oi,故得出误差函数为:
其中m代表输入本次建模样本的数量,i表示
第i个变量;步骤4:反向传播更新权重w直到误差函数算出的值再设定的阈值范围内,将得
到的最终结果作为加密后的结果进行存储。
[0038] 采用上述技术方案,本发明通过对成绩信息采用基于卷积神经网络的新的加密方式,保证了数据的安全性,其经过这种方式加密的数据,破解难度比常规加密方式更难,且
其加密结果能够预测,也就是说加密结果可以提前被解密方知道,不需要进行密钥的传输,
进一步增强了数据的安全性;另外,通过对数据采用四象限数据集合进行数据清洗和数据
集成,其数据清洗的效率高、数据过滤的结果更加准确,不会删除有效数据;进行数据离散
化也能加速后期的数据分析过程;同时,本发明使用模型分析,能够对分析结果进行预测,
智能化程度高更高,具有学习能力,分析效率也会逐步提升,从远期看,其数据分析的效率
大大高于普通的数据分析方法。
[0039] 实施例2
[0040] 在上一实施例的基础上,所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩的方法执行以下步骤:对采集的原始数据进行清洗和集成;对经预处理
后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;构建用于训练的逻辑回
归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构
建的逻辑回归模型的参数进行求解,以得到最终的分析模型;将样本集中的另一份数据集
作为测试集,利用得到的最终的分析模型进行测试,以得到分析结果;采用多种评估度量对
分析结果的准确性进行评估。
[0041] 采用上述技术方案,离散化是程序设计中一个常用的技巧,它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中,只考虑需要用的值。离散化可以改进一个
低效的算法,甚至实现根本不可能实现的算法。要掌握这个思想,必须从大量的题目中理解
此方法的特点。例如,在建造线段树空间不够的情况下,可以考虑离散化。
[0042] 实施例3
[0043] 在上一实施例的基础上,所述数据分析装置,对采集的成绩信息进行清洗和集成的方法执行以下步骤:在坐标轴中设置四个象限的数据过滤集合分别采用如下公式进行表
示:
[0044] 其中,x为成绩信息,
[0045] 为实数集合,p为第一参数,取值范围为:(1~10);q为第一参数,取值范围为:(11~100);将成绩信息落入数据过滤集合以外的数据进行剔除,完成数据的清洗和集成。
[0046] 具体的,在数字计算机上对连续系统进行仿真时,首先遇到的问题是如何解决数字计算机在数值及时间上的离散性与被仿真系统数值及时间上的连续性这一基本问题。从
根本意义上讲,数字计算机所进行的数值计算仅仅是“数字”计算,它表示数值的精度受限
于字长,这将引入舍入误差;另一方面,这种计算是按指令一步一步进行的,因而,还必须将
时间离散化,这样就只能得到离散时间点上系统性能。用数字仿真的方法对微分方程的数
值积分是通过某种数值计算方法来实现的。任何一种计算方法都只能是原积分的一种近
似。因此,连续系统仿真,从本质上是对原连续系统从时间、数值两个方面对原系统进行离
散化,并选择合适的数值计算方法来近似积分运算,由此得到的离散模型来近似原连续模
型。如何保证离散模型的计算结果从原理上确能代表原系统的行为,这是连续系统数字仿
真首先必须解决的问题。
[0047] 采用上述技术方案,离散化后的数据更容易进行数据分类,从而比连续的数据更加高效率的进行分析。
[0048] 实施例4
[0049] 在上一实施例的基础上,所述对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集的方法执行以下步骤:将数据清理和集成后的数据通过范式矩阵
进行分离,将连续的数据进行离散化,简化后续计算的运算量;所述通过范式矩阵进行分离
的方法使用如下公式进行分离: 其中,||
为进行范数运算,X为系数矩阵,其行列数与进行离散化的数据的种类一致,A为进行离散化
的数据排列成的矩阵,G为调整系数,设置的范围为:(0.2~0.7)。
[0050] 具体的,离散化方法依据不同的需求沿着不同的主线发展至今,目前已存在很多不同离散化方法的分类体系。不同的分类体系强调离散化方法间的区别的不同方面。主要
的分类体系有有监督的和无监督的、动态的和静态的、全局的和局部的、分裂式的(从上至
下)和合并式的(从下至上)、单变量的和多变量的以及直接的和增量式的。
[0051] 根据离散化方法是否在离散化过程当中使用数据集的类别标注信息,离散化方法可以分为有监督的离散化方法和无监督的离散化方法。其中无监督的离散化方法在离散化
过程当中无需使用类别信息,这类方法的典型代表是分箱方法,包括等宽度分箱和等频率
分箱。分箱方法使用箱均值或箱中位数替换箱中的每一个值来将数据离散化。实际应用中,
分箱方法效果不佳,特别是当数值数据分布不均匀的时候。有监督的离散化方法在离散化
过程当中需要使用类别信息。以前的研究表明,有监督的方法比无监督的方法效果要好。
[0052] 离散化方法也常以动态或静态的分类方法来区分。动态的离散化方法就是在建立分类模型的同时对连续特征进行离散化。静态的离散化方法就是在进行分类之前完成离散
化处理。
[0053] 根据离散化过程是否是针对整个训练数据空间的,离散化方法又可分为全局的和局部的。全局的离散化方法使用所有的实例,而局部的离散化方法只是用一部分的实例。
[0054] 实施例5
[0055] 在上一实施例的基础上,所述构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进
行求解,以得到最终的分析模型的方法执行以下步骤:基于训练集使用如下的转换函数,对
数据进行线性变换,进行逻辑回归模型的的参数进行求解:
*
其中,x为求解得到的参数;x为训练集;min为进行数据中的最小值计算;max为进行数据中
的最大值计算;进行数据建模,得到分析模型;进行效果分析,包括:当模型训练结束后,采
2
用如下公式,计算分析模型的分析结果与预测结果进行精准度计算,即得到R得分,得分越
高,表示分析准确率越高;
[0056]
[0057] 其中y代表预测结果;
[0058] 代表分析结果;
[0059] nsamples代表进入模型的样本量大小。
[0060] 具体的,人工神经网络特有的非线性适应性信息处理能力,克服了传统人工智能方法对于直觉,如模式、语音识别、非结构化信息处理方面的缺陷,使之在神经专家系统、模
式识别、智能控制、组合优化、预测等领域得到成功应用。人工神经网络与其它传统方法相
结合,将推动人工智能和信息处理技术不断发展。近年来,人工神经网络正向模拟人类认知
的道路上更加深入发展,与模糊系统、遗传算法、进化机制等结合,形成计算智能,成为人工
智能的一个重要方向,将在实际应用中得到发展。将信息几何应用于人工神经网络的研究,
为人工神经网络的理论研究开辟了新的途径。神经计算机的研究发展很快,已有产品进入
市场。光电结合的神经计算机为人工神经网络的发展提供了良好条件。
[0061] 神经网络在很多领域已得到了很好的应用,但其需要研究的方面还很多。其中,具有分布存储、并行处理、自学习、自组织以及非线性映射等优点的神经网络与其他技术的结
合以及由此而来的混合方法和混合系统,已经成为一大研究热点。由于其他方法也有它们
各自的优点,所以将神经网络与其他方法相结合,取长补短,继而可以获得更好的应用效
果。目前这方面工作有神经网络与模糊逻辑、专家系统、遗传算法、小波分析、混沌、粗集理
论、分形理论、证据理论和灰色系统等的融合。
[0062] 采用上述技术方案,本发明通过上述方式,保证了其分析结果和分析效率的提升,通过神经网络预测值和分析指进行比较,其分析准确率将会逐步提升,且分析效率也比现
有技术的分析效率更高。
[0063] 实施例6
[0064] 如图2所示,一种基于数据分析的机器打分方法,所述方法执行以下步骤:数据录入装置,录入学生的成绩数据;数据分析装置,对录入的成绩信息进行数据分析,得出学生
的综合成绩,以及对录入的成绩信息进行加密。
[0065] 实施例7
[0066] 在上一实施例的基础上,所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩,以及对录入的成绩信息进行加密的方法执行以下步骤:步骤1:设定第
一加密密钥函数,用Si表示,将每个输入变量与相对应的权重函数进行卷积运算,得到第一
加密密钥的中间结果;步骤2:设定第二加密密钥函数,所述函数为明函数:
[0067] 设定随机判定阈值为:P;将第一加密密钥函数和第二加密密钥函数以及随机判定阈值进行卷积运算 ,得到 加密的结 果为:
步骤3:分析计算前向加密结果的误差;设定训练的输出变量EI
为实际值,但模型训练后会产生一个预测值为Oi,故得出误差函数为:
其中m代表输入本次建模样本的数量,i表示
第i个变量;步骤4:反向传播更新权重w直到误差函数算出的值再设定的阈值范围内,将得
到的最终结果作为加密后的结果进行存储。
[0068] 实施例8
[0069] 在上一实施例的基础上,所述数据分析装置,对录入的成绩信息进行数据分析,得出学生的综合成绩的方法执行以下步骤:对采集的原始数据进行清洗和集成;对经预处理
后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;构建用于训练的逻辑回
归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构
建的逻辑回归模型的参数进行求解,以得到最终的分析模型;将样本集中的另一份数据集
作为测试集,利用得到的最终的分析模型进行测试,以得到分析结果;采用多种评估度量对
分析结果的准确性进行评估。
[0070] 实施例9
[0071] 在上一实施例的基础上,所述数据分析装置,对采集的成绩信息进行清洗和集成的方法执行以下步骤:在坐标轴中设置四个象限的数据过滤集合分别采用如下公式进行表
示:
[0072] 其中,x为成绩信息,
[0073] 为实数集合,p为第一参数,取值范围为:(1~10);q为第一参数,取值范围为:(11~100);将成绩信息落入数据过滤集合以外的数据进行剔除,完成数据的清洗和集成。
[0074] 采用上述技术方案,其数据清洗的过程中,使用四象限的数据过滤方法,过滤速度更快,比单纯的数据过滤方法,其过滤效率更高。
[0075] 实施例10
[0076] 在上一实施例的基础上,所述对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集的方法执行以下步骤:将数据清理和集成后的数据通过范式矩阵
进行分离,将连续的数据进行离散化,简化后续计算的运算量;所述通过范式矩阵进行分离
的方法使用如下公式进行分离: 其中,||
为进行范数运算,X为系数矩阵,其行列数与进行离散化的数据的种类一致,A为进行离散化
的数据排列成的矩阵,G为调整系数,设置的范围为:(0.2~0.7)。
[0077] 以上所述仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之
内受到制约。
[0078] 所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0079] 需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明
实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,
也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施
例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当
限定。
[0080] 所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,
在此不再赘述。
[0081] 本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对
应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编
程ROM、寄存器、硬盘、可移动磁盘、CD‑ROM、或技术领域内所公知的任意其它形式的存储介
质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地
描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术
方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法
来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0082] 术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
[0083] 术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的
其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
[0084] 至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本
发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些
更改或替换之后的技术方案都将落入本发明的保护范围之内。
[0085] 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。