多种类数据识别方法转让专利
申请号 : CN202111190736.6
文献号 : CN113642679B
文献日 : 2021-12-28
发明人 : 冯含哲 , 孙利利 , 曹克霞 , 段琳钰
申请人 : 山东凤和凰城市科技有限公司
摘要 :
权利要求 :
1.一种多种类数据识别方法,其特征在于,所述方法执行以下步骤:步骤1:设置多个不同种类的数据类别池,所述数据类别池的数量与数据种类相等;建立多个不同种类的数据识别器,所述数据识别器的数量与数据种类相等;
步骤2:进行数据粗识别,具体包括:分别使用每个数据识别器对待识别数据进行数据识别,在识别过程中,将包含有与当前数据识别器所对应的种类相同的数据筛选出来,并填充进入所对应的相同种类的数据类别池中;当所有的数据识别器都完成数据识别后,将有数据填充的数据池进行池交叉对比;
步骤3:进行数据池交叉对比,具体包括:将所有数据填充的数据池均分别视为一个集合,然后进行集合的交集运算,找到每个数据池中与其他数据池的交集部分;
步骤4:进行数据识别器的调整,具体包括:基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器;
步骤5:进行数据细识别,完成数据细识别,具体包括:将数据池交叉对比后,将得到的所有的交集部分提取出来,再分别使用每个细数据识别器进行识别,将交集部分的数据划分为多个数据分组,每个数据分组中只包含一个种类的数据;
步骤6:进行数据重新组合,完成数据识别,具体包括:将数据细识别得到的多个数据分组分别与对应种类的数据进行数据重新组合,完成数据识别;
所述数据类别池的种类至少包括:图像数据类别池、文字数据类别池和声音数据类别池;所述数据识别器的种类至少包括:图像数据识别器、文字数据识别器和声音数据识别器;
所述图像数据识别器使用如下公式表示: ;
其中, 为待识别数据的数据头标识,取值为1 3; 为待识别数据的个数; 为计算得到~
的图像数据识别值; 为待识别数据中某个数据出现的概率; 为待识别数据中某个数据的位数; 为待识别数据中某个数据对应的数据矩阵的某个点的纵坐标值; 为待识别数据中某个数据对应的数据矩阵的某个点的横坐标值; 为梯度函数;当计算得到的图像数据识别值在设定的图像识别阈值范围内时,则判断图像数据识别器识别的数据为图像数据。
2.如权利要求1所述的多种类数据识别方法,其特征在于,所述文字数据识别器使用如下公式表示: ;其中, 为调整系数,取值范围为:
20 50; 为计算得到的文字数据识别值,当计算得到的文字数据识别值在设定的文字识~
别阈值范围内时,则判断文字数据识别器识别的数据为文字数据。
3.如权利要求2所述的多种类数据识别方法,其特征在于,所述声音数据识别器使用如下公式表示: ;其中, 为调整系数,取值范围为:1
5; 为计算得到的声音数据识别值,当计算得到的声音数据识别值在设定的声音识别阈~
值范围内时,则判断声音数据识别器识别的数据为声音数据。
4.如权利要求1所述的多种类数据识别方法,其特征在于,所述步骤4中基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器的方法包括:当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器;当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器,同时筛选出的数据识别器的种类与交集部分对应的数据池的种类一一对应。
5.如权利要求4所述的多种类数据识别方法,其特征在于,所述步骤6中进行数据重新组合,完成数据识别的方法包括:提取数据的数据头,在数据头中找到数据的时间标识,基于找到的时间标识,按照时间先后顺序,将数据进行组合。
6.如权利要求5所述的多种类数据识别方法,其特征在于,所述当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器的方法包括:将所有的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
7.如权利要求6所述的多种类数据识别方法,其特征在于,所述当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器的方法包括:将筛选出的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
说明书 :
多种类数据识别方法
技术领域
背景技术
地组织、查询和浏览如此大规模的数据和信息,需要对这些数据和信息进行分类,进而进行
管理。为此,数据识别技术应运而生。
映射的训练能力被称为神经网络的学习能力。由于通过专门训练,神经网络会具有泛化能
力,该能力会使可能尚未被针对训练的输入模式生成相对准确的输出。然而,因为这样的操
作或应用在执行时,是通过专门的计算架构、并且以在非计算机实现或非自动化方法中被
执行方式不同的自动化方式来执行,所以也产生了问题或缺陷,所述问题或缺陷一般在实
现自动化和构建专用计算架构方式中发生。
法训练数据识别器,该数据识别器具备识别正确答案数据和伪数据的神经网络模型,其中,
具备如下步骤:将前述正确答案数据输入前述数据识别器,取得第一预测结果;将前述伪数
据输入前述数据识别器,取得第二预测结果;基于取得的前述第一预测结果以及取得的前
述第二预测结果算出误差;基于前述误差和前述神经网络模型的各层权重矩阵的奇异值更
新前述权重矩阵。
据识别过程中,使用单一的模型判断器,往往会产生针对某一种类数据无法识别的问题。
发明内容
别,提升了识别的准确率,同时在识别过程中,有两个识别过程,粗识别首先找出数据中混
合有多种类数据的部分,再使用组合的识别器进行细识别,保证了识别的效率,提升了识别
的准确率。
并填充进入所对应的相同种类的数据类别池中;当所有的数据识别器都完成数据识别后,
将有数据填充的数据池进行池交叉对比;
据划分为多个数据分组,每个数据分组中只包含一个种类的数据;
音数据识别器。
~
的图像数据识别值; 为待识别数据中某个数据出现的概率;为待识别数据中某个数据
的位数; 为待识别数据中某个数据对应的数据矩阵的某个点的纵坐标值; 为待识别
数据中某个数据对应的数据矩阵的某个点的横坐标值; 为梯度函数;当计算得到的图像
数据识别值在设定的图像识别阈值范围内时,则判断图像数据识别器识别的数据为图像数
据。
~
文字数据识别值在设定的文字识别阈值范围内时,则判断文字数据识别器识别的数据为文
字数据。
~
音数据识别值在设定的声音识别阈值范围内时,则判断声音数据识别器识别的数据为声音
数据。
应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组
合,得到细数据识别器;当交集部分对应的数据池的种类的数量小于数据识别器的种类的
数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等
的数据识别器进行组合,得到细数据识别器,同时筛选出的数据识别器的种类与交集部分
对应的数据池的种类一一对应。
数据进行组合。
别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
的数据识别器进行组合,得到细数据识别器的方法包括:将筛选出的数据识别器进行并联,
在对数据进行识别时,所有的数据识别器并行工作。
在识别过程中,有两个识别过程,粗识别首先找出数据中混合有多种类数据的部分,再使用
组合的识别器进行细识别,保证了识别的效率,提升了识别的准确率。主要通过以下过程实
现:
别的多样化,提升了数据识别的适用广度;
大,相较于单一数据的部分,其识别所需要的资源也更多,因此单独筛选出来进行识别,可
以减少系统资源的浪费,因为如果对整个数据都使用多种类的数据识别器进行识别,势必
降低数据识别的效率,而对整个数据都使用单一的数据识别器,又无法达到效果,倘若加入
一个判断器,在识别过程中,一边识别一边判断是否使用多种类识别器,也需要耗费大量系
统资源,因此本发明加入粗识别过程,以提升识别的效率;
提升准确率方面还加入了数据识别器的针对性,对不同的数据使用不同的识别器,而使用
的算法和现有技术都完全不同,这些算法都基于数据矩阵且加入了数据头的影响,相较于
现有技术,虽然单一的数据识别器的准确率降低了,但本发明将多个数据识别器进行联用
又避免了这个问题,进一步在提升效率的基础上,保证了准确率。
附图说明
具体实施方式
并填充进入所对应的相同种类的数据类别池中;当所有的数据识别器都完成数据识别后,
将有数据填充的数据池进行池交叉对比;
据划分为多个数据分组,每个数据分组中只包含一个种类的数据;
中,有两个识别过程,粗识别首先找出数据中混合有多种类数据的部分,再使用组合的识别
器进行细识别,保证了识别的效率,提升了识别的准确率。主要通过以下过程实现:
别的多样化,提升了数据识别的适用广度;
大,相较于单一数据的部分,其识别所需要的资源也更多,因此单独筛选出来进行识别,可
以减少系统资源的浪费,因为如果对整个数据都使用多种类的数据识别器进行识别,势必
降低数据识别的效率,而对整个数据都使用单一的数据识别器,又无法达到效果,倘若加入
一个判断器,在识别过程中,一边识别一边判断是否使用多种类识别器,也需要耗费大量系
统资源,因此本发明加入粗识别过程,以提升识别的效率;
提升准确率方面还加入了数据识别器的针对性,对不同的数据使用不同的识别器,而使用
的算法和现有技术都完全不同,这些算法都基于数据矩阵且加入了数据头的影响,相较于
现有技术,虽然单一的数据识别器的准确率降低了,但本发明将多个数据识别器进行联用
又避免了这个问题,进一步在提升效率的基础上,保证了准确率。
为可见输入数据向量。由若2F结构单元堆栈组成,结构单元通常为RBM(RestIlcted
Boltzmann Machine,受限玻尔兹曼机)。堆栈中每个RBM单元的可视层神经元数量等于前一
RBM单元的隐层神经元数量。根据深度学习机制,采用输入样例训练第一层RBM单元,并利用
其输出训练第二层RBM模型,将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预
训练过程中,DBN编码输入到顶层RBM后,解码顶层的状态到最底层的单元,实现输入的重
构。RBM作为DBN的结构单元,与每一层DBN共享参数。
一种平移不变神经网络结构形式。同时,用误差梯度设计并训练卷积神经网络,将能显著本
发明的准确率。
V3,Fast RCNN,Faster RCNN,RCNN。
据识别器和声音数据识别器。
属性或特征来对数据进行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管
理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之
间的关系,形成一个有条理的分类系统。
得每个信息在相应的分类体系中都有一个对应位置。换句话说,就是相同内容、相同性质的
信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,
然后确定各个集合之间的关系,形成一个有条理的分类系统。
3; 为待识别数据的个数; 为计算得到的图像数据识别值; 为待识别数据中某个数
~
据出现的概率; 为待识别数据中某个数据的位数; 为待识别数据中某个数据对应的
数据矩阵的某个点的纵坐标值; 为待识别数据中某个数据对应的数据矩阵的某个点的
横坐标值; 为梯度函数;当计算得到的图像数据识别值在设定的图像识别阈值范围内
时,则判断图像数据识别器识别的数据为图像数据。
来表示它的灰度,对于彩色图像常用红、绿、蓝三原色(trichromatic)分量表示。顺序地抽
取每一个像素的信息,就可以用一个离散的阵列来代表一幅连续的图像。在地理信息系统
中一般指栅格数据。
~
计算得到的文字数据识别值,当计算得到的文字数据识别值在设定的文字识别阈值范围内
时,则判断文字数据识别器识别的数据为文字数据。
~
的声音数据识别值,当计算得到的声音数据识别值在设定的声音识别阈值范围内时,则判
断声音数据识别器识别的数据为声音数据。
据进行数模转换(DAC)变成模拟音频信号输出。在数字化声音时有两个重要的指标,即采样
频率(Sampling Rate)和采样大小(Sampling Size)。
本值大小的数值的位数,它决定采样的动态变化范围,位数越多所能记录声音的变化程度
就越细腻,所得的数据量也越大。
当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据
识别器进行组合,得到细数据识别器;当交集部分对应的数据池的种类的数量小于数据识
别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种
类的数量相等的数据识别器进行组合,得到细数据识别器,同时筛选出的数据识别器的种
类与交集部分对应的数据池的种类一一对应。
先后顺序,将数据进行组合。
所有的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
识样本数据类别的标识。例如,样本信息“闲时流量合计500MB,已使用200MB,剩余300MB”,
人工标注获得样本信息模板:“闲时流量合计
余
力资源,标注效率低。
类的数量相等的数据识别器进行组合,得到细数据识别器的方法包括:将筛选出的数据识
别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
其它要素,或者还包括这些过程、方法、物品或者单元/装置所固有的要素。
发明的原理的前提下,本领域技术人员可以对相关技术标记作出等同的更改或替换,这些
更改或替换之后的技术方案都将落入本发明的保护范围之内。