基于图像识别的成果大数据自动匹配方法转让专利

申请号 : CN202110681084.X

文献号 : CN113515596B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张丰祥

申请人 : 深圳市对接平台科技发展有限公司

摘要 :

本发明属于大数据技术领域,具体涉及基于图像识别的成果大数据自动匹配方法,所述方法执行以下步骤:步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;步骤2:对提取到的文字信息进行内容识别,得到内容识别结果。其基于历史成果文档建立内容分类树和特征分类树,再对待匹配的成果文档匹配查询,以实现成果文档的查重;在进行匹配查询时,本发明使用先进行内容匹配,再进行特征匹配的方式进行,可以有效提升系统效率,因为内容匹配的速度远高于进行特征匹配的速度,若内容匹配已经完成了匹配,则不需要进行后续的特征匹配,避免系统资源的多度消耗。

权利要求 :

1.基于图像识别的成果大数据自动匹配方法,其特征在于,所述方法执行以下步骤:步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;

步骤2:对提取到的文字信息进行内容识别,得到内容识别结果;

步骤3:基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签,基于内容标签,建立内容分类树;所述内容分类树为一个树形结构的数据库;内容分类树中的每个节点为内容标签;每个内容标签对应一个内容分类组;内容分类树的下级节点为上级节点的子集,内容分类树的同级节点之间为对等关系;

步骤4:对提取到的图像信息进行第一次图像特征提取,得到图像特征集,所述图像特征集中包括所有历史成果文档的图像信息的图像特征;将图像特征集中的每个图像特征与同属于一个相同的历史成果文档对应的内容分类组进行连接,建立图像特征集与内容分类树中的内容分类组的一一映射的关系;

步骤5:对图像特征集进行第二次图像特征提取,得到图像特征集中的图像特征的特征;

步骤6:对图像特征的特征进行特征分类,得到多个特征分类组;基于特征分类的结果,生成多个特征标签,基于特征标签,建立特征分类树;所述特征分类树为一个树形结构的数据库;特征分类树中的每个节点为特征标签;每个特征标签对应一个特征分类组;特征分类树的下级节点为上级节点的子集,特征分类树的同级节点之间为对等关系;

步骤7:录入待匹配成果文档,提取待匹配成果文档中的图像信息和文字信息;对待匹配成果文档中的文字信息首先进行内容识别,基于建立的内容分类树进行内容匹配,得到内容匹配结果;然后对待匹配成果文档中的图像信息进提行图像特征提取,基于建立的内容分类树与图像特征的映射关系,进行特征匹配,得到特征匹配结果;比对特征匹配结果与内容匹配结果,若特征匹配结果与内容匹配结果的相似度大于或等于设定的阈值,则完成成果文档的匹配;若特征匹配结果与内容匹配结果的相似度小于设定的阈值,则对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征,然后基于建立的特征分类树,进行特征匹配,得到特征匹配结果,完成成果文档的匹配;

所述步骤4中对提取到的图像信息进行第一次图像特征提取,得到图像特征集的方法包括:将提取到的图像信息使用如下公式对目标图像进行多尺度特征提取,得到多个尺度的特征值:A=‑∑jyjlogpj, 其中,yj为图像信息的每个像素点的像素值,pj为某个像素点的像素值的在整个图像信息中的像素值中的概率,λ为调整系数,取值范围为:1~5;dist表示取差值运算,dist(a,b,c)=|a‑b|+|a‑c|+|b‑c|;xi表示图像信息的某个像素点的深度值, 和 表示图像信息中的某个像素点的相邻像素点的深度值;A、B和C分别表示不同尺度下的特征值;分别处理每个尺度的特征值,得到与每个尺度的特征值对应的连贯特征值;将多个所述连贯特征值融合为所述图像信息的特征,将所有图像信息的特征填充进一个集合中,得到图像特征集。

2.如权利要求1所述的方法,其特征在于,所述步骤2和步骤7中:对提取到的文字信息进行内容识别的方法包括:定位所述待匹配成果文档或历史成果文档中的文字区域;对文字区域进行分类;将文字区域的图像信息输入到文字识别模型,得到文字识别模型输出的文字信息;基于对文字区域的分类结果,将文字识别模型输出的文字信息归类到相应文字区域所属的类别。

3.如权利要求2所述的方法,其特征在于,将文字区域的图像信息输入到文字识别模型包括:将文字区域的图像信息输入到与该文字区域所属类别对应的文字识别模型,其中,不同的类别对应不同的文字识别模型;所述对文字区域进行分类包括:将文字区域的图像特征数据输入到第一分类模型中,得到第一分类模型输出的类别信息;其中,第一分类模型是用一定数量的标记了类别的图像特征数据作为样本数据进行训练后得到。

4.如权利要求3所述的方法,其特征在于,所述对文字区域进行分类包括:获取所述图像上文字区域的图像,将文字区域的图像输入到第二分类模型中,得到第二分类模型输出的类别信息;其中,第二分类模型是用一定数量的标记了类别的包含文字的图像作为样本数据进行训练后得到。

5.如权利要求2所述的方法,其特征在于,所述步骤3中基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签的方法包括:比对内容识别结果之间的相似性,若内容识别结果之间的相似性超过设定的阈值,则将对应的内容分类到同一个分组中,当对所有的内容都完成相似性比对后,为每个分组,生成内容标签。

6.如权利要求1所述的方法,其特征在于,所述步骤7中基于建立的内容分类树进行内容匹配的方法包括:对待匹配成果文档中的文字信息进行内容识别后,得到内容识别的结果;基于内容识别的结果从内容分类树的根节点开始逐层进行匹配检索,具体包括:基于内容识别的结果,找到该内容识别的结果所对应的内容标签;从内容分类树的根节点开始,基于得到的内容标签逐层进行匹配检索,直到找到与该内容识别的结果所对应的内容标签相同的内容分类树中的节点所对应的内容标签;然后从该节点对应的内容分类组中进行内容匹配。

7.如权利要求6所述的方法,其特征在于,所述进行内容匹配的方法包括:将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配成果文档中的文字信息的内容识别的结果所对应的二进制数据信息,作为内容匹配方;再将内容分类组中的内容识别的结果进行转换,得到内容分类组中的内容识别的结果的二进制数据信息,作为内容被匹配方;将内容匹配方和内容被匹配方进行作差运算,若运算结果的值在设定的阈值范围内,则认为两者匹配,若运算结果的值超过设定的阈值范围,则认为两者不匹配。

8.如权利要求7所述的方法,其特征在于,所述步骤7中基于建立的特征分类树,进行特征匹配,得到特征匹配结果的方法包括:对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征;对图像特征的特征进行采样得到缩略图;将所述缩略图转化为灰度图;计算所述缩略图中全部像素的灰度平均值;将所述缩略图中每个像素的灰度值与所述灰度平均值进行比值运算,若比值运算的结果大于或等于设定的阈值;将所有比值运算的集合按一定顺序组合成一个二进制整数,该二进制整数即为该图像特征的特征的缩略图特征;逐位比较特征分类树中的图像特征的特征与图像特征的特征的缩略图特征,如果不相同的数据位不超过一定阈值,则匹配,否则,则不匹配。

9.如权利要求8所述的方法,其特征在于,所述内容分类树和特征分类树均为二叉树。

说明书 :

基于图像识别的成果大数据自动匹配方法

技术领域

[0001] 本发明属于大数据技术领域,具体涉及基于图像识别的成果大数据自动匹配方法。

背景技术

[0002] 据统计,我国科研项目重复率达40%,,另外60%中与国外重复的约占30%以上。重复立项不仅造成科技资源的大量浪费,也导致科研活动的无序发展和大量低水平重复,
严重损害开拓创新的科研精神,阻碍国家科技发展的步伐。
[0003] 目前,已经有学者研究了一些项目查重的方法和机制问题,取得了一定的进展。常用的项目查重方法主要有以下4类:基于非分词技术的科技项目查重方法、基于TF‑IDF值算
法的科技项目查重方法、基于层次聚类的科技项目分类与查重方法、基于科技项目申报与
审批流程进行的项目查重方法。
[0004] 基于非分词技术解决科技项目查重问题的方法,该方法不需要对文本进行分词处理,而是利用频繁闭项集构造向量空间模型对项目申请书进行建模并计算相似度。这种方
法通过计算科技项目申请书之间的相似度,从而达到项目查重的目的。
[0005] 基于TF‑IDF值算法的科技项目查重方法,该方法是通过使用特征向量模型的方法对科技项目申报文本进行分词及权重计算,对特征进行排序选取。
[0006] 基于层次聚类的科技项目分类与查重方法,该方法是在计算科技项目相似性时综合考虑了应用领域、研究内容和技术来源等因素,从而利用了项目本体相似度来计算模型
和层次聚类的结果,以此提高查重的高效性与科学性。
[0007] 基于科技项目申报与审批流程进行的项目查重方法,该方法通过对科研项目的申报与审批流程进行分析,提出避免重复立项的具体措施。
[0008] 上述现有技术存在以下问题:都是通过文本相似度来进行科技项目查重,但现有科技项目成果表现形式如论文、专著或者专利都是各种语言进行撰写,对于同一主题的语
言表达方式差异巨大,过分依赖查重人员的语言水平,很难避免漏检或者错检。而论文、专
著或者专利中的附图,却有着固定的格式。但是,现有的科技项目查重中,尚未有将图片相
似度作为科技项目查重手段的报道。

发明内容

[0009] 本发明的主要目的在于提供基于图像识别的成果大数据自动匹配方法,其基于历史成果文档建立内容分类树和特征分类树,再对待匹配的成果文档匹配查询,以实现成果
文档的查重;在进行匹配查询时,本发明使用先进行内容匹配,再进行特征匹配的方式进
行,可以有效提升系统效率,因为内容匹配的速度远高于进行特征匹配的速度,若内容匹配
已经完成了匹配,则不需要进行后续的特征匹配,避免系统资源的多度消耗;同时,本发明
在建立内容分类树和特征分类树时,使用标签和分类组的方式来实现,可以大幅降低内容
分类树或特征分类树的数据复杂度,提升检索匹配的效率;另外,本发明还使用基于多尺度
特征提取的图像特征提取方法,相较于一个尺度的图像特征,其用来进行特征匹配,准确率
更高。
[0010] 为达到上述目的,本发明的技术方案是这样实现的:
[0011] 基于图像识别的成果大数据自动匹配方法,所述方法执行以下步骤:
[0012] 步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;
[0013] 步骤2:对提取到的文字信息进行内容识别,得到内容识别结果;
[0014] 步骤3:基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签,基于内容标签,建立内容分类树;所述内容分类树为一个树形结
构的数据库;内容分类树中的每个节点为内容标签;每个内容标签对应一个内容分类组;内
容分类树的下级节点为上级节点的子集,内容分类树的同级节点之间为对等关系;
[0015] 步骤4:对提取到的图像信息进行第一次图像特征提取,得到图像特征集,所述图像特征集中包括所有历史成果文档的图像信息的图像特征;将图像特征集中的每个图像特
征与同属于一个相同的历史成果文档对应的内容分类组进行连接,建立图像特征集与内容
分类树中的内容分类组的一一映射的关系;
[0016] 步骤5:对图像特征集进行第二次图像特征提取,得到图像特征集中的图像特征的特征;
[0017] 步骤6:对图像特征的特征进行特征分类,得到多个特征分类组;基于特征分类的结果,生成多个特征标签,基于特征标签,建立特征分类树;所述特征分类树为一个树形结
构的数据库;特征分类树中的每个节点为特征标签;每个特征标签对应一个特征分类组;特
征分类树的下级节点为上级节点的子集,特征分类树的同级节点之间为对等关系;
[0018] 步骤7:录入待匹配成果文档,提取待匹配成果文档中的图像信息和文字信息;对待匹配成果文档中的文字信息首先进行内容识别,基于建立的内容分类树进行内容匹配,
得到内容匹配结果;然后对待匹配成果文档中的图像信息进提行图像特征提取,基于建立
的内容分类树与图像特征的映射关系,进行特征匹配,得到特征匹配结果;比对特征匹配结
果与内容匹配结果,若特征匹配结果与内容匹配结果的相似度大于或等于设定的阈值,则
完成成果文档的匹配;若特征匹配结果与内容匹配结果的相似度小于设定的阈值,则对待
匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征,
然后基于建立的特征分类树,进行特征匹配,得到特征匹配结果,完成成果文档的匹配。
[0019] 进一步的,所述步骤2和步骤7中:对提取到的文字信息进行内容识别的方法包括:定位所述待匹配成果文档或历史成果文档中的文字区域;对文字区域进行分类;将文字区
域的图像信息输入到文字识别模型,得到文字识别模型输出的文字信息;基于对文字区域
的分类结果,将文字识别模型输出的文字信息归类到相应文字区域所属的类别。
[0020] 进一步的,将文字区域的图像信息输入到文字识别模型包括:将文字区域的图像信息输入到与该文字区域所属类别对应的文字识别模型,其中,不同的类别对应不同的文
字识别模型;所述对文字区域进行分类包括:将文字区域的图像特征数据输入到第一分类
模型中,得到第一分类模型输出的类别信息;其中,第一分类模型是用一定数量的标记了类
别的图像特征数据作为样本数据进行训练后得到。
[0021] 进一步的,所述对文字区域进行分类包括:获取所述图像上文字区域的图像,将文字区域的图像输入到第二分类模型中,得到第二分类模型输出的类别信息;其中,第二分类
模型是用一定数量的标记了类别的包含文字的图像作为样本数据进行训练后得到。
[0022] 进一步的,所述步骤3中基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签的方法包括:比对内容识别结果之间的相似性,若
内容识别结果之间的相似性超过设定的阈值,则将对应的内容分类到同一个分组中,当对
所有的内容都完成相似性比对后,为每个分组,生成内容标签。
[0023] 进一步的,所述步骤4中对提取到的图像信息进行第一次图像特征提取,得到图像特征集的方法包括:将提取到的图像信息使用如下公式对所述目标图像进行多尺度特征提
取,得到多个尺度的特征值:A=‑∑jyjlogpj,
其中,yj为图像信息的每个像素点的像素值,pj为某个
像素点的像素值的在整个图像信息中的像素值中的概率,λ为调整系数,取值范围为:1~5;
dist表示取差值运算,dist(a,b,c)=|a‑b|+|a‑c|+|b‑c|;xi表示图像信息的某个像素点
的深度值, 和 表示图像信息中的某个像素点的相邻像素点的深度值;A、B和C分别表示
不同尺度下的特征值;分别处理每个尺度的特征值,得到与每个尺度的特征值对应的连贯
特征值;将多个所述连贯特征值融合为所述图像信息的特征,将所有图像信息的特征填充
进一个集合中,得到图像特征集。
[0024] 进一步的,所述步骤7中基于建立的内容分类树进行内容匹配的方法包括:对待匹配成果文档中的文字信息进行内容识别后,得到内容识别的结果;基于内容识别的结果从
内容分类树的根节点开始逐层进行匹配检索,具体包括:基于内容识别的结果,找到该内容
识别的结果所对应的内容标签;从内容分类树的根节点开始,基于得到的内容标签逐层进
行匹配检索,直到找到与该内容识别的结果所对应的内容标签相同的内容分类树中的节点
所对应的内容标签;然后从该节点对应的内容分类组中进行内容匹配。
[0025] 进一步的,所述进行内容匹配的方法包括:将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配成果文档中的文字信息的内容识别的结果所对应的二
进制数据信息,作为内容匹配方;再将内容分类组中的内容识别的结果进行转换,得到内容
分类组中的内容识别的结果的二进制数据信息,作为内容被匹配方;将内容匹配方和内容
被匹配方进行作差运算,若运算结果的值在设定的阈值范围内,则认为两者匹配,若运算结
果的值超过设定的阈值范围,则认为两者不匹配。
[0026] 进一步的,所述步骤7中基于建立的特征分类树,进行特征匹配,得到特征匹配结果的方法包括:对待匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得
到图像特征的特征;对图像特征的特征进行采样得到缩略图;将所述缩略图转化为灰度图;
计算所述缩略图中全部像素的灰度平均值;将所述缩略图中每个像素的灰度值与所述灰度
平均值进行比值运算,若比值运算的结果大于或等于设定的阈值;将所有比值运算的集合
按一定顺序组合成一个二进制整数,该二进制整数即为该图像特征的特征的缩略图特征;
逐位比较特征分类树中的图像特征的特征与图像特征的特征的缩略图特征,如果不相同的
数据位不超过一定阈值,则匹配,否则,则不匹配。
[0027] 进一步的,所述内容分类树和特征分类树均为二叉树。
[0028] 本发明的基于图像识别的成果大数据自动匹配方法,具有如下有益效果:其基于历史成果文档建立内容分类树和特征分类树,再对待匹配的成果文档匹配查询,以实现成
果文档的查重;在进行匹配查询时,本发明使用先进行内容匹配,再进行特征匹配的方式进
行,可以有效提升系统效率,因为内容匹配的速度远高于进行特征匹配的速度,若内容匹配
已经完成了匹配,则不需要进行后续的特征匹配,避免系统资源的多度消耗;同时,本发明
在建立内容分类树和特征分类树时,使用标签和分类组的方式来实现,可以大幅降低内容
分类树或特征分类树的数据复杂度,提升检索匹配的效率;另外,本发明还使用基于多尺度
特征提取的图像特征提取方法,相较于一个尺度的图像特征,其用来进行特征匹配,准确率
更高。主要通过以下过程实现:1.内容分类树的构建:本发明通过构建内容分类树,且树的
节点为内容标签,使得进行检索时,能够首先通过标签来进行匹配,以提升匹配的效率;同
时在完成内容分类后,再进行内容匹配;2.特征分类树的构建:本发明通过构建特征分类
树,且树的节点为特征标签,使得在完成内容检索后,再进行特征匹配时,能够首先通过特
征标签来进行匹配,以提升匹配的效率;3.图像特征提取的算法:本发明进行图像特征提取
时,是将提取到的图像信息使用如下公式对所述目标图像进行多尺度特征提取,这样提取
到的图像特征将更为完全,在进行特征匹配时,准确率也更高;4.通过二进制数据来进行内
容匹配:本发明将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配
成果文档中的文字信息的内容识别的结果所对应的二进制数据信息,作为内容匹配方;再
将内容分类组中的内容识别的结果进行转换,得到内容分类组中的内容识别的结果的二进
制数据信息,作为内容被匹配方;将内容匹配方和内容被匹配方进行作差运算,若运算结果
的值在设定的阈值范围内,则认为两者匹配,若运算结果的值超过设定的阈值范围,则认为
两者不匹配;这样做可以不用进行文字内容的一对一对比,而直接进行二进制数据对比,以
提升对比的效率和准确率。

附图说明

[0029] 图1为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的方法流程示意图;
[0030] 图2为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的图像特征提取的原理示意图;
[0031] 图3为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的内容分类树和特征分类树的树形结构示意图;
[0032] 图4为本发明的实施例提供的基于图像识别的成果大数据自动匹配方法的匹配准确率随着实验次数变化的曲线示意图与现有技术的对比实验效果示意图。

具体实施方式

[0033] 以下结合具体实施方式和附图对本发明的技术方案作进一步详细描述:
[0034] 实施例1
[0035] 如图1所示,基于图像识别的成果大数据自动匹配方法,所述方法执行以下步骤:
[0036] 步骤1:获取历史成果文档,提取历史成果文档中的图像信息和文字信息;
[0037] 步骤2:对提取到的文字信息进行内容识别,得到内容识别结果;
[0038] 步骤3:基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签,基于内容标签,建立内容分类树;所述内容分类树为一个树形结
构的数据库;内容分类树中的每个节点为内容标签;每个内容标签对应一个内容分类组;内
容分类树的下级节点为上级节点的子集,内容分类树的同级节点之间为对等关系;
[0039] 步骤4:对提取到的图像信息进行第一次图像特征提取,得到图像特征集,所述图像特征集中包括所有历史成果文档的图像信息的图像特征;将图像特征集中的每个图像特
征与同属于一个相同的历史成果文档对应的内容分类组进行连接,建立图像特征集与内容
分类树中的内容分类组的一一映射的关系;
[0040] 步骤5:对图像特征集进行第二次图像特征提取,得到图像特征集中的图像特征的特征;
[0041] 步骤6:对图像特征的特征进行特征分类,得到多个特征分类组;基于特征分类的结果,生成多个特征标签,基于特征标签,建立特征分类树;所述特征分类树为一个树形结
构的数据库;特征分类树中的每个节点为特征标签;每个特征标签对应一个特征分类组;特
征分类树的下级节点为上级节点的子集,特征分类树的同级节点之间为对等关系;
[0042] 步骤7:录入待匹配成果文档,提取待匹配成果文档中的图像信息和文字信息;对待匹配成果文档中的文字信息首先进行内容识别,基于建立的内容分类树进行内容匹配,
得到内容匹配结果;然后对待匹配成果文档中的图像信息进提行图像特征提取,基于建立
的内容分类树与图像特征的映射关系,进行特征匹配,得到特征匹配结果;比对特征匹配结
果与内容匹配结果,若特征匹配结果与内容匹配结果的相似度大于或等于设定的阈值,则
完成成果文档的匹配;若特征匹配结果与内容匹配结果的相似度小于设定的阈值,则对待
匹配成果文档进行图像特征提取后得到的图像特征进行特征提取,得到图像特征的特征,
然后基于建立的特征分类树,进行特征匹配,得到特征匹配结果,完成成果文档的匹配。
[0043] 实施例2
[0044] 在上一实施例的基础上,所述步骤2和步骤7中:对提取到的文字信息进行内容识别的方法包括:定位所述待匹配成果文档或历史成果文档中的文字区域;对文字区域进行
分类;将文字区域的图像信息输入到文字识别模型,得到文字识别模型输出的文字信息;基
于对文字区域的分类结果,将文字识别模型输出的文字信息归类到相应文字区域所属的类
别。
[0045] 具体的,
[0046] 实施例3
[0047] 在上一实施例的基础上,将文字区域的图像信息输入到文字识别模型包括:将文字区域的图像信息输入到与该文字区域所属类别对应的文字识别模型,其中,不同的类别
对应不同的文字识别模型;所述对文字区域进行分类包括:将文字区域的图像特征数据输
入到第一分类模型中,得到第一分类模型输出的类别信息;其中,第一分类模型是用一定数
量的标记了类别的图像特征数据作为样本数据进行训练后得到。
[0048] 具体的,图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。
[0049] 颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。
[0050] 纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属性,所以仅仅利
用纹理特征是无法获得高层次图像内容的。与颜色特征不同,纹理特征不是基于像素点的
特征,它需要在包含多个像素点的区域中进行统计计算。
[0051] 形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。
[0052] 所谓空间关系,是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。通常空间
位置信息可以分为两类:相对空间位置信息和绝对空间位置信息。前一种关系强调的是目
标之间的相对情况,如上下左右关系等,后一种关系强调的是目标之间的距离大小以及方
位。
[0053] 实施例4
[0054] 在上一实施例的基础上,所述对文字区域进行分类包括:获取所述图像上文字区域的图像,将文字区域的图像输入到第二分类模型中,得到第二分类模型输出的类别信息;
其中,第二分类模型是用一定数量的标记了类别的包含文字的图像作为样本数据进行训练
后得到。
[0055] 具体的,特征是描述模式的最佳方式,我们通常认为特征的各个维度能够从不同的角度描述模式,在理想情况下,维度之间是互补完备的。
[0056] 特征提取的主要目的是降维。特征抽取的主要思想是将原始样本投影到一个低维特征空间,得到最能反应样本本质或进行样本区分的低维样本特征。
[0057] 一般图像特征可以分为四类:直观性特征、灰度统计特征、变换系数特征与代数特征。
[0058] 直观性特征主要指几何特征,几何特征比较稳定,受人脸的姿态变化与光照条件等因素的影响小,但不易抽取,而且测量精度不高,与图像处理技术密切相关。
[0059] 代数特征是基于统计学习方法抽取的特征。代数特征具有较高的识别精度,代数特征抽取方法又可以分为两类:一种是线性投影特征抽取方法;另外一种是非线性特征抽
取方法。
[0060] 习惯上,将基于主成分分析和Fisher线性鉴别分析所获得的特征抽取方法,统称为线性投影分析。
[0061] 实施例5
[0062] 在上一实施例的基础上,所述步骤3中基于内容识别结果,进行内容分类,得到多个内容分类组,基于内容分类的结果,生成多个内容标签的方法包括:比对内容识别结果之
间的相似性,若内容识别结果之间的相似性超过设定的阈值,则将对应的内容分类到同一
个分组中,当对所有的内容都完成相似性比对后,为每个分组,生成内容标签。
[0063] 具体的,线性投影分析的特征抽取方法的基本思想是根据一定的性能目标来寻找一线性变换,把原始信号数据压缩到一个低维子空间,使数据在子空间中的分布更加紧凑,
为数据的更好描述提供手段,同时计算的复杂度得到大大降低。在线性投影分析中,以主成
分分析(PCA,或称K‑L变换)和Fisher线性鉴别分析(LDA)最具代表性,围绕这两种方法所形
成的特征抽取算法,已成为模式识别领域中最为经典和广泛使用的方法。
[0064] 线性投影分析法的主要缺点为:需要对大量的已有样本进行学习,且对定位、光照与物体非线性形变敏感,因而采集条件对识别性能影响较大。
[0065] 非线性特征抽取方法也是研究的热点之一。“核技巧”最早应用在SVM中,KPCA和KFA是“核技巧”的推广应用。
[0066] 核投影方法的基本思想是将原样本空间中的样本通过某种形式的非线性映射,变换到一个高维甚至无穷维的空间,并借助于核技巧在新的空间中应用线性的分析方法求
解。由于新空间中的线性方向也对应原样本空间的非线性方向,所以基于核的投影分析得
出的投影方向也对应原样本空间的非线性方向。
[0067] 核投影方法也有一些缺点:几何意义不明确,无法知道样本在非显式映射后变成了什么分布模式;核函数中参数的选取没有相应选择标准,大多数只能采取经验参数选取;
不适合训练样本很多的情况,原因是经过核映射后,样本的维数等于训练样本的个数,如果
训练样本数目很大,核映射后的向量维数将会很高,并将遇到计算量上的难题。
[0068] 就应用领域来说,KPCA远没有PCA应用的广泛。如果作为一般性的降维KPCA确实比PCA效果好,特别是特征空间不是一般的欧式空间的时候更为明显。但PCA可以通过大量的
自然图片学习一个子空间,但是KPCA做不到。
[0069] 变换系数特征指先对图像进行Fourier变换、小波变换等,得到的系数后作为特征进行识别。
[0070] 实施例6
[0071] 在上一实施例的基础上,所述步骤4中对提取到的图像信息进行第一次图像特征提取,得到图像特征集的方法包括:将提取到的图像信息使用如下公式对所述目标图像进
行多 尺度特 征提 取 ,得到 多个 尺度的 特征 值 :A= ‑∑ jyj lo g  pj ,
C=dist xi,xi+,xi‑;其中,yj为图像信息的
每个像素点的像素值,pj为某个像素点的像素值的在整个图像信息中的像素值中的概率,λ
为调整系数,取值范围为:1~5;dist表示取差值运算,dist(a,b,c)=|a‑b|+|a‑c|+|b‑c|;
xi表示图像信息的某个像素点的深度值, 和 表示图像信息中的某个像素点的相邻像
素点的深度值;A、B和C分别表示不同尺度下的特征值;分别处理每个尺度的特征值,得到与
每个尺度的特征值对应的连贯特征值;将多个所述连贯特征值融合为所述图像信息的特
征,将所有图像信息的特征填充进一个集合中,得到图像特征集。
[0072] 实施例7
[0073] 在上一实施例的基础上,所述步骤7中基于建立的内容分类树进行内容匹配的方法包括:对待匹配成果文档中的文字信息进行内容识别后,得到内容识别的结果;基于内容
识别的结果从内容分类树的根节点开始逐层进行匹配检索,具体包括:基于内容识别的结
果,找到该内容识别的结果所对应的内容标签;从内容分类树的根节点开始,基于得到的内
容标签逐层进行匹配检索,直到找到与该内容识别的结果所对应的内容标签相同的内容分
类树中的节点所对应的内容标签;然后从该节点对应的内容分类组中进行内容匹配。
[0074] 实施例8
[0075] 在上一实施例的基础上,所述进行内容匹配的方法包括:将待匹配成果文档中的文字信息的内容识别的结果进行转换,得到待匹配成果文档中的文字信息的内容识别的结
果所对应的二进制数据信息,作为内容匹配方;再将内容分类组中的内容识别的结果进行
转换,得到内容分类组中的内容识别的结果的二进制数据信息,作为内容被匹配方;将内容
匹配方和内容被匹配方进行作差运算,若运算结果的值在设定的阈值范围内,则认为两者
匹配,若运算结果的值超过设定的阈值范围,则认为两者不匹配。
[0076] 具体的,现有技术针对字符串或特征字进行的内容匹配技术典型的执行如下操作:a)将目标字符串分为至少一个第一字符串山)通过组合生成第二字符串组,例如进一步
将第一字符串的子串作为第二字符串;c)从第二字符串中提取第三字符串,例如按照黑名
单、白名单筛选出常用的字符串作为第三字符串,采用状态机或规则树等算法编译各第三
字符串;d)采用滑窗方式,根据不同的起始位置,比较被检测字符串中是否匹配第一个字符
串节点处的第三字符串;e)如果匹配成功,但存在下一个字符串节点,则进入下一个匹配流
程;f)如果匹配成功,且无下一字符串节点,则被检测字符串与目标字符串匹配;g)如果匹
配失败,则被检测字符串与目标字符串不匹配。
[0077] 实施例9
[0078] 在上一实施例的基础上,所述步骤7中基于建立的特征分类树,进行特征匹配,得到特征匹配结果的方法包括:对待匹配成果文档进行图像特征提取后得到的图像特征进行
特征提取,得到图像特征的特征;对图像特征的特征进行采样得到缩略图;将所述缩略图转
化为灰度图;计算所述缩略图中全部像素的灰度平均值;将所述缩略图中每个像素的灰度
值与所述灰度平均值进行比值运算,若比值运算的结果大于或等于设定的阈值;将所有比
值运算的集合按一定顺序组合成一个二进制整数,该二进制整数即为该图像特征的特征的
缩略图特征;逐位比较特征分类树中的图像特征的特征与图像特征的特征的缩略图特征,
如果不相同的数据位不超过一定阈值,则匹配,否则,则不匹配。
[0079] 实施例10
[0080] 在上一实施例的基础上,所述内容分类树和特征分类树均为二叉树。
[0081] 以上所述仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之
内受到制约。
[0082] 所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0083] 需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明
实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,
也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施
例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当
限定。
[0084] 所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,
在此不再赘述。
[0085] 本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对
应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编
程ROM、寄存器、硬盘、可移动磁盘、CD‑ROM、或技术领域内所公知的任意其它形式的存储介
质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地
描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术
方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法
来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0086] 术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
[0087] 术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的
其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
[0088] 至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本
发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些
更改或替换之后的技术方案都将落入本发明的保护范围之内。
[0089] 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。