数据分类识别方法、装置、设备及可读存储介质转让专利
申请号 : CN202110532246.3
文献号 : CN112949786B
文献日 : 2021-08-06
发明人 : 魏东 , 孙镜涵 , 马锴 , 王连生 , 郑冶枫
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种数据分类识别方法,其特征在于,所述方法包括:获取第一数据集和第二数据集,所述第一数据集中包括第一数据,所述第一数据为未标注有标签的数据,所述第二数据集中包括标注有样本标签的第二数据,所述第二数据属于目标分类集,所述第一数据集中第一数据的数据量大于所述第二数据集中第二数据的数据量,所述第二数据集中第二数据的数量在要求数量范围内;
基于所述第一数据集中的第一数据对特征提取网络进行无监督训练;
将分类回归网络与经过无监督训练的所述特征提取网络结合,得到分类模型,所述分类回归网络用于在所述目标分类集中进行数据分类;
通过所述第二数据集中的所述第二数据和所述样本标签对所述分类模型进行监督训练,得到分类教师模型;
获取分类学生模型,所述分类学生模型为模型参数待训练的模型;
通过所述第一数据以所述分类教师模型为基准模型,对所述分类学生模型的所述模型参数进行蒸馏训练,得到数据分类模型;
通过所述数据分类模型对目标数据进行分类预测,得到所述目标数据在所述目标分类集中所属的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述通过所述第一数据以所述分类教师模型为基准模型,对所述分类学生模型的所述模型参数进行蒸馏训练,得到数据分类模型,包括:
通过所述分类教师模型对所述第一数据集中的所述第一数据进行分类预测,得到与所述第一数据对应所述目标分类集中类别的伪标签;
通过所述分类学生模型对所述第一数据集中的第一数据进行分类预测,得到与所述第一数据对应的预测结果;
基于所述伪标签与所述预测结果之间的差异对所述分类学生模型的所述模型参数进行调整,得到所述数据分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述伪标签与所述预测结果之间的差异对所述分类学生模型的所述模型参数进行调整,得到所述数据分类模型,包括:获取所述伪标签的置信度参数;
确定所述伪标签在所述置信度参数下与所述预测结果之间的差异,并基于所述差异对所述分类学生模型的所述模型参数进行调整,得到所述数据分类模型。
4.根据权利要求2所述的方法,其特征在于,所述通过所述分类教师模型对所述第一数据集中的所述第一数据进行分类预测,得到与所述第一数据对应的伪标签,包括:通过所述分类教师模型对所述第一数据集中的所述第一数据进行分类预测,得到所述第一数据对应所述目标分类集中分类的概率值;
基于所述概率值从所述目标分类集中确定所述第一数据对应的伪标签。
5.根据权利要求2所述的方法,其特征在于,所述分类学生模型中包括第一查询编码器和第一键值编码器;
所述方法还包括:
通过所述第一查询编码器对所述第一数据进行编码,得到第一编码结果;
获取所述第一键值编码器对所述第一数据和第一预设动态字典中的数据进行编码的第二编码结果;
基于所述第一编码结果与所述第二编码结果的差异对所述分类学生模型进行蒸馏训练,得到所述数据分类模型。
6.根据权利要求1至5任一所述的方法,其特征在于,所述特征提取网络中包括第二查询编码器和第二键值编码器;
所述基于所述第一数据集中的第一数据对特征提取网络进行无监督训练,包括:通过所述第二查询编码器对所述第一数据进行编码,得到第三编码结果;
获取所述第二键值编码器对所述第一数据和第二预设动态字典中的数据进行编码的第四编码结果;
基于所述第三编码结果与所述第四编码结果的差异对所述特征提取网络进行无监督训练。
7.根据权利要求6所述的方法,其特征在于,所述将分类回归网络与经过无监督训练的所述特征提取网络结合,得到分类模型,包括:将所述分类回归网络与经过无监督训练的所述第二查询编码器连接,得到所述分类模型。
8.根据权利要求1至5任一所述的方法,其特征在于,所述通过所述数据分类模型对目标数据进行分类预测,得到所述目标数据在所述目标分类集中所属的分类结果,包括:获取测试数据集,所述测试数据集中的测试数据用于对所述数据分类模型的训练效果进行测试;
从所述测试数据集中获取所述目标数据,所述目标数据标注有参考分类信息;
通过所述数据分类模型对目标数据进行分类预测,得到所述分类结果;
基于所述参考分类信息和所述分类结果获取所述数据分类模型的训练效果数据。
9.一种数据分类识别装置,其特征在于,所述装置包括:获取模块,用于获取第一数据集和第二数据集,所述第一数据集中包括第一数据,所述第一数据为未标注有标签的数据,所述第二数据集中包括标注有样本标签的第二数据,所述第二数据属于目标分类集,所述第一数据集中第一数据的数据量大于所述第二数据集中第二数据的数据量,所述第二数据集中第二数据的数量在要求数量范围内;
训练模块,用于基于所述第一数据集中的第一数据对特征提取网络进行无监督训练;
将分类回归网络与经过无监督训练的所述特征提取网络结合,得到分类模型,所述分类回归网络用于在所述目标分类集中进行数据分类;
所述训练模块,还用于通过所述第二数据集中的所述第二数据和所述样本标签对所述分类模型进行监督训练,得到分类教师模型;
所述获取模块,还用于获取分类学生模型,所述分类学生模型为模型参数待训练的模型;
所述训练模块,还用于通过所述第一数据以所述分类教师模型为基准模型,对所述分类学生模型的所述模型参数进行蒸馏训练,得到数据分类模型;
预测模块,用于通过所述数据分类模型对目标数据进行分类预测,得到所述目标数据在所述目标分类集中所属的分类结果。
10.根据权利要求9所述的装置,其特征在于,所述预测模块,还用于通过所述分类教师模型对所述第一数据集中的所述第一数据进行分类预测,得到与所述第一数据对应所述目标分类集中类别的伪标签;
所述预测模块,还用于通过所述分类学生模型对所述第一数据集中的第一数据进行分类预测,得到与所述第一数据对应的预测结果;
所述训练模块,还包括:
调整单元,用于基于所述伪标签与所述预测结果之间的差异对所述分类学生模型的所述模型参数进行调整,得到所述数据分类模型。
11.根据权利要求10所述的装置,其特征在于,所述获取模块,还用于获取所述伪标签的置信度参数;
所述调整单元,还用于确定所述伪标签在所述置信度参数下与所述预测结果之间的差异,并基于所述差异对所述分类学生模型的所述模型参数进行调整,得到所述数据分类模型。
12.根据权利要求10所述的装置,其特征在于,所述预测模块,还用于通过所述分类教师模型对所述第一数据集中的所述第一数据进行分类预测,得到所述第一数据对应所述目标分类集中分类的概率值;基于所述概率值从所述目标分类集中确定所述第一数据对应的伪标签。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的数据分类识别方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的数据分类识别方法。
说明书 :
数据分类识别方法、装置、设备及可读存储介质
技术领域
背景技术
影像所对应的身体异常情况。
病,以及属于哪一种罕见病。其中,分类模型在训练过程中,需要大量有标注的训练数据集,
即标注有罕见病信息的图像数据集进行训练,从而确保模型准确率。
发明内容
少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中
任一所述数据分类识别方法。
指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的数据分类识别方法。
器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设
备执行上述实施例中任一所述的数据分类识别方法。
练,利用教师模型进行监督训练来达到蒸馏的目的,最终得到更高性能和精度的学生模型,
训练主要依赖大量的第一数据,而对有标签的第二数据的数据量要求较小,避免了对样本
数据进行大量标注的繁琐过程,提高了数据分类模型的训练效率以及准确率。
附图说明
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
具体实施方式
论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解
智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能
也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学
习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示
教学习等技术。
进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个
科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取
信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像
检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视
频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技
术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
标签,而是由训练好的模型标注的存在一定容错率的标签。
据进行分类识别后,得到识别结果,通过标注的罕见病信息与识别结果之间的差异对分类
模型进行训练。然而,由于罕见病本身的罕见性,导致样本图像数据的获取难度较大,需要
大量的人力采集样本图像数据,以及对样本图像数据进行罕见病信息的标注,分类模型的
训练效率较低。
据集120中包括少量罕见病的医学影像,且第二图像数据集120中的医学影像包括标注信息
用于标注医学影像对应的罕见病信息。
进行监督训练,并基于训练后的分类教师模型F对分类学生模型F’进行知识蒸馏训练,从而
得到罕见病的分类模型(也即训练后的分类学生模型F’)。
而提高诊断准确率;或者,第一终端211为用户应用的终端,如:患者本人,或者患者的亲属
等,用户将医学影像发送至服务器,从而获取参考诊断结果;或者,第一终端211为医学影像
扫描设备所连接的终端,医学影像扫描设备在扫描得到医学影像后传输至第一终端211,第
一终端211在接收到医学影像后,将医学影像转发至服务器220进行辅助诊断。
识别,得到医学影像在罕见病分类集中的分类诊断结果。服务器220将分类诊断结果反馈至
第一终端211或者将分类诊断结果发送至第二终端212。
端。
储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery
Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以
组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务
需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行
业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系
统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后
盾支撑,只能通过云计算来实现。
用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数
据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和
生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
医生所应用的终端进行展示,从而医生通过分类诊断结果进行辅助诊断,并得出最终的诊
断结果。
反馈至用户应用的终端进行展示,用户根据分类诊断结果首先对异常生命状态进行初步了
解,继而通过医生诊断得到详细诊断结果。
病为例,如:第一分类集中包括近视、远视、结膜炎等常见眼疾类型;目标分类集对应为罕见
病分类集,以眼部疾病为例,如:目标分类集中包括干眼症、视雪症、遗传性视神经病变等罕
见眼疾类型。
像;第二数据集中包括的第二数据为与和罕见病对应的医学影像,如:CT图像、X光图像、超
声波图像等形式的影像。
内,如:小于预设数量。
见病数据集中包括罕见病数据,第二数据标注有罕见病信息,也即每个医学影像所对应的
罕见病类型。
归网络用于在目标分类集中进行数据分类,通过第二数据集中的第二数据和样本标签对分
类模型进行监督训练,得到分类教师模型。
本标签,故,第二数据能够用于对分类模型进行监督训练。
师模型输出的监督信息作为知识,由学生模型学习迁移自教师模型的监督信息作为蒸馏过
程,利用教师模型进行监督训练来达到蒸馏的目的,最终得到更高性能和精度的学生模型。
行分类预测,得到与第一数据对应的预测结果,基于伪标签与预测结果之间的差异对分类
学生模型的模型参数进行调整,得到数据分类模型。
时的数据,如:实际应用时的医学影像;或者,目标数据也可以是测试集中用于对数据分类
模型进行测试的数据。
型的基础上,创建分类学生模型进行知识蒸馏训练,利用教师模型进行监督训练来达到蒸
馏的目的,最终得到更高性能和精度的学生模型,训练主要依赖大量的第一数据,而对有标
签的第二数据的数据量要求较小,避免了对样本数据进行大量标注的繁琐过程,提高了数
据分类模型的训练效率以及准确率。
的数据分类识别方法的流程图,以该方法应用于服务器中为例进行说明,如图4所示,该方
法包括如下步骤。
集对应为罕见病分类集。
归网络用于在目标分类集中进行数据分类,通过第二数据集中的第二数据和样本标签对分
类模型进行监督训练,得到分类教师模型。
出的知识对分类学生模型进行蒸馏训练。其中,分类学生模型为模型参数待调整的用于在
目标分类集进行分类的模型。
一数据集和第二数据集的数据在颜色、纹理或者形状上具有相似的特征。因此,采用分类教
师模型作为基准模型预测第一数据集中的图像属于目标分类集的概率。
对应的伪标签。
也即对应目标分类集中类别的概率:p=F(x)=[p1,…,pn] ,其中,p表示概率,n表示目标分类
集中类别数量,F(x)表示对第一数据x采用分类教师模型F进行分类预测,n个类别的概率和
为1。根据上述确定的软标签进一步确定第一数据对应目标分类集中类别的硬标签。示意性
的,根据上述概率p,将概率最大的类别标注为对应的第一数据的伪标签,也即,概率最大的
类别的硬标签为1,其他类别硬标签为0,而硬标签为1的类别即为第一数据对应的伪标签。
一预设动态字典中的数据进行编码的第二编码结果,基于第一编码结果和第二编码结果的
差异对分类学生模型进行蒸馏训练,得到数据分类模型。
数进行调整,对比判别方法即为通过第一查询编码器与第一键值编码器对分类学生模型进
行训练。可选地,采用随机初始化学生模型的策略,其中分类学生模型F’=f’(c f’q),f’q对应
为第一查询编码器,具有模型参数θ’q,f’c对应为回归分类网络,具有模型参数θ’c,确定混
合损失Ldis,计算公式如下公式一所示。
第一编码结果与第一键值编码器对第一预设动态词典中的数据编码的第二编码结果进行
比对,得到对比判别方法中的损失Lcon。y表示分类教师模型识别得到的伪标签,将伪标签与
分类学生模型的预测结果进行比对,得到伪标签监督方法对应的损失Lcls。从而将两部分损
失相加,对模型参数θ’q进行更新。
利影响。故,本申请实施例中,伪标签还对应有置信度参数,获取伪标签的置信度参数,确定
伪标签在置信度参数下与预测结果之间的差异,并基于差异对分类学生模型的模型参数进
行调整,得到数据分类模型。
本申请采用线性增长方法,在第t个训练回合的α为:αt=αT×(t/T)。其中,αT为最后一个训练
adpt
回合的参数值,示意性的,αT设置为0.7。T为总训练回合数。最后,用y 替代上述公式一中
的y作为最终的损失函数。
时的数据,如:实际应用时的医学影像;或者,目标数据也可以是测试集中用于对数据分类
模型进行测试的数据。
过数据分类模型对目标数据进行分类预测得到分类结果后,基于参考分类信息和分类结果
获取数据分类模型的训练效果数据。示意性的,获取测试数据集中的多个目标数据,分别进
行分类预测,并与参考分类信息进行比对,根据比对结果正确的目标数据占被测试的目标
数据总数的比例,确定训练效果,也即确定数据分类模型的预测准确率。
型的基础上,创建分类学生模型进行知识蒸馏训练,利用教师模型进行监督训练来达到蒸
馏的目的,最终得到更高性能和精度的学生模型,训练主要依赖大量的第一数据,而对有标
签的第二数据的数据量要求较小,避免了对样本数据进行大量标注的繁琐过程,提高了数
据分类模型的训练效率以及准确率。
据的特征提取被蒸馏训练过程影响,提高了分类学生模型的训练效率和准确率。
所示,以该方法应用于服务器中为例,该方法包括如下步骤。
集对应为罕见病分类集。
设动态字典中的数据进行编码的第四编码结果,基于第三编码结果和第四编码结果的差异
对特征提取网络进行无监督训练。
像增强的次数两次,从而分别输入第二查询编码器和第二键值编码器。示意性的,对第一数
据集中的每张图像进行两次图像增强,得到 和 。分别通过第二查询编码器
和第二键值编码器 进行特征提取,得到相应的特征,其
中,fq和fk分别为由参数θq和θk组成的第二查询编码器和第二键值编码器,则对比损失的计
算方式请参考如下公式三。
预设动态字典中的键值图像,并根据图像xi与存储在第二预设动态字典中的键值图像的差
异通过反向传播更新参数θq,而θk通过θq进行动量更新: ,其中,
。
练的第二查询编码器连接,得到分类模型。
的实际分类,从而根据样本标签与预测结果之间的差异反向对分类模型的模型参数进行调
整。可选地,根据样本标签与预测结果计算该预测结果的损失值,从而根据损失值反向对分
类模型的模型参数进行调整,直至预测结果对应的损失值收敛。
师模型输出的监督信息作为知识,由学生模型学习迁移自教师模型的监督信息作为蒸馏过
程,利用教师模型进行监督训练来达到蒸馏的目的,最终得到更高性能和精度的学生模型。
行分类预测,得到与第一数据对应的预测结果,基于伪标签与预测结果之间的差异对分类
学生模型的模型参数进行调整,得到数据分类模型。
时的数据,如:实际应用时的医学影像;或者,目标数据也可以是测试集中用于对数据分类
模型进行测试的数据。
型的基础上,创建分类学生模型进行知识蒸馏训练,利用教师模型进行监督训练来达到蒸
馏的目的,最终得到更高性能和精度的学生模型,训练主要依赖大量的第一数据,而对有标
签的第二数据的数据量要求较小,避免了对样本数据进行大量标注的繁琐过程,提高了数
据分类模型的训练效率以及准确率。
第二数据的采集过程较为繁琐,或者第二数据的收集难度较大时,仅需要少量采集第二数
据,即可实现对分类教师模型的有效训练,提高了模型的训练效率。
施例提供的罕见病分类识别模型的训练过程整体示意图。
成对查询编码器612的训练,冻结查询编码器612的参数,并将无监督训练后的查询编码器
612在监督训练阶段620应用于与分类回归模型621的连接。
罕见病的医学影像623对应标注的标签以及分类教师模型622的分类结果确定损失值,并实
现对分类教师模型622的监督训练。
键值编码器643的编码结果得到第二损失值,从而根据第一损失值和第二损失值确定总的
损失值对分类学生模型641进行训练,得到罕见病分类识别模型。
作为第二数据集。评价指标选择了准确率(Accuracy)、统计学中用来衡量二分类模型精确
度的指标F1 score。
能评估。
时,本技术方案无需任何常见病数据集的标注,准确率即可达到81.16%。此结果验证了本方
法的假设:通过将伪标签监督信息注入到表征学习过程中并充分利用大量无标注数据集学
习能够更好地学习罕见疾病数据的表征及其分类器。
类别的伪标签;
据分类模型。
类的概率值;基于所述概率值从所述目标分类集中确定所述第一数据对应的伪标签。
网络结合,得到分类模型,所述分类回归网络用于在所述目标分类集中进行数据分类;
取所述目标数据,所述目标数据标注有参考分类信息;
型的基础上,创建分类学生模型进行知识蒸馏训练,利用教师模型进行监督训练来达到蒸
馏的目的,最终得到更高性能和精度的学生模型,训练主要依赖大量的第一数据,而对有标
签的第二数据的数据量要求较小,避免了对样本数据进行大量标注的繁琐过程,提高了数
据分类模型的训练效率以及准确率。
将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上
述实施例提供的数据分类识别装置与数据分类识别方法实施例属于同一构思,其具体实现
过程详见方法实施例,这里不再赘述。
ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。服
务器900还包括用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备
906。
非易失性存储。也就是说,大容量存储设备906可以包括诸如硬盘或者紧凑型光盘只读存储
器(Compact Disc Read Only Memory,CD‑ROM)驱动器之类的计算机可读介质(未示出)。
方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、
ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电
可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,
EEPROM)、闪存或其他固态存储其技术,CD‑ROM、数字通用光盘(Digital Versatile Disc,
DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员
可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备906可以
统称为存储器。
连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计
算机系统(未示出)。
段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的数据分类识
别方法。
或指令集由处理器加载并执行,以实现上述各方法实施例提供的数据分类识别方法。
的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计
算机设备执行上述实施例中任一所述的数据分类识别方法。
盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random
Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本
申请实施例序号仅仅为了描述,不代表实施例的优劣。
存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。