基于加权核回归和封装式偏差搜索的综合年龄检测系统转让专利

申请号 : CN201810655429.2

文献号 : CN109192315B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李勇明肖洁王品郑源林颜芳李新科

申请人 : 重庆大学

摘要 :

本发明提供了一种基于加权核回归和封装式偏差搜索的综合年龄检测系统,其特征在于包括:数据采集设备、实际年龄输入设备、存储器、预处理模块、特征压缩模块、传统年龄估计模块、病理年龄估计模块、加权核回归模块以及结果输出模块。其效果是:该系统克服了传统年龄估计方法与病理年龄估计方法的不足,在提高估计年龄分类能力同时有效地控制了正常人的实际年龄估计误差。整个框架算法原理明确,实现方便,对健康人或病人的年龄及健康状态的探测更具有科学依据,可靠度高,可行性强。

权利要求 :

1.一种基于加权核回归和封装式偏差搜索的综合年龄检测系统,其特征在于包括:数据采集设备:用于采集医疗数据,并将采集到的医疗数据输入到存储器中;

实际年龄输入设备:用于输入实际年龄信息到存储器中;

存储器:用于存储样本数据库;

预处理模块:从存储器的各个数据库中获取医疗数据并进行数据清洗;

特征压缩模块:对数据进行压缩,去掉冗余特征;

传统年龄估计模块:基于正常人样本建立回归模型,训练标签为实际年龄,通过最小化估计年龄和实际年龄差异进行模型训练;

病理年龄估计模块:基于所有类别样本建立回归模型,引入年龄偏差表征病理年龄和实际年龄差异,训练标签为实际年龄加年龄偏差,通过最大化分类准确率来搜索最优年龄偏差,并将得到的最优年龄偏差封装至病理年龄估计模型中;

加权核回归模块:用于对传统年龄估计模块输出传统年龄和病理年龄估计模块输出的病理年龄进行加权集成,得到综合年龄检测结果;

结果输出模块:用于输出所述综合年龄检测结果;

所述存储器中设有PA样本数据库、NC样本数据库以及待测样本数据库;

所述PA样本数据库:用于存储疾病患者医疗数据和对应的实际年龄信息;

所述NC样本数据库:用于存储正常人的医疗数据和对应的实际年龄信息;

所述待测样本数据库:用于存储未确诊对象的医疗数据和对应的实际年龄信息;

所述病理年龄估计模块先利用PA样本数据库和NC样本数据库中的数据进行训练,设定正常人的年龄偏差p在(pmin,pmax)范围内变化,疾病患者的年龄偏差q在(qmin,qmax)范围内变化,p,q的变化步径为Δ,Δ≤1,选定训练样本和验证样本,将训练样本的医学特征和实际年龄加上偏差作为SVR模型输入,获得训练后的SVR模型,保存SVR模型参数;基于训练后的SVR模型和验证样本,输出验证样本的年龄估计值,根据验证样本年龄估计值计算适应度函数值,保存该适应度函数值及对应的偏差组合(p,q);通过在(pmin,pmax)和(qmin,qmax)范围内按预设步进轮询,寻找所有(p,q)组合中适应度函数值最大值,得到全局最优的模型参数和年龄偏差组合(popt,qopt),从而得到最佳病理年龄估计模型。

2.根据权利要求1所述的基于加权核回归和封装式偏差搜索的综合年龄检测系统,其特征在于,所述预处理模块从存储器的各个数据库中获取医疗数据,通过数据清洗手段删除重复信息、纠正错误并提供数据一致性,得到最终的有效医学特征。

3.根据权利要求1所述的基于加权核回归和封装式偏差搜索的综合年龄检测系统,其特征在于,所述传统年龄估计模块和所述病理年龄估计模块中回归模型均采用SVR模型。

4.根据权利要求1所述的基于加权核回归和封装式偏差搜索的综合年龄检测系统,其特征在于,所述病理年龄估计模块中回归器的适应度函数值由年龄估计值的可分度距离或相关性系数值来表征。

5.根据权利要求4所述的基于加权核回归和封装式偏差搜索的综合年龄检测系统,其特征在于,所述可分度距离计算方式为 其中:是第

一类样本估计年龄均值, 是第二类样本估计年龄均值,是所有样本估计年龄均值,是第一类样本集合中第j个样本的估计年龄, 是第二类样本集合中第k个样本的估计年龄,P1是第一类样本数目与总样本数目的比值,P2是第二类样本数目与总样本数目的比值,N1是第一类样本的数量,N2是第二类样本数量;

所述相关性系数的计算方式为 各个变量计算方式为:

其中: 是

第j个样本的估计年龄,表示N个样本估计年龄的平均值,lj是第j个样本的真实年龄,表示N个样本真实年龄的平均值,N为样本数量。

6.根据权利要求1所述的基于加权核回归和封装式偏差搜索的综合年龄检测系统,其特征在于,所述加权核回归模型是传统年龄估计模块和病理年龄估计模块的凸组合,即传统年龄的权重w1范围从0到1,病理年龄的权重w2范围从1到0,约束为w1+w2=1。

说明书 :

基于加权核回归和封装式偏差搜索的综合年龄检测系统

技术领域

[0001] 本发明涉及生物医学电子中的信息检测技术,属于生物信息检测与人工智能的交叉技术,具体涉及一种基于加权核回归和封装式偏差搜索的综合年龄检测系统。

背景技术

[0002] 医疗数据中蕴含着许多非常有价值的信息资源,这些资源对于相关病例的诊疗以及医学方面的研究发展都具有非常重要的意义。医疗数据挖掘用于年龄检测和分类诊断已被证明是一种有效方式。研究表明,年龄与疾病发生发展过程有着紧密联系。年龄是一种高质量的特征,其可以深度刻画疾病状态和变化过程,具有全局性、深刻性、稳定性等优点,是潜在的高效标记物,目前已成为研究热点。
[0003] 目前通过医疗数据挖掘估计年龄信息实现疾病检测和诊断已取得了一定成效,现有技术主要是传统年龄估计方法与病理年龄估计方法两种,但是这些方法都存在一定问题。传统年龄估计方法存在以下问题:1)训练回归模型的过程中未利用疾病患者样本;2)估计年龄随着疾病状态的不同而改变,实际年龄与估计年龄之间的偏差也因疾病的状态不同而改变,因此将实际年龄作为训练标签是不合理的;3)直接通过最小化误差函数MAE搜索最优检测模型。MAE是指估计年龄与实际年龄之间的平均绝对误差,最小化MAE就是使估计年龄逼近实际年龄。因此,传统年龄估计方法不利于提高估计年龄的分类能力,而病理年龄估计方法未考虑对正常人实际年龄估计误差的控制。
[0004] 现有技术无法兼顾估计提高年龄分类能力与有效控制正常人实际年龄估计误差这个两个指标,存在对估计年龄指标考虑不足的问题。

发明内容

[0005] 本申请通过提供一种加权核回归和封装式偏差搜索的综合年龄检测系统,解决现有的技术无法兼顾估计提高年龄分类能力与有效控制正常人实际年龄估计误差的问题。
[0006] 为达到上述目的,本发明采用的技术方案如下:
[0007] 一种基于加权核回归和封装式偏差搜索的综合年龄检测系统,其关键在于包括:
[0008] 数据采集设备:用于采集医疗数据,并将采集到的医疗数据输入到存储器中;
[0009] 实际年龄输入设备:用于输入实际年龄信息到存储器中;
[0010] 存储器:用于存储样本数据库;
[0011] 预处理模块:从存储器的各个数据库中获取医疗数据并进行数据清洗;
[0012] 特征压缩模块:对数据进行压缩,去掉冗余特征;
[0013] 传统年龄估计模块:基于正常人样本建立回归模型,训练标签为实际年龄,通过最小化估计年龄和实际年龄差异进行模型训练;
[0014] 病理年龄估计模块:基于所有类别样本建立回归模型,引入年龄偏差表征病理年龄和实际年龄差异,训练标签为实际年龄加年龄偏差,通过最大化分类准确率来搜索最优年龄偏差,并将得到的最优年龄偏差封装至病理年龄估计模型中;
[0015] 加权核回归模块:用于对传统年龄估计模块输出传统年龄和病理年龄估计模块输出的病理年龄进行加权集成,得到综合年龄检测结果;
[0016] 结果输出模块:用于输出所述综合年龄检测结果。
[0017] 进一步地,所述存储器中设有PA样本数据库、NC样本数据库以及待测样本数据库;
[0018] 所述PA样本数据库:用于存储疾病患者医疗数据和对应的实际年龄信息;
[0019] 所述NC样本数据库:用于存储正常人的医疗数据和对应的实际年龄信息;
[0020] 所述待测样本数据库:用于存储未确诊对象的医疗数据和对应的实际年龄信息;
[0021] 当然,也可以增加NC和PA之间的过渡状态,则病理年龄检测中的分类问题则从二分类转化为多分类,后续的年龄偏差参数则由2个转为多个。
[0022] 进一步地,所述预处理模块从存储器的各个数据库中获取医疗数据,通过数据清洗手段删除重复信息、纠正错误并提供数据一致性,得到最终的有效医学特征。
[0023] 进一步地,所述传统年龄估计模块和所述病理年龄估计模块中回归模型均采用SVR模型。
[0024] 进一步地,所述病理年龄估计模块中回归器的适应度函数值由年龄估计值的可分度距离或相关性系数值来表征。
[0025] 进一步地,所述病理年龄估计模块先利用PA样本数据库和NC样本数据库中的数据进行训练,设定正常人的年龄偏差p在(pmin,pmax)范围内变化,疾病患者的年龄偏差q在(qmin,qmax)范围内变化,p,q的变化步径为Δ,Δ≤1,选定训练样本和验证样本,将训练样本的医学特征和实际年龄加上偏差作为SVR模型输入,获得训练后的SVR模型,保存SVR模型参数;基于训练后的SVR模型和验证样本,输出验证样本的年龄估计值,根据验证样本年龄估计值计算适应度函数值,保存该适应度函数值及对应的偏差组合(p,q);通过在(pmin,pmax)和(qmin,qmax)范围内按预设步进轮询,寻找所有(p,q)组合中适应度函数值最大值,得到全局最优的模型参数和年龄偏差组合(popt,qopt),从而得到最佳病理年龄估计模型。
[0026] 若分类数不是正常人与病人的两分类问题,而是多分类问题的话,年龄偏差参数则由(p,q)参数变为多个参数。
[0027] 进一步地,所述可分度距离计算方式为 其中:
[0028]是第一类样本估计年龄均值, 是第二类样本估计年龄均值, 是所有样本估计年龄均值,是第一类样本集合中第j个样本的估计年龄, 是第二类样本集合中第k个样本的估计年龄,P1是第一类样本数目与总样本数目的比值,P2是第二类样本数目与总样本数目的比值,N1是第一类样本的数量,N2是第二类样本数量;
[0029] 所述相关性系数的计算方式为 各个变量计算方式为:
[0030] 其中:是第j个样本的估计年龄,表示N个样本估计年龄的平均值,lj是第j个样本的真实年龄,表示N个样本真实年龄的平均值,N为样本数量。
[0031] 进一步地,所述加权核回归模型是传统年龄估计模块和病理年龄估计模块的凸组合,即传统年龄的权重w1范围从0到1,病理年龄的权重w2范围从1到0,约束为w1+w2=1。其表示式如下。
[0032] yIAE(w1,w2)=w1yTAE+w2yPAE
[0033] 其中,yTAE表示传统年龄估计值,yPAE为根据可分度准则1或2的病理年龄估计值。
[0034] 与现有技术相比,本发明具有的技术效果或优点是:
[0035] 充分利用医疗数据中蕴含着的信息资源,结合实际年龄信息,基于可分度距离与相关性系数对传统年龄估计模型与病理年龄估计模型进行训练、优化,并将传统年龄估计模型与病理年龄估计模型加权融合,所得综合年龄检测模型能够有效估计被测对象的综合年龄。整个系统原理简单,实现方便,对疾病的探测更具有科学依据,可靠度高,可行性强。

附图说明

[0036] 图1为本发明的系统原理框图;
[0037] 图2为基于封装式年龄偏差搜索的病理年龄估计模块的流程图。

具体实施方式

[0038] 下面结合附图及具体实施例对本发明的工作原理和显著效果作进一步说明。
[0039] 如图1-图2所示,一种基于加权核回归和封装式偏差搜索的综合年龄检测系统,包括:
[0040] 数据采集设备:用于采集医疗数据,并将采集到的医疗数据输入到存储器中;
[0041] 实际年龄输入设备:用于输入实际年龄信息到存储器中;
[0042] 存储器:用于存储样本数据库,本实施例中的存储器中设有PA样本数据库、NC样本数据库以及待测样本数据库;所述PA样本数据库:用于存储疾病患者医疗数据和对应的实际年龄信息;
[0043] 所述NC样本数据库:用于存储正常人的医疗数据和对应的实际年龄信息;
[0044] 所述待测样本数据库:用于存储未确诊对象的医疗数据和对应的实际年龄信息;
[0045] 预处理模块:从存储器的各个数据库中获取医疗数据并进行数据清洗;
[0046] 特征压缩模块:对数据进行压缩,去掉冗余特征;
[0047] 传统年龄估计模块:基于正常人样本建立回归模型,训练标签为实际年龄,通过最小化估计年龄和实际年龄差异进行模型训练;
[0048] 病理年龄估计模块:基于所有类别样本建立回归模型,引入年龄偏差表征病理年龄和实际年龄差异,训练标签为实际年龄加年龄偏差,通过最大化分类准确率来搜索最优年龄偏差,并将得到的最优年龄偏差封装至病理年龄估计模型中;
[0049] 加权核回归模块:用于对传统年龄估计模块输出传统年龄和病理年龄估计模块输出的病理年龄进行加权集成,得到综合年龄检测结果;
[0050] 结果输出模块:用于输出所述综合年龄检测结果。
[0051] 以心脏综合年龄估计为例,在存储器中存储了274例样本,其中,PA样本数据库中有90例确认为心脏病患者的心脏医疗数据和对应的实际年龄,随机选取45例为训练样本,剩余45例为验证样本;NC样本数据库中有90正常人的心脏医疗数据和对应的实际年龄,随机选取45例为训练样本,剩余45例为验证样本;待测样本数据库中有94例样本作为测试样本,其中有47例心脏病患者的心脏医疗数据和对应的实际年龄,47例正常人的心脏医疗数据和对应的实际年龄。
[0052] 由于医疗数据或来自医院或来自公共数据库或来自自己采集的心脏医疗数据,因此可能会存在大部分重复信息或一些不重要的数据,而心脏病变的主要体现在静息血压(mmHg)、血清胆固醇含量(mg/dl)、最大心率(次/分钟)、通过透视着色的主要血管(0-3)的数量等12个特征上,具体信息可见表1。因此,该系统中的预处理模块主要对获取到的医疗数据进行数据清洗,留下这12个特征,组成一个12维的特征向量。
[0053] 采用特征压缩算法可去掉12维的特征向量中的冗余信息。为方便,本实施例采用无特征压缩。
[0054] 表1.心脏医疗数据的12个主要特征
[0055]
[0056] 本实施例采用SVR模型作为回归模型进行心脏综合年龄估计,核函数采用线性核函数。
[0057] 传统年龄估计模块,利用预处理后的PA样本数据库和NC样本数据库中的正常人医疗数据进行训练,训练标签为实际年龄,通过最小化估计年龄和实际年龄差异进行模型训练,得到最佳传统年龄估计模型。
[0058] 利用PA样本数据库和NC样本数据库中的数据进行训练,设定正常人的年龄偏差p在(pmin,pmax)为[-10,10]范围内变化,疾病患者的年龄偏差q在(qmin,qmax)为[-10,10]范围内变化,p,q的变化步径为Δ,Δ=1。选定训练样本和验证样本,将训练样本的医学特征和实际年龄加上偏差作为SVR模型输入,获得训练后的SVR模型,保存SVR模型参数;基于训练后的SVR模型和验证样本,输出验证样本的年龄估计值,根据验证样本年龄估计值计算适应度函数值,保存该适应度函数值及对应的偏差组合(p,q);通过在(pmin,pmax)和(qmin,qmax)范围内按预设步进轮询,寻找所有(p,q)组合中适应度函数值最大值,得到全局最优的模型参数和年龄偏差组合(popt,qopt),基于可分度距离评价准则 得到的(popt,qopt)为(-7.7,7.67);基于相关性系数评价准则 得到的(popt,qopt)为(-7.63,7.73),从而得到最佳病理年龄估计模型。
[0059] 加权核回归模块将传统年龄估计模型和病理年龄估计模型进行加权融合,TAE的权重w1范围从0到1,PAE的权重w2范围从1到0,约束为w1+w2=1;将传统年龄检测模块与病理年龄检测模块得到的估计年龄输入加权核回归模块;基于即满足正常人实际年龄估计误差无显著增大甚至降低又满足估计年龄分类能力显著提高双重条件,搜索最优权重组合(w1,w2),最终得到综合年龄估计值。表2列出了最优权重组合(w1,w2)。注:TAE为传统年龄检测方法,IAE为本专利所述加权综合年龄检测方法。
[0060] 表2.实验结果对比
[0061]
[0062] 如表2所示,本方法获得5个加权综合年龄。这些综合年龄对于传统方法检测的年龄来说,具有如下优点:1)对于两种分类评价准则来说,本专利检测的综合年龄都要更优(对于λ1,均大于0.3216;对于λ2,均大于0.4802),且具有显著性差异水平(p<0.05)。2)针对健康人的年龄估计偏差来说,本专利检测的综合年龄大部分情况下要比传统方法更优,无显著性差异水平(p>0.05)。3)本专利可以通过调节权重,获得更有利于满足检测需求的检测年龄,具有更好的灵活性。
[0063] 应当指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换,也应属于本发明的保护范围。