一种基于深度置信网络的肿瘤预后预测系统转让专利

申请号 : CN201710007736.5

文献号 : CN106897545B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李劲松池胜强童丹阳王昱周天舒

申请人 : 浙江大学

摘要 :

本发明公开了一种基于深度置信网络的肿瘤预后预测系统,包括:用于采集肿瘤信息的数据采集模块;用于对肿瘤原始数据进行缺失值处理和归一化处理的数据预处理模块;用于对肿瘤数据进行深度学习和预测建模的数据学习预测模块;用于将数据学习预测模块输出的相对风险进行显示的预测结果显示模块;本发明利用高斯受限玻尔兹曼机,保留数据的非线性特征;根据输入数据的维度、输出分类的数量、模型的准确度,可以灵活扩展深度置信网络;模型训练过程中,不采用任何限制和假设,可以充分挖掘变量对结果的影响方式以及变量之间的相互作用,全面展现不同因素对肿瘤预后影响的方式,并提高肿瘤预后预测的准确性。

权利要求 :

1.一种基于深度置信网络的肿瘤预后预测系统,其特征在于,该系统包括:用于采集肿瘤信息的数据采集模块;用于对肿瘤原始数据进行缺失值处理和归一化处理的数据预处理模块;用于对肿瘤数据进行深度学习和预测建模的数据学习预测模块;用于将数据学习预测模块输出的相对风险进行显示的预测结果显示模块;所述数据学习预测模块的处理过程包括两部分:首先基于深度学习的无监督训练方法,利用患者特征对相似患者进行聚类,其次利用相似患者群体,计算累积风险函数,具体步骤如下:(1)利用深度置信网络模型对相似患者聚类

(1.1)假设患者数量为N,患者特征数量为M,可见层变量为vi,i=1,...,m,隐藏层变量为hj,j=1,...,g,其中m是可见层变量的数量,g是隐藏层变量的数量,可见层变量的数量m等于患者特征数量M;wij是可见层变量vi和隐藏层变量hj之间的连接权重,则可见层与隐藏层之间的连接权重矩阵W=(wij)m×g;可见层变量的偏置为ai,i=1,...,m,可见层变量的偏置向量记为a=(a1,...,am),隐藏层变量的偏置为bj,j=1,...,g,隐藏层变量的偏置向量记为b=(b1,...,bg);

(1.2)构建高斯RBM模型:因为患者的特征数据往往是一些连续型变量或者有序变量,而不是简单的二分类数据,因此,采用高斯RBM模型代替简单的RBM模型,从而保留数据的非线性特征;高斯RBM模型的能量函数E(v,h;θ)为:其中,θ=(a,b,W,σ)表示模型的设置参数,σ=(σ1,...,σm)表示可见层变量的高斯噪音;高斯RBM的条件分布为:其中,N(μ,p2)表示均值为μ,标准差为p的高斯分布;可见层v的边缘分布为:

其中,θ=(a,b,W,σ)表示模型的设置参数;利用梯度下降法调整参数,使输入与输出的误差最小,通过满足下式,得到模型的最佳参数:其中,Z(θ)是归一化常数;

(1.3)在训练时,深度置信网络采用逐层无监督的方法来学习参数;首先把可见层v和隐藏层h1作为一个受限玻尔兹曼机RBM,训练出这个RBM的参数W1;接着,保持W1不变,把h1作为一个可见层,把h2作为隐藏层,训练出第二个RBM的参数W2;然后,保持W2不变,把h2作为一个可见层,把h3作为隐藏层,训练出第三个RBM的参数W3;以此类推,训练出复杂的由多层RBM堆叠的深度置信网络;训练过程中,不限制变量之间的相互作用和变量对分类结果的影响形式;

(1.4)因为隐藏层变量的值是二值型数据,利用最顶层的所有隐藏层变量的取值来确定患者所属的一个分类;如果最顶层有n个隐藏层变量,则患者被分成了2n类;

(1.5)增加患者数量,不需要改变网络设置;增加患者特征,在网络中增加可见层变量的数量;调整患者分类数量,在网络中修改最顶层隐藏层的变量数量;调整模型的准确度,可以改变隐藏层的层数;

(2)利用相似患者群体,计算累积风险函数:患者i有m个输入特征,记为Xi,在步骤1中患者i得到唯一的类别c,c∈P;P为利用深度置信网络模型对相似患者聚类得到的所有类别集合;在时间t,患者i的累积风险函数H(t|Xi)就是c类别的Nelson-Aalen估计值:其中,dl,c表示在时间tl,c,c类别中患者的死亡人数;rl,c表示在时间tl,c,c类别中患者的存在风险的人数;t1,c<t2,c<…<tN(c),c表示c类别中N(c)个不同的事件时间;

(T1,c,s1,c),...,(Tn(c),c,sn(c),c)表示c类别中所有患者的生存时间和生存状态,n(c)表示c类患者的总数量;对一个患者i,如果si,c=0,那么该患者在时间Ti,c属于截尾数据;如果si,c=1,则该患者在时间Ti,c出现结果事件;记c类别中患者i在时间tl,c的生存状态为则 其中I()为指示函数,当Ti,c<tl,c时, 当Ti,c≥tl,c时, 则在时间tl,c,c类别中存在风险的人数rl,c=rl-1,c-dl-1,c,死亡人数其中r0,c=n(c),d0,c=0。

说明书 :

一种基于深度置信网络的肿瘤预后预测系统

技术领域

[0001] 本发明涉及肿瘤预测系统,尤其涉及一种基于深度置信网络的肿瘤预后预测系统背景技术
[0002] 癌症的发病率和死亡率高,已经成为人类因疾病死亡的主要原因。随着人口数量的增长和人口老龄化的发展,癌症带来的疾病负担正在进一步加大,成为目前医疗费用支付的一大部分。肿瘤预后预测分析可以给临床医生提供用于疾病治疗的预后信息,帮助治疗方案的制定,提高疾病治愈率,改善患者预后生活质量,有效降低疾病负担,对于癌症的控制和治疗意义重大。美国癌症联合会推出的基于肿瘤浸润深度、淋巴结、远处转移的TNM分期系统在世界范围内的癌症临床实践中,得到了广泛应用,是指导治疗和临床研究的重要工具。但是,许多最新的研究发现,TNM分期不能对不同肿瘤特征的患者的生存结局差异进行区分。神经网络以其可以充分逼近任意复杂的非线性关系、学习和自适应未知和不确定的系统、具有鲁棒性和容错性、能同时处理定量和定性数据、并能大规模并行分布处理的优点,在肿瘤预后预测分析中得到广泛应用。
[0003] 肿瘤预后数据中普遍存在截尾数据,截尾数据并非缺失数据,而是仅能提供起点到截尾时间的预后信息,不能提供起点到事件发生的完整信息的不完整数据。现有的基于神经网络的肿瘤预后预测分析方法,或不能充分利用截尾数据;或在充分利用截尾数据的情况下,不能有效解决预后因素的时间依赖和非线性问题;或得到的生存曲线不呈单调性;或所构建的神经网络不具有可扩展性,不利于海量数据的大规模处理。
[0004] 深度学习是当前机器学习研究的热门领域,因其具有自主特征学习能力和高准确性被应用于许多领域,包括语音识别、图像处理、自然语言处理和人物画像等,但目前深度学习还很少应用到肿瘤预后预测分析领域。

发明内容

[0005] 本发明的目的在于针对现有技术的不足,提供一种基于深度置信网络的肿瘤预后预测系统,利用深度学习领域的深度置信网络算法,改进基于神经网络的预测分析方法,在充分利用截尾数据的情况下,有效解决预后因素的时间依赖和非线性问题,提高肿瘤预后预测的准确性,辅助医生制定患者的治疗计划;构建的深度置信网络具有良好的可扩展性,利于海量数据的大规模处理。
[0006] 本发明的目的是通过以下技术方案来实现的:一种基于深度置信网络的肿瘤预后预测系统,该系统包括:用于采集肿瘤信息的数据采集模块;用于对肿瘤原始数据进行缺失值处理和归一化处理的数据预处理模块;用于对肿瘤数据进行深度学习和预测建模的数据学习预测模块;用于将数据学习预测模块输出的相对风险进行显示的预测结果显示模块;所述数据学习预测模块的处理过程包括两部分:首先基于深度学习的无监督训练方法,利用患者特征对相似患者进行聚类,其次利用相似患者群体,计算累积风险函数,具体步骤如下:
[0007] (1)利用深度置信网络模型对相似患者聚类
[0008] (1.1)假设患者数量为n,患者特征数量为m,可见层变量为vi,i=1,…,m,隐藏层变量为hj,j=1,…,g,其中m是可见层变量的数量,g是隐藏层变量的数量;wij是可见层变量vi和隐藏层变量hj之间的连接权重,则可见层与隐藏层之间的连接权重矩阵W=(wij)m×g;可见层变量的偏置a=(a1,…,am),隐藏层变量的偏置b=(1,…,bg)。
[0009] (1.2)构建高斯RBM模型:因为患者的特征数据往往是一些连续型变量或者有序变量,而不是简单的二分类数据,因此,采用高斯RBM模型代替简单的RBM模型,从而保留数据的非线性特征。高斯RBM模型的能量函数E(v,h;θ)为:
[0010]
[0011] 其中,θ=(a,b,W,σ)表示模型的设置参数,σ=(σ1,…,σm)表示可见层变量的高斯噪音。高斯RBM的条件分布为:
[0012]
[0013]
[0014] 其中,N(μ,σ2)表示均值为μ,标准差为σ的高斯分布。可见层v的边缘分布为:
[0015]
[0016] 其中,θ=(a,b,W,σ)表示模型的设置参数。利用梯度下降法调整参数,使输入与输出的误差最小,通过满足下式,得到模型的最佳参数:
[0017]
[0018] 其中,Z(θ)是归一化常数。
[0019] (1.3)在训练时,深度置信网络采用逐层无监督的方法来学习参数。首先把可见层v和隐藏层h1作为一个受限玻尔兹曼机RBM,训练出这个RBM的参数W1;接着,保持W1不变,把h1作为一个可见层,把h2作为隐藏层,训练出第二个RBM的参数W2;然后,保持W2不变,把h2作为一个可见层,把h3作为隐藏层,训练出第三个RBM的参数W3;以此类推,训练出复杂的由多层RBM堆叠的深度置信网络。训练过程中,不限制变量之间的相互作用和变量对分类结果的影响形式。
[0020] (1.4)因为隐藏层变量的值是二值型数据,我们可以利用最顶层的所有隐藏层变量的取值来确定患者所属的一个分类;如果最顶层有n个隐藏层变量,则患者被分成了2n类。
[0021] (1.5)增加患者数量,不需要改变网络设置;增加患者特征,在网络中增加可见层变量的数量;调整患者分类数量,在网络中修改最顶层隐藏层的变量数量;调整模型的准确度,可以改变隐藏层的层数。
[0022] (2)利用相似患者群体,计算累积风险函数:患者i有m个输入特征,记为Xi,在步骤1中患者i得到唯一的类别c,c∈P;P为利用深度置信网络模型对相似患者聚类得到的所有类别集合;在时间t,患者i的累积风险函数H(t|Xi)就是c类别的Nelson–Aalen估计值:
[0023]
[0024] 其中,dl,c表示在时间tl,c,c类别中患者的死亡人数;rl,c表示在时间tl,c,c类别中患者的存在风险的人数;t1,c<t2,c<…<tN(c),c表示c类别中N(c)个不同的事件时间;
[0025] (T1,c,s1,c),…,(Tn(c),c,sn(c),c)表示c类别中所有患者的生存时间和生存状态,n(c)表示c类患者的总数量;对一个患者i,如果si,c=0,那么该患者在时间Ti,c属于截尾数据(存活或失访);如果si,c=1,则该患者在时间Ti,c出现结果事件(死亡);患者i在时间tl,c的生存状态 其中I()为指示函数,当Ti,c<tl,c时, 当Ti,c≥tl,c时, 则在时间tl,c,c类别中存在风险的人数rl,c=rl-1,c-dl-1,c,死亡人数其中r0,c=n(c),d0,c=0。
[0026] 本发明的有益效果是:
[0027] 1)利用高斯受限玻尔兹曼机,保留数据的非线性特征;
[0028] 2)根据输入数据的维度、输出分类的数量、模型的准确度,可以灵活扩展深度置信网络;
[0029] 3)模型训练过程中,不采用任何限制和假设,可以充分挖掘变量对结果的影响方式以及变量之间的相互作用,全面展现不同因素对肿瘤预后影响的方式,并提高肿瘤预后预测的准确性;
[0030] 4)在利用深度置信网络对患者聚类的基础上,基于事件保留原则,采用Nelson–Aalen估计函数计算患者的累积风险函数,保证输出生存曲线呈现单调性。

附图说明

[0031] 图1为本发明基于深度置信网络的肿瘤预后预测系统框架图;
[0032] 图2为基于深度置信网络的肿瘤预后分析算法流程图;
[0033] 图3为深度置信网络模型。

具体实施方式

[0034] 下面结合附图和具体实施例对本发明作进一步详细说明。
[0035] 本发明中的截尾数据为:如果在规定的结束时间,没有出现结果事件的数据称之为截尾数据,从起点到截尾的时间称为截尾时间。时间依赖现象为:不论基线风险如何,在任何时间点上,存在某一暴露的个体相对不存在该暴露的个体发生事件的风险是恒定的;预后因素不符合上述假设的现象,就被认为预后因素对肿瘤预后的影响存在时间依赖。
[0036] 如图1所示,本发明提供的一种基于深度置信网络的肿瘤预后预测系统,包括:用于采集肿瘤信息的数据采集模块;用于对肿瘤原始数据进行缺失值处理和归一化处理的数据预处理模块;用于对肿瘤数据进行深度学习和预测建模的数据学习预测模块;用于将数据学习预测模块输出的相对风险进行显示的预测结果显示模块;所述数据学习预测模块的处理过程包括两部分:首先基于深度学习的无监督训练方法,利用患者特征对相似患者进行聚类,其次利用相似患者群体,计算累积风险函数,如图2所示,具体步骤如下:
[0037] (1)利用深度置信网络模型对相似患者聚类,深度置信网络模型如图3所示;
[0038] (1.1)假设患者数量为n,患者特征数量为m,可见层变量为vi,i=1,…,m,隐藏层变量为hj,j=1,…,g,其中m是可见层变量的数量,g是隐藏层变量的数量;wij是可见层变量vi和隐藏层变量hj之间的连接权重,则可见层与隐藏层之间的连接权重矩阵W=(wij)m×g;可见层变量的偏置a=(a1,…,am),隐藏层变量的偏置b=(b1,…,bg)。
[0039] (1.2)构建高斯RBM模型:因为患者的特征数据往往是一些连续型变量或者有序变量,而不是简单的二分类数据,因此,采用高斯RBM模型代替简单的RBM模型,从而保留数据的非线性特征。高斯RBM模型的能量函数E(v,h;θ)为:
[0040]
[0041] 其中,θ=(a,b,W,σ)表示模型的设置参数,σ=(σ1,…,σm)表示可见层变量的高斯噪音。高斯RBM的条件分布为:
[0042]
[0043]
[0044] 其中,N(μ,σ2)表示均值为μ,标准差为σ的高斯分布。可见层v的边缘分布为:
[0045]
[0046] 其中,θ=(a,b,W,σ)表示模型的设置参数。利用梯度下降法调整参数,使输入与输出的误差最小,通过满足下式,得到模型的最佳参数:
[0047]
[0048] 其中,Z(θ)是归一化常数。
[0049] (1.3)在训练时,深度置信网络采用逐层无监督的方法来学习参数。首先把可见层v和隐藏层h1作为一个受限玻尔兹曼机RBM,训练出这个RBM的参数W1;接着,保持W1不变,把h1作为一个可见层,把h2作为隐藏层,训练出第二个RBM的参数W2;然后,保持W2不变,把h2作为一个可见层,把h3作为隐藏层,训练出第三个RBM的参数W3;以此类推,训练出复杂的由多层RBM堆叠的深度置信网络。训练过程中,不限制变量之间的相互作用和变量对分类结果的影响形式。
[0050] (1.4)因为隐藏层变量的值是二值型数据,我们可以利用最顶层的所有隐藏层变量的取值来确定患者所属的一个分类;如果最顶层有n个隐藏层变量,则患者被分成了2n类。
[0051] (1.5)增加患者数量,不需要改变网络设置;增加患者特征,在网络中增加可见层变量的数量;调整患者分类数量,在网络中修改最顶层隐藏层的变量数量;调整模型的准确度,可以改变隐藏层的层数。
[0052] (2)利用相似患者群体,计算累积风险函数:患者i有m个输入特征,记为Xi,在步骤1中患者i得到唯一的类别c,c∈P;P为利用深度置信网络模型对相似患者聚类得到的所有类别集合;在时间t,患者i的累积风险函数H(t|Xi)就是c类别的Nelson–Aalen估计值:
[0053]
[0054] 其中,dl,c表示在时间tl,c,c类别中患者的死亡人数;rl,c表示在时间tl,c,c类别中患者的存在风险的人数;t1,c<t2,c<…<tN(c),c表示c类别中N(c)个不同的事件时间;
[0055] (T1,c,s1,c),…,(Tn(c),c,sn(c),c)表示c类别中所有患者的生存时间和生存状态,n(c)表示c类患者的总数量;对一个患者i,如果si,c=0,那么该患者在时间Ti,c属于截尾数据(存活或失访);如果si,c=1,则该患者在时间Ti,c出现结果事件(死亡);患者i在时间tl,c的生存状态 其中I()为指示函数,当Ti,c<tl,c时, 当Ti,c≥tl,c时, 则在时间tl,c,c类别中存在风险的人数rl,c=rl-1,c-dl-1,c,死亡人数其中r0,c=n(c),d0,c=0。患者i的死亡率 用死
亡率,可画出生存曲线。
[0056] 本发明利用深度学习领域的深度置信网络算法,改进基于神经网络的预测分析方法,在充分利用截尾数据的情况下,有效解决预后因素的时间依赖和非线性问题,提高肿瘤预后预测的准确性,辅助医生制定患者的治疗计划;同时保证得到的生存曲线呈现单调性,构建的深度置信网络具有良好的可扩展性,利于海量数据的大规模处理。