一种基于动态网络图分析的时间序列数据处理方法转让专利

申请号 : CN201510779302.8

文献号 : CN105447337B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 林晓惠黄鑫曾珺尹沛源

申请人 : 大连理工大学

摘要 :

本发明提供了一种基于动态网络图分析的时间序列数据处理方法,从网络的角度分析代谢组学队列数据,分析变量之间的相互联系,根据变量之间关联性的动态变化构建代谢网络,并通过动态浓度变化和网络拓扑结构的变化分析确定疾病(例如恶性肿瘤)发生的预警信息。弥补了采用静态分析方法处理代谢组学时间序列数据忽略特征动态变化信息的缺点。而且,相对致力于发现单分子标志物的算法,本发明考察变量间的相互关系随时间的变化情况,分析、确定疾病发生改变的关键节点,从而更有助于对疾病致病机理的研究,为疾病的早期诊断和预后研究奠定基础。

权利要求 :

1.一种基于动态网络算法对时间序列数据进行分析的方法,其特征在于以下步骤:步骤1:静态分析

根据时间序列数据中的Ns种不同的状态建立Ns(Ns-1)/2个两类子问题,从每一个子问题中确定具有一定区分能力的特征用来构建代谢网络;利用代谢变量之间比值的有效范围的变化来分析代谢物之间关系的变化;令F={f1,f2,…,fm}为特征集合,其中m表示变量的个数;fit为变量fi在第t个时间点上的含量,N为时间点的数量,1≤i≤m,1≤t≤N;特征fi,fj的比值变量rij在时间点t上的有效范围定义为:公式(1)中 分别表示比值变量rijt的有效范围的上、下界;γ取值为1.732,以保证rijt的有效范围至少含有2/3的样本;μijt和σijt分别表示比值变量rijt的均值和标准差;

比值变量rijt在相邻两个时间点上有效范围的变化存在三种情况:(1)rijt在相邻两个时间点上的有效范围存在部分重叠;

(2)rijt在一个时间点上的有效范围完全包含于其在另一个时间点的有效范围内;

(3)rijt在相邻两个时间点上的有效范围不存在重叠部分;

情况(2)没有明确反映出代谢通路反应的变化趋势,所以本发明仅考虑其它两种情况并使用如下公式计算比值变量在相邻时间点上的NOR:NOR(rijt)=(Lt1-Lt2)/max{Lt1,Lt2}     (2)公式(2)中 |NOR(rijt)|越大,表示该比值在相邻时间点的变化越大;

步骤2:网络构建

(1)输入静态分析后所得到的特征子集;

(2)对输入的特征子集中的任意两个变量fi,fj在每个时间点上构建比值变量rijt;

(3)根据公式(1)计算每个比值变量rijt的有效范围E(rijt);

(4)根据比值变量rijt的有效范围E(rijt),使用公式(2)计算该比值变量在相邻两个时间点上的NOR值;

(5)如果rijt的NOR值大于等于τ,则该相邻两时间点所对应网络图中两个变量fi,fj以红边相连;反之,NOR值小于等于-τ,则网络图中两个变量fi,fj以绿边相连;

(6)输出在两个相邻时间点上建立的网络图DN-t,其中1≤t≤N-1;

步骤3:网络分析

(1)动态浓度分析

动态浓度分析研究疾病发展过程中代谢物之间的比值的变化趋势;探索复杂疾病恶化前的某些连续时间点;如果比值变量的有效范围在连续Ne个时间点上沿着同一个方向变化,则表明随着疾病的发展代谢活动是持续紊乱的;为寻找疾病发生的预警信息,分析网络图DN-t并将颜色相同的边提取出来,这些沿着同一个方向持续变化的比值预示着疾病的恶化,即是所确定的疾病恶化的预警信息,其中,s-Ne≤t

(2)拓扑结构分析

N个时间点产生N‐1个网络图;如果网络图DN-t的边数较多,则表示有大量的化学反应其反应速率加快,机体处于相对剧烈的生命活动阶段;具有边数最多的网络图DN-t表明病程发展到了关键时期,其所对应的时间点表示为复杂疾病的早期阶段;在拓扑结构分析中,关注于具有边数最多的网络图并且着重分析度数最大的k≥1个节点;这些节点及其与之相连的节点作为复杂疾病早期诊断的潜在性标志物,其中,1≤t

说明书 :

一种基于动态网络图分析的时间序列数据处理方法

技术领域

[0001] 本发明属于生物数据分析技术领域,是一种利用动态网络分析对代谢组学时间序列数据进行处理,以确定复杂疾病(如肝癌)发生的前瞻性潜在生物标志物的新方法。

背景技术

[0002] 肝癌是常见的恶性肿瘤之一,死亡率高居恶性肿瘤的第二位,全世界平均每年大约有600,000人死于肝癌。肝癌通常起源于慢性肝病,且大部分与肝硬化相关。由于肝癌的发生涉及众多因素的复杂相互作用(如遗传、病毒及环境等),因此致病机理尚不明确。肝癌的预后较差,常常确诊时病人已处于癌症的晚期。目前,常规的肝癌诊断技术有超声、影像学和甲胎蛋白(AFP)等。然而,确诊时可做根治性治疗的肝癌患者仅有30%。常用的生物标志物AFP其灵敏度有限,特异性也较低。而且肿瘤进展相对较快,存在早期诊断困难,治愈率低等难题。手术切除和肝移植是当前根治性治疗肝癌最常用的办法。然而,肝癌病人术后复发及转移相当常见,术后五年生存率为30%-40%。因此,深入研究肝癌发生发展所涉及的致病机理,发现肝癌的前瞻性标志物,以便通过早期诊断改善患者预后效果,提升术后五年生存率。
[0003] 作为生物化学反应中的中间体和终端产物,代谢物在连接生命体系的不同生物途径及保持正常生理功能中起到了重要作用。代谢组学是对生命机体由生理、病理刺激和基因修饰等产生的代谢物的质和量的动态变化的研究。作为系统生物学的重要组成部分,代谢组学在诸多领域(疾病研究,药物研究,植物研究等)得到了广泛应用。随着分离分析技术的快速发展,代谢数据具有海量、多维、结构复杂等特点。如何从中挖掘出反映研究问题本质的关键代谢成分,寻找区分不同生物样本的差异性潜在标志物已成为代谢组学研究的问题之一。
[0004] 代谢本身是一个动态过程,从动态的角度研究代谢组,通过代谢物随疾病发生、发展的动态变化的分析对复杂疾病进行深入分析,有利于疾病致病机理、早期诊断和个性化治疗的研究。同时,在复杂的生命过程中,代谢成分之间相互关联、相互作用,以反映生物体的生理、病理变化。在受到外界刺激或环境变化时,不同代谢物之间的相互关联性也会发生改变。因此分析生命过程中代谢成分之间的相互关联、构建代谢网络、研究代谢网络的动态变化可以更全面地揭示疾病的发生、发展过程,从而更利于疾病诊断、治疗等方面的研究。代谢组学时间序列数据常常表现出样本数少,变量数多以及时间点稀疏等特性,许多经典的时间序列算法并不适合于代谢组学时间序列数据的研究。
[0005] 本发明从代谢网络动态变化的角度分析代谢组学时间序列数据,发现复杂疾病的预警信息。引入非重叠区域比率(NOR)来衡量代谢物之间的比值在疾病发展过程中的动态变化,根据比值在前后时间点上的变化构建动态网络。代谢物的比值可以反应将其中一种代谢物通过一条或多条代谢通路转变为另一种代谢物的过程。

发明内容

[0006] 本发明提供一种基于动态网络图分析的时间序列数据处理方法,是基于变量比值的NOR随时间的变化构建动态代谢网络,能够更切实有效的反映生命机体生理和病理的变化。同时,使用动态浓度分析和拓扑结构分析两种分析方法寻找疾病发生的前瞻性潜在生物标志物。
[0007] 本发明采用的技术方案如下:
[0008] 一、静态分析
[0009] 噪音或无关变量常常影响代谢组学数据分析的效果,若代谢组学时间序列数据中疾病经历了Ns种不同的状态,那么在病程中任意两个不同阶段无区分能力或区分能力弱的代谢变量通常为噪音或与所研究问题无关的特征,应当被删除。本发明根据时间序列数据中的Ns种不同的状态建立Ns(Ns-1)/2个两类子问题,从每一个子问题中确定具有一定区分能力的特征用来构建代谢网络。
[0010] 本发明利用代谢变量之间比值的有效范围的变化来分析代谢物之间关系的变化。令F={f1,f2,…,fm}为特征集合,其中m表示变量的个数。fit(1≤i≤m,1≤t≤N)为变量fi在第t个时间点上的含量,N为时间点的数量。特征fi,fj的比值变量rij在时间点t上的有效范围定义为:
[0011]
[0012] 公式(1)中 分别表示比值变量rijt的有效范围的上、下界;γ取值为1.732,以保证rijt的有效范围至少含有2/3的样本;μijt和σijt分别表示比值变量rijt的均值和标准差。比值变量rijt在相邻两个时间点上有效范围的变化存在三种情况:
[0013] (1)rijt在相邻两个时间点上的有效范围存在部分重叠;
[0014] (2)rijt在一个时间点上的有效范围完全包含于其在另一个时间点的有效范围内;
[0015] (3)rijt在相邻两个时间点上的有效范围不存在重叠部分。
[0016] 但情况(2)没有明确反映出代谢通路反应的变化趋势,所以本发明仅考虑其它两种情况并使用如下公式计算比值变量在相邻时间点上的NOR:
[0017] NOR(rijt)=(Lt1-Lt2)/max{Lt1,Lt2}        (2)
[0018] 公式(2)中 |NOR(rijt)|越大,表示该比值在相邻时间点的变化越大。
[0019] 二、网络构建
[0020] (1)输入静态分析后所得到的特征子集。
[0021] (2)对输入的特征子集中的任意两个变量fi,fj在每个时间点上构建比值变量rijt。
[0022] (3)根据公式(1)计算每个比值变量rijt的有效范围E(rijt)。
[0023] (4)根据比值变量rijt的有效范围E(rijt),使用公式(2)计算该比值变量在相邻两个时间点上的NOR值。
[0024] (5)如果rijt的NOR值大于等于τ,则该相邻两时间点所对应网络图中两个变量fi,fj以红边相连。反之,NOR值小于等于-τ,则网络图中两个变量fi,fj以绿边相连。
[0025] (6)输出在两个相邻时间点上建立的网络图DN-i(1≤i≤N-1)。
[0026] 三、网络分析
[0027] 为确定复杂疾病发生的前瞻性潜在生物标志物,本发明从两个角度对动态网络进行分析:动态浓度分析和拓扑结构分析。
[0028] (1)动态浓度分析
[0029] 动态浓度分析研究疾病发展过程中代谢物之间的比值的变化趋势。由于生命过程是运动的,在复杂疾病(如恶性肿瘤)恶化前,一定存在一些预警信号。为发现这些预警信号,本发明探索复杂疾病恶化(对应时间序列数据中的时间点Ts,0
[0030] (2)拓扑结构分析
[0031] N个时间点产生N-1个网络图。网络拓扑结构也会随疾病的发生、发展而变化。如果网络DN-t(1≤t
[0032] 本发明从网络的角度分析代谢组学队列数据,分析变量之间的相互联系,根据变量之间关联性的动态变化构建代谢网络,并通过动态浓度变化和网络拓扑结构的变化分析确定疾病(例如恶性肿瘤)发生的预警信息。弥补了采用静态分析方法处理代谢组学时间序列数据忽略特征动态变化信息的缺点。而且,相对致力于发现单分子标志物的算法,本发明考察变量间的相互关系随时间的变化情况,分析、确定疾病发生改变的关键节点,从而更有助于对疾病致病机理的研究,为疾病的早期诊断和预后研究奠定基础。

具体实施方式

[0033] 以下是结合技术方案所给的具体实施例。
[0034] 实施例:基于血清代谢轮廓的肝病预警性标志物筛选。
[0035] (1)大鼠血清样本的收集和预处理。
[0036] 利用二乙基亚硝胺诱导大鼠逐步发癌。发现集包含10只对照组大鼠和7只模型组大鼠。从第8周(T1)到第20周(T7),每隔2周采集一次血清样本,7个时间点,共有119个血清样本。此外,本生物实验还包含由另外6只模型组大鼠组成的独立测试集。第18周取这6只大鼠的肝脏组织用来做组织学检查以确定是否发癌。所以测试集中含有6个时间点,共36个血清样本。
[0037] (2)在发现集中共有3种肝病(Ns=3),T1为典型的肝炎期(H),T2到T4为肝硬化阶段,T5到T7为肝癌阶段,其中T2和T5为过渡阶段,T4和T7为典型的肝硬化期(CIR)和肝癌期(HCC)。
[0038] (3)建立3个两类子问题(H vs.CIR,H vs.HCC,CIR vs.HCC)。
[0039] (4)利用SVM-RFE来分析这些两类子问题,去除噪音或无关变量。相关参数设定:50次5倍交叉验证,线性核函数,惩罚因子为1。
[0040] (5)将SVM-RFE在每个子问题上选出来的特征子集取并,构成新的特征集合用来后续动态网络图的构建。
[0041] (6)对新的特征集合中的任意两个变量fi,fj在每个时间点上构建比值变量且计算每个比值变量的有效范围。
[0042] (7)利用比值变量的有效范围计算相邻两个时间点上的NOR值,若NOR大于等于0.85,则相应的两个变量以红边相连,反之,若小于等于-0.85,则以绿边相连。输出6个网络图
[0043] (8)T4为典型的肝硬化期,T5和T6分别为癌症的过渡阶段和发展阶段,为发现肝癌的前瞻性生物信息,动态浓度方法分析该三个时间点所对应的网络图DN-4和DN-5,将具有相同颜色的边及其对应的比值变量提取出来,构成特征子集S1。
[0044] (9)DN-4为边数最多的网络图。拓扑结构分析方法将DN-4中度最大的节点及其与之相连的特征所构成的比值变量筛选出来,构成特征集合S2。
[0045] (10)四个比值变量LPC 18:1/FFA 20:5,LPC 20:3-isomer2/FFA 20:5,LPC 16:0/FFA 20:5和PC 34:2/FFA 20:5同时被动态浓度分析和拓扑结构分析筛选出来。使用曲线下面积(AUC)进一步来表征这四个比值变量的区分能力。表1给出了这4个比值变量的ROC曲线分析结果,在发现集上AUC值最高可达0.980,验证集上最高为0.983。
[0046] 表1ROC分析结果
[0047]