用于在基因芯片中将外显子探针信号值转化为转录本结构与浓度的方法转让专利

申请号 : CN201310284395.8

文献号 : CN104112083B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王效智李奇

申请人 : 上海其明信息技术有限公司

摘要 :

本发明公开了一种用于在基因芯片中将外显子探针信号值转化为转录本结构与浓度的方法,包括以下步骤:S100,对该多个探针的初始信号值进行处理,获得转录本和探针的初始结构关系矩阵以及转录本和样本的初始浓度关系矩阵;S200,从已知转录本数据库中分别选取与该初始结构关系矩阵内每个结构关系数列阶梯距离最短的最小阶梯距离标准数列;S300,确定各该结构关系数列的最近似标准数列;S400,根据各该结构关系数列的最近似标准数列,将该初始浓度关系矩阵调整为最终的预测浓度关系矩阵。通过本发明得出的转录本结构和浓度与实验验证结果具有很好的一致性,并可为后续试验提供可靠参考。

权利要求 :

1.一种用于在基因芯片中将外显子探针信号值转化为转录本结构与浓度的方法,该基因芯片上设置有反映转录本信息的多个探针,其特征在于,该方法包括以下步骤:S100,对该多个探针的初始信号值进行处理,获得转录本和探针的初始结构关系矩阵以及转录本和样本的初始浓度关系矩阵,该初始结构关系矩阵包括多个结构关系数列,并且该初始浓度关系矩阵包括多个与各该结构关系数列相对应的转录本与样本的浓度关系数列;

S200,从已知转录本数据库中分别选取与该初始结构关系矩阵内每个结构关系数列阶梯距离最短的最小阶梯距离标准数列,该已知转录本数据库中包括多个标准数列,该步骤包括:S210,选取该初始结构关系矩阵内一个结构关系数列A{ai:i=1,2……n},其中ai为该结构关系数列内第i位的值,n为该结构关系数列的长度;

S220,计算该结构关系数列与该已知转录本数据库内每个标准数列B{bi:i=1,2……m}的阶梯距离,并根据该计算,确定与该结构关系数列阶梯距离最短的最小阶梯距离标准数列,其中bi为该标准数列内第i位的值,m为该标准数列的长度,且m=n;

其中,该结构关系数列和该标准数列之间的阶梯距离L为:

S300,确定各该结构关系数列的最近似标准数列,该步骤包括:

如果一个结构关系数列仅与一个标准数列具有最小阶梯距离,则将该标准数列确定为该结构关系数列的最近似标准数列;

如果多个标准数列与同一个结构关系数列具有相同的最小阶梯距离,则将该多个标准数列中与该结构关系数列绝对距离最小的数列确定为该结构关系数列的最近似标准数列;

S400,根据各该结构关系数列的最近似标准数列,将该初始浓度关系矩阵调整为最终的预测浓度关系矩阵,该步骤包括:如果该最近似标准数列中的任一个对应多个该结构关系数列,则将多个该结构关系数列分别对应的浓度关系数列进行合并,从而形成最终的预测浓度关系矩阵。

说明书 :

用于在基因芯片中将外显子探针信号值转化为转录本结构与

浓度的方法

技术领域

[0001] 本发明涉及生物信息学,更具体地,是一种在基因芯片中将外显子探针信号值转化为转录本结构与浓度的方法。

背景技术

[0002] 研究表明,在人类中,多达95%的多外显子基因有可变剪切变化。利用生物芯片数据进行可变剪切分析的算法多数针对单个探针集或单个外显子是否剪切而设计。例如FIRMA算法(Finding Iso-forms using Robust Multichip Analysis)、MIDAS算法(Microarray Detection of Alternative Splicing)、PECA-SI算法(probe-level expression change averaging)、ANOSVA算法,ARH算法等。这些算法可参见以下参考文献1-3:1、Rasche,A.,Herwig,R.(2010)ARH:Predicting Splice Variants from Genome-wide Data with Modified Entropy.Bioinformatics,26,84-90.(ARH:从基因组数据利用修正的信息熵来预测剪切转录本);2、Laajala,E.,Aittokallio,T.,Lahesmaa,R.,Elo,L.L.(2009)Probe-level estimation improves the detection of differential splicing in Affymetrix exon array studies.Genome Biology,10,R77.(在昂飞外显子芯片研究中,探针水平的估计提高了差异可变剪切的检测);以及3 Kwan,T.,Benovoy,D.,Dias,C.,Gurd,S.,Provencher,C.,Beaulieu,P.,Hudson,T.J.,Sladek,R.,Majewski,J.(2008)Genome-wide analysis of transcript isoform variation in humans.Nature genetics,40(2),225-231.(人类同类型的不同转录本在基因组层面的分析)。但是,对于实际的转录本整体结构和浓度进行分析的算法很少,此类算法可参加如下参考文献4-5:4、Anton,M.A.,Gorostiaga,D.,Guruceaga,E.,Segura1,V.,Carmona-Saez,P.,Pascual-Montano,A.,Pio,R.,Montuenga,L.M.,Rubio,A.(2008)SPACE:an algorithm to predict and quantify alternatively spliced isoforms using microarrays.Genome Biology,
9,R46.(SPACE:一种利用微阵列来预测和量化可变剪切转录本的算法);以及5、Anton,M.A.,Aramburu,A.,Rubio,A.(2010)Improvements to previous algorithms to predict gene structure and isoform concentrations using Affymetrix Exon arrays.BMC Bioinformatics,11,578.(利用昂飞外显子芯片,通过改进先前的算法来预测基因结构和转录本浓度)。然而,一方面受实验背景噪音、探针交叉杂交等固有因素与实验操作等人为因素的影响,导致芯片数据与实际mRNA表达量并不完全吻合;另一方面,受转录本表达的时空特异性与现有基因转录本数据库的不完整性和不确定性等因素影响,现有的转录本结构预测方法准确性不高。
[0003] 上述参考文献5提供了一种用于预测转录本结构和表达量的改进的SPACE算法。首先,对探针的初始信号值进行变化,然后选取合适的收敛参数,利用广义Kompass收敛函数族进行非负矩阵分解,从而得到转录本和探针的结构关系及浓度关系矩阵数据;然后,根据已知的转录本和探针的关系,得到初步的转录本结构,并设定阈值确定实际转录本。该通过设置阈值进行转录本预测的方法所得到的转录本结构与转录本实际结构和表达量往往偏差较大。

发明内容

[0004] 本发明的目的,在于对上述利用现有技术得到的转录本和探针的初步的结构关系矩阵及浓度关系矩阵数据进行进一步处理,从而提高对转录本实际结构和表达量的预测水平。
[0005] 为达到上述目的,本发明用于在基因芯片中将外显子探针信号值转化为转录本结构与浓度的方法,该基因芯片上设置有反映转录本信息的多个探针,该方法包括以下步骤:
[0006] S100,对该多个探针的初始信号值进行处理,获得转录本和探针的初始结构关系矩阵以及转录本和样本的初始浓度关系矩阵,该初始结构关系矩阵包括多个结构关系数列,并且该初始浓度关系矩阵包括多个与各该结构关系数列相对应的转录本与样本的浓度关系数列;
[0007] S200,从已知转录本数据库中分别选取与该初始结构关系矩阵内每个结构关系数列阶梯距离最短的最小阶梯距离标准数列,该已知转录本数据库中包括多个标准数列,该步骤包括:
[0008] S210,选取该初始结构关系矩阵内一个结构关系数列A{ai:i=1,2……n},其中ai为该结构关系数列内第i位的值,n为该结构关系数列的长度;
[0009] S220,计算该结构关系数列与已知转录本数据库内每个标准数列B{bi:i=1,2……m}的阶梯距离,并根据该计算,确定与该结构关系数列阶梯距离最短的最小阶梯距离标准数列,其中bi为该标准数列内第i位的值,m为该标准数列的长度,且m=n;
[0010] 其中,该结构关系数列和该标准数列之间的阶梯距离L为:
[0011]
[0012]
[0013] S300,确定各该结构关系数列的最近似标准数列,该步骤包括:
[0014] 如果一个结构关系数列仅与一个标准数列具有最小阶梯距离,则将该标准数列确定为该结构关系数列的最近似标准数列;
[0015] 如果多个标准数列与同一个结构关系数列具有相同的最小阶梯距离,则将该多个标准数列中与该结构关系数列绝对距离最小的数列确定为该结构关系数列的最近似标准数列;
[0016] S400,根据各该结构关系数列的最近似标准数列,将该初始浓度关系矩阵调整为最终的预测浓度关系矩阵,该步骤包括:
[0017] 如果该最近似标准数列中的任一个对应多个该结构关系数列,则将多个该结构关系数列分别对应的浓度关系数列进行合并,从而形成最终的预测浓度关系矩阵。
[0018] 本发明通过对初始结构关系矩阵进行计算,并对初始浓度关系矩阵进行优化,调整为最终的预测浓度关系矩阵,其表征的转录本结构和浓度与实验验证结果具有很好的一致性,并可为后续试验提供可靠参考。

附图说明

[0019] 图1为本发明的流程示意图;
[0020] 图2为本发明步骤S200的更具体的流程示意图。

具体实施方式

[0021] 总体而言,本发明的实质,是对利用现有手段获得的转录本和探针的结构关系矩阵及浓度关系矩阵进行进一步处理,以更精确地预测转录本的结构和浓度。从而提高转录本结构及浓度与实验验证结构的一致性,为后续实验提供可靠参考。
[0022] 参考图1,是本发明的用于在基因芯片中将外显子探针信号值转化为转录本的方法的流程示意图。其中,基因芯片上设置有反映转录本信息的多个探针,每个基因由特定的多个探针来检测。该方法总体上包括步骤S100至S400,其中,在步骤S100中,获取转录本和探针的初始结构关系矩阵和初始浓度关系矩阵;在步骤S200中,从转录本数据库中分别选取与初始结构关系矩阵内每个结构关系数列的最小阶梯距离标准数列;在步骤S300中,确定结构关系数列的最近似标准数列;在步骤S400中,根据上述计算,对初始浓度关系矩阵进行调整,形成最终的预测浓度关系矩阵。以下对各个步骤的实施进行详细描述。
[0023] 步骤S100。
[0024] 在该步骤中,对多个探针内的初始信号值进行处理,获得转录本和探针的初始结构关系矩阵以及转录本和样本的初始浓度关系矩阵,该初始结构关系矩阵包括多个结构关系数列,并且该初始浓度关系矩阵包括多个与各该结构关系数列相对应的浓度关系数列。
[0025] 获得转录本和探针的初始关系矩阵及初始浓度关系矩阵的方法,可利用例如上述参考文献5中的手段。即利用改进的SPACE算法,首先对探针的初始信号进行变换,然后选取合适的收敛参数,利用广义Kompass收敛函数族进行非负矩阵分解,从而得到转录本和探针的初始关系矩阵及初始浓度关系矩阵。
[0026] 更具体地,首先,对基因芯片上的探针进行扫描,得到强度值(即荧光信号的强度),然后,利用RMA算法得到初始信号;接下来,对初始信号值进行适度的指数变换,利用广义收敛Kompass收敛函数族进行非负矩阵分解,并选取合适的收敛参数。此后,可根据标准数据库(例如欧洲生物信息中心的ENSEMBL数据库)对数据进行一致化处理和数据重排,以获取转录本和探针的初始关系矩阵和初始浓度关系矩阵。具体可参见上述参考文献5(Anton,M.A.,Aramburu,A.,Rubio,A.(2010)Improvements to previous algorithms to predict gene structure and isoform concentrations using Affymetrix Exon arrays.BMC Bioinformatics,11,578.(利用昂飞外显子芯片,通过改进先前的算法来预测基因结构和转录本浓度)。)
[0027] 上述初始结构关系矩阵反映了转录本外显子和检测探针的关系,并且该结构关系矩阵包括多个结构关系数列,每个结构关系数列反映转录本和探针的关联程度,并且结构关系数列中的每一位的取值范围在0至1之间。对应地,初始浓度关系矩阵包括多个和该结构关系数列相对应的浓度关系数列。在初始结构关系矩阵中,结构关系数列可以为列向量,对应的浓度关系数列为行向量,每个初始转录本对应于一个结构关系数列和浓度关系数列。
[0028] 步骤S200。
[0029] 在该步骤中,从已知转录本数据库中分别选取与该初始结构关系矩阵内每个结构关系数列阶梯距离最短的最小阶梯距离标准数列。已知转录本数据库中包括了多个标准数列。如前所述,该最小距离标准数列与对应的结构关系数列阶梯距离最短。已知转录本数据库可以是商业化的标准转录本数据库,例如ENSEMBL数据库。
[0030] 结合图2,计算各结构关系数列的最小阶梯距离标准数列的步骤包括步骤S210及步骤S220。具体地:
[0031] 在步骤S210中,S选取该初始结构关系矩阵内一个结构关系数列A{ai:i=1,2……n},其中ai为该结构关系数列内第i位的值,n为该结构关系数列的长度。该长度表征了对应基因下探针的总数。
[0032] 接下来,在步骤S220中,计算该结构关系数列与已知转录本数据库内每个标准数列B{bi:i=1,2……m}的阶梯距离,并根据该计算,确定与该结构关系数列阶梯距离最短的最小阶梯距离标准数列,其中bi为该标准数列内第i位的值,m为该标准数列的长度(标准数列的长度和结构关系数列长度相等)。
[0033] 其中,该结构关系数列和该标准数列之间的阶梯距离L通过公式1和2求得:
[0034]
[0035]
[0036] 通过步骤S210和S220,最终计算出初始结构关系矩阵中各结构关系数列的最小阶梯距离标准数列。
[0037] 步骤S300。
[0038] 该步骤中,确定各该结构关系数列的最近似标准数列,具体地,如果一个结构关系数列仅与一个标准数列具有最小阶梯距离,则将该标准数列确定为该结构关系数列的最近似标准数列;如果多个标准数列与同一个结构关系数列具有相同的最小阶梯距离,则将该多个标准数列中与该结构关系数列绝对距离最小的数列确定为该结构关系数列的最近似标准数列。常规地,绝对距离La定义为:
[0039]
[0040] 步骤S400。
[0041] 该步骤中,根据各该结构关系数列的最近似标准数列,将该初始浓度关系矩阵调整为最终的预测浓度关系矩阵。具体地:如果该最近似标准数列中的任一个对应多个该结构关系数列,则将多个该结构关系数列分别对应的浓度关系数列进行合并,即对该多个具有相同最近似标准数列的结构关系数列内的各个数据进行加和,从而形成最终的预测浓度关系矩阵。当然,如果该最近似标准数列中的一个仅对应一个结构关系数列,则不进行浓度合并。通过该步骤,最终形成经过调整的预测浓度关系矩阵。
[0042] 综上所述,本发明通过对初始结构关系矩阵进行计算,并对初始浓度关系矩阵进行优化,调整为最终的预测浓度关系矩阵,其表征的转录本结构和浓度与实验验证结果具有很好的一致性、相关性和稳健性,从而避免初始结构关系矩阵因在某些探针关系上的不确定性关联或者错误关联而造成预测误差,并可为后续试验提供可靠参考。