用于分析基因的方法及装置转让专利

申请号 : CN201580078172.3

文献号 : CN107408163B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朴熊洋金相喆南在勇

申请人 : 吉尼努斯公司

摘要 :

用于分析基因的方法及装置,其通过对参照基因执行深度测序而生成参照数据集,并通过对受检基因执行深度测序而分析受检基因的深度,并且通过对所分析的深度和包含在参照数据集中的参照基因的深度进行比较,而判断受检基因中是否存在拷贝数变异(CNV)基因。

权利要求 :

1.一种用于分析基因的方法,包括以下步骤:通过对参照基因执行深度测序而生成关于排列在所述参照基因中的每一者上的读段的深度的参照数据集;

通过对受检基因执行所述深度测序而对排列在所述受检基因中的每一者上的读段的深度进行分析;以及通过将所分析的深度与包含在所述参照数据集中的关于所述参照基因的深度进行比较,而判断所述受检基因中是否存在拷贝数变异基因;

其中,所述生成包括如下步骤:

通过对多个人员的基因数据执行所述深度测序,针对所述多个人员中的每一人获取与所述参照基因对应的读段深度;

根据所获取的读段深度的分布将所述人员聚类为彼此不同的组;以及通过对每个组中的各个所述参照基因所获取的所述读段深度进行标准化,从而获取代表各个所述组的各个所述参照基因的标准深度,其中,所述参照数据集包含针对各个所述组示出各个所述参照基因的标准深度的数据。

2.根据权利要求1所述的方法,其中,

所述分析包括对排列在所述受检基因的外显子部位上的读段的深度进行分析。

3.根据权利要求2所述的方法,其中,

所述判断包括通过针对相同的外显子部位对所述参照基因的深度与所述受检基因的深度进行比较而判断所述拷贝数变异基因的存在。

4.根据权利要求1所述的方法,其中,

所述判断包括:当存在其中所述参照基因与所述受检基因之间的对应外显子部位的深度差异超过临界值的外显子部位时,判断在所述受检基因的外显子部位中存在所述拷贝数变异基因,并且其中,所述临界值是用于判断深度差异在统计学上不显著的值。

5.根据权利要求1所述的方法,其中,

所述判断包括如下步骤:

确定所述组当中关于所述受检基因分析的深度的分布与所述标准深度的分布之间的统计学差异最小的组;以及通过对关于所述受检基因分析的深度和与所确定的组对应的标准深度进行比较,而判断是否存在所述拷贝数变异基因。

6.根据权利要求1所述的方法,还包括以下步骤:从公开基因组数据或公开人类基因组单体型图数据中获取所述人员的所述基因数据。

7.根据权利要求1所述的方法,其中,

从活检组织或福尔马林固定石蜡包埋组织中获取所述参照基因或所述受检基因。

8.根据权利要求1所述的方法,还包括以下步骤:在判断所述受检基因中存在所述拷贝数变异基因的情况下,执行用于识别与所述拷贝数变异基因对应的药物的注释法。

9.一种计算机可读存储介质,其存储有用于使计算机执行根据权利要求1至8中任一项所述的方法的程序。

10.一种用于分析基因的装置,包括:

参照数据生成部,其通过对参照基因执行深度测序而生成关于排列在所述参照基因中的每一者上的读段的深度的参照数据集;

分析部,其通过对受检基因执行所述深度测序而对排列在所述受检基因中的每一者上的读段的深度进行分析;以及判断部,其通过将所分析的深度与包含在所述参照数据集中的关于所述参照基因的深度进行比较,而判断所述受检基因中是否存在拷贝数变异基因;

其中,所述参照数据生成部通过对多个人员的基因数据执行所述深度测序,针对所述多个人员中的每一人获取与所述参照基因对应的读段深度,并且根据所获取的读段深度的分布将所述人员聚类为彼此不同的组,并且通过获取标准分布来标准化针对每个组中的各个所述参照基因获取的所述读段深度的分布,从而获取代表各个所述组的各个所述参照基因的标准深度,其中,所述参照数据集包含针对各个所述组示出各个所述参照基因的标准深度的数据。

11.根据权利要求10所述的装置,其中,

所述分析部对排列在所述受检基因的外显子部位上的读段的深度进行分析。

12.根据权利要求11所述的装置,其中,

所述判断部通过针对相同的外显子部位对所述参照基因的深度与所述受检基因的深度进行比较而判断所述拷贝数变异基因的存在。

13.根据权利要求10所述的装置,其中,

当存在其中所述参照基因与所述受检基因之间的对应外显子部位的深度差异超过临界值的外显子部位时,所述判断部判断在所述受检基因的外显子部位中存在所述拷贝数变异基因,并且其中,所述临界值是用于判断深度差异在统计学上不显著的值。

14.根据权利要求10所述的装置,其中,

所述判断部确定所述组中关于所述受检基因分析的深度的分布与所述标准深度的分布之间的统计学差异最小的组,并且通过对关于所述受检基因分析的深度和与所确定的组对应的标准深度进行比较,而判断是否存在所述拷贝数变异基因。

15.根据权利要求10所述的装置,其中,

所述参照数据生成部从公开基因组数据或公开人类基因组单体型图数据中获取所述人员的所述基因数据。

16.根据权利要求10所述的装置,其中,

从活检组织或福尔马林固定石蜡包埋组织中获取所述参照基因或所述受检基因。

17.根据权利要求10所述的装置,其中,

所述判断部在判断所述受检基因中存在所述拷贝数变异基因的情况下,执行用于识别与所述拷贝数变异基因对应的药物的注释法。

说明书 :

用于分析基因的方法及装置

技术领域

[0001] 本发明涉及一种用于分析基因的方法及装置,特别是,涉及一种用于分析拷贝数变异(copy number variation,CNV)基因的方法及装置。

背景技术

[0002] 基因组(genome)是指某一生物所具有的所有基因信息。为了某一个体基因组的测序(sequencing),正在开发DNA芯片及下一代测序(Next Generation Sequencing)技术或下下一代测序(Next Next Generation Sequencing)技术等多种技术。为了寻找表达如糖尿病或癌症等疾病的基因或者识别遗传多样性与个体表达特性之间的相关关系等,广泛应用如核酸序列或蛋白质等的基因信息的分析。特别是,从查明彼此不同的症状或与疾病进展相关联的个体遗传特征的方面来看,从个体中收集到的遗传数据很重要。因此,如个体的核酸序列或蛋白质等的遗传数据为能够在通过识别当前及未来的疾病关联信息来预防疾病或在疾病的初期步骤中选择最佳治疗方法的核心数据。正在研究通过应用检测作为生物遗传信息的SNP(Single Nucleotide Polymorphism,单核苷酸多态性)或CNV(Copy Number Variation,拷贝数变异)等的基因组检测设备来准确分析个体遗传数据并诊断个体疾病的技术。

发明内容

[0003] 技术问题
[0004] 本发明提供一种用于分析基因的方法及装置。本实施例所要解决的技术问题并非由如上所述的技术问题来限定,能够从以下实施例中类推出又一技术问题。
[0005] 技术方案
[0006] 根据一方面,一种用于分析基因的方法,包括以下步骤:通过对参照基因执行深度测序而生成关于排列在所述参照基因中的每一者上的读段的深度的参照数据集;通过对受检基因执行所述深度测序而对排列在所述受检基因中的每一者上的读段的深度进行分析;以及通过将所分析的深度与包含在所述参照数据集中的关于所述参照基因的深度进行比较,而判断所述受检基因中是否存在拷贝数变异基因。
[0007] 此外,所述分析包括对排列在所述受检基因的外显子部位上的读段的深度进行分析。
[0008] 此外,所述判断包括通过针对相同的外显子部位对所述参照基因的深度与所述受检基因的深度进行比较而判断所述拷贝数变异基因的存在。
[0009] 此外,所述判断包括:在所述参照基因与所述受检基因之间存在彼此对应的外显子部位上的深度差异在统计学上不显著的外显子部位的情况下,判断在所述受检基因的外显子部位中存在所述拷贝数变异基因。
[0010] 此外,所述生成包括如下步骤:通过对多个人员的基因数据执行所述深度测序,而针对所述多个人员中的每一人获取与所述参照基因对应的读段深度;根据所获取的读段深度的分布将所述人员聚类为彼此不同的组;以及通过对针对每个组中的各个所述参照基因而获取到的所述读段深度进行标准化,而获取代表各个所述组的各个所述参照基因的标准深度,其中,所述参照数据集包含针对各个所述组示出各个所述参照基因的标准深度的数据。
[0011] 此外,所述判断包括如下步骤:确定所述组中所分析的深度的分布与所述标准深度的分布之间的统计学差异最小的组;以及通过对所分析的深度和与所确定的组对应的标准深度进行比较,而判断是否存在所述拷贝数变异基因。
[0012] 此外,用于分析基因的方法还包括以下步骤:从公开基因组数据或公开人类基因组单体型图(HapMap)数据中获取所述人员的所述基因数据。
[0013] 此外,可以从活检组织或福尔马林固定石蜡包埋(Formalin-fixed,paraffin-embedded,FFPE)组织中获取所述参照基因或所述受检基因。
[0014] 此外,用于分析基因的方法还括以下步骤:在判断所述受检基因中存在所述拷贝数变异基因的情况下,执行用于识别与所述拷贝数变异基因对应的药物的注释法(annotation)。
[0015] 根据另一方面,提供一种存储有用于使计算机执行所述方法的程序的计算机可读存储介质。
[0016] 根据又一方面,一种用于分析基因的装置,包括:参照数据生成部,其通过对参照基因执行深度测序而生成关于排列在所述参照基因中的每一者上的读段的深度的参照数据集;分析部,其通过对受检基因执行所述深度测序而对排列在所述受检基因中的每一者上的读段的深度进行分析;以及判断部,其通过将所分析的深度与包含在所述参照数据集中的关于所述参照基因的深度进行比较,而判断所述受检基因中是否存在拷贝数变异基因。
[0017] 此外,所述分析部对排列在所述受检基因的外显子部位上的读段的深度进行分析。
[0018] 此外,所述判断部通过针对相同的外显子部位对所述参照基因的深度与所述受检基因的深度进行比较而判断所述拷贝数变异基因的存在。
[0019] 此外,在所述参照基因与所述受检基因之间存在彼此对应的外显子部位上的深度差异在统计学上不显著(significant)的外显子部位的情况下,所述判断部判断在所述受检基因的外显子部位中存在所述拷贝数变异(CNV)基因。
[0020] 此外,所述参照数据生成部通过对多个人员的基因数据执行所述深度测序,而针对所述多个人员中的每一人获取与所述参照基因对应的读段深度,并且根据所获取的读段深度的分布将所述人员聚类为彼此不同的组,并且通过对针对每个组中的各个所述参照基因而获取到的所述读段深度进行标准化,而获取代表各个所述组的各个所述参照基因的标准深度,其中,所述参照数据集包含针对各个所述组示出各个所述参照基因的标准深度的数据。
[0021] 此外,所述判断部确定所述组中所分析的深度的分布与所述标准深度的分布之间的统计学差异最小的组,并且通过对所分析的深度和与所确定的组对应的标准深度进行比较,而判断是否存在所述拷贝数变异基因。
[0022] 此外,所述参照数据生成部从公开基因组数据或公开人类基因组单体型图(HapMap)数据中获取所述人员的所述基因数据。
[0023] 此外,可以从活检组织或福尔马林固定石蜡包埋(Formalin-fixed,paraffin-embedded,FFPE)组织中获取所述参照基因或所述受检基因。
[0024] 此外,所述判断部在判断所述受检基因中存在所述拷贝数变异基因的情况下,执行用于识别与所述拷贝数变异基因对应的药物的注释法。
[0025] 有益效果
[0026] 根据上述内容,能够更准确地分析在受检体的受检基因中是否存在拷贝数变异(CNV)基因。

附图说明

[0027] 图1是用于说明一实施例所涉及的基因分析装置的图。
[0028] 图2是表示一实施例所涉及的基因分析装置的硬件结构的框图。
[0029] 图3是一实施例所涉及的生成参照数据集的方法的流程图。
[0030] 图4是用于说明根据一实施例对多个人员(例如,正常人)中的每一人获取与参照基因对应的读段深度的图。
[0031] 图5是用于说明根据一实施例对外显子部位执行深度测序的图。
[0032] 图6是用于说明根据一实施例按从正常人群体400中获取到的读段深度的分布将人员聚类为彼此不同的组的图。
[0033] 图7是根据一实施例的用于说明代表某一组的各个参照基因的标准深度的图。
[0034] 图8是用于说明根据一实施例对从受检体的生物学样品中获取到的受检基因执行深度测序的图。
[0035] 图9是一实施例所涉及的判断是否存在拷贝数变异(CNV)基因的方法的流程图。
[0036] 图10是用于说明根据一实施例判断是否存在拷贝数变异(CNV)基因的图。
[0037] 图11是根据一实施例而分析基因的方法的流程图。
[0038] 图12是表示一实施例所涉及的计算装置的硬件结构的框图。

具体实施方式

[0039] 根据一方面,一种用于分析基因的方法,包括以下步骤:通过对参照基因执行深度测序而生成关于排列在所述参照基因中的每一者上的读段的深度的参照数据集;通过对受检基因执行所述深度测序而对排列在所述受检基因中的每一者上的读段的深度进行分析;以及通过将所分析的深度与包含在所述参照数据集中的关于所述参照基因的深度进行比较,而判断所述受检基因中是否存在拷贝数变异基因。
[0040] 根据另一方面,提供一种存储有用于使计算机执行所述方法的程序的计算机可读存储介质。
[0041] 根据又一方面,一种用于分析基因的装置,包括:参照数据生成部,其通过对参照基因执行深度测序而生成关于排列在所述参照基因中的每一者上的读段的深度的参照数据集;分析部,其通过对受检基因执行所述深度测序而对排列在所述受检基因中的每一者上的读段的深度进行分析;以及判断部,其通过将所分析的深度与包含在所述参照数据集中的关于所述参照基因的深度进行比较,而判断所述受检基因中是否存在拷贝数变异基因。
[0042] 实施例
[0043] 本实施例中使用的术语考虑其在本实施例中的功能的同时,选择目前尽可能广泛使用的通常术语,但该术语可根据从事该技术领域的技术人员的意图或判例、新技术的出现等而不同。此外,也可以具有在特定情况下任意选定的术语,此时,应当在相关实施例的说明部分详细记载其含义。因此,本实施例中使用的术语并不是简单的术语名称,应当以该术语所具有的含义和整个本实施例中的内容为基础定义该术语。
[0044] 在关于实施例的说明中,当提到某部分与其他部分连接时,不仅包括直接连接的情况,还包括在其中间隔着其他结构要素而电连接的情况。此外,当某部分包括某结构要素时,除非有相反的记载,这表示并不排除其他结构要素,而是可进一步包括其他结构要素。此外,实施例中记载的“…部”或“…模块”的术语是指处理至少一个功能或操作的单位,该单位可由硬件或软件来实现或者可由硬件和软件的结合来实现。
[0045] 本实施例中使用的“构成”或“包括”等术语不应解释为必须均包括说明书中记载的所有结构要素或各种步骤,而是应解释为也可以不包括其中部分结构要素或部分步骤,或者应解释为可进一步包括附加结构要素或步骤。
[0046] 关于以下实施例的说明不应解释为用来限制权利范围,而是应解释为该技术领域的技术人员能够容易类推的内容属于实施例的权利范围内。以下,参照附图仅对用于实施示例的实施例进行详细说明。
[0047] 图1是用于说明一实施例所涉及的基因分析装置的图。
[0048] 参照图1,基因分析装置10可利用从正常人群体中获取到的基因数据20及从受检体中获取到的基因数据30,来识别受检体的受检基因中是否存在拷贝数变异(CNV)基因。
[0049] 由基因分析装置10接收的基因数据20及基因数据30可相当于由下一代测序(next generation sequencing,NGS)获取的FASTQ文件格式的基因数据。FASTQ格式为用于存储如普通核苷酸序列等的生物学序列和与该生物学序列对应的质量评分的基于文本的格式(text-based format)。但是,本实施例所涉及的基因分析装置10并不限于FASTQ格式,也可以分析其他格式的基因数据20及30。
[0050] 正常人群体的基因数据20可以从如NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)或基因表达大棚车(Gene Expression Omnibus,GEO)等的该技术领域已公知的数据库(DB)中获取,或者为了分析受检体的受检基因而可以从收集到的人员的生物学样品中获取正常人群体的基因数据20。即,可以从公开基因组数据或公开人类基因组单体型图(HapMap)数据中获取基因数据20。另外,可以从活检组织或福尔马林固定石蜡包埋(Formalin-fixed,paraffin-embedded,FFPE)组织中获取包含在基因数据20中的参照基因或包含在基因数据30中的受检基因。
[0051] 已知拷贝数变异(CNV)是指因与参照基因组(reference genome)相比较在特定染色体上缺失或增加相对大的区域而反复呈现的基因内的变异。即,基因分析装置10可以判断与从正常人群体中获取到的基因数据20相比在从受检体中获取到的基因数据30中是否存在非正常缺失或增加的基因。在此,由基因分析装置10分析的基因可指如DNA(deoxyribonucleic acid,脱氧核糖核酸)或RNA(ribonucleic acid,核糖核酸)等的核酸。
[0052] 在本实施例中,正常人群体可指由未发现特定疾病例如癌症或肿瘤等的一般人员组成的群体,受检体可指发现如癌症或肿瘤等的特定疾病的患者。另外,在本实施例中,正常人群体及受检体也可以是非人类的其他动物。
[0053] 基因分析装置10可由具有用于执行各种命令和各种算法的数据处理功能的至少一个处理器来实现,其中,各种命令和各种算法用于通过分析基因数据20、30而识别拷贝数变异(CNV)基因。
[0054] 图2是表示一实施例所涉及的基因分析装置的硬件结构的框图。
[0055] 参照图2,基因分析装置10可包括参照数据生成部110、分析部120和判断部130。另外,在图2所示的基因分析装置10中仅图示与本实施例相关联的结构要素,以防止本实施例的特征不清楚,因此基因分析装置10可进一步包括图2所示的结构要素之外的其他通用结构要素。
[0056] 参照数据生成部110接收前述图1中说明的从正常人群体中获取到的基因数据20,并且利用接收到的基因数据20来生成参照数据集。
[0057] 更详细而言,参照数据生成部110通过对包含在基因数据20中的参照基因执行深度测序(deep sequencing),从而生成关于排列在参照基因中的每一个上的读段(reads)的深度(depths)的参照数据集。深度测序为通过在如DNA片段或RNA片段等的核酸上反复排列读段而对如DNA片段或RNA片段等的核酸进行测序的技术。深度测序的结果,能够获取关于与互补结合到如DNA片段或RNA片段等的核酸中的读段的数量对应的深度的数据。在本实施例中,术语“深度”为与“读段深度(read-depth)”的术语相同的含义,因此可以混合使用。
[0058] 参照数据生成部110首先通过对多个人员(例如,正常人)的基因数据(图1的20)执行深度测序而对各个人员获取与参照基因对应的读段深度。之后,参照数据生成部110根据获取到的读段深度的分布将人员聚类为彼此不同的组。参照数据生成部110通过对针对每个组中的各个参照基因而获取到的读段深度进行标准化,而获取代表各个组的各个参照基因的标准深度。结果,由参照数据生成部110生成的参照数据集可包含对各个组呈现各个参照基因的标准深度的数据。
[0059] 分析部120通过接收前述图1中说明的从受检体中获取到的基因数据30,并且对包含在基因数据30中的受检基因执行深度测序,从而对排列在受检基因中的每一个上的读段的深度进行分析。
[0060] 另外,可以对参照基因或受检基因内的外显子(exon)部位进行由参照数据生成部110及分析部123执行的深度测序。换言之,在相当于深度测序结果的由参照数据生成部110生成的参照数据集或由分析部120分析出的深度的数据中,可仅包含关于外显子(exon)部位中的深度的数据,而并不包含关于排列在内含子部位上的读段的深度的数据。但是,本实施例并不限于此,也可以包含关于内含子部位的深度数据。
[0061] 判断部130将由分析部120分析出的深度与包含在由参照数据生成部110生成的参照数据集中的关于参照基因的深度进行比较。之后,判断部130判断受检基因中是否存在拷贝数变异(CNV)基因。此时,判断部130可通过针对相同的外显子部位对参照基因与受检基因之间的深度进行比较,从而判断是否存在拷贝数变异(CNV)基因。
[0062] 判断部130的判断基准为,在参照基因与受检基因之间存在彼此对应的外显子部位上的深度差异在统计学上不显著(significant)的外显子部位的情况下,可以判断受检基因的外显子部位中存在拷贝数变异(CNV)基因。
[0063] 判断部130将与彼此对应的外显子部位上的深度差异在统计学上不显著的外显子部位对应的基因检测或识别为对应于拷贝数变异(CNV)基因。此外,判断部130在判断受检基因中存在拷贝数变异(CNV)基因的情况下,可执行用于识别与检测到的拷贝数变异(CNV)基因对应的药物(例如,抗癌剂等)的注释法(annotation)。
[0064] 图3是一实施例所涉及的生成参照数据集的方法的流程图。参照图3,参照数据集的生成包括由前述说明的参照数据生成部110按时间序列方式处理的步骤。
[0065] 在步骤301中,参照数据生成部110针对多个人员(例如,正常人)中的每一人获取与参照基因对应的读段深度。
[0066] 在步骤302中,参照数据生成部110根据获取到的读段深度分布将人员聚类为彼此不同的组。
[0067] 在步骤303中,参照数据生成部110对针对每个组中的各个参照基因获取的读段深度进行标准化。
[0068] 在步骤304中,参照数据生成部110获取代表各个组的各个参照基因的标准深度。
[0069] 图4是用于说明根据一实施例对多个人员(例如,正常人)中的每一人获取与参照基因对应的读段深度的图。图4的说明可以与由图3的步骤301执行的方法相关联。
[0070] 参照图4,参照数据生成部110可通过利用从数据库(DB)40中获取到的基因数据401来执行深度测序,从而获取读段深度。
[0071] 在数据库(DB)40中存储有分类为正常人群体400的多个人员(例如,正常人)中的每一人的基因数据401。基因数据401可以是利用如下一代测序(NGS)或微阵列等的多种测序机构来针对从多个人员中提取到的生物学样品获取的数据。另外,基因数据401可以是关于整个基因组(whole genome)的数据,或者可以是关于人类基因组单体型图(HapMap)的数据。
[0072] 数据库(DB)40可相当于如NCBI或GEO等的该技术领域已公知的数据库(DB),或者可以是为了对受检体的受检基因进行分析且为了存储收集到的人员的基因数据401而构建的数据库。
[0073] 参照数据生成部110对包含在基因数据401中的正常人群体400中的每一人的基因(即,参照基因)执行深度测序。例如,参照数据生成部110可以对包含在正常人群体400中的“人员1”410的参照基因411执行深度测序。对参照基因411执行深度测序的结果,对包含在参照基因411中的各个基因1、…、基因n(n为自然数)排列读段415,并且获取关于排列在参照基因411中的每一个上的读段415的深度(读段深度)的数据。同样,参照数据生成部110也可以对包含在正常人群体400中的“人员2”420的参照基因421执行深度测序,并且获取关于排列在参照基因421中的每一个上的读段425的深度(读段深度)的数据。参照数据生成部110可通过对包含在基因数据401中的正常人群体400中的每一人的参照基因执行深度测序,而获取读段深度数据。
[0074] 图5是用于说明根据一实施例对外显子部位执行深度测序的图。
[0075] 参照图5,对相当于正常人群体400中的每一人的基因的参照基因执行深度测序,并且获取排列在内含子部位505之外的外显子部位上的读段的深度(读段深度)。例如,在每一个体的参照基因(核酸500)包含基因a、基因b和基因c的情况下,深度测序结果可包含排列在基因a内的外显子a1上的读段510的深度数据和排列在外显子a2上的读段的深度数据、排列在基因b内的外显子b1上的读段的深度数据和排列在外显子b2上的读段的深度数据、以及排列在基因c内的外显子c上的读段的深度数据。但是,本实施例并不限于此,在深度测序结果中也可以包含排列在内含子部位505上的读段的深度数据。
[0076] 另外,关于对图5所示的外显子部位执行深度测序,不仅适用于参照基因,而且还适用于从受检体中获取到的受检基因。即,分析部(图2的120)可通过对受检基因内的外显子部位执行深度测序,从而对排列在受检基因内的各个外显子部位上的读段的深度进行分析。
[0077] 图6是用于说明根据一实施例根据从正常人群体400中获取到的读段深度的分布将人员聚类为彼此不同的组的图。图6的说明可以与由图3的步骤302执行的方法相关联。
[0078] 由于正常人群体400中的每一人具有彼此不同的基因,因此与在每一人中利用深度测序分析的特定基因(或特定外显子)对应的深度可以彼此不同。或者,除此之外,也可以因是否对从每一人中获取到的生物学样品进行化学处理(例如,FFPE(Formalin-fixed,paraffin-embedded,福尔马林固定石蜡包埋))或深度测序误差等而导致关于每一人的各个参照基因的深度分布倾向彼此不同。因此,参照数据生成部110可通过在具有深度分布相似的倾向的人员之间进行归类,从而将正常人群体400中的每一人聚类为彼此不同的组。在此,可通过利用公知的趋势分析算法或聚类算法等对关于各参照基因(外显子)的读段深度的分布进行统计学分析,从而执行聚类。
[0079] 参照图6,对属于组1的人员的参照基因执行深度测序的结果,属于组1的人员的参照基因可具有各基因和深度对的分布相似的倾向。此外,其他组也同样。例如,可以从属于组1的人员的活检样品中获取属于组1的人员的参照基因,可以从属于组M的人员的FFPE样品中获取属于组M(M为自然数)的人员的参照基因。
[0080] 图7是根据一实施例用于说明代表某一组的各个参照基因的标准深度的图。图7的说明可以与由图3的步骤303及步骤304执行的方法相关联。
[0081] 参照图7,在结束聚类的情况下,参照数据生成部110通过对针对各个组中的各个参照基因而获取到的读段深度进行标准化,而获取代表各个组的各个参照基因的的标准深度。
[0082] 在对于某一参照基因(例如,“外显子1”)而言,在属于组X的各个人员中深度具有多种值的情况下,参照数据生成部110可通过对“外显子1”计算多种深度的平均,从而可以对“外显子1”的深度进行标准化。同样,参照数据生成部110也可以通过对其他各个参照基因(例如,“外显子43”、“外显子3543”或“外显子5623”等)计算多种深度的平均,从而对各基因(外显子)计算标准深度。由此,参照数据生成部110可获取代表聚类后的各个组的各个参照基因的标准深度。另外,为了方便说明,在本实施例中被说明为通过计算深度的平均而选取代表值,但本实施例也可以利用平均以外的其他种类的统计量来计算深度的代表值。
[0083] 图8是用于说明根据一实施例对从受检体的生物学样品中获取到的受检基因执行深度测序的图。
[0084] 参照图8,分析部(图2的120)基于受检体800的基因数据30,对受检基因执行深度测序,从而对排列在受检基因中的每一个上的读段的深度进行分析。
[0085] 受检体800的基因数据30可以是通过对从受检体800的部分组织中提取到的活检样品810或者FFPE样品825执行下一代测序(NGS)而获取到的数据。在此,FFPE样品825为对受检体800的部分组织进行FFPE处理820后的样品。
[0086] 分析部(图2的120)可通过根据前述图4及图5中说明的深度测序方式对排列在受检体800的受检基因上的读段的深度进行分析,从而获取受检基因的深度数据830。
[0087] 图9是一实施例所涉及的判断是否存在拷贝数变异(CNV)基因的方法的流程图。参照图9,对拷贝数变异(CNV)基因的判断包括由前述说明的判断部130按时间序列方式处理的步骤。
[0088] 在步骤901中,判断部130确定在由参照数据生成部110所聚类的组中从受检基因中分析到的深度分布与标准深度分布之间的统计学差异最小的组。即,判断部130确定在聚类后的组(例如,图6的组)中具有与从受检基因中分析到的深度分布相似的统计学倾向的至少一组。此时,判断部130可确定从受检基因中分析到的深度分布与标准深度分布之间的标准偏差最小的组。但是,并不限于此,为了选择具有与从受检基因中分析到的深度分布相似的倾向的组,也可以利用标准偏差之外的其他统计量。
[0089] 在步骤902中,判断部130将从受检基因中分析到的深度和与已确定的组对应的标准深度进行比较。更详细而言,判断部130对各个受检基因(外显子)的深度和与其对应的参照基因(与其对应的外显子)的深度进行比较。例如,假设在所有受检基因和所有参照基因中均存在“外显子1”和“外显子43”的情况,则判断部130将由分析部120分析到的“外显子1”的深度与“外显子1”的标准深度进行比较,并且将由分析部120分析到的“外显子43”的深度与“外显子43”的标准深度进行比较。在此,“外显子1”及“外显子43”是用于表示彼此不同的外显子的任意术语。
[0090] 在步骤903中,判断部130根据比较结果判断是否存在拷贝数变异(CNV)基因。此时,在参照基因与受检基因之间存在彼此对应的外显子部位上的深度差异在统计学上不显著(significant)的外显子部位的情况下,判断部130可判断在受检基因的外显子部位中存在拷贝数变异(CNV)基因。
[0091] 更具体而言,假设用于判断深度差异不显著的临界值为标准深度的四倍的情况,则在由分析部120分析到的某一外显子的深度超过标准深度的四倍的情况下,判断部130可判断存在拷贝数变异(CNV)基因。但是,临界值并不限于此,可以以多种方式改变临界值。例如,在“外显子1”的标准深度为1000的情况下,用于判断显著性的临界值可以是4000。因此,在由分析部120分析到的受检体的“外显子1”的深度为5000的情况下,判断部130可判断“外显子1”的基因为拷贝数变异(CNV)的基因。
[0092] 图10是用于说明根据一实施例判断是否存在拷贝数变异(CNV)基因的图。
[0093] 参照图10,用实线表示的深度与参照基因(外显子)对应,用点划线表示的深度与受检基因(外显子)对应。
[0094] 如前述图中说明的那样,判断部130对由分析部120分析到的外显子的深度和标准深度进行比较。由于在参照基因与受检基因之间存在彼此对应的外显子部位上的深度差异在统计学看不显著(significant)的外显子部位(“外显子a”)的情况下,判断部130将“外显子a”的受检基因识别为拷贝数变异(CNV)基因,因此可判断在受检基因的外显子部位中存在拷贝数变异(CNV)基因。
[0095] 另外,判断部130在判断受检基因中存在拷贝数变异(CNV)基因的情况下,可执行用于识别与拷贝数变异(CNV)基因对应的药物(例如,抗癌剂)的注释法。
[0096] 图11是根据一实施例而分析基因的方法的流程图。参照图11,基因分析方法包括由前述附图中说明的基因分析装置10按时间序列方式处理的步骤。因此,即使是以下省略的内容,前述附图中说明的内容也可以适用于图11的基因分析方法。
[0097] 在步骤1101中,参照数据生成部110通过对参照基因执行深度测序,从而生成关于排列在参照基因中的每一个上的读段的深度的参照数据集。
[0098] 在步骤1102中,分析部120通过对受检基因执行深度测序,从而对排列在受检基因中的每一个上的读段的深度进行分析。
[0099] 在步骤1103中,判断部130通过将分析出的深度与包含在参照数据集中的关于参照基因的深度进行比较,从而判断受检基因中是否存在拷贝数变异(CNV)基因。
[0100] 图12是表示一实施例所涉及的计算装置的硬件结构的框图。
[0101] 参照图12,计算装置1包括基因分析装置(处理器)10、数据接口11和存储器12。另外,关于图12所示的计算装置1仅图示与本实施例相关联的结构要素以防止本实施例的特征不清楚,因此计算装置1可进一步包括图12所示的结构要素之外的其他通用的结构要素。
[0102] 数据接口11接收前述图1中说明的正常人群体的基因数据20和受检体的基因数据30。即,数据接口11可由用于使计算装置1与外部的其他设备进行通信的有线/无线网络接口的硬件来实现。数据接口11将接收到的基因数据20、30传送给基因分析装置(处理器)10。
[0103] 数据接口11可从数据库(DB)(图4的40)接收正常人群体的基因数据20。并且,数据接口11可从用于对受检体的受检基因进行测序的外部的下一代测序装置或微阵列等中接收受检体的基因数据30。
[0104] 存储器12为用于存储在计算装置1内处理的数据及已完成处理的结果的硬件,存储器12包括RAM(random access memory,随机存取存储器)或ROM(read only memory,只读存储器)等的存储器芯片或者HDD(hard disk drive,硬盘驱动器)或SSD(solid state drive,固态驱动器)等的贮存器。即,存储器12可存储由数据接口11接收到的基因数据20和基因数据30,并且也可以存储由基因分析装置(处理器)10处理的参照数据集、关于受检基因的深度测序数据或关于识别出的拷贝数变异(CNV)基因的数据。
[0105] 基因分析装置(处理器)10为由一个以上的处理单元实现的模块,并且也可以由具有多个逻辑门阵列的微处理器和存储有能够在该微处理器中运行的程序的存储器模块的组合来实现。基因分析装置(处理器)10也可以以应用程序模块形式实现。基因分析装置(处理器)10为对前述图1至图11中说明的基因分析进行处理的硬件装置。
[0106] 可通过数据接口11向外部的其他设备例如显示设备或其他计算装置等传送关于由基因分析装置(处理器)10识别出的拷贝数变异(CNV)基因的信息,或者可通过数据接口11向外部网络例如互联网或公开数据库(DB)服务器传送该拷贝数变异基因的信息。
[0107] 根据前述说明的本实施例,即使无法确保受检体(例如,癌症患者)的正常血液,也可以仅利用受检体的癌组织的活检样品或FFPE样品来检测拷贝数变异(CNV)基因。此外,即使因FFPE处理而化学上稍微损伤从受检体中获取到的癌组织的基因(受检基因),也由于通过参照类似条件(FFPE处理)下的参照基因来判断拷贝数变异(CNV)基因的存在,因此能够准确地检测拷贝数变异(CNV)基因。
[0108] 本实施例所涉及的装置可包括处理器、如存储并运行程序数据的存储器或磁盘驱动器等的永久性存储器(permanent storage)、以及如与外部装置进行通信的通信端口、触摸屏、键盘(key)或按钮等的用户接口装置等。由软件模块或算法实现的方法可作为能够在所述处理器中运行的计算机可读代码或程序指令而存储在计算机可读存储介质中。在此,作为计算机可读存储介质,具有磁存储介质(例如,ROM(read-only memory)、RAM(random-access memory)、软磁盘或硬磁盘等)和光学读取介质(例如,只读光盘(CD-ROM)、高密度数字视频光盘(DVD:Digital Versatile Disc))等。由于计算机可读存储介质被分散到通过网络连接的计算机系统中,从而可以以分散方式存储并运行计算机可读代码。可由计算机读取存储介质,并且存储介质被存储在存储器中而能够在处理器中运行。
[0109] 可由功能模块结构和多种处理步骤来表示本实施例。这种功能模块可由执行特定功能的多个硬件或/和软件结构来实现。例如,实施例可采用如能够执行一个以上的微处理器的控制或其他控制装置的各种功能的存储器、处理、逻辑(logic)或查找表(look-up table)等的直接电路结构。与能够由软件程序设计或软件要素执行结构要素的情况类似地,本实施例包含由数据结构、进程、例程或其他程序设计的组合实现的多种算法,并且可由如C、C++、Java或汇编程序(assembler)等的程序设计或脚本语言来实现本实施例。关于功能方面,可利用由一个以上的处理器运行的算法来实现。此外,本实施例为了电子环境设定、信号处理和/或数据处理等而可采用现有技术。可广泛使用如“机理”、“要素”、“单元”或“结构”等的术语,并非由机械物理结构来限定上述术语。上述术语可包含通过与处理器等连接而进行软件的一系列处理(routines,程序)的含义。
[0110] 本实施例中说明的特定运行为示例,并不是用某种方法来限定技术范围。为了说明书的简洁,可以省略现有的电子结构、控制系统、软件或所述系统的其他功能方面的记载。此外,附图所示的结构要素之间的线连接或连接部件示意性地表示功能连接和/或物理或电路连接,在实际装置中可通过能够代替或附加的多种功能连接、物理连接或电路连接来表示附图所示的结构要素之间的线连接或连接部件。
[0111] 在本说明书(特别是,在权利要求书中)中,“所述”这一术语及与其类似的指示术语的使用可均适用于单数或多数形式。此外,在记载有范围(range)的情况下,包括属于所述范围的个别值(如果没有相反的记载),在详细说明中记载了构成所述范围的各个个别值。最后,如果对构成方法的步骤明确记载顺序或没有相反的记载,则能够按适当的顺序执行所述步骤。所述步骤并不一定限定于所述步骤的记载顺序。
[0112] 目前为止,以该优选实施例为中心,查看了本发明。本发明所属技术领域的技术人员应能理解,在不脱离本发明的本质特性的范围内可以以经变形的方式实施本发明。因此,已公开的实施例不应从限定性的观点,而是应从说明性的观点来考虑。本发明的范围呈现于权利要求书而不是前述的说明,应解释为与该权利要求书同等的范围内存在的所有区别点包含在本发明中。