基于WGS数据的预设区域人群肿瘤特异突变识别方法转让专利

申请号 : CN202210723498.9

文献号 : CN115064212B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘殿明崔哲

申请人 : 哈尔滨星云生物信息技术开发有限公司

摘要 :

本发明公开了基于WGS数据的预设区域人群肿瘤特异突变识别方法,方法包括:获取并过滤预设区域人群的肿瘤测序数据,得到预设区域人群的肿瘤致病变异数据;获取并提取预设区域人群的正常样本测序数据的变异数据,得到预设区域人群的正常样本变异数据;根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。本发明通过使用大量健康预设区域人群的变异数据计算肿瘤样本与健康样本间的差异,得到预设区域人群的致病突变,最后将其与国际人群比较得到预设区域人群肿瘤特异突变基因,避免假阳性结果。

权利要求 :

1.一种基于WGS数据的预设区域人群肿瘤特异突变识别方法,其特征在于,所述方法包括:获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;

获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;

根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果;

所述根据预设区域人群的肿瘤致病变异数据和预设区域人群的正常样本变异数据,确定预设区域人群的差异突变基因包括:计算预设区域人群的肿瘤致病变异数据的每个基因的第一变异得分矩阵;

计算预设区域人群的正常样本变异数据的每个基因的第二变异得分矩阵;

根据每个基因的第一变异得分矩阵和每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量;

根据每个基因的变异差异的概率分布距离度量,对每个基因进行突变显著性分析,得到预设区域人群的差异突变基因;

所述差异突变基因为突变显著性分析所获得的小于预设显著性概率值对应的基因;

所述基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果包括:将预设区域人群的差异突变基因的所有变异数据进行格式转换;

将格式转换后的预设区域人群的差异突变基因的所有变异数据和预设的国际人群肿瘤变异数据进行对比分析,得到预设区域人群肿瘤特异突变基因识别结果。

2.根据权利要求1所述的基于WGS数据的预设区域人群肿瘤特异突变识别方法,其特征在于,所述对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据之前包括:采用预设的第一软件,对预设区域人群的肿瘤测序数据进行序列比对;

基于预设的第二软件,对序列比对后的预设区域人群的肿瘤测序数据进行体细胞突变数据查找,得到预设区域人群的肿瘤变异数据。

3.根据权利要求2所述的基于WGS数据的预设区域人群肿瘤特异突变识别方法,其特征在于,所述对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据包括:将预设区域人群的肿瘤变异数据中异常数据去除,得到预设区域人群的肿瘤致病变异数据;其中,所述异常数据用于表征在预设范围之外的数据。

4.根据权利要求1所述的基于WGS数据的预设区域人群肿瘤特异突变识别方法,其特征在于,所述根据每个基因的第一变异得分矩阵和每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量包括:将每个基因的第一变异得分矩阵进行标化;

将每个基因的第二变异得分矩阵进行标化;

根据标化后的每个基因的第一变异得分矩阵和标化后的每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量。

5.根据权利要求4所述的基于WGS数据的预设区域人群肿瘤特异突变识别方法,其特征在于,所述根据标化后的每个基因的第一变异得分矩阵和标化后的每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量包括:将标化后的每个基因的第一变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的肿瘤样本突变整合得分;

将标化后的每个基因的第二变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的正常样本突变整合得分;

根据每个基因的肿瘤样本突变整合得分和每个基因的正常样本突变整合得分,获取每个基因的变异差异的概率分布距离度量。

6.根据权利要求1所述的基于WGS数据的预设区域人群肿瘤特异突变识别方法,其特征在于,所述将格式转换后的预设区域人群的差异突变基因的所有变异数据和预设的国际人群肿瘤变异数据进行对比分析,得到预设区域人群肿瘤特异突变基因识别结果包括:基于预设的统计检验方法,将格式转换后的预设区域人群的差异突变基因的所有变异数据和预设的国际人群肿瘤变异数据分别进行分析计算,得到两个概率值;

对两个所述概率值进行校正,得到校正后的两个概率值;

将校正后的两个概率值按照从小到大的顺序进行排序;

当满足概率值排序条件的预设区域人群的差异突变基因数据大于预设的国际人群肿瘤变异数据时,将预设区域人群的差异突变基因作为预设区域人群肿瘤特异突变基因。

7.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1‑6中任意一项所述的方法。

8.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1‑6中任意一项所述的方法。

说明书 :

基于WGS数据的预设区域人群肿瘤特异突变识别方法

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及的是基于WGS数据的预设区域人群肿瘤特异突变识别方法。

背景技术

[0002] 随着研究的不断进展,肿瘤特异的突变被越来越多的被识别,但这些变异结果多源于国际上的肿瘤研究,对于预设区域的人群而言有些变异并不完全符合国际人群变异频率分布,了解预设区域特异的肿瘤突变对进一步研究预设区域肿瘤患者的发病机制及治疗手段有着重要帮助,现有技术中只能通过公共人群变异频率数据对预设区域人群肿瘤患者的变异进行查找,会产生很多的假阳性结果。
[0003] 因此,现有技术还有待改进和发展。

发明内容

[0004] 本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于WGS数据的预设区域人群肿瘤特异突变识别方法,旨在解决现有技术中只能通过公共人群变异频率数据对预设区域人群肿瘤患者的变异进行查找,会产生很多的假阳性结果的问题。
[0005] 本发明解决问题所采用的技术方案如下:
[0006] 第一方面,本发明实施例提供一种基于WGS数据的预设区域人群肿瘤特异突变识别方法,其中,所述方法包括:
[0007] 获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;
[0008] 获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;
[0009] 根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。
[0010] 在一种实现方式中,所述对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据之前包括:
[0011] 采用预设的第一软件,对预设区域人群的肿瘤测序数据进行序列比对;
[0012] 基于预设的第二软件,对序列比对后的预设区域人群的肿瘤测序数据进行体细胞突变数据查找,得到预设区域人群的肿瘤变异数据。
[0013] 在一种实现方式中,所述对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据包括:
[0014] 将预设区域人群的肿瘤变异数据中异常数据去除,得到预设区域人群的肿瘤致病变异数据;其中,所述异常数据用于表征在预设范围之外的数据。
[0015] 在一种实现方式中,所述根据预设区域人群的肿瘤致病变异数据和预设区域人群的正常样本变异数据,确定预设区域人群的差异突变基因包括:
[0016] 计算预设区域人群的肿瘤致病变异数据的每个基因的第一变异得分矩阵;
[0017] 计算预设区域人群的正常样本变异数据的每个基因的第二变异得分矩阵;
[0018] 根据每个基因的第一变异得分矩阵和每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量;
[0019] 根据每个基因的变异差异的概率分布距离度量,对每个基因进行突变显著性分析,得到预设区域人群的差异突变基因。
[0020] 在一种实现方式中,所述根据每个基因的第一变异得分矩阵和每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量包括:
[0021] 将每个基因的第一变异得分矩阵进行标化;
[0022] 将每个基因的第二变异得分矩阵进行标化;
[0023] 根据标化后的每个基因的第一变异得分矩阵和标化后的每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量。
[0024] 在一种实现方式中,所述根据标化后的每个基因的第一变异得分矩阵和标化后的每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量包括:
[0025] 将标化后的每个基因的第一变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的肿瘤样本突变整合得分;
[0026] 将标化后的每个基因的第二变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的正常样本突变整合得分;
[0027] 根据每个基因的肿瘤样本突变整合得分和每个基因的正常样本突变整合得分,获取每个基因的变异差异的概率分布距离度量。
[0028] 在一种实现方式中,所述基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果包括:
[0029] 将预设区域人群的差异突变基因的所有变异数据进行格式转换;
[0030] 将格式转换后的预设区域人群的差异突变基因的所有变异数据和预设的国际人群肿瘤变异数据进行对比分析,得到预设区域人群肿瘤特异突变基因识别结果。
[0031] 在一种实现方式中,所述将格式转换后的预设区域人群的差异突变基因的所有变异数据和预设的国际人群肿瘤变异数据进行对比分析,得到预设区域人群肿瘤特异突变基因识别结果包括:
[0032] 基于预设的统计检验方法,将格式转换后的预设区域人群的差异突变基因的所有变异数据和预设的国际人群肿瘤变异数据分别进行分析计算,得到两个概率值;
[0033] 对两个所述概率值进行校正,得到校正后的两个概率值;
[0034] 将校正后的两个概率值按照从小到大的顺序进行排序;
[0035] 当满足概率值排序条件的预设区域人群的差异突变基因数据大于预设的国际人群肿瘤变异数据时,将预设区域人群的差异突变基因作为预设区域人群肿瘤特异突变基因。
[0036] 第二方面,本发明实施例还提供一种基于WGS数据的预设区域人群肿瘤特异突变识别装置,其中,所述装置包括:
[0037] 获取和变异过滤模块,用于获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;
[0038] 获取和变异提取模块,用于获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;
[0039] 肿瘤特异突变基因识别模块,用于根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。
[0040] 第三方面,本发明实施例还提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的基于WGS数据的预设区域人群肿瘤特异突变识别方法。
[0041] 第四方面,本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的基于WGS数据的预设区域人群肿瘤特异突变识别方法。
[0042] 本发明的有益效果:本发明实施例首先获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;然后获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;最后根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果;可见,本发明实施例中通过使用大量健康预设区域人群的变异数据计算肿瘤样本与健康样本间的差异,得到预设区域人群的致病突变,最后将其与国际人群比较得到预设区域人群肿瘤特异突变基因,避免假阳性结果。

附图说明

[0043] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044] 图1为本发明实施例提供的基于WGS数据的预设区域人群肿瘤特异突变识别方法流程示意图。
[0045] 图2为本发明实施例提供的一种实现方式的算法模型框图。
[0046] 图3为本发明实施例提供的基于WGS数据的预设区域人群肿瘤特异突变识别装置的原理框图。
[0047] 图4为本发明实施例提供的智能终端的内部结构原理框图。

具体实施方式

[0048] 本发明公开了基于WGS数据的预设区域人群肿瘤特异突变识别,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0049] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0050] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0051] 由于现有技术中只能通过公共人群变异频率数据对预设区域人群肿瘤患者的变异进行查找,会产生很多的假阳性结果。
[0052] 为了解决现有技术的问题,本实施例提供了一种基于WGS数据的预设区域人群肿瘤特异突变识别方法,通过使用大量健康预设区域人群的变异数据计算肿瘤样本与健康样本间的差异,得到预设区域人群的致病突变,最后将其与国际人群比较得到预设区域人群肿瘤特异突变基因,避免假阳性结果。具体实施时,首先获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;然后获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;最后根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。
[0053] 示例性方法
[0054] 本实施例提供一种基于WGS数据的预设区域人群肿瘤特异突变识别方法,该方法可以应用于计算机技术的智能终端。具体如图1所示,所述方法包括:
[0055] 步骤S100、获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;
[0056] 具体地,WGS为全基因组测序,预设区域人群的肿瘤测序数据可以从一些数据库上下载,均为全基因组测序(WGS)数据,由于上述数据会出现一些不合规范的情况,故要滤除部分数据,最终得到的预设区域人群的肿瘤致病变异数据都是有效数据,为后续数据处理做准备。
[0057] 在一种实现方式中,所述对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据之前包括如下步骤:采用预设的第一软件,对预设区域人群的肿瘤测序数据进行序列比对;基于预设的第二软件,对序列比对后的预设区域人群的肿瘤测序数据进行体细胞突变数据查找,得到预设区域人群的肿瘤变异数据。
[0058] 具体地,预设的第一软件为BWA(Burrows‑Wheeler‑Alignment Tool)。BWA是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包。预设的第二软件可以为GATK、MuTect、VarScan及Somatic Sniper等工具中的一种。可以采用BWA对预设区域人群的肿瘤测序数据进行序列比对,采用GATK、MuTect、VarScan及Somatic Sniper等工具中的一种对序列比对后的预设区域人群的肿瘤测序数据进行体细胞突变数据查找,得到预设区域人群的肿瘤变异数据。
[0059] 在步骤S100中,所述对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据包括如下步骤:将预设区域人群的肿瘤变异数据中异常数据去除,得到预设区域人群的肿瘤致病变异数据;其中,所述异常数据用于表征在预设范围之外的数据。
[0060] 在本实施例中,异常数据:如果变异没有预测性的或已知的功能改变,或是被认为是太常见而不能成为特定疾病的原因,或者因为它们不符合所观察到的疾病的遗传模式,则这些变异通常会被排除。如:公共变异频率数据;样本变异读序数量;公共正常样本数据集(PON);DNA损伤引起的变异;非编码区变异;低覆盖度变异;被污染的样本;单一工具获取的突变结果。可以将预设区域人群的肿瘤变异数据中的上述异常数据去除,得到预设区域人群的肿瘤致病变异数据。
[0061] 得到预设区域人群的肿瘤致病变异数据后,就可以执行如图1所示的如下步骤:S200、获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;
[0062] 具体地,正常样本测序数据也为健康样本测序数据,是可以通过本地数据库下载得到。由于正常样本测序数据中也存在变异,故进行变异提取,以得到预设区域人群的正常样本变异数据,预设区域健康人群数据保留所有变异类型,包括同义突变、非同义突变、功能缺失类的变异。
[0063] 得到预设区域人群肿瘤致病变异数据及预设区域人群的正常样本变异数据后,就可以执行如图1所示的如下步骤:S300、根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。
[0064] 具体地,可以通过预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据得到各自的变异得分,然后根据变异得分得到预设区域人群的差异突变基因,最后可以将预设区域人群的差异突变基因与预设的国际人群肿瘤变异数据进行比较的方式,得到预设区域人群肿瘤特异突变基因识别结果。
[0065] 在步骤S300中,所述根据预设区域人群的肿瘤致病变异数据和预设区域人群的正常样本变异数据,确定预设区域人群的差异突变基因包括如下步骤:计算预设区域人群的肿瘤致病变异数据的每个基因的第一变异得分矩阵;计算预设区域人群的正常样本变异数据的每个基因的第二变异得分矩阵;根据每个基因的第一变异得分矩阵和每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量;根据每个基因的变异差异的概率分布距离度量,对每个基因进行突变显著性分析,得到预设区域人群的差异突变基因。
[0066] 具体地,每个突变都定义相应的得分,得分公式如下:
[0067]
[0068] S(v)为每个人的变异的得分,如果未突变得分为0,常染色体杂合突变得分为1,常染色体纯合突变得分为2,男性样本的XY染色体,只要发生变异得分均为2。
[0069] 以肿瘤变异位点矩阵为基础,提取全部的健康样本中的对应变异位点,如果健康样本中变异不存在,则将健康样本中的变异得分均添加0值,由此就获得了两组肿瘤及健康样本的变异得分矩阵。在本实施例中,预设区域人群的肿瘤致病变异数据为肿瘤样本,预设区域人群的正常样本变异数据为正常样本,两组不同变异得分样本,t为肿瘤样本样本总数为l1,n为正常样本,样本总数为l2,tji表示肿瘤样本第i个基因的第j个变异的得分,nji表示健康样本第i个基因的第j个变异的得分,S(tik)表示第k个肿瘤样本的i个基因的整合变异得分,也即第一变异得分矩阵,S(nik)表示第k个正常样本的i个基因的整合变异得分,也即第二变异得分矩阵,公式如下:
[0070]
[0071]
[0072] 其中,m为每个基因上的变异总数。然后根据每个基因的第一变异得分矩阵和每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量Eg;相应的,所述根据每个基因的第一变异得分矩阵和每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量包括如下步骤:将每个基因的第一变异得分矩阵进行标化;将每个基因的第二变异得分矩阵进行标化;根据标化后的每个基因的第一变异得分矩阵和标化后的每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量。
[0073] 在本实施例中,得到全部样本的基因的得分矩阵后,本发明对每个基因在所有的样本内的分值进行标化,标化同样分为两组,对肿瘤的每个基因的第一变异得分矩阵及对正常样本的每个基因的第二变异得分矩阵分别进行标化,标化公式如下,
[0074]
[0075]
[0076] 其中μ为相同基因在全部样本内的均值,δ为相同基因在全部样本内的标准差。
[0077] 再根据标化后的每个基因的第一变异得分矩阵ZS(tik)和标化后的每个基因的第二变异得分矩阵ZS(nik),得到每个基因的变异差异的概率分布距离度量Eg。相应的,所述根据标化后的每个基因的第一变异得分矩阵和标化后的每个基因的第二变异得分矩阵,得到每个基因的变异差异的概率分布距离度量包括如下步骤:将标化后的每个基因的第一变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的肿瘤样本突变整合得分;将标化后的每个基因的第二变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的正常样本突变整合得分;根据每个基因的肿瘤样本突变整合得分和每个基因的正常样本突变整合得分,获取每个基因的变异差异的概率分布距离度量Eg。
[0078] 具体地,将标化后的每个基因的第一变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的肿瘤样本突变整合得分:Tb,g=∑ZS(tik),将标化后的每个基因的第二变异得分矩阵中每个窗口内所有得分进行累加,得到每个基因的正常样本突变整合得分:Nb,g=∑ZS(nik),接着根据每个基因的肿瘤样本突变整合得分和每个基因的正常样本突变整合得分,获取每个基因的变异差异的概率分布距离度量Eg,如下公式:
[0079]
[0080] 其中,Tb,g和Nb,g二者如果差值小于0,那么该窗口值为0,否则该窗口值为二者差值。
[0081] 得到每个基因的变异差异的概率分布距离度量Eg后,就可以根据每个基因的变异差异的概率分布距离度量,对每个基因进行突变显著性分析,得到预设区域人群的差异突变基因。在本实施例中,为了评估一个基因的Eg是否显著,本发明测试了如果每个患者的突变随机分布在各个基因中,该基因的Eg是否显著高于预期。首先,对于每个个体,我们在基因间随机排列他们的突变序列m次(默认1000次)。接下来,我们使用这个随机数据来计算一组完整的Egm。FP为随机得到的Egm值小于真实Eg值的次数,TP为随机得到的Egm值大于真实Eg值的次数。对于每个基因,我们使用它的Eg评分来获得一个FDR,我们重复了n次随机化过程,并通过对这些随机化的平均值来估计每个基因的显著性P值。公式如下:
[0082]
[0083] 将小于预设概率值(如0.05)的P对应的基因作为预设区域人群的差异突变基因。
[0084] 在步骤S300中,所述基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果包括如下步骤:将预设区域人群的差异突变基因的所有变异数据进行格式转换;基于预设的统计检验方法,将格式转换后的预设区域人群的差异突变基因的所有变异数据和预设的国际人群肿瘤变异数据分别进行分析计算,得到两个概率值;对两个所述概率值进行校正,得到校正后的两个概率值;将校正后的两个概率值按照从小到大的顺序进行排序;当满足概率值排序条件的预设区域人群的差异突变基因数据大于预设的国际人群肿瘤变异数据时,将预设区域人群的差异突变基因作为预设区域人群肿瘤特异突变基因。
[0085] 具体地,预设区域人群的差异突变基因(也即差异显著基因)后,将预设区域人群的差异突变基因的所有变异数据使用vcf2maf工具进行格式转换处理成为maf格式,然后再使用国际肿瘤的maf格式数据进行对比分析,发现差异突变的基因。预设的统计检验方法可以使用两种:费舍尔精确检验或者卡方检验。基于预设的统计检验方法,将格式转换后的预设区域人群的差异突变基因的所有变异数据进行分析计算得到的一个概率P值;基于预设的统计检验方法,将预设的国际人群肿瘤变异数据分别进行分析计算,得到另一个概率P值,然后进行Bonferroni校正,两种方法矫正后的概率P值按照从小到大对结果进行排序,概率值排序条件为保留两种方法校验后均显著的结果,这样,当满足概率值排序条件时,如果在预设区域人群肿瘤变异数据内的基因上变异数量多余国际人群,那么这个基因为预设区域人群特异突变基因否则为国际人群特异突变基因。
[0086] 具体实施例
[0087] 如图2所示,本方法搜集整理里了SRA公共数据库上的预设区域人群非小细胞肺癌全基因组测序样本,预设区域健康人群全基因组测序样本,最后也使用了国际人群肿瘤全基因组测序数据。
[0088] 参数设定:本方法中所有的统计检验中的P均设定为0.05,公共人群变异频率过滤参数设置为5%。
[0089] 实施步骤:
[0090] (1)预设区域人群肿瘤致病变异初筛,经过疾病致病变异常用过滤参数过滤预设区域人群肿瘤变异位点。
[0091] (2)针对两组预设区域人群肿瘤正常样本数据,构建变异得分矩阵并且进行标化。
[0092] (3)基于变异得分矩阵获取预设区域人群肿瘤关键突变基因。
[0093] (4)基于预设区域人群肿瘤关键突变基因以及国际人群肿瘤变异数据计算出预设区域人群及国际人群差异突变基因。
[0094] 结果:
[0095] (a)在人群肿瘤样本致病性突变分析的时候,往往需要一个可靠的正常样本变异频率数据作为支撑,预设区域健康人群数据量不足以有效的找出致病变异,随着预设区域健康人群数据的不断积累,可以使用健康人群的变异信息作为对照变异集合,从中找到预设区域人群特异的变异基因。首先我们对全部的预设区域肿瘤和健康人群变异数据进行整合,形成两个变异得分矩阵,对矩阵进行标化后使用概率分布距离的方法找到差异突变的基因,差异基因显著富集在Cancer Gene Census(CGC)数据集合内(P<1.0E‑7)。
[0096] (b)目前肿瘤的研究多为基于国际测序数据的研究,我们找到预设区域人群特异的差异突变基因的同时,要知道哪些基因的突变情况与国际人群不同,从而才能从已有的经验中提取出更适合预设区域的肿瘤的治疗方案,因此我们对找到的预设区域人群差异突变基因和国际人群突变进行差异分析,分析得到EGFR及SLC45A3等基因更倾向于在预设区域肿瘤患者中突变,TP53及LRP1B等基因更倾向于在国际肿瘤患者中突变。
[0097] 示例性设备
[0098] 如图3中所示,本发明实施例提供一种基于WGS数据的预设区域人群肿瘤特异突变识别装置,该装置包括获取和变异过滤模块401、获取和变异提取模块402和肿瘤特异突变基因识别模块403,其中:
[0099] 获取和变异过滤模块401,用于获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;
[0100] 获取和变异提取模块402,用于获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;
[0101] 肿瘤特异突变基因识别模块403,用于根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。
[0102] 基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图4所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于WGS数据的预设区域人群肿瘤特异突变识别方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
[0103] 本领域技术人员可以理解,图4中的原理图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0104] 在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
[0105] 获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;
[0106] 获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;
[0107] 根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。
[0108] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0109] 综上所述,本发明公开了基于WGS数据的预设区域人群肿瘤特异突变识别方法,所述方法包括:获取预设区域人群的肿瘤测序数据,并对预设区域人群的肿瘤测序数据进行致病变异过滤,得到预设区域人群的肿瘤致病变异数据;
[0110] 获取预设区域人群的正常样本测序数据,并对预设区域人群的正常样本测序数据进行变异提取,得到预设区域人群的正常样本变异数据;
[0111] 根据预设区域人群的肿瘤致病变异数据和预设区域人群的变异数据,确定预设区域人群的差异突变基因,并基于预设的国际人群肿瘤变异数据和预设区域人群的差异突变基因,得到预设区域人群肿瘤特异突变基因识别结果。本发明通过使用大量健康预设区域人群的变异数据计算肿瘤样本与健康样本间的差异,得到预设区域人群的致病突变,最后将其与国际人群比较得到预设区域人群肿瘤特异突变基因,避免假阳性结果。
[0112] 基于上述实施例,本发明公开了一种基于WGS数据的预设区域人群肿瘤特异突变识别方法,应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。