微卫星不稳定性检测装置、计算机设备及计算机存储介质转让专利

申请号 : CN201911255067.9

文献号 : CN110689921B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 石教春王维锋汪俭张姣铃王凯

申请人 : 至本医疗科技(上海)有限公司

摘要 :

本发明涉及一种能够提高结果准确性的微卫星不稳定性检测装置、计算机设备及计算机存储介质。该微卫星不稳定性检测装置根据已有的敏感MS位点数据,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点数据中一致的敏感MS位点;对筛选出所述敏感MS位点进行过滤,筛选出不稳定MS位点;对肿瘤样本的所述不稳定MS位点进行打分分析。该微卫星不稳定性检测方法充分考虑传统技术存在的问题,根据前期建立的敏感MS位点数据为基础,利用较低的测序数据量,即可得到更为准确的结果,由于数据量少,整个处理流程更快,效率更高,并且可以有效降低假阳性和假阴性结果的出现。

权利要求 :

1.一种微卫星不稳定性检测装置,其特征在于,包括:

可信的MS位点筛选模块,用于从待测样本与正常对照样本的测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数,并根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点;

已有敏感MS位点准备模块,用于在对待测样本进行检测之前,从人类基因组中所有的MS位点里挑选出落在多个靶向基因区域的MS位点,并对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为已有的敏感MS位点;

敏感MS位点筛选模块,用于根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点中一致的敏感MS位点;以及不稳定MS位点筛选模块,用于根据预设的过滤条件对筛选出的所述敏感MS位点进行过滤,筛选出不稳定MS位点;

所述预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点。

2.如权利要求1所述的微卫星不稳定性检测装置,其特征在于,所述可信的MS位点筛选模块具有第一应用程序调用接口,所述可信的MS位点筛选模块用于通过所述第一应用程序调用接口调用第一应用程序,由所述第一应用程序从待测样本与正常对照样本的测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数,并由所述第一应用程序根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点。

3.如权利要求2所述的微卫星不稳定性检测装置,其特征在于,所述第一应用程序为MANTIS软件;

所述过滤的参数设置为:Mrq:25.0,mlq:30.0,mrl:35,mlc:30,mrr:5,sd:3.0。

4.如权利要求1 3中任一项所述的微卫星不稳定性检测装置,其特征在于,所述测序结~果数据为对靶向测序数据进行数据比对和处理后的比对结果数据,所述靶向测序数据包括使用二代测序方法对所述待测样本和所述正常对照样本进行测序得到的数据。

5.如权利要求1所述的微卫星不稳定性检测装置,其特征在于,所述已有敏感MS位点准备模块具有第二应用程序调用接口,所述已有敏感MS位点准备模块用于通过所述第二应用程序调用接口调用第二应用程序,由所述第二应用程序在对待测样本检测之前,从人类基因组中所有的MS位点里挑选出落在靶向基因区域的MS位点,并对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为已有的敏感MS位点。

6.如权利要求1 3及5中任一项所述的微卫星不稳定性检测装置,其特征在于,还包括~打分模块;

所述打分模块用于根据筛选出的所述待测样本的不稳定MS位点的数目作为该待测样本的所述不稳定MS位点的评分。

7.如权利要求1 3及5中任一项所述的微卫星不稳定性检测装置,其特征在于,还包括~最终MSI状态获取模块;

所述最终MSI状态获取模块用于以根据已有的敏感MS位点进行筛选和过滤处理后最终打分的分数为主,以第一应用程序最终打分的分数为辅,依据预设的阈值标准,确定待测样本的最终MSI状态,所述预设的阈值标准是:主分数的阈值为15,辅助分数的阈值为3。

8.如权利要求1 3及5中任一项所述的微卫星不稳定性检测装置,其特征在于,还包括~绘图模块;

所述绘图模块用于绘制图形展示待测样本的不稳定MS位点的分布情况。

9.一种计算机设备,其特征在于,具有处理器和存储器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序是实现如下微卫星不稳定性检测方法的步骤:获取待测样本与正常对照样本的测序结果数据;

从所述测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数;

根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点;

根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点中一致的敏感MS位点;

根据预设的过滤条件对筛选出所述敏感MS位点进行过滤,筛选出不稳定MS位点;所述预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点;

所述已有的敏感MS位点是在对待测样本检测之前,通过如下步骤预先筛选获取的:从人类基因组中识别出所有的MS位点;

从所述所有的MS位点中挑选出落在各靶向基因区域内的MS位点;

对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为所述已有的敏感MS位点。

10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如下微卫星不稳定性检测方法的步骤:获取待测样本与正常对照样本的测序结果数据;

从所述测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数;

根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点;

根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点中一致的敏感MS位点;

根据预设的过滤条件对筛选出所述敏感MS位点进行过滤,筛选出不稳定MS位点;所述预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点;

所述已有的敏感MS位点是在对待测样本检测之前,通过如下步骤预先筛选获取的:从人类基因组中识别出所有的MS位点;

从所述所有的MS位点中挑选出落在各靶向基因区域内的MS位点;

对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为所述已有的敏感MS位点。

说明书 :

微卫星不稳定性检测装置、计算机设备及计算机存储介质

技术领域

[0001] 本发明涉及分子生物学及生物信息学技术领域,尤其是涉及一种微卫星不稳定性检测装置、计算机设备及计算机存储介质。

背景技术

[0002] 微卫星(Microsatellite,简称MS)序列是广泛存在人类基因组中的短串联重复DNA序列,一般由1-6个碱基的串联重复片段重复多次构成。当人体的错配修复(Mismatch repair,简称MMR)机制发生缺陷时,MS序列会出现长度的变化,称为微卫星不稳定性(Microsatellite instability,简称MSI)。MSI存在于多种实体瘤中,如子宫内膜癌、胃腺癌、结直肠腺癌,是提示肿瘤预后效果和制定辅助治疗方案的重要分子标记物。NCCN(National Comprehensive Cancer Network)指南指出,所有II期结直肠癌患者和转移性结直肠癌患者都应该进行MMR或者MSI检测,充分体现了MSI状态对于结直肠癌患者的重要性。2017年FDA(Food and Drug Administration)批准 Keytuda用于治疗MSI-H(微卫星高度不稳定)的实体瘤患者。这是首款不区分肿瘤来源,而是依照分子标记物进行用药指导的抗癌药物,具有里程碑式的意义,也为广大MSI-H的肿瘤患者带来福音。
[0003] 目前检测患者MSI状态的国际通用标准做法有两个:IHC(免疫组化)和PCR(聚合酶链式反应)。IHC是检测MMR相关基因的蛋白表达情况,而PCR则是检测一些经典的MS位点是否有重复片段的插入或缺失。基于NGS(二代测序)数据的MSI检测方法通常是遍历基因组中大量的MS位点,通过比较肿瘤样本与正常对照样本在各MS位点上的差异,从而识别出不稳定的MS位点,并最终确定该患者的MSI状态。
[0004] 目前基于NGS的MSI检测软件有很多,各有优劣,MANTIS(Microsatellite Analysis for Normal-Tumor InStability)是其中效果较为突出的软件之一。MANTIS利用肿瘤样本和正常对照样本经数据比对后的结果文件作为输入来计算肿瘤样本的不稳定性评分,最终根据这个评分来确定肿瘤样本的MSI状态。MANTIS软件分析的第一步是从基因组上提取出所有的MS位点,作为分析目标。如果是靶向基因测序,则只挑选出靶向基因区间内的MS位点。之后,MANTIS会识别出所有的MS位点上的串联重复片段的重复次数,例如某一MS位点的重复次数原本为10,经插入或缺失突变后这个数字可能变为9或11,MANTIS会识别出所有的可能性。接着,MANTIS会统计每个MS位点每种重复次数上的reads支持数(supportted reads count),并依据一定的条件进行位点的过滤。最后,MANTIS根据肿瘤样本和对应的正常样本在各MS位点上的reads支持数的差异,来判断该位点是否是不稳定的,并最终根据所有的不稳定MS位点整体计算出一个分数,作为该肿瘤样本的评分。
[0005] 目前国际通用的MSI检测方法IHC和PCR都是基于实验的方式,目的性很明确,得到的结果较为单一,不能获取基因突变等对诊疗和用药有巨大帮助的重要信息,尤其是IHC,一次实验只能知道一种蛋白是否存在,如果需要知道多个MMR相关基因的表达情况,就需要做多次实验。而常用的MSI检测软件都是为全基因组测序或全外显子组测序设计的,需同时考虑基因组或外显子上的所有MS位点,其软件参数和过滤标准等也是有针对性地设置的,应用在靶向基因测序上时会存在准确性和敏感性不足的缺陷。而且落在靶向基因区域内的MS位点,并不是所有的都有计算的价值,很大一部分对于肿瘤样本和正常对照样本而言没有明显差别,这些位点若纳入计算范围,会降低软件算法的准确性,导致假阳性或假阴性结果的出现。此外,目前的检测算法筛选过滤条件的设置往往针对的都是小样本基数进行试验检测而设置的,面对的样本群体较为简单,例如专利CN107058551A和CN107526944A所公开的方法,并且使用的敏感MS位点已知,这样不利于检测算法的推广使用,也不利于未明确与疾病关联的MSI位点的发掘,算法检测结果的可靠性也有待提高。

发明内容

[0006] 基于此,有必要提供一种能够提高结果准确性的微卫星不稳定性检测装置、计算机设备及计算机存储介质。
[0007] 一种微卫星不稳定性检测装置,包括:
[0008] 可信的MS位点筛选模块,用于从待测样本与正常对照样本的测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数,并根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点;
[0009] 已有敏感MS位点准备模块,用于在对待测样本进行检测之前,从人类基因组中所有的MS位点里挑选出落在靶向基因区域的MS位点,并对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为已有的敏感MS位点;
[0010] 敏感MS位点筛选模块,用于根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点中一致的敏感MS位点;以及
[0011] 不稳定MS位点筛选模块,用于根据预设的过滤条件对筛选出的所述敏感MS位点进行过滤,筛选出不稳定MS位点;
[0012] 所述预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点。
[0013] 在其中一个实施例中,所述可信的MS位点筛选模块具有第一应用程序调用接口,所述可信的MS位点筛选模块用于通过所述第一应用程序调用接口调用第一应用程序,由所述第一应用程序从待测样本与正常对照样本的测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数,并由所述第一应用程序根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点。
[0014] 在其中一个实施例中,所述第一应用程序为MANTIS软件;
[0015] 所述过滤的参数设置为:Mrq:25.0,mlq:30.0,mrl:35,mlc:30,mrr:5,sd:3.0。
[0016] 在其中一个实施例中,所述测序结果数据为对靶向测序数据进行数据比对和处理后的比对结果数据,所述靶向测序数据包括使用二代测序方法对所述待测样本和所述正常对照样本进行测序得到的数据。
[0017] 在其中一个实施例中,所述已有敏感MS位点准备模块具有第二应用程序调用接口,所述已有敏感MS位点准备模块用于通过所述第二应用程序调用接口调用第二应用程序,由所述第二应用程序在对待测样本检测之前,从人类基因组中所有的MS位点里挑选出落在靶向基因区域的MS位点,并对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为已有的敏感MS位点。
[0018] 在其中一个实施例中,所述微卫星不稳定性检测装置还包括打分模块;
[0019] 所述打分模块用于根据筛选出的所述待测样本的不稳定MS位点的数目作为该待测样本的所述不稳定MS位点的评分。
[0020] 在其中一个实施例中,所述微卫星不稳定性检测装置还包括最终MSI状态获取模块;
[0021] 所述最终MSI状态获取模块用于以根据已有的敏感MS位点进行筛选和过滤处理后最终打分的分数为主,以第一应用程序最终打分的分数为辅,依据预设的阈值标准,确定待测样本的最终MSI状态,所述预设的阈值标准是:主分数的阈值为15,辅助分数的阈值为3。
[0022] 在其中一个实施例中,所述微卫星不稳定性检测装置还包括绘图模块;
[0023] 所述绘图模块用于绘制图形展示待测样本的不稳定MS位点的分布情况。
[0024] 一种计算机设备,具有处理器和存储器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序是实现如下微卫星不稳定性检测方法的步骤:
[0025] 获取待测样本与正常对照样本的测序结果数据;
[0026] 从所述测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数;
[0027] 根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点;
[0028] 根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点中一致的敏感MS位点;
[0029] 根据预设的过滤条件对筛选出所述敏感MS位点进行过滤,筛选出不稳定MS位点;所述预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点;
[0030] 所述已有的敏感MS位点是在对待测样本检测之前,通过如下步骤预先筛选获取的:
[0031] 从人类基因组中识别出所有的MS位点;
[0032] 从所述所有的MS位点中挑选出落在各靶向基因区域内的MS位点;
[0033] 对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为所述已有的敏感MS位点。
[0034] 一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如下微卫星不稳定性检测方法的步骤:
[0035] 获取待测样本与正常对照样本的测序结果数据;
[0036] 从所述测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数;
[0037] 根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点;
[0038] 根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点中一致的敏感MS位点;
[0039] 根据预设的过滤条件对筛选出所述敏感MS位点进行过滤,筛选出不稳定MS位点;所述预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点;
[0040] 所述已有的敏感MS位点是在对待测样本检测之前,通过如下步骤预先筛选获取的:
[0041] 从人类基因组中识别出所有的MS位点;
[0042] 从所述所有的MS位点中挑选出落在各靶向基因区域内的MS位点;
[0043] 对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为所述已有的敏感MS位点。
[0044] 上述微卫星不稳定性检测装置在检测不稳定MS位点时,充分考虑传统技术存在的问题,根据前期建立的已有的敏感MS位点的相关数据为基础,利用较低的测序数据量,即可得到更为准确的结果,由于数据量少,整个处理流程更快,效率更高,并且可以有效降低假阳性和假阴性结果的出现。并且,通过进一步对筛选不稳定MS位点的过滤条件进行深入研究,所提出的方法对560多个样本具有非常之高的检测准确性,准确性达到99.5%以上,在这样的大样本基数情况下能够取得如此之高的检测准确性,无疑是一项非常大的进步。
[0045] 该微卫星不稳定性检测流程与现有其它专利方法相比主要差别在于所挑选的敏感MS位点的数目和位置,以及判断不稳定MS位点的方法上,正是由于这些差异,使得本算法具有更高的准确性,并可尽量减少误判的可能性。另外微卫星不稳定性检测流程所用敏感MS位点均为根据特定的筛选过滤条件自主挑选所得,并未直接采用已发表文献的数据,因而可广泛推广使用,有利于发掘未明确与疾病关联的MSI位点,并且算法检测结果的可靠性也很高。

附图说明

[0046] 图1为本发明一实施例的微卫星不稳定性检测方法的流程示意图;
[0047] 图2为可信的MS位点的筛选流程示意图;
[0048] 图3为敏感MS位点数据的获取流程示意图;
[0049] 图4为本发明另一实施例的微卫星不稳定性检测方法的流程示意图;
[0050] 图5为本发明一实施例的微卫星不稳定性检测装置的模块结构示意图;
[0051] 图6为本发明另一实施例的微卫星不稳定性检测装置的模块结构示意图。

具体实施方式

[0052] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
[0053] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0054] 本文所述的MS位点的“重复次数(或重复频数)”是指重复的碱基的重复次数,例如某个MS位点是“ATATATAT”,其重复的碱基“AT”重复了4次,这样重复次数就是4;所述的“reads”是指测序仪产生的测序数据,实际上就是一小段的DNA片段,一条reads就对应的测序数据中的一条记录;所述的“reads支持数”是指有多少条reads覆盖该MS位点的基因组位置;所述的“肿瘤样本”是指取自实体瘤的组织样本;所述的“阳性肿瘤样本”是指MSI-H的样本;所述的“阴性肿瘤样本”是指MSS的样本;所述的“正常对照样本”是指取自正常非病变组织或血液的样本。
[0055] 如图1所示,本发明一实施例提供了一种微卫星不稳定性检测方法,其包括如下步骤:
[0056] 步骤S110:根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与已有的敏感MS位点中一致的敏感MS位点;
[0057] 步骤S120:根据预设的过滤条件对筛选出的敏感MS位点进行过滤,筛选出不稳定MS位点。
[0058] 在一个具体示例中,如图2所示,筛选出的可信的MS位点是通过如下步骤筛选的:
[0059] 步骤S210:获取待测样本与正常对照样本的测序结果数据;
[0060] 步骤S220:从测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数;
[0061] 步骤S230:根据靶向基因区域的MS位点的各种重复次数的reads支持数对靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点。
[0062] 具体地,测序结果数据为对组织样本的靶向测序数据进行数据比对和处理后的比对结果数据,靶向测序数据包括使用二代测序方法对待测样本和正常对照样本进行测序得到数据。靶向测序数据可以是基于二代测序仪器测序生成的Fq文件,接着使用但不限于AWA等软件进行数据比对以及一系列的结果处理,得到样本的BAM格式的比对结果文件,作为原始输入文件。
[0063] 在一个具体示例中,从测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数包括:
[0064] 调用第一应用程序,由第一应用程序从测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数。
[0065] 第一应用程序可以是但不限于MANTIS软件。基于原始输入文件,MANTIS软件可以分别统计出待测样本和正常对照样本在各个MS位点的各种重复单元的reads支持数,可以以表格等形式给出统计结果。
[0066] 在一个具体示例中,根据靶向基因区域的MS位点的各种重复次数的reads支持数对靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点包括:
[0067] 调用第一应用程序,由第一应用程序根据靶向基因区域的MS位点的各种重复次数的reads支持数对靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点。
[0068] 具体地,过滤可以是根据reads的质量、最低数目和/或重复单元的最低reads支持数等因素来进行过滤。
[0069] 在一个具体示例中,过滤的参数条件如下表1所示:
[0070] 表1
[0071]
[0072] 在本实施例的微卫星不稳定性检测方法开始之前,需要先建立挑选好的敏感MS位点,即预先建立好已有的敏感MS位点。
[0073] 在一个具体示例中,如图3所示,已有的敏感MS位点是使用第二应用程序通过如下步骤获取的:
[0074] 步骤S310:从人类基因组中所有的MS位点里挑选出落在靶向基因区域的MS位点;
[0075] 步骤S320:对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为敏感MS位点。
[0076] 第二应用程序可以是但不限于RepeatFinder软件。使用这些敏感的MS位点作为样本MSI状态检测的依据,不仅可以降低计算的复杂度,还可以提高判断的准确性,减少无意义MS位点对结果的干扰。
[0077] 获取过程需要对大量的例如500多个基因的多个靶向基因区域进行分析,根据统计学方法中的相关性分析来判断是否有显著差异,判断指标是P-value,P-value<0.05即代表差异显著。在挑选已有的敏感MS位点的时候,是先从人类基因组中所有的MS位点里挑选出落在靶向基因区域的MS位点,再从靶向基因区域的MS位点里挑选出符合要求的敏感MS位点,而非直接从基因组中所有的MS开始挑选敏感MS位点。对于全基因而言总共有超过一千万的MS位点,因而直接从全基因组开始挑选是一项过于浩大的工程,而对于挑选出的敏感MS位点,具体是有一个训练用样本数据集,其包含阳性样本和阴性样本,例如包含部分MSI-H样本和MSS样本,并且这些样本的MSI状态是已经用常规的IHC或PCR的实验方法鉴定好的,这些MSS样本可视为所挑选的敏感MS位点的阴性样本,MSI-H样本可视为阳性样本,通过对该训练用样本数据集进行数据分析,可以得到所述敏感MS位点的数据。
[0078] 训练用的样本数据集可通过但不限于随机选择一般不少于10个阳性样本进行构建,其中的阴性样本可以源自同一个体或不同个体,数量不限,对于肿瘤等阳性样本,要求选择的阳性样本中肿瘤细胞占比不低于20%,阴性样本可以是癌旁组织或血液样本等,且无外源污染。训练用的样本数据集需要进行靶向基因测序,具体测序的区域需要覆盖靶向基因区域。样本的DNA可以采用但不限于标准商用的试剂盒进行处理,处理时需要保证样本DNA的质量,测序可以使用但不限于Illumina等二代测序仪器,可采用但不限于双端测序的方式,在测序深度上阳性样本平均需要不低于700×,一般越高越好,阴性样本的测序深度至少200×,测得的fq数据需保证碱基质量不低于30,reads序列整体质量亦不低于30。数据比对采用BWA软件(或其它适用的公共软件),基于hg19基因组版本的人类基因组进行比对操作,以保证位点坐标的一致性。
[0079] 在建立已有的敏感的MS位点过程中,测序覆盖的基因区域、配对样本、测序深度、基因组版本是比较重要的,训练用的样本数据集至少需满足以上几点。实验及测序上不同公司可能会采用不同的策略,只要最后的测序数据符合要求即可。另外该训练过程可以针对多种类型的样本同时进行,所选阳性样本也包含了多种类型(比如不同类型的肿瘤),若只想针对单一类型的样本进行检测,也可只选用特定类型的阳性样本用相同的模式构建算法,例如选用同一类肿瘤的阳性样本和阴性样本构建训练用的样本数据集,对测序结果进行统计学比对分析,得到所述已有的敏感MS位点。
[0080] 训练用的样本数据集中阳性样本的数量越大越可以排除因随机性造成的样本局限性,一般针对某一类表型(例如某一种肿瘤)的阳性样本不少于10个,优选在30个以上,更优选在50个以上。
[0081] 在一个具体示例中,根据预设的过滤条件对筛选出的敏感MS位点进行过滤,筛选出不稳定MS位点步骤中预设的过滤条件是:
[0082] 对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2(例如某个MS位点正常情况下重复单元的重复次数为6,发生改变后这个数字可能变成3、4、5,或7、8、9,那么5和7离6差值为1,就不符合要求),并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;
[0083] 对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点。例如,某个敏感MS位点的多个测序结果中重复次数分别是7、8、9、10和11,如果其中有3个或3个以上的测序结果,例如重复次数为7、8和9的都符合上面的要求,则可以判段该敏感MS位点就是不稳定的MS位点,如果只有两个、一个或没有相应的测序结果满足上面要求,则该敏感MS位点不判为不稳定MS位点。
[0084] 进一步,在一个具体示例中,还包括对待测样本的不稳定MS位点进行打分分析的步骤。更具体地,对待测样本的不稳定MS位点进行打分分析包括:
[0085] 根据待测样本的不稳定MS位点的数目作为该待测样本的所述不稳定MS位点的评分。
[0086] 优选地,如图4所示,该微卫星不稳定性检测方法还包括:
[0087] 步骤S410:调用第一应用程序,由第一应用程序根据程序自身预设处理方法对其分析得到的待测样本的所有不稳定MS位点进行打分分析。
[0088] 进一步优选地,该微卫星不稳定性检测方法还包括:
[0089] 步骤S420:以根据已有的敏感MS位点数据进行筛选和过滤后最终打分的分数为主,以第一应用程序最终打分的分数为辅,依据预设的阈值标准,确定待测样本的最终MSI状态。在一个具体示例中,预设的阈值标准是主分数的阈值为15,第一应用程序的辅助分数的阈值为3。
[0090] 更进一步优选地,该微卫星不稳定性检测方法还包括:
[0091] 步骤S430:绘制图形展示待测样本的不稳定MS位点的分布情况。
[0092] 该微卫星不稳定性检测方法可以基于但不限于linux平台,使用perl、python、Rscript和shell编程语言开发,可以使用一些常用的公共生信软件(如MANTIS、MSIsensor、mSINGS等)辅助。
[0093] 上述微卫星不稳定性检测方法充分考虑传统技术存在的问题,根据前期建立的敏感MS位点数据为基础,利用较低的测序数据量,即可得到更为准确的结果,由于数据量少,整个处理流程更快,效率更高,并且可以有效降低假阳性和假阴性结果的出现。
[0094] 在另一个可选地具体实施例中所提供的微卫星不稳定性检测方法,包括如下步骤:
[0095] 获取待测样本与正常对照样本的测序结果数据;
[0096] 从所述测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数;
[0097] 根据所述靶向基因区域的MS位点的各种重复次数的reads支持数对所述靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点;
[0098] 根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与所述已有的敏感MS位点中一致的敏感MS位点;
[0099] 根据预设的过滤条件对筛选出所述敏感MS位点进行过滤,筛选出不稳定MS位点;所述预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点;
[0100] 所述已有的敏感MS位点是在对待测样本检测之前,通过如下步骤预先筛选获取的:
[0101] 从人类基因组中识别出所有的MS位点;
[0102] 从所述所有的MS位点中挑选出落在各靶向基因区域内的MS位点;
[0103] 对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为所述已有的敏感MS位点。
[0104] 如图5所示,本发明进一步还提供了一种微卫星不稳定性检测装置500,其包括可信的MS位点筛选模块510、已有敏感MS位点准备模块520、敏感MS位点筛选模块530以及不稳定MS位点筛选模块540。
[0105] 可信的MS位点筛选模块510用于从待测样本与正常对照样本的测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数,并根据靶向基因区域的MS位点的各种重复次数的reads支持数对靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点。
[0106] 已有敏感MS位点准备模块520用于在对待测样本进行检测之前,从人类基因组中所有的MS位点里挑选出落在靶向基因区域的MS位点,并对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为已有的敏感MS位点。
[0107] 敏感MS位点筛选模块530用于根据已有的敏感MS位点,从筛选出的可信的MS位点中筛选出与已有的敏感MS位点中一致的敏感MS位点。
[0108] 不稳定MS位点筛选模块540用于根据预设的过滤条件对筛选出的敏感MS位点进行过滤,筛选出不稳定MS位点。预设的过滤条件为:对于各敏感MS位点的各种重复次数的测序结果,要求其在正常对照样本中的reads支持数不大于1,同时在待测样本中的reads支持数不小于4,并且该重复次数与正常情况下的重复次数差值不小于2,并且有改变的重复次数的reads支持数要不低于正常重复次数的reads支持数的5%;对于某个敏感MS位点的所有重复次数的测序结果,如果其中有3个或3个以上的测序结果满足上述的要求,则该敏感MS位点就判为不稳定MS位点。
[0109] 在一个具体示例中,可信的MS位点筛选模块510具有第一应用程序调用接口,可信的MS位点筛选模块510用于通过第一应用程序调用接口调用第一应用程序,由第一应用程序从待测样本与正常对照样本的测序结果数据中获取靶向基因区域的MS位点的各种重复次数的reads支持数,并由第一应用程序根据靶向基因区域的MS位点的各种重复次数的reads支持数对靶向基因区域的MS位点进行过滤,从中筛选出可信的MS位点。
[0110] 更具体地,第一应用程序为MANTIS软件;过滤的参数设置为:Mrq:25.0,mlq:30.0,mrl:35,mlc:30,mrr:5,sd:3.0。
[0111] 在一个具体示例中,所述测序结果数据为对靶向测序数据进行数据比对和处理后的比对结果数据,靶向测序数据包括使用二代测序方法对待测样本和正常对照样本进行测序得到的数据。
[0112] 在一个具体示例中,已有敏感MS位点准备模块520具有第二应用程序调用接口,已有敏感MS位点准备模块用于通过第二应用程序调用接口调用第二应用程序,由第二应用程序在对待测样本检测之前,从人类基因组中所有的MS位点里挑选出落在靶向基因区域的MS位点,并对阳性样本和阴性样本的各靶向基因区域内的MS位点进行统计学分析,筛选出阳性样本中相对于阴性样本差异显著的MS位点,作为已有的敏感MS位点。
[0113] 如图6所示,在一个具体示例中,微卫星不稳定性检测装置600除包括可信的MS位点筛选模块610、已有敏感MS位点准备模块620、敏感MS位点筛选模块630以及不稳定MS位点筛选模块640之外,还包括打分模块650、最终MSI状态获取模块660以及绘图模块670中的至少一个。
[0114] 更具体地,该打分模块650用于根据筛选出的待测样本的不稳定MS位点的数目作为该待测样本的不稳定MS位点的评分。
[0115] 该最终MSI状态获取模块660用于以根据已有的敏感MS位点进行筛选和过滤处理后最终打分的分数为主,以第一应用程序最终打分的分数为辅,依据预设的阈值标准,确定待测样本的最终MSI状态,预设的阈值标准是:主分数的阈值为15,辅助分数的阈值为3。
[0116] 该绘图模块670用于绘制图形展示待测样本的不稳定MS位点的分布情况。
[0117] 基于如上所述的实施例,本发明还提供了一种可用于检测微卫星不稳定性的计算机设备,其具有处理器和存储器,存储器上存储有计算机程序,处理器执行该计算机程序时实现上述任一具体示例的微卫星不稳定性检测方法的步骤。
[0118] 本领域普通技术人员可以理解实现上述方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0119] 据此,本发明还提供了一种可用于检测微卫星不稳定性的计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现上述任一实施例的微卫星不稳定性检测方法的步骤。
[0120] 可理解,该微卫星不稳定检测装置、设备和计算机可读存储介质可用于疾病诊断和治疗等临床肿瘤等样本的检测使用过程中,也可以用于非疾病诊断和治疗目的的非肿瘤或病变组织的潜在MSI位点检测,其按照上述方法的步骤执行,但并不受方法所应用的范畴的限制。
[0121] 上述微卫星不稳定性检测方法及检测装置、设备和计算机可读存储介质可用于检测潜在的MSI位点,检测出的MSI位点可用于生物标记物分析(FDA正式将MSI作为一种有效的生物标记物(Biomarker)列入到临床实践“阵营”中,生物标志物是一种可客观检测和评价的特性,可作为正常生物学过程、病理过程或治疗干预药理学反应的指示因子)、用于一些疾病或非疾病突变位点的筛查(例如林奇综合征的筛查,林奇综合征是由于 MMR 胚系突变导致个体易于发生结直肠肿瘤和子宫内膜癌等恶性肿瘤,对于具有肿瘤家族史,或者具有早发肿瘤的患者,有必要对其本人及家属进行林奇综合征的筛查,可显著降低肿瘤的发病率和死亡率)、提示高TMB(MSI-H的患者往往也会有很高的TMB(>=10 muts/Mb),两者一致性达到97%,TMB也是一个重要的生物标记物)、提示更多的肿瘤淋巴细胞浸润(MSI-H的肿瘤有更多例如细胞毒性T细胞等的肿瘤淋巴细胞浸润(TILs),这可能与由突变导致的新抗原(neoantigens)的产生较多密切相关,这些neoantigens可以被识别为异体物质,引起进一步的免疫反应)、提示MMR基因可能发生突变(MSI-H的样本在MMR相关基因上一般会有一些突变,这些基因的蛋白表达也会受到一些影响)、提示MLH1基因甲基化(研究表明,样本MSI状态与MLH1基因启动子甲基化存在显著相关,而MLH1基因启动子甲基化是子宫内膜癌发生发展的重要影响因素)、预后预测(MSI-H的肿瘤患者相对于MSS的患者的总生存期(OS)和无病生存期(DFS)均较好,反映其良好的预后)、预示PD-1/PD-L1免疫检查点抑制剂的有效性(MSI-H肿瘤DNA突变多,要伪装自己为正常细胞这一免疫逃逸方法不容易实现,因此只好依赖启动PD1-PDL1系统来抑制免疫细胞,而PD1-PDL1抑制剂,专门攻击的就是用PD1-PDL1系统来躲避免疫系统的肿瘤,所以MSI-H肿瘤响应PD1疗法效果良好)、预测化疗疗效(MSI-H的结直肠癌患者不能从以5-Fu为基础的辅助化疗中获益,说明在日常工作中评估MSI状态有助于确定是否实施含5-Fu的化疗方案)等。
[0122] 研究离体的肿瘤样本和正常对照样本的MSI状态,可以用于免疫治疗和指导用药,目前在很多的肿瘤诊疗方案里都有针对MSI-H的患者的治疗方案推荐及治疗药物推荐,帮助患者缓解疾病,甚至达到治愈的效果。
[0123] 此外,可理解,非肿瘤样本也可以进行MSI检测,例如对未知的看似正常的待测组织也可以进行MSI检测,检测发现的MSI位点对于提示和补充丰富相应基因位点的功能也具有重要的意义。
[0124] 以下通过一具体实施例对本发明的微卫星不稳定检测方法和装置的检测流程作进一步详细的说明。
[0125] 将通过IHC或者PCR方法检测的已知结果的MSI-H和MSS中国人群样本分成两组,一组作为训练组,用于作为训练用样本数据集,用来构建算法模型,确定已有的敏感MS位点,确定参数和阈值标准,另一组作为测试验证组,用于验证算法模型和阈值标准等设置是否有效,预测结果的检测精度。
[0126] 具体结果见下面表2。
[0127] 表2
[0128]
[0129] 测试验证结果发现,本发明的方法对560多个样本具有非常之高的检测准确性,准确性达到99.5%以上,在这样的大样本基数情况下能够取得如此之高的检测准确性,无疑是一项非常大的进步。
[0130] 该微卫星不稳定性检测流程与现有其它专利方法相比主要差别在于所挑选的敏感MS位点的数目和位置,以及判断不稳定MS位点的方法上,正是由于这些差异,使得本算法具有更高的准确性,并可尽量减少误判的可能性。另外微卫星不稳定性检测流程所用敏感MS位点均为根据特定的筛选过滤条件自主挑选所得,并未直接采用已发表文献的数据,因而可广泛推广使用,有利于发掘未明确与疾病关联的MSI位点,并且算法检测结果的可靠性也很高。
[0131] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0132] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。