确定结直肠癌患者MSI状态的方法及应用转让专利

申请号 : CN202211567883.5

文献号 : CN115595371B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵玥封彦杰张美俊杨洲张吉娜

申请人 : 元码基因科技(北京)股份有限公司

摘要 :

本发明公开了确定结直肠癌患者MSI状态的方法及应用,涉及生物检测领域,本发明通过对微卫星序列进行筛选,获得了具有代表性的微卫星位点,见表1,这些特异性位点能用于判断结直肠癌患者样本的MSI状态,具有准确率高,检测快速等优势,有利于显著延长结直肠癌病人的生存期。

权利要求 :

1.一种检测结直肠癌患者微卫星不稳定性的试剂盒,其特征在于,其包括:检测目标微卫星位点的试剂,所述目标微卫星位点包括以下18个位点:。

2.根据权利要求1所述的试剂盒,其特征在于,所述检测目标微卫星位点的试剂包括:测序试剂、引物对、探针和芯片中的至少一种。

3.如权利要求1中所述的目标微卫星位点在制备用于检测结直肠癌患者微卫星不稳定性状态的产品中的应用。

4.一种用于确定结直肠癌患者微卫星不稳定性状态的方法,其特征在于,其包括:基于获取的待测样本如权利要求1中所述的目标微卫星位点的检测结果,判断样本的微卫星不稳定性状态;所述方法不以疾病的诊断或治疗为直接目的。

5.根据权利要求4所述的方法,其特征在于,所述判断样本的微卫星不稳定性状态的步骤包括:统计待测样本中微卫星不稳定MSI‑H的目标微卫星位点占所述目标微卫星位点的总数的百分比,即MSI分数;根据MSI分数判断样本的微卫星不稳定状态:当所述MSI分数≥设定阈值时,判定该样本为MSI‑H,当所述MSI分数<设定阈值时,判定样本为MSS。

6.根据权利要求5所述的方法,其特征在于,所述设定阈值为0.14 0.16。

~

7.根据权利要求4 6任一项所述的方法,其特征在于,所述检测结果包括:位点的序列~测试数据或位点的MSI状态;

当所述检测结果为位点的序列测试数据时,所述方法还包括:针对每个所述目标微卫星位点,分别构建MSI位点的MSI状态预测模型;所述预测模型能根据样本中位点的序列测试数据预测样本在该位点上的MSI状态。

8.根据权利要求7所述的方法,其特征在于,所述预测模型的训练方法包括:获取训练样本如权利要求1中所述的目标微卫星位点中的任一位点的序列测试数据及其标注结果;所述标注结果为代表样本的该目标位点的MSI状态的标签;

将所述训练样本该位点的序列测试数据输入预先构建的预测模型中,获得预测结果;

所述预先构建的模型为能够根据位点的序列测试数据预测样本位点的MSI性状态的机器学习模型;

基于所述标注结果和所述预测结果对预先构建的预测模型进行参数更新。

9.根据权利要求8所述的方法,其特征在于,所述机器学习模型包括:XGBoost模型。

10.一种结直肠癌患者微卫星不稳定性状态的预测装置,其特征在于,其包括:获取模块,用于获取待测样本的如权利要求1中所述的目标微卫星位点的检测结果;

预测模块,用于根据获得的目标微卫星位点的检测结果,判断样本的微卫星不稳定性状态;

所述检测结果和所述判断样本的微卫星不稳定性状态的步骤为权利要求4 9任一项中~所述的检测结果和判断样本的微卫星不稳定性状态的步骤。

11.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器,所述存储器用于存储程序,当所述程序被所述处理器执行时,使得所述处理器实现权利要求4 9任一项所述~的方法。

12.一种计算机可读介质,其特征在于,所述计算机可读介质被处理器执行时实现权利要求4 9任一项所述的方法。

~

说明书 :

确定结直肠癌患者MSI状态的方法及应用

技术领域

[0001] 本发明涉及生物检测领域,具体而言,涉及确定结直肠癌患者MSI状态的方法及应用。

背景技术

[0002] 各种恶性肿瘤表现出高度的微卫星不稳定性(MSI‑H)或错配修复缺陷。并且目前免疫治疗越来越普遍,而肿瘤细胞的微卫星不稳定性(MSI)状态已成为免疫检查点阻断治疗的重要生物标志物。
[0003] 之前MSI‑IVD试剂盒是一种基于聚合酶链反应(PCR)以及一代sanger毛细管电泳测序的方法,是第一个用于诊断MSI‑H实体瘤的方法(Molecularand Computational Methods for the Detection of Microsatellite Instability inCancer; doi:10.3389/fonc.2018.00621)。但是这种方法通量低,单个样本成本高。随着二代测序技术的兴起,基于二代测序技术的检测MSI的产品也已经出现。而二代测序技术相对来说成本高,准确率也比传统PCR‑sanger方法要低。而panel的出现可以降低二代测序的成本。
[0004] 目前在各个癌种当中,结直肠癌中出现MSI阳性(MSI‑H微卫星高度不稳定状态)样本的概率较大,根据结直肠癌是否为MSI阳性,临床上会采取不同的治疗策略,从而显著的延长结直肠癌病人的生存期。而目前Msings,MSIsensor2针对的是泛癌种,其优势是可以对各种不同的癌种进行检测,但缺陷是对于结直肠癌的准确率还有待提高。
[0005] 鉴于此,特提出本发明。

发明内容

[0006] 本发明的目的在于提供了确定结直肠癌患者MSI状态的方法及应用。
[0007] 本发明是这样实现的:
[0008] 第一方面,本发明实施例提供了检测目标微卫星位点的试剂在制备用于检测结直肠癌患者微卫星不稳定性状态的产品中的应用,所述目标微卫星位点包括表1所示的1 18~个位点:
[0009] 表1微卫星位点信息
[0010]位点 染色体 位点的起始位置 位点的终止位置 重复次数 重复单元
1 chr1 66037973 66038000 27 T
2 chr2 47635523 47635536 13 T
3 chr2 47641559 47641586 27 A
4 chr2 95849361 95849384 23 T
5 chr3 32997029 32997047 18 A
6 chr4 55598211 55598236 25 T
7 chr5 98216956 98216980 24 T
8 chr11 102193508 102193534 26 A
9 chr11 108114661 108114676 15 T
10 chr11 108195976 108195995 19 T
11 chr11 118255662 118255683 21 A
12 chr11 118353037 118353053 16 T
13 chr12 112893675 112893692 17 T
14 chr12 133237753 133237767 14 A
15 chr13 32907535 32907546 11 T
16 chr13 37579999 37580022 23 A
17 chr14 23652346 23652367 21 A
18 chr15 91303325 91303337 12 T
[0011] 备注:以hg19基因组模板。
[0012] 第二方面,本发明实施例提供了一种试剂或试剂盒,其包括:前述实施例所述的检测目标微卫星位点的试剂。
[0013] 第三方面,本发明实施例提供了一种用于确定结直肠癌患者微卫星不稳定性状态的方法,其包括:基于获取的待测样本的前述实施例目标微卫星位点的检测结果,判断样本的微卫星不稳定性状态;所述方法不以疾病的诊断或治疗为直接目的。
[0014] 第四方面,本发明实施例提供了一种结直肠癌患者微卫星不稳定性状态的预测装置,其包括:获取模块,用于获取待测样本的如前述实施例所述的目标微卫星位点的检测结果;预测模块,用于根据获得的目标微卫星位点的检测结果,判断样本的微卫星不稳定性状态;所述检测结果和所述判断样本的微卫星不稳定性状态的步骤为前述实施例所述的检测结果和判断样本的微卫星不稳定性状态的步骤。
[0015] 第五方面,本发明实施例提供了一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储程序,当所述程序被所述处理器执行时,使得所述处理器实现前述实施例所述的方法。
[0016] 第六方面,本发明实施例提供了一种计算机可读介质,所述计算机可读介质被处理器执行时实现前述实施例所述的方法。
[0017] 本发明具有以下有益效果:
[0018] 本发明通过对微卫星序列进行筛选,获得了具有代表性的微卫星位点,以用于判断结直肠癌患者样本的MSI状态,具有准确率高,检测快速等优势。

附图说明

[0019] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020] 图1为本发明的技术路线图;
[0021] 图2为实施例1的158例样本的MSI分数的箱线图;其中,阳性为所有阳性样本中阳性位点占所有位点的比例,阴性为所有阴性样本中阳性位点占所有位点的比例;
[0022] 图3为实施例1的预测模型的ROC曲线;
[0023] 图4为实施例3中的对照组1对158例样本的MSI分数的箱线图;其中,阳性为所有阳性样本中阳性位点占所有位点的比例,阴性为所有阴性样本中阳性位点占所有位点的比例;
[0024] 图5为实施例3中的对照组2对158例样本的MSI分数的箱线图;其中,阳性为所有阳性样本中阳性位点占所有位点的比例,阴性为所有阴性样本中阳性位点占所有位点的比例;
[0025] 图6为实施例3中3组预测模型对应的ROC曲线。

具体实施方式

[0026] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
[0027] 首先,本发明实施例提供了检测目标微卫星位点的试剂在制备用于检测结直肠癌患者微卫星不稳定性状态的产品中的应用,所述目标微卫星位点包括表1所示的1 18个位~点。
[0028] 发明人经一系列创造性劳动发现,表1所述的18个位点用于判断结直肠癌患者样本的MSI状态,相对其他位点而言,该18个位点的组合构建的预测模型具有准确率高,检测快速等优势,如果对这18个位点进行替换,会造成假阳性率偏高等情况。
[0029] 在目标或待检微卫星位点公开的情况下,检测位点的试剂可基于常规技术选择,本发明的发明点主要在于筛选获得这些具有特异性的微卫星位点。在一些实施例中,所述检测目标微卫星位点的试剂包括:测序试剂、panel检测试剂、引物对、探针和芯片中的至少一种。
[0030] 在一些实施例中,所述产品包括:试剂、试剂盒和预测模型中的任意一种。
[0031] 另一方面,本发明实施例还提供了一种试剂或试剂盒,其包括:前述任意实施例所述的检测目标微卫星位点的试剂。
[0032] 可选地,所述试剂或试剂盒应用于检测结直肠癌患者微卫星不稳定性状态。
[0033] 另一方面,本发明实施例还提供了一种用于确定结直肠癌患者微卫星不稳定性状态的方法,其包括:基于获取的待测样本如前述实施例所述的目标微卫星位点的检测结果,预测样本的微卫星不稳定性状态;所述方法不以疾病的诊断或治疗为直接目的。
[0034] 不以疾病的诊断或治疗为直接目的的情况有很多,比如,当待测样本为含生物样本的环境样本或人工制备的阴性样本、阳性样本和质控样本时,检测结果与疾病的诊断或治疗无关。
[0035] 可选地,所述判断样本的微卫星不稳定性状态的步骤包括:统计待测样本中微卫星不稳定(MSI‑H)的目标微卫星位点占所述目标微卫星位点总数的百分比,即MSI分数;根据MSI分数判断样本的微卫星不稳定状态。
[0036] 在一些实施例中,判断样本的微卫星不稳定状态的标准包括:当所述MSI分数≥设定阈值时,判定该样本为MSI‑H(微卫星高度不稳定状态),当所述MSI分数<设定阈值时,判定样本为MSS(微卫星稳定状态)。
[0037] 所述设定阈值为0.14 0.16,具体可以为0.14、0.15或0.16中的任意一种或任意两~种之间的范围。
[0038] 在一些实施例中,所述检测结果包括:位点的序列测试数据或位点的MSI状态。当所述检测结果为位点的序列测试数据时,所述方法还包括:针对每个所述目标微卫星位点分别构建MSI位点的MSI状态预测模型;所述预测模型能根据样本中位点的序列测试数据预测样本在该位点上的MSI状态。
[0039] 可选地,所述预测模型的训练方法包括:
[0040] 获取训练样本如前述任意实施例所述的目标微卫星位点中的任一位点的序列测试数据及其标注结果;所述标注结果为代表样本的该位点的MSI状态的标签;
[0041] 将所述训练样本该位点的序列测试数据输入预先构建的预测模型中,获得预测结果;所述预先构建的模型为能够根据位点的序列测试数据预测样本位点的MSI性状态的机器学习模型;
[0042] 基于所述标注结果和所述预测结果对预先构建的预测模型进行参数更新。
[0043] 优选地,所述机器学习模型包括:XGBoost模型。
[0044] 在预测模型的构建指标或特征(目标微卫星位点)公开的情况下,校正模型的参数(通用的和可调整的)均可根据本领域的常规技术知识进行调整和选择。
[0045] 可选地,XGBoost的训练选用的是Python3XGBregressor函数,默认参数包括:n_estimators=100,max_depth=3。
[0046] 在一些实施例中,所述训练样本的样本量为≥10、30、50、100、150、200、250、300和500中的任意一种。
[0047] 在一些实施例中,所述训练样本或待测样本为:结直肠癌患者的血清样本、血浆样本、肿瘤组织样本、肿瘤癌旁组织样本、阴性对照样本、阳性对照样本、质控样本以及含结直肠癌患者的血清样本或血浆样本、组织样本的环境样本中的任意一种。
[0048] 可选地,所述方法的技术路线图可参照图1。
[0049] 另一方面,本发明实施例还提供了一种结直肠癌患者微卫星不稳定性状态的预测装置,其包括:
[0050] 获取模块,用于获取待测样本如前述实施例所述的目标微卫星位点的检测结果;
[0051] 预测模块,用于根据获得的目标微卫星位点的检测结果,判断样本的微卫星不稳定性状态。
[0052] 可选地,所述检测结果和判断样本的微卫星不稳定性状态的步骤如前述任意实施例所述。
[0053] 可选地,上述模块可以软件或固件(Firmware)的形式存储于存储器中或固化于本申请提供的电子设备的操作系统(Operating System,OS)中,并可由电子设备中的处理器执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器中。
[0054] 另一方面,本发明实施例还提供了一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储程序,当所述程序被所述处理器执行时,使得所述处理器实现前述任意实施例所述的用于确定结直肠癌患者微卫星不稳定性状态的方法。
[0055] 该电子设备可以包括存储器、处理器、总线和通信接口,该存储器、处理器和通信接口相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条总线或信号线实现电性连接。处理器可以处理与目标识别有关的信息和/或数据,以执行本申请中描述的一个或多个功能。
[0056] 存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(ReadOnly Memory,ROM),可编程只读存储器(Programmable Read‑Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read‑Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read‑Only Memory,EEPROM)等。
[0057] 处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0058] 在实际应用中,该电子设备可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra‑mobile personal computer,UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant,PDA)、可穿戴电子设备、虚拟现实设备等设备,因此本申请实施例对电子设备的种类不做限制。
[0059] 此外,本发明实施例还提供了一种计算机可读介质,所述计算机可读介质被处理器执行时实现前述任意实施例所述的训练方法或如前述任意实施例所述的用于确定结直肠癌患者微卫星不稳定性状态的方法。
[0060] 本文中的“计算机可读介质”包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
[0061] 以下结合实施例对本发明的特征和性能作进一步的详细描述。
[0062] 实施例1
[0063] 获得148个样本,其中,按样本MSI状态分类:33例MSI‑H高度不稳定状态的阳性样本,115例MSS稳定状态的阴性样本;按样本类型分类:64例结直肠癌组织样本、32例癌旁组织样本、32例血液样本和20例已知变异信息的细胞系样本。148个样本已经基于传统的PCR‑毛细管电泳的方法确定了样本的MSI的阴阳性。
[0064] 经发明人对148个样本中每个位点的序列及其分布进行了大量的分析研究,针对每个位点,采用XGB的方法分别构建训练获得用于预测位点MSI状态的预测模型MSIarbiter。在训练的过程中,有些位点能够很好的用XGB的方法来进行判定,但是有些位点在做cross validation时发现判定的准确率较低,最后选出18个能够用XGB判定较为准确的位点,并且这些位点能很好的代表整个样本的性质。
[0065] 采用训练好的预测模型对另外158个样本(按样本MSI状态分类:53例MSI‑H高度不稳定状态的阳性样本,105例MSS稳定状态的阴性样本;按样本类型分类:62例结直肠癌组织样本、60例癌旁组织样本和36例已知变异信息的细胞系样本)的相应位点进行了预测。
[0066] 训练好的预测模型会给每个样本的每个18个目标MSI位点进行打分,如果分数大于等于0,那么就判定改为点为阳性(不稳定)位点,小于0则为阴性(稳定)位点。
[0067] 统计待测样本中被模型判断为微卫星不稳定MSI‑H的位点占所述目标微卫星位点总数的百分比,即MSI分数;根据MSI分数判断样本的微卫星不稳定状态,当所述MSI分数≥15%时,判定该样本为MSI‑H(阳性),当所述MSI分数<15%时,判定样本为MSS(阴性)。结果参照图2。
[0068] 实施例2
[0069] 采用实施例1的构建的预测模型(MSI arbiter)对158例样本的18个位点的MSI状态进行预测,并基于MSI分数判断样本的微卫星不稳定状态(同实施例1),同时设置3组对照组,其中:
[0070] 对照组1采用MSIsensor2(https://github.com/niu‑lab/msisensor2);
[0071] 对照组2采用MSIsensor pro(https://bitbucket.org/uwlabmed/msings);
[0072] 对照组3采用MSings(Salipante SJ, Scroggins SM, Hampel HL, Turner EH, Pritchard CC.Microsatellite instability detection by next generation sequencing.  Clin  Chem.2014  Sep;60(9):1192‑9.  doi:  10.1373/
clinchem.2014.223677. Epub 2014 Jun 30.PMID: 24987110.)。
[0073] 4组预测模型对样本的预测结果见表2和图3。
[0074] 表2检测结果
[0075] MSIarbiter MSIsensor2 MSings MSIsensor pro真阳性 53 37 49 47
真阴性 104 105 102 49
假阳性 0 0 3 6
假阴性 1 16 4 56
[0076] 由表2可知,本发明构建的预测模型MSI arbiter的准确率为99.4%,显著优于其他三组对照。由ROC曲线图可知,MSIsensor2的AUC为0.85,Msings的AUC为0.95,MSIsensorpro的AUC为0.68,而MSI arbiter的AUC为0.99,具有更优异的检测准确性。
[0077] 实施例3
[0078] 根据实施例1的预测模型,设置2组对照组,对照组1 2的预测模型的构建训练过程~同实施例1,区别仅在于采用的目标MSI位点的不同,区别如下:
[0079] 对照组1(14标签)采用18个位点中的14个如下表所示。
[0080] 表3 对照组1的位点信息
[0081] chrs start end repeat_bases_length repeat_times repeat_bases left_bases right_baseschr1 66037973 66038000 1 27 T AGTTG AAATTchr2 47635523 47635536 1 13 T TGTAC AAGGA
chr3 32997029 32997047 1 18 A GTCTC TTAAA
chr4 55598211 55598236 1 25 T TTTGA GAGAA
chr5 98216956 98216980 1 24 T AGGCC ACCTG
chr11 108114661 108114676 1 15 T AATAA AAGAA
chr11 108195976 108195995 1 19 T CATAG CATTT
chr11 118255662 118255683 1 21 A CAGGT GATTT
chr11 118353037 118353053 1 16 T AATAG CTAAT
chr12 112893675 112893692 1 17 T ACATG GCATT
chr12 133237753 133237767 1 14 A ACCTG GGCAA
chr13 32907535 32907546 1 11 T CTGTC GTAAA
chr13 37579999 37580022 1 23 A ATCTC GGTTT
chr15 91303325 91303337 1 12 T AAGAC CCCTC
[0082] 备注:Chr为染色体;start为位点的起始位置,end为位点的终止位置,repeat_bases_length为重复单元的长度,repeat_times为重复单元的次数,repeat_bases为重复单元,left_bases为微卫星序列5’端的五个碱基,right_bases为微卫星序列3’端的五个碱基。
[0083] 对照组2(18替换标签)采用区别于对照组1的18个位点,位点信息具体见表4所示。
[0084] 表4 对照组2的位点信息
[0085] chrs start end repeat_bases_length repeat_times repeat_bases left_bases right_baseschr1 26227608 26227630 1 22 A CAGTC GCCTGchr1 66037973 66038000 1 27 T AGTTG AAATT
chr2 47635523 47635536 1 13 T TGTAC AAGGA
chr2 48032740 48032753 1 13 T TGTGA AAGGT
chr3 32997029 32997047 1 18 A GTCTC TTAAA
chr5 98216956 98216980 1 24 T AGGCC ACCTG
chr8 141754888 141754904 1 16 A AAAAG GAATT
chr11 108114661 108114676 1 15 T AATAA AAGAA
chr11 108195976 108195995 1 19 T CATAG CATTT
chr11 118255662 118255683 1 21 A CAGGT GATTT
chr11 118353037 118353053 1 16 T AATAG CTAAT
chr12 112893675 112893692 1 17 T ACATG GCATT
chr12 133237753 133237767 1 14 A ACCTG GGCAA
chr13 32907535 32907546 1 11 T CTGTC GTAAA
chr13 37579999 37580022 1 23 A ATCTC GGTTT
chr14 58825825 58825846 1 21 T AACTC AAGGT
chr15 91303325 91303337 1 12 T AAGAC CCCTC
chr16 31475613 31475637 1 24 A TCTTT GACGC
[0086] 采用训练好的预测模型对158例样本(同实施例1)的相应位点的MSI状态进行预测,并基于MSI分数判断样本的微卫星不稳定状态(同实施例1)。
[0087] 对照组1的MSI分数结果如图4所示,对照组2的MSI分数结果如图5所示,3组预测模型的ROC曲线图见图6。
[0088] 基于图4和图5可知,当只选用18个位点中的14个,或者另外选取18个位点的时候,MSI阳性样本与阴性样本无法完全分开,而另外选取18个位点的时候,情况会更差,这与ROC曲线(图6)的结果一致,从图6可知,14标签的AUC=0.94,18替换标签的AUC=0.95,MSI arbiter的AUC=0.99,显著优于其他2组对照组。
[0089] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。