基因标志物在女性骨质疏松中的应用转让专利

申请号 : CN201810981100.5

文献号 : CN108866184B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨承刚孙耀兰

申请人 : 北京泱深生物信息技术有限公司

摘要 :

本发明公开了基因标志物在女性骨质疏松中的应用,本发明通过生物信息学分析发现在绝经后女性骨质疏松患者中呈现差异表达的基因标志物,并通过进一步的分析验证了筛选到的基因标志物在诊断绝经后骨质疏松患者时具有较高的准确性,特异性和敏感性。

权利要求 :

1.检测基因表达水平的试剂在制备诊断绝经后女性骨质疏松的产品中的应用,其特征在于,所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2的组合,其中,DHTKD1、OSTF1、GPR116、BIK、RBBP4、DHX35、ADRB1表达上调,EFCAB1、GPR87、NEO1、CYLC2表达下调。

2.根据权利要求1所述的应用,其特征在于,所述试剂选自:

特异性识别所述基因的探针;或

特异性扩增所述基因的引物;或

特异性结合所述基因编码的蛋白的特异性结合剂。

3.基因在构建诊断绝经后女性骨质疏松的计算模型中的应用,其特征在于,所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2的组合。

4.一种诊断绝经后女性骨质疏松的产品,其特征在于,所述产品由检测权利要求1所述基因的表达水平的试剂组成。

5.根据权利要求4所述的产品,其特征在于,所述产品包括芯片、试剂盒、核酸膜条。

6.根据权利要求5所述的产品,其特征在于,所述试剂盒包括特异性扩增权利要求1所述的基因的引物对。

7.根据权利要求6所述的产品,其特征在于,所述试剂盒还包括SYBR Green聚合酶链式反应体系;所述SYBR Green聚合酶链式反应体系包含:PCR缓冲液、dNTPs、SYBR Green荧光染料。

8.权利要求4-7任一项所述的产品在制备诊断绝经后女性骨质疏松的工具中的应用。

说明书 :

基因标志物在女性骨质疏松中的应用

技术领域

[0001] 本发明属于生物医药领域,涉及基因标志物在女性骨质疏松中的应用。

背景技术

[0002] 骨质疏松症(Osteoporosis)具有渐进性,全身性,隐匿性的临床特点,是常见代谢障碍疾病,其主要特点为骨量丢失、骨质退行性破坏,进而出现骨强度降低,骨折发生率增高。最新医学研究认为其发生可由多种因素引起,如:与年龄增长相关的衰老、妇女绝经期内分泌变化、钙和维生素D缺乏、过度吸烟和饮酒等饮食和生活习惯不良、遗传因素等,发病往往是多因素共同作用所致。尤其好发于老年人和绝经后妇女,在临床上常表现为:脊柱短缩、腰背痛及骨痛、四肢瘫软无力、骨折风险的增高等。由于骨量减少而导致的骨质疏松往往较为隐匿,初期患者往往并无明显的临床症状表现,所以骨质疏松症发现和诊断时往往已较为严重。
[0003] 临床中骨质疏松症可分为原发性OP和继发性OP,妇女绝经后骨质疏松症(PMOP)的高危年龄区间为五十至七十岁,大多患者在绝经后的10年才发现,是最常见的原发性骨质疏松。目前较权威的调查统计显示,本病在我国50岁以上妇女的发病率约为30.80%,占近三分之一的比例,而总的患者人数在5400万以上。绝经后女性因为机体雌激素缺失,骨代谢能力明显下降,患者往往出现骨骼脆性增加、骨骼退化、驼背身矮等,甚至可发生骨折。骨质疏松引发的骨折在妇女绝经前人群的发生率远低于较绝经后妇女人群,且50岁以上女性PMOP引发的骨折位置多集中在大关节所占比例为40%,常见的如股骨、髓骨、腰骸椎骨等部位,骨折如发生在上述部位其致残率较高,直接的结果就是患者失去行动能力、瘫痪等,长期卧床不仅会降低患者生存质量且引起致死率升高(Johnell O,Kanis JA.An estimate of the worldwide prevalenceand disability associated with osteoporotic fractures[J].Osteoporos Int,2006,17(12):1726-1733.)。可见绝经后妇女机体的生理性改变会诱发骨质疏松症发病,而其伴随的骨痛、骨折等症状严重影响了广大女性患者的健康和生活质量,且由此引发的社会和家庭经济负担加重等问题,已经凸显。特别是我国中老年妇女人口比例的增加,深入研究绝经后妇女骨质疏松症的防治措施更显迫切。
[0004] 遗传因素对绝经后骨质疏松症的发病,尤其是对于骨量的维持和保持骨强度上有较大影响。随着生物技术的发展,遗传因素的研究成为骨质疏松诊治领域的热门课题,已有研究表明骨质疏松与体内基因的变化相关,如专利201610272604.0、201610271798.2等报道了基因的差异表达与骨质疏松的发生发展相关。同时现代研究表明骨代谢过程是受到多个基因的共同作用和影响的,而不是单一基因。研究与骨质疏松相关的基因,对于实现骨质疏松的早期诊断,深入研究绝经后妇女骨质疏松症的防治措施具有重要的意义。

发明内容

[0005] 为了弥补现有技术的不足,本发明的目的在于提供一种用于绝经后女性骨质疏松早期诊断的分子标志物,以期实现骨质疏松的特异性诊断和预防。
[0006] 本发明的目之二,在于提供一种用于绝经后女性骨质疏松早期诊断的产品。
[0007] 本发明的目的之三,在于提供基因标志物在构建诊断绝经后女性骨质疏松的计算模型中的应用。
[0008] 为了实现上述目的,本发明采用如下技术方案:
[0009] 本发明提供了检测基因表达水平的试剂在制备诊断骨质疏松的产品中的应用,所述基因选自:EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35的一种或几种。
[0010] 进一步,所述基因还包括OSTF1、ADRB1、NEO1、RBBP4、CYLC2中的一种或几种。
[0011] 优选的,所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2的组合。
[0012] 进一步,所述骨质疏松为绝经后女性骨质疏松。
[0013] 进一步,检测基因表达水平的试剂选自:
[0014] 特异性识别所述基因的探针;或
[0015] 特异性扩增所述基因的引物;或
[0016] 特异性结合所述基因编码的蛋白的特异性结合剂;
[0017] 其中,所述基因选自EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX3中的一种或几种,或与OSTF1、ADRB1、NEO1、RBBP4、CYLC2中的一种或几种组合。
[0018] 本发明提供了基因在构建诊断骨质疏松的计算模型中的应用,所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2的一种或几种;
[0019] 优选的所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35中的一种或几种,与OSTF1、ADRB1、NEO1、RBBP4、CYLC2中的一种或几种的组合;
[0020] 更为优选的,所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4和CYLC2。
[0021] 本发明提供了一种产品,所述产品包括检测基因的表达水平的试剂,所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4和CYLC2。
[0022] 优选的,所述产品包括芯片、试剂盒、核酸膜条。
[0023] 进一步,所述试剂盒包括特异性扩增所述基因的引物对,其中,所述基因为EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4和CYLC2。
[0024] 进一步,所述试剂盒还包括包括SYBR Green聚合酶链式反应体系;所述SYBR Green聚合酶链式反应体系包含:PCR缓冲液、dNTPs、SYBR Green荧光染料。
[0025] 进一步,所述检测试剂盒还包括使用说明书和标签。
[0026] 本发明提供了上述产品在制备诊断绝经后女性骨质疏松的工具中的应用。
[0027] 本发明的优点和有益效果:
[0028] 本发明首次发现了EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35与绝经后女性骨质疏松的发生发展相关,通过检测受试者中上述基因的表达水平,可以判断患者是否患有骨质疏松以及换骨质疏松的风险,从而实现骨质疏患者的早发现早治疗,提高患者的生活质量。
[0029] 本发明首次发现了EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2联合诊断骨质疏松患者具有较高的特异性和敏感性。

附图说明

[0030] 图1十折交叉验证基因标志物联合的ROC分析图,其中,图A是随机森林,图B是支持向量机。
[0031] 具体的实施方式
[0032] 本发明经过广泛而深入的研究,通过大量筛选,首次发现了在女性骨质疏松患者中呈现差异表达的基因,为骨质疏松的早期检测寻找更好的途径和方法。
[0033] 基因标志物
[0034] “基因标志物”也称为“分子标志物”、“生物标志物”,是在组织或细胞中的表达水平与正常或健康细胞或组织的表达水平相比发生改变的任何基因或蛋白。
[0035] 本文包含用于检测分子标志物表达的现有技术中任何可用方法。本发明分子标志物的表达可在核酸水平上被检测(如,RNA转录物)或蛋白质水平。通过“检测表达”旨在确定RNA转录物或其分子标志物基因的表达产物的数量或存在。因此,“检测表达”包含一分子标志物被确定不能被表达、不能被检测表达,表达在低水平、表达在正常水平或过表达的实例。为了确定过表达,被检测的所述身体样本能够与相应的来自健康人的身体样本比较。那就是说,所述表达的“正常”水平是分子标志物的表达水平。这个样本可以以标准化形式呈现。在一些实施例中,分子标志物过表达的确定需比较身体样本和相应来自健康人的身体样本。
[0036] 本领域技术人员将认识到,本发明的实用性并不局限于对本发明的标志物基因的任何特定变体的基因表达进行定量。
[0037] 作为非限制性的实例,一种代表性的人EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2基因的核苷酸序列如目前国际公共核酸数据库GeneBank中NC_000008.11(48709593..48735843,complement)、NC_000010.11(12068917..12123228)、NC_000006.12(46852505..46954954,complement)、NC_000022.11(43110748..43129712)、NC_000003.12(151294086..151316848,complement)、NC_000020.11(38962338..39039723)、NC_000009.12(75088480..75147198)、NC_000010.11(114044047..114046908)、NC_000015.10(73051715..73305206)、NC_000001.11(32651148..32686211)、NC_000009.12(102995311..103018488)中所示。
[0038] 本发明的多核苷酸可以是DNA形式或RNA形式。DNA形式包括cDNA、基因组DNA或人工合成的DNA。DNA可以是单链的或是双链的。DNA可以是编码链或非编码链。
[0039] 本发明的多肽可以是重组多肽、天然多肽、合成多肽,优选重组多肽。本发明的多肽还可包括或不包括起始的甲硫氨酸残基。
[0040] 编码本发明所述蛋白的成熟多肽的多核苷酸包括:只编码成熟多肽的编码序列;成熟多肽的编码序列和各种附加编码序列;成熟多肽的编码序列(和任选的附加编码序列)以及非编码序列。术语“编码多肽的多核苷酸”可以是包括编码此多肽的多核苷酸,也可以是还包括附加编码和/或非编码序列的多核苷酸。
[0041] 本发明还涉及上述多核苷酸的变异体,其编码与本发明有相同的氨基酸序列的多肽或多肽的片段、类似物和衍生物。此多核苷酸的变异体可以是天然发生的等位变异体或非天然发生的变异体。这些核苷酸变异体包括取代变异体、缺失变异体和插入变异体。如本领域所知的,等位变异体是一个多核苷酸的替换形式,它可能是一个或多个核苷酸的取代、缺失或插入,但不会从实质上改变其编码多肽的功能。
[0042] 检测方法
[0043] 本发明可以使用本领域普通技术人员已知的多种核酸以及蛋白技术进行检测,这些技术包括但不限于:核酸测序、核酸杂交、核酸扩增技术、蛋白免疫技术。
[0044] 本发明所述核酸扩增技术选自聚合酶链式反应(PCR)、逆转录聚合酶链式反应(RT-PCR)、转录介导的扩增(TMA)、连接酶链式反应(LCR)、链置换扩增(SDA)和基于核酸序列的扩增(NASBA)。其中,PCR需要在扩增前将RNA逆转录成DNA(RT-PCR),TMA和NASBA直接扩增RNA。
[0045] 通常,PCR使用变性、引物对与相反链的退火以及引物延伸的多个循环,以指数方式增加靶核酸序列的拷贝数;RT-PCR则将逆转录酶(RT)用于从mRNA制备互补的DNA(cDNA),然后将cDNA通过PCR扩增以产生DNA的多个拷贝;TMA在基本上恒定的温度、离子强度和pH的条件下自身催化地合成靶核酸序列的多个拷贝,其中靶序列的多个RNA拷贝自身催化地生成另外的拷贝,TMA任选地包括使用阻断,部分、终止部分和其他修饰部分,以改善TMA过程的灵敏度和准确度;LCR使用与靶核酸的相邻区域杂交的两组互补DNA寡核苷酸。DNA寡核苷酸在热变性、杂交和连接的重复多个循环中通过DNA连接酶共价连接,以产生可检测的双链连接寡核苷酸产物;SDA使用以下步骤的多个循环:引物序列对与靶序列的相反链进行退火,在存在dNTPαS下进行引物延伸以产生双链半硫代磷酸化的(hemiphosphorothioated)引物延伸产物,半修饰的限制性内切酶识别位点进行的核酸内切酶介导的切刻,以及从切口3'端进行的聚合酶介导引的物延伸以置换现有链并产生供下一轮引物退火、切刻和链置换的链,从而引起产物的几何扩增。
[0046] 本发明中非扩增或扩增的核酸可通过任何常规的手段检测。
[0047] 本发明中的核酸杂交技术包括但不限于原位杂交(ISH)、微阵列和Southern或Northern印迹。原位杂交(ISH)是一种使用标记的互补DNA或RNA链作为探针以定位组织一部分或切片(原位)或者如果组织足够小则为整个组织(全组织包埋ISH)中的特异性DNA或RNA序列的杂交。DNA ISH可用于确定染色体的结构。RNA ISH用于测量和定位组织切片或全组织包埋内的mRNA和其他转录本(例如,ncRNA)。通常对样本细胞和组织进行处理以原位固定靶转录本,并增加探针的进入。探针在高温下与靶序列杂交,然后将多余的探针洗掉。分别使用放射自显影、荧光显微术或免疫组织化学,对组织中用放射、荧光或抗原标记的碱基标记的探针进行定位和定量。ISH也可使用两种或更多种通过放射性或其他非放射性标记物标记的探针,以同时检测两种或更多种转录本。
[0048] 将Southern和Northern印迹分别用于检测特异性DNA或RNA序列。使从样本中提取的DNA或RNA断裂,在基质凝胶上通过电泳分离,然后转移到膜滤器上。使滤器结合的DNA或RNA与和所关注的序列互补的标记探针杂交。检测结合到滤器的杂交探针。该程序的一种变化形式是反向Northern印迹,其中固定到膜的底物核酸为分离的DNA片段的集合,而探针是从组织提取并进行了标记的RNA。
[0049] 蛋白免疫技术包括夹心免疫测定,例如夹心ELISA,其中使用识别生物标志物上不同表位的两种抗体进行该生物标志物的检测;放射免疫测定(RIA)、直接、间接或对比酶联免疫吸附测定(ELISA)、酶免疫测定(EIA)、荧光免疫测定(FIA)、蛋白质印迹法、免疫沉淀法和基于任何颗粒的免疫测定(如使用金颗粒、银颗粒或乳胶颗粒、磁性颗粒或量子点)。可例如在微量滴定板或条的形式中实施免疫法。
[0050] 根据本发明的免疫法可基于,例如,以下方法中的任一种。
[0051] 免疫沉淀法是最简单的免疫测定方法;这种方法测量沉淀物的量,在试剂抗体已与样本一起孵育并与其中存在的靶抗原反应以形成不溶性团聚体之后形成所述沉淀。免疫沉淀反应可以是定性的或是定量的。
[0052] 在颗粒免疫测定中,多种抗体与该颗粒连接,且所述颗粒能够同时结合很多抗原分子。这大大地加速了可见反应的速度。这允许生物标志物的快速且灵敏的检测。
[0053] 在免疫比浊法(immunonephelometry)中,抗体和生物标志物上的靶抗原的相互作用引起免疫复合物的形成,所述免疫复合物太小而不能沉淀。但是,这些复合物将散射入射光,这可使用比浊计来测量。可在反应的几分钟之内测定抗原(即生物标志物)的浓度。
[0054] 放射免疫测定(RIA)法使用放射性同位素例如I125来标记抗原或抗体。所使用的同位素发射γ射线,通常在除去非结合的(游离的)放射性标记之后测量所述射线。与其它的免疫测定相比较,RIA的主要优势在于更高的灵敏度、容易的信号检测和确认的、快速的测定。主要的劣势在于由放射物的使用引起的健康和安全风险和与维护许可放射物安全和处理程序相关的时间和费用。出于该原因,在常规临床实验室实践中,RIA已很大程度上被酶免疫测定所取代。
[0055] 酶免疫测定(EIA)发展为放射免疫测定(RIA)的替代物。这些方法使用酶来标记抗体或靶抗原。EIA的灵敏度接近RIA的灵敏度,且不存在由放射性同位素引起的危险。用于检测的最广泛使用的EIA方法之一是酶联免疫吸附测定(ELISA)。ELISA方法可使用两种抗体,其一对于靶抗原是特异性的,而另一与酶偶联,酶底物的添加引起化学发光信号或荧光信号的产生。
[0056] 荧光免疫测定(FIA)指使用荧光标记或酶标记的免疫测定,所述荧光标记或酶标记作用在底物上以形成荧光产物。荧光测量固有地比比色(分光光度法的)测量更加灵敏。因此,FIA方法具有比利用吸收(光密度)测量的EIA方法更高的分析灵敏度。
[0057] 化学发光免疫测定使用化学发光标记,当其被化学能激发时产生光;使用光检测器测量发射。
[0058] 因此,可使用熟知的方法进行根据本发明的免疫法。在本发明的生物标志物的检测中可使用任何直接(如使用传感器芯片)或间接的方法。
[0059] 探针
[0060] “探针”是指能够用于测量特定基因的表达情况的分子。示例性探针包括PCR引物以及基因特异性DNA寡核苷酸探针,例如固定于微阵列基底上的微阵列探针、定量核酸酶保护检验探针、与分子条形码连接的探针、以及固定于珠上的探针。
[0061] 本发明中术语“探针”指能与另一分子的特定序列或亚序列或其它部分结合的分子。除非另有指出,“探针”通常指能通过互补碱基配对与另一多核苷酸(往往称为“靶多核苷酸”)结合的多核苷酸探针。根据杂交条件的严谨性,探针能和与该探针缺乏完全序列互补性的靶多核苷酸结合。探针可作直接或间接的标记,其范围包括引物。杂交方式,包括,但不限于:溶液相、固相、混合相或原位杂交测定法。
[0062] 作为探针,可以使用荧光标记、放射标记、生物素标记等对癌检测用多核苷酸进行了标记的标记探针。多核苷酸的标记方法本身是公知的。可通过如下方法检查试样中是否存在受试核酸:固定受试核酸或者其扩增物,与标记探针进行杂交,洗涤,以及然后测定与固相结合的标记。备选地,还可固定癌检测用多核苷酸,使受试核酸与其杂交,然后应用标记探针等检测结合于固相上的受试核酸。在这种情况下,结合于固相上的癌检测用多核苷酸也称为探针。使用多核苷酸探针测定受试核酸的方法在本领域也是公知的。可以如下进行该方法:在缓冲液中使多核苷酸探针与受试核酸在Tm或者其附近(优选在±4℃以内)接触用于杂交,洗涤,然后测定杂交的标记探针或者与固相探针结合的模板核酸。
[0063] 在作为探针使用的多核苷酸的大小优选为18个或更多个核苷酸、更优选为20个或更多个核苷酸,以及编码区域的全长或更少。作为引物使用时,该多核苷酸大小优选为18个或更多个核苷酸,以及50个或更少核苷酸。这些探针具有与靶点基因的特定的碱基序列互补的碱基序列。这里,所谓“互补”,只要是杂交即可,可以不是完全互补。这些多核苷酸通常相对于该特定的碱基序列具有80%以上、优选90%以上、更优选95%以上、特别优选100%的同源性。这些探针可以是DNA,也可以是RNA,另外,可以为在其一部分或全部中核苷酸通过PN、LNA、ENA、GNA、TNA等人工核酸置换得到的多核苷酸。
[0064] 芯片、试剂盒、核酸膜条
[0065] 术语“芯片”也称为“阵列”,指包含连接的核酸或肽探针的固体支持物。阵列通常包含按照不同的已知位置连接至基底表面的多种不同的核酸或肽探针。这些阵列,也称为“微阵列”,通常可以利用机械合成方法或光引导合成方法来产生这些阵列,所述光引导合成方法合并了光刻方法和固相合成方法的组合。阵列可以包含平坦的表面,或者可以是珠子、凝胶、聚合物表面、诸如光纤的纤维、玻璃或任何其它合适的基底上的核酸或肽。可以以一定的方式来包装阵列,从而允许进行全功能装置的诊断或其它方式的操纵。
[0066] “微阵列”是杂交阵列原件有序排列在基质上,所述杂交阵列原件诸如聚核苷酸探针(例如寡核苷酸)或结合剂(例如抗体)。所述基质可以是固体基质,例如,玻璃或二氧化硅玻片、珠、纤维光学粘结剂或半固态基质,例如硝酸纤维素膜。核苷酸序列可以是DNA、RNA或其中的任何排列。
[0067] 各种探针阵列已经描述在文献中并且可以用于本发明上下文中检测可能与本文所述表型相关的标志物。例如,DNA探针阵列芯片或较大的DNA探针阵列晶片(否则,可以通过打断晶片而获得各个体芯片)用于本发明的一个实施方案。DNA探针阵列晶片一般包含玻璃晶片,其上放置了高密度DNA探针(短DNA片段)阵列。这些晶片各自可以保持例如约6000万个用于识别较长样品DNA序列(例如,来自个体或群体,例如,包含所关注的标志物)的DNA探针。用玻璃晶片上的DNA探针组识别样品DNA通过DNA杂交进行。当DNA样品与DNA探针阵列杂交时,样品结合于样品DNA序列互补的那些探针。通过评价个体样品DNA与那些探针更稳固地杂交,有可能确定已知的核酸序列是否存在于样品中,由此确定核酸中发现的标志物是否存在。还可以使用这一手段通过控制杂交条件以允许区别单一核苷酸,例如,用于SNP鉴定和一种或多种SNP的样品基因分型来进行ASH。阵列提供了一种同时(或串连)检测多个多态性标志物的便利性实施方案。
[0068] 在本发明中,核酸膜条包括基底和固定于所述基底上的寡核苷酸探针;所述基底可以是任何适于固定寡核苷酸探针的基底,例如尼龙膜、硝酸纤维素膜、聚丙烯膜、玻璃片、硅胶晶片、微缩磁珠等。
[0069] 本发明中,试剂盒可用于检测本发明所述基因或蛋白(EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2)的表达水平,包含用于BTNL3检测和/或定量的本发明的配体、和/或芯片。任选的与试剂盒的说明书在一起。
[0070] 试剂盒包括一种或多种无菌容器,这样的容器可以是盒、安瓿、瓶子、管形瓶、管、袋、小袋、泡罩包装、或本领域已知的其它合适的容器形式。这样的容器可以由塑料、玻璃、层压纸、金属箔、或适于容器药物的其它材料。
[0071] 在本发明中,术语“包括”用于指短语“包括但不限于”,并与短语“包括但不限于”可以互换使用。
[0072] 特异性结合剂
[0073] 在本发明的优选实施方案中,测定本发明所述基因编码的蛋白的浓度。在一个实施方案中,在体外通过使用特异性结合剂自样品中特异性测定标志物蛋白质的浓度。
[0074] 特异性结合剂是例如蛋白质的受体、结合蛋白质的凝集素、针对蛋白质的抗体、针对蛋白质的肽抗体(peptidebody)、双特异性双重结合剂或双特异性抗体形式。特异性结合剂对它的对应靶分子至少具有107mol/l的亲和力。特异性结合剂对它的靶分子优选具有108mol/l或还优选109mol/l的亲和力。
[0075] 特异性结合剂的例子是肽、肽模拟物、aptamer、spiegelmer、darpin、锚蛋白重复蛋白、Kunitz型域、抗体、单域抗体和单价抗体片段。
[0076] 在某些实施方案中,特异性结合剂是抗体或单价抗体片段,优选自单克隆抗体衍生的单价片段。
[0077] 单价抗体片段包括但不限于Fab、Fab’-SH、单域抗体、Fv、和scFv片段,如下文提供的。
[0078] 术语“抗体”在本文中以最广义使用,而且明确覆盖单克隆抗体、多克隆抗体、自至少两种完整抗体形成的多特异性抗体(例如双特异性抗体)、及抗体片段,只要它们展现期望的生物学活性。在某些优选实施方案中,特异性结合剂是抗体或单价抗体片段,优选自单克隆抗体衍生的单价片段。
[0079] “单克隆抗体”指从一群基本上同质的抗体获得的抗体,即构成群体的各个抗体相同和/或结合相同表位,除了生产单克隆抗体的过程中可能产生的可能变体外,此类变体一般以极小量存在。此类单克隆抗体典型的包括包含结合靶物的多肽序列的抗体,其中靶物结合多肽序列是通过包括从众多多肽序列中选择单一靶物结合多肽序列在内的过程得到的。
[0080] 单克隆抗体还包括“嵌合”抗体,其中重链和/或轻链的一部分与衍生自特定物种或属于特定抗体类别或亚类的抗体中的相应序列相同或同源,而链的剩余部分与衍生自另一物种或属于另一抗体类别或亚类的抗体中的相应序列相同或同源,以及此类抗体的片段,只要它们展现出期望的生物学活性即可。
[0081] 非人(例如鼠)抗体的“人源化”形式指最低限度包含衍生自非人免疫球蛋白的序列的嵌合免疫球蛋白、免疫球蛋白链或其片段诸如Fv、Fab、Fab’、F(ab’)2或抗体的其它抗原结合子序列。
[0082] “抗体片段”包含全长抗体的一部分,一般是其抗原结合区或可变区。抗体片段的例子包括Fab、Fab′、F(ab′)2和Fv片段;双抗体;线性抗体;单链抗体分子;及由抗体片段形成的多特异性抗体。
[0083] “Fv”是包含完整抗原识别和结合位点的最小抗体片段。该片段由紧密、非共价结合的一个重链可变域和一个轻链可变域的二聚体组成。从这两个结构域的折叠结构中散发出六个高变环(重链和轻链各3个环),促成结合抗原的氨基酸残基并赋予抗体以抗原结合特异性。然而,即使是单个可变域(或是只包含对抗原特异的三个CDR的半个Fv)也可具有识别和结合抗原的能力,只是亲和力低于完整结合位点。
[0084] 本发明的抗体的“功能性片段”指那些保留与衍生它们的完整全链分子以基本上相同的亲和力结合多肽且在至少一种测定法中有活性(例如抑制TH2诱导的哮喘途径,诸如在小鼠模型中,或在体外抑制抗体片段结合的抗原的生物学活性)的片段。
[0085] 多克隆抗体包含对产生人抗体的动物(例如,小鼠)免疫所述蛋白质而得的抗体。当制备了嵌合抗体或人源化抗体之后,可以将可变区(例如,FR)和/或恒定区中的氨基酸用其他氨基酸替换等。
[0086] 标志物组合
[0087] 本发明涉及基因标志物进行评估骨质疏松的用途,此类标志物包括EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2的一种或多种。
[0088] 正如熟练技术人员会领会的,有多种方式使用两种或更多种标志物的测量来改进调查中的诊断问题。
[0089] 生化标志物可以个别测定,或者在本发明的一个实施方案中,它们可以同时测定,例如使用芯片或基于珠的阵列技术。然后独立解读生物标志物的浓度,例如使用每种标志物的个别截留,或者它们组合进行解读。
[0090] 正如熟练技术人员会领会的,可以以不同方式实施和实现将标志物水平与某种可能性或风险关联起来的步骤。优选地,在数学上组合蛋白质和一种或多种其它标志物的测定浓度,并将组合值与根本的诊断问题关联起来。可以通过任何适宜的现有技术数学方法将标志物值的测定组合。
[0091] 优选地,在标志物组合中应用的数学算法是一种对数函数。优选地,应用此类数学算法或此类对数函数的结果是单一值。根据根本的诊断问题,能容易地将此类值与例如个体关于骨质疏松的风险或与有助于评估骨质疏松患者的其它有意诊断用途关联起来。以一种优选的方式,此类对数函数是如下获得的:a)将个体分类入组,例如正常人、有骨质疏松风险的个体、具有骨质疏松的患者等等,b)通过单变量分析来鉴定在这些组之间差异显著的标志物,c)对数回归分析以评估标志物的可用于评估这些不同组的独立差别值,并d)构建对数函数来组合独立差别值。在这种类型的分析中,标志物不再是独立的,而是代表一个标志物组合。
[0092] 用于将标志物组合与疾病关联起来的对数函数优选采用通过应用统计方法开发和获得的算法。例如,适宜的统计方法是判别分析(DA)(即线性、二次、规则DA)、Kernel方法(即SVM)、非参数方法(即k-最近邻居分类器)、PLS(部分最小二乘)、基于树的方法(即逻辑回归、CART、随机森林方法、助推/装袋方法)、广义线性模型(即对数回归)、基于主分量的方法(即SIMCA)、广义叠加模型、基于模糊逻辑的方法、基于神经网络和遗传算法的方法。熟练技术人员在选择适宜的统计方法来评估本发明的标志物组合并由此获得适宜的数学算法方面不会有问题。在一个实施方案中,用于获得评估骨质疏松中使用的数学算法的统计方法选自DA(即线性、二次、规则判别分析)、Kernel方法(即SVM)、非参数方法(即k-最近邻居分类器)、PLS(部分最小二乘)、基于树的方法(即逻辑回归、CART、随机森林方法、助推方法)、或广义线性模型(即对数回归)。
[0093] 接受者操作曲线下面积(=AUC)是诊断规程的性能或精确性的一项指标。诊断方法的精确性由它的接受者操作特征(ROC)描述得最好。ROC图是源自在观察的整个数据范围上连续改变决策阈的所有灵敏度/特异性对的线图。
[0094] 实验室测试的临床性能取决于它的诊断精确性,或将受试者正确分类入临床有关亚组的能力。诊断精确性测量测试正确辨别所调查的受试者的两种不同状况的能力。此类状况是例如健康和疾病或者疾病进展对无疾病进展。
[0095] 在每种情况中,ROC线图通过对于决策阈的整个范围将灵敏度对1-特异性绘图来描绘两种分布之间的交叠。y轴上是灵敏度,或真阳性分数[定义为(真阳性测试结果的数目)/(真阳性的数目+假阴性测试结果的数目)]。这也称作疾病或状况的存在的阳性。它仅仅自受影响亚组来计算。x轴上是假阳性分数,或1-特异性[定义为(假阳性结果的数目)/(真阴性的数目+假阳性结果的数目)]。它是特异性的一项指标,而且完全自不受影响的亚组来计算。因为真和假阳性分数通过使用来自两个不同亚组的测试结果完全分开计算,所以ROC线图不依赖于样品中疾病的流行程度。ROC线图上的每个点代表一个对应于特定决策阈的灵敏度/1-特异性对。一项具有完美区分(两种结果分布没有交叠)的测试具有通过左上角的ROC线图,那里真阳性分数为1.0,或100%(完美灵敏度),且假阳性分数为0(完美特异性)。一项不区分(两个组的结果分布相同)的测试的理论线图是从左下角到右上角的45°对角线。大多数线图落在这两种极端之间。(如果ROC线图完全落在45°对角线以下,那么这容易通过将“阳性”的标准从“大于”颠倒成“小于”或反之来矫正。)定性地,线图越接近左上角,测试的整体精确性越高。
[0096] 量化实验室测试的诊断精确性的一项便利目标是通过单一数值来表述它的性能。最常见的全局度量是ROC曲线下面积(AUC)。常规地,此面积总是≥0.5(如果不是这样,那么可以颠倒决策规则来使之这样)。数值范围介于1.0(完美分开两个组的测试值)和0.5(两个组的测试值之间没有明显分布差异)之间。面积不仅取决于线图的特定部分诸如最接近对角线的点或90%特异性处的灵敏度,而且还取决于整个线图。这是ROC线图如何接近完美者(面积=1.0)的一种定量、描述性表述。
[0097] 整体测定法灵敏度会取决于实施本文公开的方法要求的特异性。在某些优选设置中,特异性75%可能是充分的,而且统计方法和所得算法可以基于此特异性要求。在一个优选实施方案中,用于评估有骨质疏松风险的个体的方法基于特异性80%、85%、或还优选90%或95%。
[0098] 某些标志物组合在筛选骨质疏松中会是有利的。
[0099] 在一个实施方案中,本发明致力于通过生化标志物评估骨质疏松的体外方法,包括测定样品中EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35中的一种或多种,以及和一种或多种其它标志物的表达水平,在数学上组合EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35的测定表达水平和一种或多种其它标志物的表达水平,其中升高的组合值指示骨质疏松的存在。
[0100] 在一个实施方案中,本发明致力于通过生化标志物评估骨质疏松的体外方法,包括测定样品中EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35中的一种或几种,以及和一种或多种其它标志物的浓度并将测定浓度与参照浓度比较,其中显著差异于参照浓度指示骨质疏松的存在。优选的是,所述方法的一种或多种其它标志物选自OSTF1、ADRB1、NEO1、RBBP4、CYLC2。在又一个优选实施方案中,所述标志物组包括EFCAB1、DHTKD1、GPR116、BIK、GPR87、DHX35、OSTF1、ADRB1、NEO1、RBBP4、CYLC2。
[0101] 下面结合附图和实施例对本发明作进一步详细的说明。
[0102] 以下实施例仅用于说明本发明而不用于限制本发明的范围。
[0103] 实施例1筛选与骨质疏松相关的基因标志物
[0104] 1、选择样品数据
[0105] 下载公众数据平台美国国家生物技术信息中心(National Center  of Biotechnology Information,NCBI)下的基因芯片原始数据集NCBI-GEO DataSets-GSE56815(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi=GSE56815)、GSE13850(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi=GSE13850)、GSE7429(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi=GSE7429),该数据收录了女性外周血单核细胞基因表达谱数据,其中GSE56815数据集中包括20例绝经后女性骨质疏松患者的血液样本和20例正常对照血液样本;GSE13850数据集包括了20例绝经后女性骨质疏松患者的血液样本和20例正常对照血液样本;GSE7429数据集包括10例绝经后女性骨质疏松患者的血液样本和10例正常对照血液样本。
[0106] 2、转录组数据整合分析
[0107] 1)预处理
[0108] 把对应到多个基因的探针去掉,然后有多个探针对应的基因只保留平均表达量最大的一个探针,经此处理之后,三套数据集取交集有12427个基因。3套数据集分别进行scale标准化。
[0109] 2)差异表达meta分析
[0110] 采用limma包和metaMA包分析,meta分析中采用inverse normal method方法对p值进行合并。采用标准是P<0.05,得到1320个差异表达基因,其中707个基因表达上调,613个基因表达下调。
[0111] 3)特征选择
[0112] 将上面三套分别scale标准化的数据集合并,保留前面得到的1320个差异表达基因。使用R-3.3.3工具,利用LASSO算法和Boruta算法选取重要的特征变量。
[0113] a.LASSO算法筛选差异表达基因
[0114] 设自变量x和y,公式表示如下:
[0115]
[0116] 最小化损失函数,该函数表示如下:
[0117]
[0118] 选取不同的λ值,得到不同的w。从中筛选最优的参数,使得错误率最小。
[0119] 通过LASSO进行特征变量的选择,筛选出31个差异表达的mRNA。
[0120] b.Boruta算法筛选差异表达基因
[0121] 对数据集进行随机森林模型的拟合,使用Z分数作为衡量标准,递归地处理每个迭代过程中表现不佳的特征,最大限度地减少随机森林模型的误差,形成一个最小化最优特征子集。
[0122] 通过Boruta算法,筛选出32个差异表达的mRNA。
[0123] c.筛选不同算法中的共同差异表达基因
[0124] 对应用LASSO算法筛选的差异表达基因和应用Boruta算法筛选的差异表达基因取交集,共筛选出11个共有的差异表达基因,其中表达显著上调的基因为DHTKD1、OSTF1、GPR116、BIK、RBBP4、DHX35、ADRB1,表达显著下调的基因为EFCAB1、GPR87、NEO1、CYLC2(P<0.05)。
[0125] 实施例2差异表达基因的ROC分析
[0126] 对上面筛选差异表达的11个mRNA进行组合,分别应用支持向量机和随机森林构建分类模型,用十折交叉验证过程求得该分类器的准确率、灵敏度、特异性。
[0127] 采用ROC曲线法以及计算曲线下面积(AUC)以评价有意义的影响因素对于绝经后女性骨质疏松症的诊断价值,AUC及其95%可信区间通过MedCalc进行评估,根据AUC值不同可以划分为无预测性能(AUC<0.5),低预测性能(0.5≤AUC≤0.7),中度预测性能(0.7≤AUC≤0.9)和高预测性能(0.9≤AUC≤1),P<0.05为差异有统计学意义。
[0128] 结果如表1和图1所示,使用随机森林和支持向量机进行检测,基因联合检测诊断绝经后女性骨质疏松具有较高的敏感性和特异性,曲线下面积高达0.97。
[0129] 表1十折交叉验证差异表达基因的ROC分析
[0130]
[0131] 上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。