一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法转让专利

申请号 : CN201710120750.6

文献号 : CN107085673A

文献日 : 2017-08-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

本发明提供了一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法，包括筛选植物响应逆境胁迫的lncRNAs及其靶基因；并对靶基因表达模式进行分析；按照靶基因表达模式进行植物响应逆境胁迫的lncRNAs分组；对响应逆境胁迫的lncRNAs特异序列模块富集分析；给出响应逆境胁迫的lncRNAs特异序列模块功能注释。本发明的lncRNAs序列模块功能注释方法结合生物信息学与差异表达分析对植物响应逆境胁迫的lncRNAs序列模块进行注释，不但极大地提高了实验的效率、精准性以及灵活性，并显著地降低了实验成本。

1.一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法，包括以下步骤：

步骤S1，筛选植物响应逆境胁迫的lncRNAs及其靶基因；

步骤S2，再次筛选植物响应逆境胁迫的lncRNAs及其靶基因表达模式分析；

步骤S3，按照靶基因表达模式进行植物响应逆境胁迫的lncRNAs分组；

步骤S4，响应逆境胁迫的lncRNAs特异序列模块富集分析；

步骤S5，响应逆境胁迫的lncRNAs特异序列模块功能注释。

2.根据权利要求1所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述步骤S1中所述逆境胁迫为低温处理或高盐处理；优选地，所述低温处理为4℃处理6小时；所述高盐处理为150mM NaCl处理6小时。

3.根据权利要求1所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述步骤S1中lncRNAs筛选标准为①长度大于200nt；②最小读长覆盖率为3；③开放阅读框小于300nt；④CPC score<0,CNCI score<0。

4.根据权利要求1所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述步骤S2中所述再次筛选响应逆境胁迫差异表达的lncRNAs的筛选最小阈值为：差异倍数>2或<0.5，p-值<0.05，q-值<0.05。

5.根据权利要求1所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述步骤S3中所述分组方法为根据响应逆境胁迫的lncRNAs表达模式或靶基因功能富集结果，将响应逆境胁迫的lncRNAs进行分组。

6.根据权利要求1所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述步骤S4中响应逆境胁迫的lncRNAs特异序列模块富集分析方法为利用MEME(http://meme-suite.org/tools/meme)对分组后的响应逆境胁迫的lncRNAs特异序列模块进行富集分析。

7.根据权利要求6所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述分析中筛选的参数设置为：①每个lncRNAs上至少预测到一个序列模块；②预测序列模块数量3-5个；③模块长度为6bp-15bp；④分布模式为正反义两条链；⑤不允许软件对序列进行重排。

8.根据权利要求1所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述步骤S5中所述响应逆境胁迫的lncRNAs特异序列模块功能注释为利用GOMo(http://meme-suite.org//tools/gomo)，对富集的lncRNAs特异序列模块功能进行功能预测。

9.根据权利要求8所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法，其特征在于，所述注释方法中筛选参数设置如下：①显著性参数设置为q-value<0.01；②计算次数

5000次；③专一性(Specificity)参数大于80％。序列模块1获得GO term注释。

10.根据权利要求1～9任意一项所述方法在系统解析植物lncRNs生物学功能以及构建转录调控网络中的用途。

一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法

技术领域

[0001] 本发明涉及分子生物学技术领域，具体涉及一种植物响应逆境胁迫的lncRNAs序列模块功能注释的方法。

背景技术

[0002] 高通量RNA测序技术是现代基因组学研究最重要的实验技术，在整个生物学领域具有广泛的应用。随着大量测序数据的建立，基因组学研究得到快速发展。在利用高通量RNA测序技术运用于差异表达基因即编码RNA的研究基础上，越来越多的研究关注到基因组的非编码RNA上。这些非编码RNA包括miRNAs、siRNAs、lncRNAs、circularRNA等，其中miRNAs由于其具有独特序列模块以及与靶基因的作用方式已经被广泛地证明在植物生长发育和响应逆境胁迫的转录调控方面具有重要的作用。而lncRNAs是一类长度超过200nt,不具有蛋白编码能力的非编码RNA，可以通过多种方式影响靶基因的转录调控。因此，高通量的开展lncRNAs的功能注释工作对于今后非编码RNA的功能研究具有重要意义。

[0003] 目前，已有的研究主要通过计算非编码RNA与编码RNA共表达关系的方法将lncRNAs与共表达的mRNA分为一组，利用mRNA的注释信息来完成lncRNAs的功能注释。该方法一是需要大量的表达数据用于共表达分析，同时还将缺失胁迫响应特异表达lncRNAs的功能注释信息。

发明内容

[0004] 有鉴于此，本发明的第一目的在于提供了一种植物响应逆境胁迫的lncRNAs序列模块功能注释方法，包括以下步骤：

[0005] 步骤S1，筛选植物响应逆境胁迫的lncRNAs及其靶基因；

[0006] 步骤S2，再次筛选植物响应逆境胁迫的lncRNAs及其靶基因表达模式分析；

[0007] 步骤S3，按照靶基因表达模式进行植物响应逆境胁迫的lncRNAs分组；

[0008] 步骤S4，响应逆境胁迫的lncRNAs特异序列模块富集分析；

[0009] 步骤S5，响应逆境胁迫的lncRNAs特异序列模块功能注释。

[0010] 优选地，本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述步骤S1中所述逆境胁迫为低温处理或高盐处理；优选地，所述低温处理为4℃处理6小时；所述高盐处理为150mM NaCl处理6小时。

[0011] 优选地，本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述步骤S1中lncRNAs筛选标准为①长度大于200nt；②最小读长覆盖率为3；③开放阅读框小于300nt；④CPC score<0,CNCI score<0。

[0012] 优选地，本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述步骤S2中所述再次筛选响应逆境胁迫差异表达的lncRNAs，筛选最小阈值为：差异倍数>2或<0.5，p-值<0.05，q-值<0.05。

[0013] 优选地，本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述步骤S3中所述分组方法为根据响应逆境胁迫的lncRNAs表达模式或靶基因功能富集结果，将响应逆境胁迫的lncRNAs进行分组。

[0014] 优选地，本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述步骤S4中响应逆境胁迫的lncRNAs特异序列模块富集分析方法为利用MEME(http://meme-suite.org/tools/meme)对分组后的响应逆境胁迫的lncRNAs特异序列模块进行富集分析。

[0015] 更优选地，本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述分析中筛选的参数设置为：①每个lncRNAs上至少预测到一个序列模块；②预测序列模块数量3-5个；③模块长度为6bp-15bp；④分布模式为正反义两条链；⑤不允许软件对序列进行重排。

[0016] 优选地，本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述步骤S5中所述响应逆境胁迫的lncRNAs特异序列模块功能注释为利用GOMo(http://meme-suite.org//tools/gomo)，对富集的lncRNAs特异序列模块功能进行功能预测。

[0017] 更优选地，期望值(E-value)表示由于随机性造成获得与数据库比对结果的可能次数。期望值越小，发生这一事件的概率越低，比对结果越显著。假设机率(P-value)代表给定原假设为真时样本结果出现的概率。P值越小代表原假设不成立的概率越大。Q值(q-value)代表经过假阳性率校正之后的P值，该数值越低则代表假阳性率越小。特异性(Specificity)代表该模块的独特性，数值越高则独特性越强。本发明所述的植物响应逆境胁迫的lncRNAs序列模块功能注释方法中，所述注释方法中筛选参数设置如下：①显著性参数设置为p-value<0.01并且q-value<0.01；②计算次数5000次；③专一性(Specificity)参数大于80％；④期望值E-value<0.001。序列模块1(E-value＝2.7e-007；P-value＝2.6e-07；q-value＝1.1e-04；Specificity＝83％)获得GO term注释转录因子活性(见图2)。

[0018] 因此，针对现有lncRNAs功能预测方法依赖于需要大量的表达数据用于共表达分析，以及还没有响应逆境胁迫的特异表达lncRNAs的功能注释信息。本方案提供一种响应逆境胁迫的植物lncRNAs序列模块功能注释方法，结合生物信息学与差异表达分析对植物响应逆境胁迫的lncRNAs序列模块进行注释，将为系统解析lncRNs生物学功能以及构建其转录调控网络提供了技术支持。

[0019] 即本发明提供一种植物lncRNAs逆境胁迫响应序列模块功能注释的方法，结合生物信息学与差异表达分析对植物响应逆境胁迫的lncRNAs序列模块进行注释，不但极大地提高了实验的效率、精准性以及灵活性，并显著地降低了实验成本。

附图说明

[0020] 图1为响应逆境胁迫的植物lncRNAs序列模块功能注释的方法流程示意图；

[0021] 图2毛白杨响应低温lncRNAs序列模块功能注释结果图；

[0022] 图3小叶杨响应高盐胁迫lncRNAs序列模块功能注释结果图。

具体实施方式

[0023] 根据本发明一个典型的实施方式，待测样本为毛白杨1年生植株。对其进行低温(4℃,6小时)处理，立即收集叶片用于提取总RNAs。利用Ribo-Zero rRNA试剂盒对核糖体RNA进行去除。利用SMART试剂盒进行链特异性cDNA文库构建。利用Illumina HiSeqTM2500测序平台完成cDNA文库测序，测序深度为10×。去除接头以及冗余序列，通过cufflinks软件拼接转录本，筛选长度大于200nt、最小读长覆盖率为5、CPC score<0、CNCI score<0以及与对照差异表达倍数大于2(P<0.05)的lncRNAs。预测差异表达的lncRNAs顺式及反式作用靶基因，并对靶基因的表达模式进行解析，筛选差异表达的靶基因作为候选基因(最小阈值为：差异倍数>2或<0.5,p-值<0.05,q-值<0.05)。对于候选基因，利用NCBI核酸数据库(https://blast.ncbi.nlm.nih.gov/Blast.cgi)进行功能注释。利用AgriGO(http://bioinfo.cau.edu.cn/agriGO/)对候选基因进行Go term富集分析。利用MEME(http://meme-suite.org/tools/meme)对分组后的响应逆境胁迫的lncRNAs特异序列模块进行富集分析。利用GOMo(http://meme-suite.org//tools/gomo)，对富集的lncRNAs特异序列模块功能进行功能预测。

[0024] 以下通过具体实施例进一步对本发明的技术方案进行说明，应理解以下仅为本发明的示例性说明，并不用于限制本发明权利要求的保护范围。

[0025] 实施例1

[0026] 对毛白杨1年生植株进行低温(4℃,6小时)处理，提取其总RNA用于对响应低温胁迫的lncRNAs序列模块进行功能注释。

[0027] S1，利用Ribo-Zero rRNA试剂盒对核糖体RNA进行去除。利用SMART试剂盒进行链特异性cDNA文库构建。利用Illumina HiSeqTM2500测序平台完成cDNA文库测序，测序深度为10×。去除接头以及冗余序列，通过cufflinks软件拼接转录本，筛选长度大于200nt、最小读长覆盖率为5、CPC score<0、CNCI score<0lncRNAs，共获得4218个。筛选差异倍数小于
0.35且大于0.2(p-值<0.05,q-值<0.05)的lncRNAs，共17个(见表1)。

[0028] 表1毛白杨响应低温逆境胁迫的lncRNAs

[0029]

[0030] 在14个响应高温胁迫的lncRNA上下游10Kb范围内筛选顺式作用靶基因，共获得26个(见表2)。利用Blast进行序列互补计算，参数设置为E-value＝1e-10，identity＝90％以及利用RNAplex进行热力学上的互补计算，参数设置为e＝-70。共获得反式作用靶基因25个(见表3)。根据差异表达靶基因筛选标准(p-值<0.05,q-值<0.05)，筛选获得候选靶基因42个(见表4)

[0031] 表2毛白杨响应低温逆境胁迫的lncRNAs顺式作用靶基因

[0032]

[0033] 表3毛白杨响应低温逆境胁迫的lncRNAs反式作用靶基因

[0034]

[0035]

[0036]

[0037] 表4毛白杨响应低温逆境胁迫的lncRNAs靶基因功能注释

[0038]

[0039] S2，对于候选基因，利用NCBI核酸数据库(https://blast.ncbi.nlm.nih.gov/Blast.cgi)进行功能注释(见表4)。利用AgriGO(http://bioinfo.cau.edu.cn/agriGO/)对候选基因进行Go term富集分析(见表5)。

[0040] 表5毛白杨响应低温逆境胁迫的lncRNAs靶基因功能富集分析

[0041]

[0042] S3，植物响应逆境胁迫的lncRNAs分组。根据逆境胁迫响应lncRNAs表达模式或靶基因功能富集结果，将响应逆境胁迫的lncRNAs进行分组(见表6)。

[0043] 表6毛白杨响应逆境胁迫的lncRNAs进行分组

[0044]

[0045]

[0046] S4,利用MEME(http://meme-suite.org/tools/meme)对分组后的响应逆境胁迫的lncRNAs特异序列模块进行富集分析。筛选参数设置如下：①每个lncRNAs上至少预测到一个序列模块；②预测序列模块数量3-5个；③模块长度为6bp-15bp；④分布模式为正反义两条链；⑤不允许软件对序列进行重排。第3分组共获得富集的lncRNAs序列模块3个(见图2)[0047] S5，利用GOMo(http://meme-suite.org//tools/gomo)，对富集的lncRNAs特异序列模块功能进行功能预测。筛选参数设置如下：①显著性参数设置为q-value<0.01；②计算次数5000次；③专一性(Specificity)参数大于80％。序列模块1获得GO term注释(见图2)。

[0048] 如图2所示，序列模块1期望值E-value＝2.7e-007；注释条目：GO：0003700，功能预测结果：转录因子活性(P-value＝2.6e-07；q-value＝1.1e-04；Specificity＝83％)；跨膜受体蛋白酪氨酸激酶信号通路(P-value＝2.6e-07；q-value＝1.1e-04；specificity＝82％)；序列模块2、序列模块3无显著富集注释条目。期望值(E-value)表示由于随机性造成获得与数据库比对结果的可能次数。期望值越小，发生这一事件的概率越低，比对结果越显著。假设机率(P-value)代表给定原假设为真时样本结果出现的概率。P值越小代表原假设不成立的概率越大。Q值(q-value)代表经过假阳性率校正之后的P值，该数值越低则代表假阳性率越小。特异性(Specificity)代表该模块的独特性，数值越高则独特性越强。

[0049] 实施例2

[0050] 对小叶杨1年生植株进行高盐处理(150mM NaCl,6小时)，提取其总RNA用于对响应渗透胁迫的lncRNAs序列模块进行功能注释。

[0051] S1，利用Ribo-Zero rRNA试剂盒对核糖体RNA进行去除。利用SMART试剂盒进行链特异性cDNA文库构建。利用Illumina HiSeqTM2500测序平台完成cDNA文库测序，测序深度为10×。去除接头以及冗余序列，通过cufflinks软件拼接转录本，筛选长度大于200nt、最小读长覆盖率为5、CPC score<0、CNCI score<0lncRNAs，共获得4241个。筛选差异倍数大于3且小于13(p-值<0.05,q-值<0.05)共13个lncRNAs(见表7)。

[0052] 表7小叶杨响应高盐逆境胁迫lncRNAs

[0053]

[0054] 在13个高盐胁迫响应的lncRNA上下游10Kb范围内筛选顺式作用靶基因，共获得44个(见表8)。利用Blast进行序列互补计算，参数设置为E-value＝1e-10，identity＝90％以及利用RNAplex进行热力学上的互补计算，参数设置为e＝-70。共获得反式作用靶基因59个(见表9)。根据差异表达靶基因筛选标准(p-值<0.05,q-值<0.05)筛选获得候选靶基因73个(见表10)

[0055] 表8小叶杨响应高盐逆境胁迫的lncRNAs顺式作用靶基因

[0056]

[0057]

[0058] 表9小叶杨响应高盐逆境胁迫的lncRNAs反式作用靶基因

[0059]

[0060]

[0061]

[0062] 表10小叶杨响应高盐逆境胁迫的lncRNAs靶基因功能注释

[0063]

[0064]

[0065]

[0066] S2,对于候选基因，利用NCBI核酸数据库(https://blast.ncbi.nlm.nih.gov/Blast.cgi)进行功能注释(见表10)。利用AgriGO(http://bioinfo.cau.edu.cn/agriGO/)对候选基因进行GO term富集分析(见表11)。

[0067] 表11小叶杨响应高盐逆境胁迫的lncRNAs靶基因功能富集分析

[0068]

[0069]

[0070] S3，植物响应逆境胁迫的lncRNAs分组。根据响应逆境胁迫的lncRNAs表达模式或靶基因功能富集结果，将响应逆境胁迫的lncRNAs进行分组(见表12)。

[0071] 表12小叶杨响应逆境胁迫的lncRNAs分组

[0072]

[0073] S4,利用MEME(http://meme-suite.org/tools/meme)对分组后的响应逆境胁迫的lncRNAs特异序列模块进行富集分析。筛选参数设置如下：①每个lncRNAs上至少预测到一个序列模块；②预测序列模块数量3-5个；③模块长度为6bp-15bp；④分布模式为正反义两条链；⑤不允许MEME软件对序列进行重排。第3组共获得富集的lncRNAs序列模块3个(见图3)。

[0074] S5，利用GOMo(http://meme-suite.org//tools/gomo)，对富集的lncRNAs特异序列模块进行功能预测。筛选参数设置如下：①显著性参数设置为q-value<0.01；②计算次数5000次；③专一性(Specificity)参数大于80％。三个序列模块分别获得GO term注释(见图
3)。

[0075] 如图3所示，序列模块1期望值E-value＝1.5e-004；注释条目：GO：0009507，功能预测结果：叶绿体(P-value＝3.447e-07；q-value＝1.300e-02；Specificity＝85％)；序列模块2期望值E-value＝8.1e-003；注释条目：GO：0010287，功能预测结果：质体球(P-value＝1.856e-07；q-value＝3.500e-03；Specificity＝100％)；注释条目：GO：0009535，功能预测结果：叶绿体类囊体膜(P-value＝1.856e-07；q-value＝3.500e-03；Specificity＝91％)。
序列模块3期望值E-value＝1.6e-004；注释条目：GO：0005739，功能预测结果：线粒体(P-value＝5.569e-06；q-value＝1.050e-02；Specificity＝82％)；期望值(E-value)表示由于随机性造成获得与数据库比对结果的可能次数。期望值越小，发生这一事件的概率越低，比对结果越显著。假设机率(P-value)代表给定原假设为真时样本结果出现的概率。P值越小代表原假设不成立的概率越大。Q值(q-value)代表经过假阳性率校正之后的P值，该数值越低则代表假阳性率越小。特异性(Specificity)代表该模块的独特性，数值越高则独特性越强。

[0076] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。