疾病相关非编码RNA调控轴多维靶向预测方法及系统转让专利

申请号 : CN202111518674.7

文献号 : CN113921084B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孙宇官方霖严江伟申忱李慧宇

申请人 : 山东大学齐鲁医院

摘要 :

本发明提供一种疾病相关非编码RNA调控轴多维靶向预测方法及系统,属于基于机器学习的生物信息处理技术领域,利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;基于构建的蛋白‑蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;在确定的枢纽基因中,获取关键蛋白编码标志物;利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。本发明可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的lncRNA‑miRNA‑mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子标志物。

权利要求 :

1.一种疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,包括:利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;

基于构建的蛋白‑蛋白相互作用PPI网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;

在确定的枢纽基因中,获取关键蛋白编码标志物;其中,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值;

所述极端梯度提升算法如下公式所示:其中, 表示目标函数, 表示样本数量, 表示第 次迭代建立的树模型的结构, 表示自变量, 表示二阶导, 表示一阶导, 表示模型复杂度, 表示控制叶子数量的参数, 表示叶节点的数量, 表示控制L1正则化惩罚项的参数, 表示模型参数,表示控制L2正则化惩罚项的参数;

利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的lncRNA‑miRNA‑mRNA调控轴网络;其中,基于差异表达miRNA或lncRNA,结合lncRNA‑miRNA网络和miRNA‑靶基因网络,构建竞争性内源RNA网络。

2.根据权利要求1所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk 数据库预测得到lncRNA‑miRNA网络和miRNA‑靶基因网络。

3.根据权利要求1或2所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,根据提取的所述非编码RNA调控轴网络中每个RNA分子彼此间的双荧光素酶报告基因结果,确定所述RNA分子的靶向生物学关系。

4.根据权利要求1所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,对多维组学数据通过权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。

5.根据权利要求4所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,对筛选出的差异表达基因和共表达基因进行富集分析,基于构建的蛋白‑蛋白相互作用PPI网络,确定枢纽基因的组成。

6.根据权利要求3所述的疾病相关非编码RNA调控轴多维靶向预测方法,其特征在于,所述多维组学数据包括基因组数据、转录组数据和甲基化数据。

7.一种基于如权利要求1‑6任一项所述的疾病相关非编码RNA调控轴多维靶向预测方法的疾病相关非编码RNA调控轴多维靶向预测系统,其特征在于,包括:筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;

确定模块,用于基于构建的蛋白‑蛋白相互作用PPI网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;

获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;其中,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值;

预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的lncRNA‑miRNA‑mRNA调控轴网络;其中,基于差异表达miRNA或lncRNA,结合lncRNA‑miRNA网络和miRNA‑靶基因网络,构建竞争性内源RNA网络。

说明书 :

疾病相关非编码RNA调控轴多维靶向预测方法及系统

技术领域

[0001] 本发明涉及基于机器学习的生物信息处理技术领域,具体涉及一种基于优化的XGBoost算法和多组学数据整合分析的疾病相关非编码RNA调控轴多维靶向预测方法及系
统。

背景技术

[0002] 基因表达是将来自基因的遗传信息合成功能性基因产物的过程,该过程受到多个维度的精确调控和复杂相互作用的影响,例如基因突变、转录因子、非编码RNA和甲基化等。
这种多层次的监管网络使多组学整合成为表征表型复杂生物学机制的重要方法。
[0003] 高通量测序技术和多组学技术的出现,推动了大量多组学数据的产生,它们不仅包括具有不同数据特征的不同数据,也包括不同类型的多组学数据集和分布特点分析,与
个体组学数据在阐明疾病的生物学机制方面的局限性相比,多组学数据具有更强的互补效
应。因此,揭示分子不同组学多维度之间的复杂关系,对于全面深度研究疾病的生物学机制
具有重要意义。目前,仍缺乏分析多组学多维度数据之间复杂关系有效的方法,是生物学数
据解释和基础研究的瓶颈。
[0004] 先前的多项研究表明:miRNA、mRNA或lncRNA是多种生物过程和疾病发展的重要调节因子,鉴于lncRNAs调控基因的机制以及miRNA靶向基因与疾病之间的关系,希望获得更
多关于与疾病相关的lncRNA‑miRNA‑mRNA调控轴的信息,以提供更多的参考和证据来阐明
疾病分子机制。尽管已经开发了许多用于预测疾病相关ncRNA的方法,例如RWR、RWRHLD、
LncRDNetFlow和LncPriCNet,但仍然无法将lncRNA‑miRNA‑mRNA调控轴识别为一个完整的
功能模块。

发明内容

[0005] 本发明的目的在于提供一种疾病相关非编码RNA调控轴多维靶向预测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
[0006] 为了实现上述目的,本发明采取了如下技术方案:
[0007] 一方面,本发明提供一种疾病相关非编码RNA调控轴多维靶向预测方法,包括:
[0008] 利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
[0009] 基于构建的蛋白‑蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
[0010] 在确定的枢纽基因中,获取关键蛋白编码标志物;
[0011] 利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
[0012] 优选的,基于差异表达miRNA或lncRNA,结合lncRNA‑miRNA网络和miRNA‑靶基因网络,构建竞争性内源RNA网络。
[0013] 优选的,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk 数据库预测得到lncRNA‑miRNA网络和miRNA‑靶基因网络。
[0014] 优选的,利用竞争性内源RNA网络提取了包含关键蛋白编码标志物在内的lncRNA‑miRNA‑mRNA调控轴网络。
[0015] 优选的,根据提取的所述非编码RNA调控轴网络中每个RNA分子彼此间的双荧光素酶报告基因结果,确定所述RNA分子的靶向生物学关系。
[0016] 优选的,对多维组学数据通过权重基因共表达网络分析筛选出疾病组与对照组间的差异表达基因和共表达基因。
[0017] 优选的,对筛选出的差异表达基因和共表达基因进行富集分析,基于构建的蛋白‑蛋白相互作用PPI网络,确定枢纽基因的组成。
[0018] 优选的,结合极端梯度提升算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值。
[0019] 优选的,所述多维组学数据包括基因组数据、转录组数据和甲基化数据。
[0020] 第二方面,本发明提供一种疾病相关非编码RNA调控轴多维靶向预测系统,包括:
[0021] 筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
[0022] 确定模块,用于基于构建的蛋白‑蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
[0023] 获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;
[0024] 预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
[0025] 本发明有益效果:
[0026] 提出机器学习导向的多组学数据整合分析方法,基于优化的XGBoost算法通过量化模型中的每个基因获取关键的蛋白质编码生物标志物;
[0027] 确定了与妊娠糖尿病相关的 MALAT1‑hsa‑miR‑144‑3p‑IRS1调控网络轴;
[0028] 提高了预测疾病相关lncRNA‑miRNA‑mRNA调控网络的可靠性,为涉及复杂疾病的非编码调控网络的机制研究提供了有用信息。

附图说明

[0029] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的
附图。
[0030] 图1为本发明实施例所述的疾病相关非编码RNA调控轴多维靶向预测方法流程图。
[0031] 图2为本发明实施例所述的训练集数据的ROC曲线示意图。
[0032] 图3为本发明实施例所述的测试集数据的ROC曲线示意图。
[0033] 图4为本发明实施例所述的对预测结果进行RT‑qPCR 验证结果示意图。

具体实施方式

[0034] 下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附
图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0035] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
[0036] 还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含
义来解释。
[0037] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加
一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
[0038] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点
可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本
领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特
征进行结合和组合。
[0039] 为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
[0040] 本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
[0041] 实施例1
[0042] 本实施例1提供一种全新优化的XGBoost算法和多组学数据整合分析在复杂疾病的内源性竞争非编码RNA调控网络中的分析应用,具体分为以下几个步骤:
[0043] 第一步:数据采集与预处理。通过对至少三个维度的组学数据(如,基因组、转录组和甲基化数据)进行相应的生物信息学分析前预处理,并进行权重基因共表达网络分析筛
选出疾病组与对照组间的差异表达基因和共表达基因。对筛选出来的结果进行GO和KEGG的
富集分析,并构建蛋白‑蛋白相互作用(PPI)网络,最终确定枢纽基因的组成。
[0044] 本实施例1中,在进行差异表达分析时,会得到很多的差异表达基因,这些基因如果只是按照基因名进行处理,很难找到这些基因之间的关系规律。高通量的数据的分析,可
以得到很多候选结果。但是如果只是把结果进行平铺,不利于发现其内部的本质联系。因
此,本实施例1中使用了富集分析技术以更清楚的了解这些基因的功能。可以把富集分析理
解为在把很零零碎碎的东西,通过一个整体来反应出来,类似于从微观到宏观的变化。
[0045] 利用富集分析,可以把很多看着杂乱的差异基因总结出一个比较整体反应事件发生的概述性的句子。例如:TP53信号通路和胃癌的发生有关。而不是说BAX、BID、ABL1、ATM、
BCL2、BOK、CDKN1A这7个基因和胃癌的发生有关系。
[0046] 其中,GO和KEGG就是基于不同的分类思想而储存的基因相关功能的数据库。
[0047] GO数据库,全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物
过程(biological process, BP)。利用GO数据库,就可以得到目标基因在CC、MF和BP三个层
面上主要和什么有关。
[0048] KEGG数据库:除了对基因本身功能的注释,基因会参与人体的各个通路,基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。其实
通路数据库有很多,类似于wikipathway,reactome都是相关的通路数据库。
[0049] 其实GO和KEGG是两个数据库,里面有每个基因相关的功能信息,而富集分析就是一个把这些功能进行进行整合计算的算法。GO和KEGG是基础,而富集是过程,最后得到的结
果就是整合后的宏观的结果。
[0050] 第二步:基于优化的机端梯度提升算法(XGBoost算法)在确定的枢纽基因中寻找关键的蛋白编码标志物,并进行权重赋值。
[0051] 如果boost算法每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gradient boosting),XGBoost(eXtreme Gradient Boosting)全名叫极端梯
度提升,XGBoost算法是采用分步前向加性模型,只不过在每次迭代中生成弱学习器后不再
需要计算一个系数,XGBoost算法通过优化结构化损失函数(加入了正则项的损失函数,可
以起到降低过拟合的风险)来实现弱学习器的生成,并且XGBoost算法没有采用搜索方法,
而是直接利用了损失函数的一阶导数和二阶导数值,并通过预排序、加权分位数等来提高
算法的性能。
[0052] 本实施例1中,提供优化的机器学习集成分类算法XGBoost,并评估了XGBoost算法中每个基因的重要性。XGBoost算法公式如下:
[0053]
[0054] 其中, 表示目标函数, 表示样本数量, 表示第 次迭代建立的树模型的结构, 表示自变量, 表示二阶导, 表示一阶导, 表示模型复杂度, 表示控制
叶子数量的参数, 表示叶节点的数量, 表示控制L1正则化惩罚项的参数, 表示模型
参数,表示控制L2正则化惩罚项的参数。
[0055] 此外,支持向量机(SVM)、随机森林(RF)和来自 scikit‑learn的决策树(TREE)的三个机器学习模型也可用于同样的集成分类验证,通过对比可知,优化的XGBoost算法比上
述三个算法的可靠性更高(即AUC值更高)。
[0056] 第三步:利用多组学数据整合分析得到的差异表达miRNA或lncRNA,结合StarBase数据库和miRWalk 数据库所预测到的lncRNA‑miRNA网络和miRNA‑靶基因网络,构建竞争性
内源网络,并提取包含关键蛋白编码标志物在内的lncRNA‑miRNA‑mRNA调控轴网络。
[0057] 本实施例1中,最后在人群样本或动物模型中,采集血液或疾病相关组织样本,对预测的关键lncRNA‑miRNA‑mRNA调控网络的关键候选分子进行相应的实验验证,只有当预
测的调控轴中每个RNA分子的表达变化具有统计学显着差异,且彼此间的双荧光素酶报告
基因结果确诊了它们的靶向生物学关系时,才认为预测的调控网络得到了验证。
[0058] 综上,本实施例1中,提出的机器学习导向的多组学数据整合分析方法,预测了可靶向的疾病相关 lncRNA‑miRNA‑mRNA调控轴。基于优化的XGBoost算法通过量化模型中的
每个基因以获取关键蛋白质编码生物标志物,为预测疾病相关lncRNA‑miRNA‑mRNA调控网
络提供了一种新的可靠的解决方案。
[0059] 实施例2
[0060] 本实施例2中,提供一种疾病相关非编码RNA调控轴多维靶向预测系统,包括:
[0061] 筛选模块,用于利用多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
[0062] 确定模块,用于基于构建的蛋白‑蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
[0063] 获取模块,用于在确定的枢纽基因中,获取关键蛋白编码标志物;
[0064] 预测模块,用于利用构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
[0065] 本实施例2中,利用上述的系统,实现了复杂疾病相关非编码RNA调控轴的多维靶向预测方法,包括:
[0066] 利用筛选模块,基于多维组学数据筛选出疾病组与对照组间的差异表达基因和共表达基因模块,并进行富集分析;
[0067] 利用确定模块,基于构建的蛋白‑蛋白相互作用网络,对筛选出的差异表达基因和共表达基因进行处理,确定枢纽基因的组成;
[0068] 利用获取模块,在确定的枢纽基因中,获取关键蛋白编码标志物;
[0069] 利用预测模块,基于构建的竞争性内源RNA网络,提取包含所述关键蛋白编码标志物在内的非编码RNA调控轴网络。
[0070] 具体的,基于差异表达miRNA或lncRNA,结合lncRNA‑miRNA网络和miRNA‑靶基因网络,构建竞争性内源网络。
[0071] 其中,利用多组学数据整合分析得到差异表达miRNA或lncRNA,利用StarBase数据库和miRWalk 数据库预测得到lncRNA‑miRNA网络和miRNA‑靶基因网络。
[0072] 利用竞争性内源网络提取了包含关键蛋白编码标志物在内的lncRNA‑miRNA‑mRNA调控轴网络。
[0073] 预测的所述RNA调控轴网络中每个非编码RNA分子的表达变化具有统计学显著差异,且彼此间的双荧光素酶报告基因结果确定了所述非编码RNA分子的靶向生物学关系。
[0074] 本实施例2中,通过对基因组、转录组和甲基化数据三个维度的组学数据进行相应的生物信息学分析前预处理,并进行权重基因共表达网络分析筛选出疾病组与对照组间的
差异表达基因和共表达基因。
[0075] 然后,对筛选出来的差异表达基因和共表达基因进行GO和KEGG的富集分析,并构建蛋白‑蛋白相互作用PPI网络,最终确定了关键枢纽基因的组成。
[0076] 其中,本实施例2中,基于优化XGBoost算法和多组学数据库机器学习模型,在确定的枢纽基因中寻找关键蛋白编码标志物,并进行权重赋值。
[0077] 本实施例2中,优化的XGBoost算法公式如下:
[0078]
[0079] 其中, 表示目标函数, 表示样本数量, 表示第 次迭代建立的树模型的结构, 表示自变量, 表示二阶导, 表示一阶导, 表示模型复杂度, 表示控制
叶子数量的参数, 表示叶节点的数量, 表示控制L1正则化惩罚项的参数, 表示模型
参数,表示控制L2正则化惩罚项的参数。
[0080] 实施例3
[0081] 如图1所示,本实施例3中,提供一种基于优化的机器学习XGBoost算法的可多维靶向妊娠期糖尿病相关的非编码RNA调控轴预测方法,该方法实施主要包括以下三个步骤:
[0082] 第一步:通过多组学生物信息学数据库筛选潜在的差异生物标志物;
[0083] 具体步骤包括:通过GEO数据库下载疾病相关的基因组、转录组和甲基化数据。如,下载了与妊娠期糖尿病相关的转录组数据(GSE154377  、GSE150621)、表达谱数据
(GSE87295)以及甲基化数据(GSE88929),并且基因表达综合 (GEO) 数据库中获取了
lncRNA谱数据(GSE112168)。
[0084] 将上述数据经过预处理以保留差异表达基因、甲基化基因和 miRNA的合适数据。根据t‑SNE算法和相关矩阵分析结果,保留妊娠期糖尿病组与对照组差异显著的样本。
[0085] 因此,本实施例3中,从GSE154377的134个样本中,选择了49个相关样本,包括32个妊娠期糖尿病样本和17个对照样本;GSE112168包括6个妊娠期糖尿病样品和6个对照样品;
共筛选了来自GSE150621的8个样品,包括5个妊娠期糖尿病样品和 3个对照样品。
[0086] 使用R统计软件中的DESeq2包筛选差异表达miRNA和差异表达基因(DEG)。使用R统计软件中的limma包,保留了GSE87295中的7个样品,包括5个妊娠期糖尿病样品和2个对照
样品。在GSE88929的两个数据集(A和B)中,选择了样本较多的数据集B,包括23个妊娠期糖
尿病样本和45个对照样本。使用R统计软件中的ChAMP包筛选差异甲基化位置(DMP)。使用R
统计软件中的WGCNA包基于GSE154377数据(满足WGCNA的最小样本量要求)进行基因表达矩
阵和共表达分析,以提取疾病相关模块中的共表达基因。通过R统计软件中的
ggVennDiagram包,将WGCNA中差异表达的生物标志物和共表达的基因分为两组,基因上调
组和基因下调组。
[0087] 第二步:基于全新优化的机器学习XGBoost算法和多组学数据库机器学习模型,寻找关键的生物标志分子(即蛋白编码标志物)。
[0088] 具体步骤包括:
[0089] 通过GO数据库富集分析的差异生物标志物的生物学相关功能,主要包括细胞成分、生物过程和分子功能;通过蛋白质‑蛋白质相互作用(PPI)网络的构建基于疾病相关关
键蛋白调控通路,使用STRING数据库构建蛋白‑蛋白(PPI)相关作用网络,然后使用在 
Cytoscape 软件中使用CentiScaPe2.2插件。
[0090] 通过机器学习算法获取关键蛋白生物标志物,本实施例3中,采用优化的机器学习集成分类算法XGBoost。
[0091] XGBoost算法公式如下:
[0092]
[0093] 其中, 表示目标函数, 表示样本数量, 表示第 次迭代建立的树模型的结构, 表示自变量, 表示二阶导, 表示一阶导, 表示模型复杂度, 表示控制
叶子数量的参数, 表示叶节点的数量, 表示控制L1正则化惩罚项的参数, 表示模型
参数,表示控制L2正则化惩罚项的参数。
[0094] 此外,另外三个机器学习模型也用于验证上述这些枢纽基因,包括支持向量机(SVM)、随机森林(RF)和来自 scikit‑learn的决策树。如图2、图3所示,分别为训练集数据
和预测集数据的ROC曲线示意图,计算ROC 曲线 (AUC) 下的面积和准确性以评估不同的机
器学习模型。性能最佳的机器学习模型中最重要的生物标志物由每个蛋白质编码生物标志
物的重要性决定。
[0095] 本步骤使用的所有源代码均已上传至GitHub软件项目托管平台。
[0096] 第三步:提取获得关键的lncRNA‑miRNA‑mRNA网络调控分子。
[0097] 具体步骤包括:
[0098] 使用R统计软件中的DESeq2包筛选差异表达的miRNA或lncRNA。如果没有差异表达的lncRNA数据,可以使用StarBase数据库2.0版搜索可能调控差异表达的miRNA或lncRNA。
[0099] 然后,根据StarBase数据库2.0版(标准:clipExpNum>10)预测的相互作用关系,利用差异表达的miRNAs或lncRNAs构建竞争性内源网络。
[0100] 通过使用 miRWalk 数据库,按照以下标准预测差异表达的 miRNA 的靶基因:p‑value = 0.01,“positions” =3UTR,以及 TargetScan数据库或miRDB数据库=1. PPI网络
中的hub基因与目的基因进行交集,得到疾病相关基因。
[0101] 最后,结合lncRNA‑miRNA网络和miRNA‑靶基因网络,通过Cytoscape构建竞争性内源网络。
[0102] 在所有构建的调控轴中,包含预测的风险蛋白编码生物标志物在最佳机器学习模型中的调控轴被选为我们管道的主要结果,并且可以转发给用户进行后续的实验验证。如
果有多个调控轴,则根据每个轴中包含的预测基因的重要性,将调控轴的关键程度按降序
排列。
[0103] 本实施例3中,最后在人群样本或动物模型中,对预测的关键lncRNA‑miRNA‑mRNA调控分子进行了实验验证。
[0104] 具体步骤包括:在人群样本或动物模型中,采集血液或疾病相关组织样本,对预测的关键lncRNA‑miRNA‑mRNA调控分子进行实验验证,只有当预测的调控轴中每个RNA分子的
表达变化具有统计学显着差异时,才认为预测的调控网络已经初步验证。
[0105] 考虑到胎盘作为妊娠重要组织,推测其在妊娠期糖尿病的发病机制中起着重要作用,因此,招募了5 名GDM 患者和 5名糖耐量正常对照的胎盘组织,对预测结果进行RT‑
qPCR 验证,用2–ΔΔCT(livak)法计算基因表达变化,结果如图4所示。
[0106] 综上,本实施例3中,提出的基于机器学习导向的多组学数据整合分析方法,以预测可靶向的疾病相关 lncRNA‑miRNA‑mRNA调控轴。基于优化的XGBoost算法通过量化模型
中的每个基因以发现最重要的蛋白质编码生物标志物。可以有效预测复杂疾病相关的内源
性竞争非编码RNA调控网络,并识别出关键的lncRNA‑ miRNA‑ mRNA调控轴,有助于为复杂
疾病的分子致病机制研究提供更有前景的候选者,为精准治疗药物的开发提供潜在的分子
标志物。首次确定了与妊娠糖尿病相关的 MALAT1‑hsa‑miR‑144‑3p‑IRS1调控网络轴。
[0107] 综上所述,本发明实施例所述的疾病相关非编码RNA调控轴多维靶向预测方法及系统,可以有效预测复杂疾病相关的内源性竞争非编码RNA调控网络,并识别出关键的
lncRNA‑miRNA‑mRNA调控轴,有助于为复杂疾病的分子致病机制研究提供更有前景的候选
者,为精准治疗药物的开发提供潜在的分子标志物。
[0108] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人
员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之
内。