一种用tRNA组学来质控蛋白生物合成体系的方法转让专利
申请号 : CN202110141068.1
文献号 : CN112908407B
文献日 : 2021-10-01
发明人 : 夏青 , 张浩然 , 史宁宁
申请人 : 北京大学
摘要 :
权利要求 :
1.一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,包括以下步骤:S1、对蛋白生物合成体系的tRNA进行测序归档,其中,所述蛋白生物体系包括待测体系B和参比体系A;
S2、对上述待测体系B和参比体系A的单个体系tRNA组学进行分析:将测序归档得到的数据做标准化处理和/或数学转换后,获得tRNA表达量信息;将tRNA表达量按照其对应的氨基酸和/或反密码子进行分类汇总,获取多个级别的tRNA表达量信息,再对tRNA表达量信息进行数据分析和/或数据可视化处理;
所述将测序归档得到的数据经标准化处理和/或数学转换,其具体方法为:由tRNA测序归档技术得到的tRNA计数数据经过标准化处理后转换成百万分数,再经过对数转换后得到对数百万分数,两者都可以用作tRNA表达量的衡量指标,并用于后续的数据分析和可视化,其公式如下:
其中,Count为tRNA计数;CPM为tRNA计数数据经过标准化处理后转换成百万分数;
logCPM为CPM再经过对数转换后得到对数百万分数;
S3、对多个体系的tRNA进行组学比较:采用tRNA组学的相似度计算方法、tRNA组学的匹配查询方法及tRNA组学差异的量化方法对多个体系的tRNA进行组学比较,获得待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异;
S4、基于上述S3中获得的待测体系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差异,建立公式化的质控指标,形成基于tRNA组学的质控指标及报告;
S4所述建立公式化的质控指标,具体方法为:用已知质量标准的蛋白生物合成体系作为参比体系A,用未知质量标准的蛋白生物合成体系作为待测体系B,设定若干生物学重复,执行主成分分析,用重心法确定体系A和B之间的量化tRNA组学差异,即组间差异,用平均距离法确定参比体系A内部的量化tRNA组学差异,即组内差异,以组间差异是组内差异的多少倍作为量化质控指标,公式如下:。
2.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述蛋白生物合成体系包含:信使RNA、tRNA、核糖体以及蛋白质合成相关酶类的生物体系,所述蛋白生物合成体系位于以下结构中:细胞、组织、器官、胚胎、干细胞、类器官、嵌合体、菌株。
3.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述待测体系B指的是待测定的、质量特征未知的蛋白生物合成体系,所述参比体系A是指充当参照物的、质量特征已知的蛋白生物合成体系。
4.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述多个级别的tRNA表达量信息包括:tRNA级别、反密码子级别、氨基酸级别和由反密码子配对衍生的密码子级别的tRNA表达量信息。
5.根据权利要求4所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,根据所述tRNA级别、反密码子级别、氨基酸级别和衍生密码子级别的tRNA表达量信息,可以选择所述级别中的任意一个或多个级别进行tRNA表达量信息的数据分析和/或数据可视化处理,亦可使用原始的或数学转换后的tRNA表达量信息。
6.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述tRNA组学的相似度计算方法为:使用体系两两比较的散点图来表示tRNA表达量信息的相似性,计算tRNA表达量信息的相关系数用来量化不同体系tRNA组学的相似度,使用热图来呈现相关系数矩阵,使用树图来表示不同体系在tRNA组学方面的亲缘关系,使用降维主成分图来表示不同体系在tRNA组学方面的相似度;所用的tRNA表达量信息是按级别汇总的、原始的或数学转换后的tRNA表达量信息。
7.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述tRNA组学的匹配查询方法为:获取待测体系B和一系列参比体系A的tRNA组学数据,通过计算tRNA组学相似度和/或数据可视化,寻找参比体系A中与待测体系B相似度较高的一个或多个作为匹配查询的结果。
8.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,所述tRNA组学差异的量化方法为:对多个体系的tRNA组学数据进行降维分析,用其在主成分上的坐标差异进行量化比较。
9.根据权利要求1所述的一种用tRNA组学来质控蛋白生物合成体系的方法,其特征在于,对量化质控指标设定一系列参考阈值,将所建立的公式化的质控指标与预设的参考阈值比较,用于评价优劣。
说明书 :
一种用tRNA组学来质控蛋白生物合成体系的方法
技术领域
背景技术
织、器官、胚胎、干细胞、类器官、嵌合体、菌株等。当前对蛋白生物合成体系的质控方法有:
外观形态法、生物化学法、免疫学检测(例如用抗体染特定抗原标志物)、遗传学检测(例如
染色质核型,DNA指纹图谱)等,通常选择不止一种方法进行质控,目前尚未将tRNA组学纳入
常规质控的范畴。
异性,tRNA组学可以反映这些蛋白生物合成体系的综合状态,可以从tRNA组成、含量、供应
状态等角度来表征蛋白翻译过程。通过tRNA测序归档技术(tRNA sequencing and
profiling technique)可以获得细胞或组织等蛋白生物合成体系的tRNA组学信息,步骤包
括:从蛋白生物合成体系提取总RNA,通过酶降解其他RNA和长度筛选获取其中<200nt的成
分,去氨酰化之后构建tRNA测序文库,再次做长度筛选(170~210bp)后进行高通量测序,将
测序结果与该物种精简化的tRNA标准库进行序列比对和归档,从而获得体系中tRNA的种
类、组成和表达量信息。现有技术已支持获取tRNA组学,但是如何将tRNA组学用于评估蛋白
生物合成体系,如何建立量化的质控指标等问题,仍有待解决。
发明内容
应的氨基酸和/或反密码子进行分类汇总,获取多个级别(tRNA、反密码子、氨基酸级别,以
及由配对衍生的密码子级别)的tRNA表达量信息,再对tRNA表达量信息进行数据分析和/或
数据可视化处理;
系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差
异;
质控指标及报告。
基酸添加到新生多肽链上,从而完成蛋白翻译。体系中的不同种类或结构的tRNA及其表达
量共同构成tRNA组学,其主要作用是为蛋白生物合成体系供应不同类型的氨酰化tRNA,是
蛋白生物合成体系的重要成员。不同的蛋白生物合成体系具有不全相同的tRNA组成,也就
是说,tRNA组学具有潜在的体系特异性,可以作为体系的指纹特征用于鉴定或质控等目的。
相同但反密码子不同的tRNA互称为isoacceptor。因此,通过tRNA测序归档技术获得某一体
系中所有tRNA的表达量信息后,可以根据tRNA的反密码子或对应的氨基酸,对表达量进行
分类汇总,从而获得多个级别的tRNA组学数据,后续的数据分析和数据可视化可以针对一
个或多个级别进行。
CPM),再经过对数转换后得到对数百万分数(logCPM),两者都可以用作tRNA表达量的衡量
指标,并用于后续的数据分析和可视化,其公式如下:
嵌合体、菌株。
分析和/或数据可视化处理,亦可使用原始的或数学转换后的tRNA表达量信息。
体系tRNA组学的相似度,使用热图来呈现相关系数矩阵,使用树图来表示不同体系在tRNA
组学方面的亲缘关系,使用降维主成分图来表示不同体系在tRNA组学方面的相似度,以及
上述方法的任意组合或复合形式,所用的tRNA表达量信息是按级别汇总的、原始的或数学
转换后的tRNA表达量信息。
或CPM值的相关系数,得到相关系数矩阵,并用热图呈现;生成相关系数的热图时可以进行
聚类分析,生成附属的树图,可以表示体系间的亲缘关系;对tRNA的CPM值做主成分分析
(Principal Component Analysis,PCA),其目的是降维,得到多个体系在各个成分上的坐
标分量,取主成分绘制降维主成分图(亦称为PCA图);按照反密码子或对应氨基酸对tRNA的
CPM值进行分类汇总,使用汇总后的CPM值或logCPM值执行上述分析和绘图步骤,得到反密
码子级别或氨基酸级别的散点图矩阵、相关系数热图、树图和降维主成分图,这些图及其包
含的量化信息均可用于评估多个体系tRNA组学的相似度。
tRNA组学的相似度和/或数据可视化,得到降维主成分图,并结合树图来寻找参比体系A中
与待测体系B相似度较高的一个或多个作为匹配查询的结果。
物学重复的重心,箭头终点对应于体系B或其生物学重复的重心,箭头长度及其在各轴上的
投影可以反映体系A和B的tRNA组学差异大小。
B之间的量化tRNA组学差异,即组间差异,用平均距离法确定参比体系A内部的量化tRNA组
学差异,即组内差异,以组间差异是组内差异的多少倍作为量化质控指标,公式如下:
重复,以考察其量化质控指标的稳定性。最后,将质控指标和相关数据图片等内容整理成质
控报告。
好等优势,可以从总体tRNA供给角度对蛋白生物合成体系进行多维度量化质控。
附图说明
具体实施方式
实施方式。
均为可以通过市购等途径获得的常规产品。
充当参照物的、质量特征已知的蛋白生物合成体系;
和柱形图一般适合单个体系tRNA组学信息的可视化;
CPM),再经过对数转换后得到对数百万分数(logCPM),两者都可以用作tRNA表达量的衡量
指标,并用于后续的数据分析和可视化,其公式如下:
系B和参比体系A之间的tRNA组学差异以及参比体系A内部或待测体系B内部的tRNA组学差
异;
值的相关系数,得到相关系数矩阵,并用热图呈现;生成相关系数的热图时可以进行聚类分
析,生成附属的树图,可以表示体系间的亲缘关系;对tRNA的CPM值做主成分分析
(Principal Component Analysis,PCA),得到多个体系在各个成分上的坐标分量,取主成
分绘制降维主成分图(亦称为PCA图);按照反密码子或对应氨基酸对tRNA的CPM值进行分类
汇总,使用汇总后的CPM值或logCPM值执行上述分析和绘图步骤,得到反密码子级别或氨基
酸级别的散点图矩阵、相关系数热图、树图和降维主成分图,这些图及其包含的量化信息均
可用于评估多个体系tRNA组学的相似度;
可视化,得到降维主成分图,并结合树图来寻找参比体系A中与待测体系B相似度较高的一
个或多个作为匹配查询的结果;
质控指标及报告;
B之间的量化tRNA组学差异,即组间差异,用平均距离法确定参比体系A内部的量化tRNA组
学差异,即组内差异,以组间差异是组内差异的多少倍作为量化质控指标,公式如下:
重复,以考察其量化质控指标的稳定性。最后,将质控指标和相关数据图片等内容整理成质
控报告。
类汇总,从而得到三个级别的tRNA表达量信息,将其绘制成多级别饼图(图3),可以直观地
呈现单个体系的tRNA组成。例如在SK‑N‑SH细胞中,按氨基酸级别汇总(内环),含量最高的
三类tRNA分别是tRNA‑Glu,tRNA‑Gly和tRNA‑Gln;按反密码子级别汇总(中环),含量最高的
是tRNA‑Glu‑CTC;按tRNA级别汇总(外环),含量最高的是tRNA‑Glu‑CTC‑1‑1,约占13%。根
据目的,亦可选择呈现其中一个或多个级别的饼图,在一些软件或插件中可以直接实现饼
图级别的增减和样品间的切换,例如Excel与Krona模板的组合。
对BEAS‑2B细胞的tRNA表达量或百万分数,首先按照反密码子进行汇总,然后根据反密码子
和密码子的配对关系和效率,对可以与某个密码子配对的一类tRNA进行表达量或百万分数
汇总,最终可以获得密码子级别的tRNA组学信息。
测序归档技术和tRNA组学分析获得所有样品的tRNA表达量信息,转换成logCPM形式。
么其散点将位于对角线附近。如果两个体系的tRNA组成较为接近,那么所有散点将会集中
分布在对角线的附近。因此,体系两两比较的散点图可以用来直观表示tRNA表达量和组成
的相似性,散点分布越窄则两个体系的tRNA组学相似度越高。
则两个体系的tRNA组学相似度越低。可以使用热图来呈现相关系数矩阵,同时生成树图来
表示不同体系在tRNA组学方面的亲缘关系,在树图上处于相邻的分支表示亲缘关系越近或
tRNA组学相似度越高。此外,亦可将散点图、热图、树图复合在一起进行可视化(图5)。
坐标进行可视化(图6),可以发现SK‑N‑MC和SK‑N‑SH的四个散点非常接近,表示两个细胞系
在tRNA组学方面相似度比较高,这与两个细胞系均为神经瘤细胞有关。HEK293T+3CD是由
HEK293T衍生的稳定细胞系,其散点也较为接近。也就是说,降维主成分图上的散点距离或
坐标差异可以用来量化地表示多个体系的tRNA组学相似度或tRNA组学差异。此外,从降维
主成分图上还可看到,生物学重复之间的距离通常比细胞系之间的距离小,即组内差异小
于组间差异,说明tRNA组学具有一定的细胞特异性,也证明本发明所提供的tRNA组学分析
方法具有良好的稳定性和区分性。
析和比较。
tRNA组学数据库中的匹配查询,从而用于体系的鉴定。例如圆圈里的两个点是待测的细胞
系(已经传代了若干次的HEK293T细胞),其与参比体系中最接近的是标准质量的HEK293T细
胞系,而与其他参比细胞系的散点偏离都比较远,从而证明了tRNA组学匹配查询方法的可
行性。此时,降维主成分图上待测HEK293T细胞系和参比HEK293T细胞系的重心差异,可以用
于反映待测细胞系的质量。
作为待测体系,其与前述的三个体系分别同源。通过本发明的tRNA组学分析方法,可以获得
这些体系的散点复合热图、降维主成分图、按氨基酸或反密码子汇总的CPM堆积柱形图等。
在其中的降维主成分图上,A549细胞感染流感病毒前后的tRNA组学差异(以实线箭头表
示),大约是参比A549细胞内部的tRNA组学差异(以A549_R1和A549_R2两点距离表示)的4.3
倍,表明感染了流感病毒后A549细胞的tRNA组学发生了很大变化,其质量已非常偏离标准
A549细胞系。亦可只考虑主成分1(即降到一维),实线箭头在X轴上的分量,大约是A549_R1
和A549_R2两点X坐标差异的4.56倍,此指标亦可用作量化质控指标。
用实线箭头在主成分1或主成分2上的分量来分别计算单维度的量化质控指标。
离人脑组织。
为标准参比体系(图10),从另一只小鼠体内出分离心和肌肉组织(分别记为Heart_R2和
Muscle_R2)作为未知待测体系。从质控报告的降维主成分图可以看出,与Heart_R2最接近
的是Heart_R1,故鉴定Heart_R2为心组织。与Muscle_R2较接近的有Muscle_R1和Cerebral_
cortex_R1两个,此时可以结合质控报告中的树图来综合判断,在树图上Muscle_R1和
Muscle_R2处于最为相邻的分支,故初步鉴定Muscle_R2为肌肉组织。
于组织的质控。