融合DNA形状特征的蛋白质编码区域预测方法、介质和装置转让专利

申请号 : CN202310206583.2

文献号 : CN116343908B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘昊陈淼魏志强李阳阳刘成超

申请人 : 中国海洋大学保龄宝生物股份有限公司

摘要 :

本发明涉及融合DNA形状特征的蛋白质编码区域预测方法、介质和装置,属于生物信息学领域,所述方法包括数据库构建、DNA原始序列数据及DNA形状特征数据预处理、基于CNN‑BRNN的融合DNA形状特征的蛋白质编码预测模型;对预测模型进行训练,所述模型可以将DNA的形状特征与序列信息相结合,从而提高蛋白质编码区域预测的准确性。

权利要求 :

1.一种融合DNA形状特征的蛋白质编码区域预测方法,其特征在于,所述方法具体步骤如下:

步骤一、构建数据库;根据现有公开数据库,设计构建一个包含DNA形状特征数据和DNA序列信息的特殊数据集,采用基于蒙特卡洛的DNA shape方法预测DNA的重要形状特征;所述的DNA的重要形状特征包括小沟宽、移位扭曲、滑动扭曲、攀升扭曲、倾斜扭曲、滚动扭曲、螺旋扭曲、切变扭曲、伸展扭曲、交错扭曲、搭扣扭曲、螺旋桨扭曲、开放扭曲;

步骤二、DNA原始序列数据及DNA形状特征数据预处理;使用基于MC的DNA shape方法建立四聚体查询模型预测三维DNA形状特征,获取形状数值,并将这些值组合成特征向量,输入包括DNA序列信息和DNA形状特征数值两部分,对于DNA序列部分使用顺序编码和离散编码混合编码的形式,顺序编码使用C4编码,将碱基A、G、C、T分别编码为[1,0,0,0][0,1,0,0][0,0,1,0][0,0,0,1],输入为4×L的矩阵;离散编码根据DNA序列的kmer特征,使用有间隙的kmer编码;使用kmer特征函数计算含有“AGA”字段长度为5的拥有相同间隙三核苷酸的数值,输入为4×L的矩阵,对于DNA形状特征部分,输入为4×L的矩阵,其中L表示序列长度,DNA形状特征用每个核苷酸位置的一个通道载体表示,共13个通道载体;

步骤三、基于CNN‑BRNN的融合DNA形状特征的蛋白质编码预测模型;采用滑动窗口策略对编码区域和非编码区域进行区分;基于收集的样本DNA序列信息、DNA形状特征信息及其核苷酸位点上的标签数据,建立DNA序列+形状特征模型;所述DNA序列+形状特征模型为基于深度学习的CNN‑BRNN神经网络模型,对其中的DNA序列信息进行C4编码与kmer特征编码,DNA形状特征使用基于蒙特卡洛算法的DNA shape方法提取,采取多输入并行卷积架构,CNN神经网络模型的输入为三个4×L的矩阵,分别为DNA序列的C4编码信息、DNA形状特征信息,然后分别进行卷积以及最大池化,其中卷积层使用的激活函数为ReLU(x)=max(0,x),最后经过flatten层将DNA序列信息与DNA形状特征进行结合,作为全连接层的输入,将CNN神经网络模型的输出结果与非重叠间隙kmer特征作为输入,分别输入至BRNN神经网络模型进行计算,输出对核苷酸样本的蛋白质编码区域预测值,输出部分使用双层激活函数sigmoid函数以及softmax函数;

步骤四、对步骤三中的预测模型进行训练;所提出的神经网络模型训练过程中,在‑3

Tensorflow中使用TFRecord数据格式,学习率设置为常用值10 ,进行迭代训练。

2.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行权利要求1所述的融合DNA形状特征的蛋白质编码区域预测方法。

3.一种蛋白质编码区域预测的装置,其特征在于,所述装置运行权利要求1所述融合DNA形状特征的蛋白质编码区域预测方法。

说明书 :

融合DNA形状特征的蛋白质编码区域预测方法、介质和装置

技术领域

[0001] 本发明属于生物信息学领域,结合了结构生物学和基因组学的知识设计并实现了一套融合DNA形状特征的蛋白质编码区域预测新方法。

背景技术

[0002] 蛋白质编码序列区域(CDS)是成熟mRNA中能够被翻译为蛋白质的编码序列区域。CDS的识别是基因组研究中的重要问题之一,识别CDS可以帮助挖掘基因组序列中的有效信息,从而更加深刻地理解基因组信息组成中蕴含的基本规律。面对急速增长的基因组序列信息数据,越来越多的研究通过采用计算的方法来代替传统生物学方法,高通量地对蛋白质编码区域进行预测。
[0003] DNA构象是转录因子与DNA序列结合的重要影响因素,对于CDS的预测同样具有重要作用。DNA构象可以用DNA形状特征来表示,其具体为碱基对内部和碱基对之间的平移、旋转所分配的数值(bp)或测量相反磷酸二酯骨架之间的凹槽宽度。这些数值可以通过CURVES或3DNA等软件工具进行计算,将其合并到定量模型中,可用于蛋白质编码区域预测。DNA形状特征信息可以从实验或者分子动力学模拟中获得,通过高通量方法获得整个基因组或者任意长度序列的大量形状信息。当前研究已经在DNA构象信息中挖掘了13个DNA形状(如图1所示)参数用以描述DNA识别机制,并在高通量结合预测中得到了良好的结果,提高了结合预测的准确性。
[0004] 然而当前生物DNA序列中蛋白质编码区域的预测并未很好地将DNA形状特征信息进行结合,在过去几十年中,已经出现了许多计算方法用于基因组或转录序列中蛋白质编码区域的预测。这些方法首先将生物DNA序列信息编码为数值,将这些数值输入到分类器中进行最终的预测。主要使用的计算方法有顺序模型和离散模型两种。顺序模型保留了生物序列信息中碱基的原始顺序,如C4编码中使用4个二进制数编码对核苷酸进行编码(A‑[1,0,0,0],C‑[0,1,0,0]等);离散模型根据生物序列先验知识设计一组特征,如生物序列的3‑mer表示,也能用于区分编码区域和非编码区域。
[0005] 然而无论是顺序模型还是离散模型,都尚未将DNA形状特征信息融入到蛋白质编码区域预测中,同时,预测的准确率有待进一步提高。

发明内容

[0006] 本发明要解决的技术问题在于提供一种融合DNA形状特征的蛋白质编码区域预测方法。
[0007] 本发明要解决的技术问题在于提供一种融合DNA形状特征的蛋白质编码区域预测方法,所述方法首先构建一个同时包含DNA序列基序信息以及DNA三维形状特征信息的可用于蛋白质编码区域预测的特殊数据集;然后提出一种新颖的可以同时融合DNA形状特征与序列信息的转录因子结合位点预测模型,所述模型可以将DNA的形状特征与序列信息相结合,从而提高蛋白质编码区域预测的准确性。
[0008] 本发明通过如下技术方案实现:
[0009] 一种融合DNA形状特征的蛋白质编码区域预测方法,所述方法具体步骤如下所示:
[0010] 1)构建数据库
[0011] 根据现有公开数据库,设计构建一个包含DNA形状特征数据和DNA序列信息的特殊数据集,采用基于蒙特卡洛(MC)的DNA shape方法预测DNA的重要形状特征;
[0012] 进一步,所述预测DNA的重要形状特征包括六个碱基对间参数(Shift、Slide、Rise、Tilt、Roll、Helix Twist)和六个碱基内部参数(Shear、Stretch、Stagger、Buckle、Propeller Twist、Opening)以及小沟宽(Minor Groove Width)。
[0013] 2)DNA原始序列数据及DNA形状特征数据预处理;
[0014] 使用基于MC的DNA shape方法建立四聚体查询模型预测三维DNA形状特征,获取形状数值,并将这些值组合成特征向量,输入包括DNA序列信息和DNA形状数值两部分,对于DNA序列部分使用顺序编码和离散编码混合编码的形式,顺序编码使用C4编码,将碱基A、G、C、T分别编码为[1,0,0,0][0,1,0,0][0,0,1,0][0,0,0,1],输入为4×L的矩阵;离散编码根据DNA序列的kmer特征,使用有间隙的kmer(gkm)编码,如使用f(XXAGA)计算字段长度为5的拥有相同间隙三核苷酸(AGA)的数值,输入为4×L的矩阵;对于DNA形状特征部分,输入为4×L的矩阵,其中L表示序列长度,DNA形状特征(Shift、Slide、Rise、Tilt、Roll、Helix Twist、Shear、Stretch、Stagger、Buckle、Propeller Twist、Opening、Minor Groove Width)用每个核苷酸位置的一个通道载体表示,共13个通道载体;
[0015] 3)基于CNN‑BRNN的融合DNA形状特征的蛋白质编码预测模型;
[0016] 采用滑动窗口策略对编码区域和非编码区域进行区分;基于收集的样本DNA序列信息、DNA形状特征信息及其核苷酸位点上的标签数据,建立DNA序列+形状特征模型;所述DNA序列+形状特征模型为基于深度学习的CNN‑BRNN神经网络模型,对其中的DNA序列信息进行C4编码与kmer特征编码,DNA形状特征使用基于MC(蒙特卡洛算法)的DNA shape方法提取,采取多输入并行卷积架构,CNN神经网络模型的输入为三个4×L的矩阵,分别为DNA序列的C4编码信息、DNA形状特征信息,然后分别进行卷积以及最大池化,其中卷积层使用的激活函数为ReLU(x)=max(0,x),最后经过flatten层将DNA序列信息与DNA形状特征进行结合,作为全连接层的输入,将CNN神经网络模型的输出结果与非重叠间隙kmer特征作为输入,分别输入至BRNN神经网络模型进行计算,输出对核苷酸样本的蛋白质编码区域预测值,输出部分使用双层激活函数sigmoid函数以及softmax函数;
[0017] 4)对步骤3)中的预测模型进行训练;
[0018] 所提出的神经网络模型训练过程中,在Tensorflow中使用TFRecord数据格式,学‑3习率设置为常用值10 ,进行迭代训练。
[0019] 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行所述的融合DNA形状特征的蛋白质编码区域预测方法。
[0020] 一种蛋白质编码区域预测装置,所述装置运行所述的融合DNA形状特征的蛋白质编码区域预测方法。
[0021] 本发明与现有技术相比的有益效果:
[0022] 1、构建了包含DNA序列信息以及DNA形状特征的数据集,将13个DNA形状特征编码到数据集标签中。
[0023] 本发明提出了包含丰富DNA形状特征、融合DNA序列信息的通用数据集,并提出了针对该数据集的CNN神经网络训练模型。该数据集同样适用于其他针对蛋白质编码区域预测方法的研究。
[0024] 2、设计了使用CNN‑BRNN的深度学习模型,融合了混合编码框架以及DNA shape编码,形成了蛋白质编码区域预测的新模型。
[0025] 通过融合DNA序列信息和DNA形状特征信息,对DNA序列信息进行C4和gkm混合编码,对DNA形状特征信息进行基于MC的DNA shape计算,经过CNN‑BRNN神经网络模型执行蛋白质编码区域预测任务,与其他模型相比具有更高的准确性和可用性。

附图说明

[0026] 图1为本发明的DNA形状特征类型示意图;
[0027] 图2为卷积神经网络结构图;
[0028] 图3为神经网络模型结构图;
[0029] 图4为本发明方法与不包含DNA形状特征的kmer+BRNN方法下的性能比较图。

具体实施方式

[0030] 下面通过实施例对本发明的技术方案做进一步解释,但本发明的保护范围不受实施例任何形式上限制。
[0031] 实施例1
[0032] 一种融合DNA形状特征的蛋白质编码区域预测方法,所述方法具体步骤如下所示:
[0033] 1、数据集的构建
[0034] 首先对当前研究领域内基因层面的蛋白质编码相关研究进展进行总结,归纳当前研究主要的数据集来源。其次总结当前研究主要的数据集构建方法、DNA序列信息编码方法以及DNA形状特征信息获取方法,设计构建融合形状特征的DNA序列数据集。
[0035] 本实施例构建的73组带有良好全面注释的小球藻基因组与转录本数据集可从NCBI(https://www.ncbi.nlm.nih.gov/refseq/)下载获得,实验数据格式为TFRecord,分为训练集和数据集两部分。
[0036] 从Refseq参考序列数据库获取海洋原核生物数据集,每个原核生物物种只有一个参考性或代表性基因组,该数据集上的原核生物代表性基因组被细化,单个基因组已被重新进行注释。从所有DNA序列中选择样本并对样本进行随机洗牌,正例与反例数量相等。将所有样本分成3部分,执行3倍交叉验证,同时从测试集中删除相似样本以保证测试集中的每个样本与训练集中的每个样本一致性不超过40%。
[0037] 2、DNA序列数据及DNA形状特征数据预处理。
[0038] 首先对数据集中的DNA序列数据进行顺序‑离散混合编码,用C4顺序模型来捕获全局序列信息,将核苷酸转换为4位二进制,如A‑[1,0,0,0]、G‑[0,1,0,0]、C‑[0,0,1,0]、T‑[0,0,0,1],用非重叠gkm离散模型来捕获局部序列信息,设置全字段长度l为5,有效核苷酸位置k为3,如使用f(XXAGA)计算字段长度为5的拥有相同间隙三核苷酸(AGA)的数值。其次,通过已有的滑动窗口策略与蒙特卡洛模拟方法,建立四聚体查询表,使用基于四聚体的模型进行预测,对DNA形状特征信息进行提取,获取13个DNA形状特征的信息值,包括小沟宽(MGW)、移位扭曲(Shift)、滑动扭曲(Slide)、攀升扭曲(Rise)、倾斜扭曲(Tilt)、滚动扭曲(Roll)、螺旋扭曲(Helix Twist)、切变扭曲(Shear)、伸展扭曲(Stretch)、交错扭曲(Stagger)、搭扣扭曲(Buckle)、螺旋桨扭曲(Propeller Twist)、开放扭曲(Opening),如图1所示。每个核苷酸位置都具有相应的碱基对间特征值与碱基对内特征值。
[0039] 对数据进行处理的卷积神经网络如图2,采取多输入并行卷积架构,输入为三个4×L的矩阵。对C4编码信息、DNA shape信息进行卷积计算及最大池化计算,其中卷积计算层使用ReLU(x)=max(0,x)作为激活函数,最后经过flatten层将DNA序列信息与gkm特征以及DNA形状特征进行结合,输入全连接层后,将最终输出作为输入,输入至BRNN进行蛋白质编码区域预测。
[0040] 3、融合DNA形状特征的蛋白质编码区域预测模型迭代训练。
[0041] 本实施例所使用的样本序列先后使用了两种不同的模型:(1)融合DNA形状特征信息和序列C4编码的CNN模型。经过C4编码的DNA序列信息与经过MC方法提取出的DNA形状特征信息以两个4×92的矩阵形式作为输入,经过CNN神经网络模型计算后,其输出与包含gkm特征编码信息的一个4×92矩阵一起进行串联运算。(2)预测核苷酸编码可能性的BRNN模型。将CNN的输出与gkm特征进入BRNN神经网络模型参与双向循环计算,使用两个隐藏层W1、W2,正向循环层Wf、反向循环层Wb以及两层激活函数sigmoid以及softmax计算后,输出为对蛋白质编码区域的预测值。所提出的神经网络模型如图3所示,训练过程中,在Tensorflow‑3中使用TFRecord数据格式,学习率设置为常用值10 ,进行多次迭代训练直至模型稳定。本实例记录了73组小球藻基因组与转录组数据在所述融合DNA形状的CNN+BRNN蛋白质编码区域预测方法与不包含DNA形状特征的kmer+BRNN方法下的性能比较。如图4所示,实验评估证明,融合DNA形状的混合编码预测模型在蛋白质编码区域预测方面表现出更加良好的性能和较高的准确度。