一种蛋白质结构预测方法及装置转让专利
申请号 : CN202011585063.X
文献号 : CN112289370B
文献日 : 2021-03-23
发明人 : 华权高 , 赵海义 , 舒芹
申请人 : 武汉金开瑞生物工程有限公司
摘要 :
权利要求 :
1.一种基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,包括如下步骤:
获取目的基因序列,以及蛋白质数据库;
根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ=27.333+3.839X1+1.095X2‑0.856X3+2.745X4‑1.735X5+4.618X6‑2.199X7‑9.985X8+
1.275X9,其中,ŷ为蛋白质的统计深度特征,X1、X2分别表示氨基酸的带电性和极性,X3、X4表示氨基酸的化学分类,X5至X9分别表示5种疏水值;将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;
将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练好的多任务时域卷积神经网络;
将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
2.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述多任务时域卷积神经网络包括第一时域卷积神经网络、第二时域卷积神经网络以及预设数量的共用卷积层,所述第一时域卷积神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其对应蛋白质的统计深度特征。
3.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构包括如下步骤:根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;
根据已有蛋白质形态构建基本骨架;
根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白质的空间结构。
4.根据权利要求3所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述形态特征包括空洞、口袋、管道,所述空洞用于表征蛋白质内部结构,所述口袋表征蛋白质与受体之间的相互关系,所述管道表征蛋白质的聚合体形态。
5.根据权利要求1所述的基于多任务时域卷积神经网络的蛋白质结构预测方法,其特征在于,所述将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量包括如下步骤:
根据核酸的替换速率、转换、核酸和密码子的平衡频率确定所述进化速率。
6.一种基于多任务时域卷积神经网络的蛋白质结构预测装置,其特征在于,包括获取模块、提取模块、映射模块、训练模块、预测模块,所述获取模块,用于获取目的基因序列,以及蛋白质数据库;
所述提取模块,用于根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;所述根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方程为:
ŷ=27.333+3.839X1+1.095X2‑0.856X3+2.745X4‑1.735X5+4.618X6‑2.199X7‑9.985X8+
1.275X9,其中,ŷ为蛋白质的统计深度特征,X1、X2分别表示氨基酸的带电性和极性,X3、X4表示氨基酸的化学分类,X5至X9分别表示5种疏水值;所述映射模块,用于将所述三元序列数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;
所述训练模块,用于将所述多维特征向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;
所述预测模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
7.根据权利要求6所述的基于多任务时域卷积神经网络的蛋白质结构预测装置,其特征在于,所述预测模块包括第一预测子模块、第二预测子模块,所述第一预测子模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;
所述第二预测子模块,用于根据所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
8.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑5中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1‑5中任一所述的方法。
说明书 :
一种蛋白质结构预测方法及装置
技术领域
背景技术
sheet)、β‑转角(β‑turn)和无规卷曲(random coil),其中α螺旋和β折叠这两个蛋白质二级
结构仅依赖于主链骨架,即所有氨基酸的共同部分,所以这两个蛋白质的二级结构会频繁
地出现于大多数的蛋白质结构中。蛋白质的氨基酸序列决定了它的二级结构,二级结构又
决定了它的空间结构,蛋白质的空间结构又决定了它生理功能的多样性。可见,序列、结构
和功能之间的关系密不可分。
于各种不同的生物数据库中。蛋白质一级结构的数量以指数级别增长,这为蛋白质空间结
构的研究带来了更大的便利与挑战。这样,由一级结构预测二级结构成了蛋白质组学的重
要研究方向。
特征经过一系列的复杂运算,特征在提取中丢失信息,从而导致预测蛋白质结构的准确率
低和鲁棒性差。
发明内容
的基因序列,以及蛋白质数据库;根据遗传密码表和蛋白质数据库建立每个蛋白质对应的
DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基
深度、物理化学性质建立多元回归方程,得到每个蛋白质的统计深度特征;将所述三元序列
数据集通过基因的同源信息、进化速率进行聚类并映射为多维特征向量;将所述多维特征
向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务
时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时
停止训练,得到训练好的多任务时域卷积神经网络;将所述目的基因序列输入到训练好的
多任务时域卷积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据
所述氨基酸序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法
预测蛋白质结构。
步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深度,根据每个
氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所述多元回归方
程为:
示氨基酸的化学分类,X5至X9分别表示5种疏水值。
据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸序列输出其
对应蛋白质的统计深度特征。
面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据已有蛋白质
形态构建基本骨架;根据所述空间质点系的形态特征对基本骨架进行修饰,得到最终蛋白
质的空间结构。
密码子的平衡频率确定所述进化速率。
用于获取目的基因序列,以及蛋白质数据库;所述提取模块,用于根据遗传密码表和蛋白质
数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质数据库中的组
成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到每个蛋白质的
统计深度特征;所述映射模块,用于将所述三元序列数据集通过基因的同源信息、进化速率
进行聚类并映射为多维特征向量;所述训练模块,用于将所述多维特征向量、蛋白质的统计
深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,
直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练;所述预测
模块,用于将所述目的基因序列输入到训练好的多任务时域卷积神经网络中,得到目的氨
基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及其对应蛋白质的统计深
度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
基酸序列及其对应蛋白质的统计深度特征;所述第二预测子模块,用于根据所述氨基酸序
列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结
构。
一个或多个处理器实现本发明第一方面所述的方法。
合时间;
合度;
附图说明
具体实施方式
根据遗传密码表和蛋白质数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;
根据蛋白质数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归
方程,得到每个蛋白质的统计深度特征;S103.将所述三元序列数据集通过基因的同源信
息、进化速率进行聚类并映射为多维特征向量;S104.将所述多维特征向量、蛋白质的统计
深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务时域卷积神经网络,
直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时停止训练,得到训练
好的多任务时域卷积神经网络;S105.将所述目的基因序列输入到训练好的多任务时域卷
积神经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序
列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结
构。
征包括如下步骤:从蛋白质数据库中获取组成每个蛋白质的所有氨基酸名称及其残基深
度,根据每个氨基酸的出现的频率、带电性、极性、化学分类、疏水值确定多元回归方程;所
述多元回归方程为:
示氨基酸的化学分类,X5至X9分别表示5种疏水值。
极性,+1表示有极性,而‑1为无极性;C4列是氨基酸的化学分类,(1,1)表示脂肪羟基类,(1,
1)表示含碱性基类,(1,1)表示含酸性基类,(0,0)表示含羟基和硫类,(1,1)表示含芳基和
环类;C5‑C9分别为下列标准的疏水值:KD(Kyte and Doolittle,1982),Eisenberg
(Eisenberg et al,1984),Meek(Meek, 1980),F‑P Hl Wolfenden(Wolfenden et al,
1981)。C11为蛋白质统计深度特征,C10、C12为与C11的关联参数。
神经网络根据所述多维特征向量输出氨基酸序列;所述第二时域卷积神经网络根据氨基酸
序列输出其对应蛋白质的统计深度特征。
(residual block)的输入中,从而产生下一个块的输入。对于网络的所有内部块,即除了第
一个和最后一个之外的所有内部块,输入和输出通道宽度是相同的,即num_filters。由于
第一个残差模块的第一卷积层和最后一个残差模块的第二卷积层可能有不同的输入和输
出通道宽度。除此之外,可通过引入dropout、Relu等方式规范隐含层的输入、防止模型的过
拟合。可选的,由上一个残差模块直接经过1×1卷积(optional 1×1 convolution)与最后
一层输入叠加之后输出到下层残差模块中(input for next residual block )。
根据空间多面体、超图、蛋白质的统计深度特征确定蛋白质的空间质点系的形态特征;根据
已有蛋白质形态构建基本骨架;根据所述空间质点系的形态特征对基本骨架进行修饰,得
到最终蛋白质的空间结构。
密码子的平衡频率确定所述进化速率。
位置,第一个密码子位置的核酸的替换率又大于第二个密码子位置。在密码子模型中,每一
个密码子被看作一个突变单元。这样,密码子的替换可以分为两类,第一类为同义替换,即
替换前和替换后的密码子表达同一种氨基酸(比如GAG‑>GAA,它们都翻译为Glu);第二类为
非同义替换,即替换前和替换后的密码子表达不同的氨基酸(比如GAG‑>GAC,它们分别翻译
为Glu和Asp;
嘌呤(TA,TG,CA,CG),一般来说,在进化过程中,碱基的转换要远多于颠换;
率这样估计:把这个密码子中三个碱基在两个序列的中的含量相乘。
重构系统发生树的有力手段。而且,同源的序列一般有相似的功能。序列中同源的部分也被
称为保守的(conserved)。蛋白质和DNA的同源性常常通过它们序列的相似性(Sequence
similarity)来判定,相似性一般用检测序列和目标序列之间序列一致性(Percent
identity)来表示。相似性(Sequence similarity)是指序列比对过程中用来描述检测序列
和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。一般来说,当相似程度高
于50%时,常推测检测序列和目标序列可能是同源序列;当相似性程度低于20%时,就难以确
定其是否具有同源性。可选地,利用Phylip软件绘制进化树,通过Treeview对进化树处理软
件,通过Genetree来比较基因与种系进化树。
取模块11,用于获取目的基因序列,以及蛋白质数据库;所述提取模块12,用于根据遗传密
码表和蛋白质数据库建立每个蛋白质对应的DNA‑RNA‑氨基酸三元序列数据集;根据蛋白质
数据库中的组成每个蛋白质的氨基酸的残基深度、物理化学性质建立多元回归方程,得到
每个蛋白质的统计深度特征;所述映射模块13,用于将所述三元序列数据集通过基因的同
源信息、进化速率进行聚类并映射为多维特征向量;所述训练模块14,用于将所述多维特征
向量、蛋白质的统计深度特征作为多任务时域卷积神经网络的输入,用于训练所述多任务
时域卷积神经网络,直至所述多任务时域卷积神经网络的输出误差低于阈值且趋于稳定时
停止训练;所述预测模块15,用于将所述目的基因序列输入到训练好的多任务时域卷积神
经网络中,得到目的氨基酸序列及其对应蛋白质的统计深度特征;根据所述氨基酸序列及
其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质结构。
氨基酸序列及其对应蛋白质的统计深度特征;所述第二预测子模块,用于根据所述氨基酸
序列及其对应蛋白质的统计深度特征,利用已有蛋白质形态特征和小球滚动法预测蛋白质
结构。
器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500
操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输
入/输出(I/O)接口505也连接至总线504。
器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以
允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装
置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实
施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代
表多个装置。
上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实
施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508
被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施
例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可
以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可
读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置
或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具
有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器
(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑
ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机
可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置
或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括
在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种
传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的
组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该
计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或
者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,
包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
或者多个程序被该电子设备执行时,使得该电子设备:可以以一种或多种程序设计语言或
其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向
对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计
语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部
分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程
计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程
计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计
算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用
于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标
注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上
可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注
意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执
行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令
的组合来实现。