基于分子空间位置编码注意力神经网络模型的分子性质预测方法转让专利

申请号 : CN202110473289.9

文献号 : CN113241128B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 饶国政薛力源

申请人 : 天津大学

摘要 :

本发明公开了一种基于分子空间位置编码注意力神经网络模型的分子性质预测方法。该方法通过机器学习技术将分子的3D构象中的空间位置进行编码,更好的表示分子中不同位置对于子结构造成的影响以更好表征分子同时利用注意力机制的神经网络结构和门控循环网络(GRU)用来预测其化学性质。本发明充分利用了分子子结构的拓朴关系,在公开数据集上进行实验,有效提高了分子水溶性毒性亲水性等性质预测的效果,为药物分子预测提供了新的方法。

权利要求 :

1.一种分子性质预测方法,其特征在于,通过设计的预测模型实现,该预测模型包括双向门控网络层、多头注意力层;预测时,将含有空间位置编码的分子信息输入到双向门控网络层,捕获分子的双向信息,进行两层属性预测;多头注意力层负责接收双向门控网络层的输出,通过多头注意力计算,得到各个子结构的特征信息;最后由输出层接收所输出的各个子结构的特征信息,输出分子性质的最终预测结果;

通过嵌入层形成含有空间位置编码的分子信息,所述嵌入层通过获取多级连续分子表示实现:

首先,受NLP的启发,将每个分子作为一个句子,并将分子拆分成步长长度为2的子结构;

所述子结构设置顺序:将分子中连接性最大的原子作为中心原子,用中心原子的坐标作为该子结构的坐标,每个原子的空间坐标来自RDKit,分子中心位置通过对每个原子的空间位置取平均求取;中心原子用于获取步长为2内相邻原子的信息并通过摩根算法计算出子结构的独热的向量表示;

所述连接性指原子连接的非氢键数,若有多个原子具有相同数量的非氢键,则采用键价最多的原子,若仍然相同,最接近分子中心的原子被作为中心原子;

其次,递归形成其它子结构:

预训练一个由大量无监督分子子结构的嵌入矩阵,使用ZINC15数据库作为化合物来源来组成化合物的主体:首先对分子识别预先定义好的官能团以及环状结构,防止被分成多个子结构,然后对其它部分利用连通性切分,每个子结构获得一个嵌入向量;该嵌入向量初始标识符使用摩根算法,包含子结构内部原子的化学信息;将每个原子的经Rdkit处理的三维坐标通过PCA降维成一维,然后根据降维后的数值作为每个原子在分子中的位置一同嵌入向量,表示分子中子结构的属性;

采用skip‑gram方法将子结构词汇表映射到嵌入矩阵中,基于数据库中大量无标记的化学分子子结构之间的连通性来训练嵌入矩阵,生成一组低维稠密的向量初步表示子结构;

利用以获取到的每个原子的空间位置信息,将子结构中含有的原子坐标相加求平均,可以获得子结构的三维坐标,将其逐个映射到子结构嵌入空间,完成嵌入。

2.根据权利要求1所述分子性质预测方法,其特征在于,将含有空间位置编码的分子信息输入到模型中预测前,利用Rdkit获取每个原子坐标信息,并通过对子结构中的原子坐标平均,以获取子结构的三维坐标,并逐个映射到子结构嵌入空间。

3.根据权利要求2所述分子性质预测方法,其特征在于,使用Rdkit提供的分子3D构象获得每个原子的三维坐标。

4.根据权利要求1所述分子性质预测方法,其特征在于,所述输出层根据回归或是分类任务的不同选则softmax或logistic Sigmoid函数,且不同的数据集需要不同的超参数。

说明书 :

基于分子空间位置编码注意力神经网络模型的分子性质预测

方法

技术领域

[0001] 本发明涉及化学信息学、机器学习/人工智能领域,具体为一种基于空间位 置编码并使用化学信息学、机器学习/人工智能的手段来预测未知分子性质的理 论方法。

背景技术

[0002] 药物研发过程具有资金密度大、风险高、周期长的特点,需要投入大量的 资金、人力、物力。在药物开发领域,虽然很多潜在药物分子在动物模型中进 行了大量研究,但仍然
存在30%以上的候选药物分子在实际应用中因该分子其 他各种内禀性质不符合要求而失
败,说明分子性质预测工作有重要价值,可用 于更好地预测早期的分子特性,可大大降低
后期工艺失败的负荷,节省大量资 源和时间即加速中间步骤,从而降低成本。
[0003] 近30年来,医药开发领域的研究者们试图将机器学习引入药物化学研究中, 以解决药物开发过程中的问题。近10年来,深度学习方法在语音识别、计算机 视觉、自然语言处
理、数据挖掘等不同领域取得了显著的成就。医药化工领域 的研究人员也在尝试将新的深
度学习方法应用到药物研发过程中,降低药物研 发成本,深度学习方法不同于传统的机器
学习方法。它可在大量的标签化数据 的监督下自动学习数据的表示方式,从而实现数据特
征的自动提取,深度学习 方法的核心是利用神经网络模块自动学习分子结构或描述符中
保留了大量原始 结构信息的分子结构或描述符的低维密集表示向量,通过对分子结构的
描述符 进行自动学习,从而实现对分子特征的自动提取。深度学习中使用了多种类型 的
分子表示形式,通过SMILES(简化的分子输入行输入系统),它按照指定的 语法将分子编码
为有意义的序列;通过预先定义的化学指纹通过one‑hot向量的 形式表示分子的不同的子
结构,但太过稀疏。与指纹和SMILES相比,图形表 示可保留分子结构和拓扑信息。而将分子
机构同样可看作一个自然语言处理的 问题,此时以RNN为代表的序列建模方法可用于分子
性质的预测。
[0004] 虽然基于图的深度学习方法在预测分子特性方面取得了良好的结果,但是仍 然需要解决一些问题。传统图卷积网络中,图结构信息由邻接矩阵表示,矩阵 大小在训练过
程中是固定的。但不同分子中的原子数是不同的。因此,如何选 择合适基体尺寸是一项艰
巨任务。如RNN,长短期记忆(LSTM)和门控循环 单元(GRU)类的循环神经网络具有处理不同
大小序列的出色能力。其次,将 图将原子直接作为图的基本单元不利于保持分子化学信
息,现有大多图网络是 以分子为节点进行训练,这往往忽视了分子子结构之间内部信息,
目前基于序 列,将化学分子视为句子向量通过类似于自然语言处理的方法,无法很好区分 
不同分子或同一个分子处于不同位置的相同子结构的表示,这一点降低了模型 的性能。

发明内容

[0005] 本发明的目的是提出一种基于分子空间位置编码注意力神经网络模型的分 子性质预测分子性质预测方法,使用基于空间位置编码并使用化学信息学、机 器学习/人工智
能的手段,预测未知分子的各种性质。
[0006] 为实现上述目的,本发明采用以下技术方案:
[0007] 一种分子性质预测方法,包括以下步骤:
[0008] 通过设计的预测模型实现,该预测模型包括双向门控网络层、多头注意力 层;预测时,将含有空间位置编码的分子信息输入到双向门控网络层,捕获分 子的双向信息,进
行两层属性预测;多头注意力层负责接收双向门控网络层的 输出,通过多头注意力计算,
得到各个子结构的特征信息;最后由输出层接收 所输出的各个子结构的特征信息,输出分
子性质的最终预测结果。
[0009] 其中,通过嵌入层形成含有空间位置编码的分子信息,所述嵌入层通过获 取多级连续分子表示实现,采用NLP的方式,将每个分子看作一个句子,将分 子切分成许多词向
量,借鉴word2vec的思想,首先预训练一个由大量无监督分 子子结构的嵌入矩阵同,使用
ZINC15数据库作为化合物来源来组成化合物的主 体,首先要对分子识别预先定义好的官
能团以及环状结构,防止被分成多个子 结构,然后对其他的部分利用连通性来切分,每个
子结构都可以获得一个嵌入 向量,该向量初始标识符使用了摩根算法,包含了子结构内部
原子的化学信息;
[0010] 将每个原子的经Rdkit软件处理的三维坐标通过PCA降维成一维后嵌入, 然后根据降维后的数值作为每个原子在分子中的位置一同嵌入向量,该向量表 示分子中子结构
的属性;
[0011] 实现了节点嵌入层,采用了skip‑gram的方法将子结构词汇表映射到嵌入矩 阵中,基于数据库中大量无标记的化学分子子结构之间的连通性来训练嵌入矩 阵,进而生成
一组低维稠密的向量初步表示子结构;
[0012] 利用以获取到的每个原子的空间位置信息,将子结构中含有的原子坐标相 加求平均,可以获得子结构的三维坐标,将其逐个映射到子结构嵌入空间;
[0013] 完成嵌入层,传入模型预测层中;
[0014] 将含有空间位置编码的分子信息输入到模型中进行预测;
[0015] 预测模型由两部分组成分别是双向门控网络层和多头注意力层;
[0016] 将含有空间位置编码的分子信息输入到双向门控网络层,一项对应于GRU 模型结构中的两个输出,可以捕获分子的双向信息;
[0017] 多头注意力层负责接收双向门控网络层的输出,通过多头注意力层计算, 得到各个子结构的特征信息;
[0018] 输出层,负责输出分子性质的最终预测结果。
[0019] 本发明不同于其他忽视了分子子结构之间的内部信息或无法很好区分不同 分子或同一个分子处于不同位置的相同的子结构的表示,未能捕捉到功能组成 分相似的分子
之间的差异,导致分子结构建模不足。
[0020] 本发明在原有分子二维拓朴结构信息基础上增加三维空间位置信息,输出 分子性质的预测结果,对于任意类型的分子结构和任意的计算策略都可以做出 预测,比一般的
经验方法、回归分析方法更加精确。

附图说明

[0021] 图1是基于分子空间位置编码注意力神经网络模型的整体架构图;
[0022] 图2是Bi‑Gru层的模型结构图;
[0023] 图3是Multi‑Head Attention层的Scaled Dot‑Product Attention模型结构图;
[0024] 图4是Multi‑Head Attention层的模型结构图
[0025] 图5是在公开数据集EOSL上使用含有空间位置编码信息的分子性质预测 模型输出的RMSE值。

具体实施方式

[0026] 下面结合附图对本发明作进一步的描述。
[0027] 本发明该方法通过机器学习技术将分子的3D构象中的空间位置进行编码, 更好的表示分子中不同位置对于子结构造成的影响以更好表征分子同时利用注 意力机制的神
经网络结构和门控循环网络(GRU)用来预测其化学性质。
[0028] 本发明基于分子空间位置编码注意力神经网络模型,是将分子空间位置信息 和拓扑信息结合起来的的机器学习模型,如图1所示,模型由3个部分组成: 嵌入层,预测模型
层,输出层。
[0029] 本发明基于分子结构决定性质这一化学基本基础,将分子中的空间位置信 息结合化学信息学和机器学习/人工智能作为分子性质预测方法。接收分子结构 和其他性质作
为输入,输出分子性质的预测结果,对任意类型的分子结构和任 意的计算策略都可做出预
测,比一般经验方法、回归分析方法更加精确。
[0030] 一、嵌入层,获取多级连续分子表示。
[0031] 首先,受NLP的启发,将每个分子作为一个句子,并将分子拆分成步长长 度为2的子结构;其中,步长指的是最长的相邻原子数,每个原子根据Morgan 算法获得对应标识符
对其进行向量表示。
[0032] 因为该模型是基于顺序的,所以需要考虑子结构顺序,因此设定子结构顺 序。首先,分子中连接性最大的原子需要作为中心原子,其中连接性是指原子 连接的非氢键数,
如果有多个原子具有相同数量的非氢键,则采用键价最多的 原子,如果仍然相同,最接近
分子中心的原子被作为中心原子。用中心原子的 坐标作为该子结构的坐标,每个原子的空
间坐标来自RDKit,分子中心位置通过 对每个原子的空间位置取平均;其次,中央原子用于
获取步长为2内有关其邻 居原子的信息并通过摩根算法计算出子结构的类似独热的向量
表示。
[0033] 其次,递归形成其他子结构。
[0034] 借鉴word2vec的思想,预训练一个由大量无监督分子子结构的嵌入矩阵。 使用ZINC15数据库作为化合物来源来组成化合物的主体。向量的初始标识符使 用摩根算法来
表示子结构内原子的化学信息,使用skip‑gram方法将子结构词汇 映射到嵌入矩阵中,嵌
入矩阵根据数据库中大量未标记的化学分子的子结构之 间的连通性进行训练,从而生成
一组低维密集向量,用于初步表示子结构。
[0035] 接下来,进行空间位置信息嵌入工作。
[0036] 与自然语言中的句子不同,分子由没有顺序的子结构组成。因此,有效定 义子结构的顺序对于确保输入表示保持原始分子结构的足够语义至关重要。
[0037] 本发明使用空间位置信息嵌入,作为分子中子结构的顺序;然后将每个子 结构的基础嵌入和空间位置嵌入,作为分类器的输入表示。
[0038] 利用Rdkit获取了每个原子的坐标信息,并通过对子结构中的原子坐标平 均,以获取子结构的三维坐标,并逐个映射到子结构嵌入空间。
[0039] 优选的,本发明使用Rdkit提供的分子3D构象获得三维坐标。
[0040] 长度为n的分子smiles表示看作输入序列,t表示子结构的坐标。 表 示与第th位置坐标对应的矢量,d表示矢量的维度,维度数与嵌入在子结构中 的维度数相同方便
之后相加。 是为每个坐标生成空间位置矢量的函数, 定义如下:
[0041]
[0042] th表示第t个子结构的空间坐标,而其频率wk按以下公式计算:
[0043]
[0044] 位置嵌入向量是一个包含每个频率的正弦和余弦对的向量,如下:
[0045]
[0046] 最后,对于分子里的每个子结构wt,计算其对应的子结构嵌入ψ(wt),
[0047]
[0048] 二、模型预测层
[0049] 如图2所示的双向门控网络层模型体系结构是双向的,因此进行标准的两层 属性预测。一项对应于Gru模型结构中的两个输出,可捕获分子双向信息。若 输入序列有n个嵌
入向量,则有2n个输出。每个单向层Gru计算如下:
[0050] rt=σ(Wrxt+br+W′rh(t‑1))+br)
[0051] zt=σ(Wzxt+bz+W′zh(t‑1))+b′z)
[0052] pt=tanh(Wpxt+bp+rt(W′ph(t‑1)+b′p)
[0053] ht=(1‑zt)pt+zth(t‑1)
[0054] 其中,xt是在序列的时间步t处的输入,h(t‑1)是时间步t‑1处的隐状态。rt,zt和pt分别是reset,update和new gates。Wr,Wr和Wp是输入xt的参数。br,bz,bp是 输入xt的偏差。W′r,
W′z和W′p是输入h(t‑1)的参数。b′r,b′z和b′p是输入h(t‑1)的偏置。
[0055] 本发明模型由两个堆叠的Bi‑GRU组成,每层计算如下:
[0056]
[0057] 其中, 是层1在时间步t处的隐藏状态。 是层1是在时间步t‑1处的隐 藏状态。 和 是层1的参数。 是层l‑1在位置t处的隐藏状态。
[0058] 接着,将向量输出到多头注意力层(Multi‑Head Attention),分子是结构 化数据,其中不同子结构可能对特性有各种贡献,求和和平均运算无法捕获此 特征。注意机制
解决了有关权衡输入的不同部分以做出决策的问题。
[0059] 本发明实施例,引进了多头注意力层更好的区分不同位置的结构很相似的 子结构的应赋权重,这增强了模型的泛化能力。多头注意力层(Multi‑Head Attention)负责接
收Bi‑Gru层的输出。通过多头注意力层计算,得到各个子 结构特征信息,多头注意力层结
构如图3‑图4所示。
[0060] 本发明模型中,多头注意力层(Multi‑Head Attention)首先需要将输入的Q, K,V三个向量进行线性变换再进行计算。
[0061] 由于采用多头机制,Scaled Dot‑Product Attention部分计算需要进行多次。 “头”数意味着计算的次数,只是每一头的计算下Q,K,V线性投影不同, 多头注意力使得模
型能够在不同的位置共同关注来自不同表示子空间的信息。 以第i个头为例:
[0062]
[0063]
[0064]
[0065] 最后得到的这一头的结果便是:
[0066]
[0067] h次运算过后,将这h次的Mi拼接:
[0068] M=Concar(M1,M2,…,Mh)
[0069] 这样,最后得到的就是分子向量,接入全连接层进行预测。
[0070] 三、输出层
[0071] 输出层根据回归或是分类任务的不同选则softmax或logistic Sigmoid函数,并 且不同的数据集需要不同的超参数。
[0072] 图5显示在Lip数据集上,基于分子空间位置编码注意力神经网络模型的 RMSE是0.704比最新的模型的结果0.728要好4%。
[0073] 本发明所采用的基于分子空间位置编码注意力神经网络模型具有很强的通 用性,可轻松的应用在其他分子性质预测任务上如药物分子的毒性,药物分子 的水溶性的预
测等等。
[0074] 尽管上面结合附图对本发明的功能及工作过程进行了描述,但本发明并不局 限于上述的具体功能和工作过程,上述的具体实施方式仅仅是示意性的,而不 是限制性的。
[0075] 本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要 求所保护的范围情况下,还可以做出很多形式,这些均属于本发明的保护之内。