应用智能支持向量机对多环芳烃性质/毒性的预测方法转让专利

申请号 : CN201610176440.1

文献号 : CN105868540B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周真杨旭牛訦琛陈鑫

申请人 : 哈尔滨理工大学

摘要 :

本发明涉及应用智能支持向量机对多环芳烃性质/毒性的预测方法,该方法根据已测的多环芳烃的分子结构,利用定量构效关系技术,建立多环芳烃环化指标预测模型和多环芳烃致癌性预测模型,应用支持向量机算法,实现了对小样本、非线性、高维问题的处理。并采用网格搜索法、遗传算法、粒子群算法优化模型,避免了参数的影响,进一步增加模型的准确性。本发明利用智能优化支持向量机可以快速的预测未知多环芳烃的性质和毒性,相比传统的毒理性测试实验提高了测试效率,相比于传统的统计预测法提高了泛化能力。相比正常算法避免了参数影响。实现了程序化,能为多环芳烃的环境评价提供可参考的决策性依据。

权利要求 :

1.应用智能支持向量机对多环芳烃性质/毒性的预测方法,该方法包括下述步骤:

1)通过相关的毒性试验或者已有的数据库和文献,获取67个多环芳烃的致癌性呈阴性 或阳性数据,15个多环芳烃空气-正辛醇分配系数K OA;

2)使用ChemDraw化学软件构建多环芳烃的分子结构,利用量子化学软件Hyperchem对构造出的分子结构进行结构优化,首先采用分子力学方法,在MM+力场下对所建几何构型进行初步优化,然后在此基础上通过半经验的AMI量子化学方法进行精优化,以获得能量最低的稳定构型;为在合理的时间内获得精确的分子模型,优化均在严格的Hartree-Fock水平上进行,采用Polak-Ribiere算法,直至梯度达到0.01;

3)再将优化后的分子结构输入Dragon软件计算相应的描述符,获得量子化学参数:分 子最高占据轨道能E HOMO、分子最低空轨道能E LUMO、分子刚性h、分子极性α;以及经验参数分子量MW、分子体积V、分子长度L、分子宽度B和拓扑参数分子连接性指数Randic,共同作为结构描述符;

4)将所获取的数据为了便于代入MATLAB软件中,进行格式转化,建立致癌性PAHs_svc_ scale.mat文件,包含67个多环芳烃致癌性数据,分为47个训练集,20个测试集;建立空气—正辛醇分配系数PAHS_svr_scale.mat文件,包含15个多环芳烃K OA数据,分为11个训练集,4 个测试集;

5)在多环芳烃实测的实验致癌性值与其分子结构参数化计算值间运用支持向量机分 类算法进行数学建模,K OA与其分子描述符间运用支持向量机回归算法进行数学建模;

6)对于所构建的数学模型,为进一步增加其预测的准确性,用网格搜索法、遗传算法和粒子群算法对支持向量机进行智能优化其参数,然后用最佳的寻优参数再进行模型的建 立;

7)在回归模型的建立上,主要依据相关系数R和均方误差MES进行预测性能评价,对于 分类模型的建立,主要依据分类准确率Accuracy进行预测性评价;

8)模型的验证是利用交叉检验最常见的“留一法”Q 2,分别对训练集和测试集进行内部 检验和外部检验,检测所建模的稳定性、预测能力和泛化能力;

9)由检验指标最佳的优化方法,确定最佳对多环芳烃性质/毒性的预测模型,用于预测 没有经过实验测定的同类型有机毒物的相关性质/毒性。

说明书 :

应用智能支持向量机对多环芳烃性质/毒性的预测方法

技术领域

[0001] 本发明涉及一种分子定量结构-性质/活性相关研究方法,特别是一种智能优化方法的应用与比较,即一种应用智能优化支持向量机对多环芳烃性质/毒性定量构效的预测方法。

背景技术

[0002] 随着全球发展进程的加快,大气受污染的程度进一步加剧,大气悬浮颗粒物是影响大气环境质量和危害人体健康的重要大气污染物之一。大气颗粒物与臭氧层破坏、全球变暖、酸雨等环境问题都有很高的关联性,而且与沙尘暴、光化学烟雾等严重大气污染都有密切关系。流行病学的调查与研究表明,可吸入颗粒物随着暴露水平的增加,由急性病、心血管疾病、呼吸系统疾病引发的死亡率随之增加(参见Indoor and Outdoor Exposure to Ultrafine, Fine and Microbiologically Derived Particulate Matter Related to Cardiovascular and Respiratory Effects in a Panel of Elderly Urban Citizens,Dorina G K, Michal S, Marie F, et al.2015.)。并能引起哮喘、肺功能下降、呼吸系统炎症,甚至累及心血管系统、神经系统、免疫系统,促使癌症发生。大气颗粒物对人体健康的危害主要跟其理化性质有关,包括颗粒物的粒径、化学组分、数量、结构等,其中有机化学组分是主要影响因素。有机物是大气颗粒的重要化学组分,约占其干重的10 70%(参见~Persistent Organic Pollutants (POPs) on Fine and Coarse Atmospheric Particles Measured at Two (Urban and Industrial) Sites,Mustafa O, Banu C, Abdurrahman B.2015.)。其中,在健康影响中最为关注的是多环芳烃(PAHs),及其衍生物等。近年来,研究表明城市颗粒物尤其是交通源颗粒物表面含有大量且多种多环芳烃及多环芳烃的衍生物。
因此,研究多环芳烃及多环芳烃衍生物对人体的影响也成为无法忽略的方向,促使更多的学者认识到多环芳烃类化合物在大气颗粒物生物毒性方面的重要作用,并在控制大气污染物排放时,需重视PAHs的控制。
[0003] 现有的多环芳烃的毒性测试多用于动物实验,但动物实验存在着高成本、人畜共患病、伦理问题等众多弊端(参见Toxicity of sediment-associated unresolved complex mixture and its impact on bioavailability ofpolycyclic aromatic hydrocarbons,Juan D, W. T Mr, Michael J. L, et al.2012.)。为解决动物实验的检测瓶颈问题,定量构效技术出现于世并逐渐发展起来。定量构效关系(Quantitative Structure Property / Activity Relationship,QSP/AR),其核心思想是利用理论计算方法来描述化合物的结构特征,以生物学来获取化合物的毒性数据及任何化合物的致毒机理(参见Large-Scale Quantitative Structure−Property Relationship (QSPR) Analysis of Methane Storage in Metal−Organic Frameworks,Michael F, Tom K. W, Cr E. Wilmer, et al.2013)。通过模型的建立以分子结构来表征化合物的性质或毒性。通常定量构效建模方法分为传统统计预测、经验非线性预测和机器学习等几类途径。由此可以看到,用来进行定量构效的建模方法经历了一个由简单到复杂,从线性到非线性的变化过程,并且正向着高维度、贫信息等方向发展。然而,支持向量机方法的应用中,仅仅是与其他方法进行对比研究,没有很好地考虑到支持向量机参数的选择好坏,这样就造成了不准确的参数的引入导致泛化能力的下降。如何确立最佳的支持向量参数,建立一种智能优化的支持向量机方法,并将其应用到多环芳烃的性质/毒性的预测成为发展趋势。
[0004] 基于以上现状,为了解决上述问题,本发明的目的是提供了一种应用智能优化支持向量机对多环芳烃性质/毒性定量构效的预测方法。该方法能够对支持向量机的参数进行智能优化,择最佳参数建立模型,用于多环芳烃的定量结构-性质/毒性相关研究,可预测出多环芳烃性质/毒性值。

发明内容

[0005] 本发明是通过以下技术方案来解决的:
[0006] 应用智能支持向量机对多环芳烃性质/毒性的预测方法,该方法包括下述步骤:
[0007] 1)通过相关的毒性试验或者已有的数据库和文献,获取67个多环芳烃的致癌性呈阴性或阳性数据,15个多环芳烃空气-正辛醇分配系数KOA;
[0008] 2)使用ChemDraw化学软件构建多环芳烃的分子结构,利用量子化学软件Hyperchem对构造出的分子结构进行结构优化,首先采用分子力学方法,在MM+力场下对所建几何构型进行初步优化,然后在此基础上通过半经验的AMI量子化学方法进行精优化,以获得能量最低的稳定构型。为在合理的时间内获得精确的分子模型,优化均在严格的Hartree-Fock水平上进行,采用Polak-Ribiere算法,直至梯度达到0.01;
[0009] 3)再将优化后的分子结构输入Dragon软件计算相应的描述符,获得量子化学参数:分子最高占据轨道能EHOMO、分子最低空轨道能ELUMO、分子刚性h、分子极性α;以及经验参数分子量MW、分子体积V、分子长度L、分子宽度B、和拓扑参数分子连接性指数Randic,共同作为结构描述符;
[0010] 4)将所获取的数据为了便于代入MATLAB软件中,进行格式转化。建立致癌性PAHS_svc_scale.mat文件,包含67个多环芳烃致癌性数据,分为47个训练集,20个测试集;建立空气—正辛醇分配系数PAHS_svr_scale.mat文件,包含15个多环芳烃KOA数据,分为11个训练集,4个测试集;
[0011] 5)在多环芳烃实测的实验致癌性值与其分子结构参数化计算值间运用支持向量机分类算法进行数学建模,KOA与其分子描述符间运用支持向量机回归算法进行数学建模;
[0012] 6)对于所构建的数学模型,为进一步增加其预测的准确性,用网格搜索法、遗传算法、粒子群算法对支持向量机进行智能优化其参数,然后用最佳的寻优参数再进行模型的建立;
[0013] 7)在回归模型的建立上,主要依据相关系数R和均方误差MES进行预测性能评价,对于分类模型的建立,主要依据分类准确率Accuracy进行预测性评价;
[0014] 8)模型的验证是利用交叉检验最常见的“留一法”Q2。分别对训练集和测试集进行内部检验和外部检验,检测所建模的稳定性、预测能力和泛化能力;
[0015] 9)由检验指标最佳的优化方法,确定最佳对多环芳烃性质/毒性的预测模型,用于预测没有经过实验测定的同类型有机毒物的相关性质/毒性。
[0016] 有益效果:
[0017] 1.本发明应用定量构效关系技术,实现了对多环芳烃的毒性检测,建立分子结构与其性质/毒性的关系,快速且有效的进行毒性预测,保证了对其致毒机理预测的准确性;
[0018] 2.本发明通过支持向量机算法建立数学模型,可针对小样本、非线性、高维问题,进行模型建立。避免了传统预测的局部寻优,增强了预测的泛化能力,保证了模型建立的准确性;
[0019] 3.本发明通过网格搜索法、遗传算法、粒子群算法三种智能优化算法对所建模型进行优化处理。避免了支持向量参数对模型预测效果的影响。通过模型的精度检验,保证了模型的最佳准确率,代入实例取得了良好的预测效果。
[0020] 附图说明。
[0021] 附图1为预测多环芳烃性质/活性的流程示意图。
[0022] 附图2为网格搜索优化模型流程图。
[0023] 附图3为遗传算法优化模型流程图。
[0024] 附图4为粒子群算法优化模型流程图。
[0025] 附图5为网格搜索对参数的寻优结果,并显示了最佳的C和g的取值以及针对训练集的均方误差值。
[0026] 附图6为遗传算法对参数的寻优结果,并显示了最佳的C和g、P的取值以及针对训练集的均方误差值。
[0027] 附图7为粒子群算法对参数的寻优结果,并显示了最佳的C和g的取值以及针对训练集的均方误差值。
[0028] 附图8为网格寻优后15个多环芳烃正辛醇/空气配系数(logKOA)的预测值和实验值折现图。
[0029] 附图9为遗传算法寻优后15个多环芳烃正辛醇/空气配系数(logKOA)的预测值和实验值折现图。
[0030] 附图10为粒子群算法寻优后15个多环芳烃正辛醇/空气配系数(logKOA)的预测值和实验值折现图。
[0031] 具体实施方式:
[0032] 实施例1:
[0033] 下面以预测多环芳烃空气-正辛醇分配系数KOA的定量构效模型作为实例,对本发明进行进一步解释。
[0034] 根据实验结果获得已知空气-正辛醇分配系数KOA的多环芳烃数据,共15个,根据ChemDraw化学软件构建分子结构并优化,用Dragon软件计算相应的分子描述符分别为分子量(W)、分子体积(V)、分子长度(L)、分子宽度(B)。从中抽取11个数据作为训练集建立预测模型,其余4个数据作为测试集进行验证。
[0035] 利用libsvm工具箱添加到MATLAB软件中,并进行文件编译。将步骤(1)所获得的数据,进行格式转化,编译成文件PAHS_svr_scale.mat,该文件主要包含四个矩阵数据文件:train_x里是一个11×3的矩阵,代表用于训练集的11个数据的属性;train_y里是一个11×
1的列向量,代表用于训练集的11个数据的标签,即性;test_x里是一个4×3的矩阵,代表用于测试集的4个数据的属性;test_y里是一个4×1的列向量,代表用于训练集的4个数据的标签。
[0036] 利用网格划分进行支持向量机的参数寻优,确立最佳的参数C=90.51,g=0.0039,并进行可视化处理,网格寻优结果的三维等高图如图5所示;利用遗传算法进行参数寻优,确立的最佳参数为C=51.6167,g=0.44031,寻优结果如图6所示;利用粒子群算法进行参数寻优,确立的最佳参数为C=51.6167,g=0.44031,粒子群迭代效果如图7所示。
[0037] 分别应用三种优化算法所选择的最优参数,对训练集进行支持向量机回归预测模型的建立,并将所建好的模型代入测试集再进行预测,来验证模型的准确性。预测结果如图8、图9、图10。
[0038] 利用步骤(4)所得的回归预测值,建立模型分析KOA与实际KOA的相关系数、均方误差,对多环芳烃KOA定量构效关系模型进行评价。最佳的优化模型为网格寻优建立的模型预测模型效果最好,R为0.913,MES为0.0597。