评价纳米金属氧化物健康效应的QSAR毒性预测方法转让专利

申请号 : CN201510333022.4

文献号 : CN104899458B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 穆云松吴丰昌廖海清赵晓丽白英臣刘跃丹庞成芳郄玉

申请人 : 中国环境科学研究院

摘要 :

本发明涉及环境中有毒物质预测领域,具体为评价纳米金属氧化物健康效应的QSAR毒性预测方法,根据纳米金属氧化物的结构特征与细胞毒性效应的定量关系预测未知金属氧化物的毒性终点;是综合纳米金属氧化物的理化结构参数和特殊致毒机理建立的纳米金属毒性预测模型,并将其应用于预测未知毒性效应终点的一种方法。本发明基于纳米金属氧化物的作用模式和致毒机理,构建纳米金属毒性预测模型,通过QSAR模型方法预测未知毒性值,快速、简单,依赖较少的试验测试数据完成多种毒性数据缺乏化合物的毒性终点预测。

权利要求 :

1.评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,根据纳米金属氧化物的结构特征与细胞毒性的定量关系预测未知纳米金属氧化物的毒性终点;

具体包括以下步骤:

步骤a,建模毒性数据采集,筛选,运算和汇总;

步骤b,构建纳米金属氧化物结构描述符数据集,以各金属氧化物对应的结构参数为自变量进行线性相关性分析和主成分分析,获得最优的结构描述符组合;

步骤c,构建毒性预测模型及稳健性检验;建立多元回归方程,对参数进行估计,采用F统计量对应的P值进行检验;

步骤d,QSAR模型的内部验证;

步骤e,模型适用范围计算;经过校验的模型,以杠杆值h为横坐标,以各数据点的标准残差为纵坐标,绘制Williams图;

步骤f,对未知纳米金属氧化物的毒性进行快速筛选与预测。

2.根据权利要求1所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤b中,构建纳米金属氧化物结构描述符数据集,分别为金属离子软指数σp、单位电荷软指数σP/Z、原子序数AN、离子半径r、IP:ON态离子的离子势、IP(N+1):ON+1态离子的离子势、IP(N+1)和IP的差值△IP、原子半径R、原子量AW、鲍林(Pauling)电负性Xm、共价指数Xm2r、原子电离势AN/ΔIP、第一水解常数|logKOH|、电化学势ΔE0、原子大小AR/AW、实测电负性x、极化率z/rx、离子价Z、极化力参数Z/r、Z/r2、Z2/r、似极化力参数Z/AR、Z/AR2、气态阳离子的生成焓△Hme+、能垒GAP、氧化物簇的标准生成热HoF。

3.根据权利要求1或2所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤b具体包括以下过程:步骤b1,以毒性终点为因变量,各金属氧化物对应的结构参数为自变量进行线性相关性分析,根据下述公式(1)计算相关系数r;

式中, 分别表示各结构参数和毒性值的平均值,xi和yi分别表示第i种金属对应的结构参数和毒性值;

相关系数r>0.8为显著相关参数。

步骤b2,在显著相关的前提下,通过主成分分析,获得最优的结构描述符组合;具体公式:F=a1i*ZX1+a2i*ZX2+……+api*ZXp  (2)其中a1i,a2i,……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1,ZX2,……,ZXp是原始变量经过标准化处理的值;

A=(aij)p×m=(a1,a2,…,am)  (3)Rai=λiai  (4)

R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。

4.根据权利要求1所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述的步骤c包括以下过程:步骤c1,多元回归方程的构建与参数估计;

步骤c中确定的两最佳结构参数为自变量X,金属氧化物细胞毒性值为因变量Y,利用多元线性回归分析方法构建各模式生物的QICAR方程Y=XB+E,见公式(5),其中:n为观测值个数;

采用最小二乘法对方程中参数进行估计,X′为X的转置矩阵:步骤c2,拟合优度检验和回归方程的显著性检验,采用F检验;

模型的拟合优度检验指标为:相关系数的平方R2和自由度校正的相关系数 标准偏差RMSE;

F检验的指标为多因子方差分析(Multi-ANOVA)计算得到的F值和相关概率p(SignificanceF);采用F统计量对应的P值进行检验;

步骤c3,判别标准:根据毒性数据获取途径,体外实验R2≥0.81,体内试验R2≥0.64;显著水平为α,当p<α时,回归方程显著。

5.根据权利要求4所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤c3按照下述公式计算,式中,R2表示相关系数的平方, 表示自由度校正的相关系数,RMSE表示标准偏差。

6.根据权利要求1所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤d的具体过程包括:步骤d1,在给定的建模样本中,抽取一个样本作为预测集,其余样本作为训练集建模,并计算该样本的预测误差;

步骤d2,记录每个方程中预测误差的平方加和,直到所有的样本都被预报了一次而且仅被预报一次;

步骤d3,计算交叉验证相关系数Q2cv和交叉验证均方根误差RMSECV,判别依据:Q2cv>

2 2

0.6,R-Qcv≤0.3。

7.根据权利要求6所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤d3采用的计算公式为:式中,yiobs表示第i个化合物毒性的实测值, 代表第i个化合物毒性的预测值,代表训练集毒性的平均值,n表示训练集中化合物数。

8.根据权利要求1所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤e中,杠杆值hi的计算公式为:hi=xiT(XTX)-1xi (12)

式中,xi代表第i个金属的结构参数组成的列向量;对于双参数模型,XT表示矩阵X的转置矩阵,(XTX)-1表示对XTX矩阵的逆矩阵。

9.根据权利要求8所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤e中,临界值h*的计算公式为:式中,p代表模型中变量数,双参数模型中p=2,n代表模型训练集化合物的数量,根据步骤a-d校验过后QSAR方程中训练集金属氧化物个数决定;

在Williams图中h

10.根据权利要求1所述的评价纳米金属氧化物健康效应的QSAR毒性预测方法,其特征在于,所述步骤f中具体过程为,按照上述步骤a-步骤e所述的方法获得纳米QSAR预测方程,搜集并整理待预测纳米金属氧化物的所有结构描述符的值,代入方程计算待预测的毒性终点。

说明书 :

评价纳米金属氧化物健康效应的QSAR毒性预测方法

技术领域

[0001] 本发明涉及环境中有毒物质预测领域,具体为评价纳米金属氧化物健康效应的QSAR毒性预测方法。

背景技术

[0002] 基于纳米技术取得的丰硕成果使人们获益良多,纳米材料已广泛应用于人们的日常用品中,在生物医学领域如药物载体、癌症治疗、基因治疗、抗菌材料、医学诊断、生物传感器等方面具有更加广泛的应用前景。纳米金属氧化物是工业生产纳米颗粒物中的重要组成部分,在食品、材料、环保、化学和生物医学等方面有较高的应用价值。然而,人们越来越担心纳米材料的纳米特性,如小尺寸效应、表面和界面效应以及量子尺寸效应等,可能引发特殊的生物学效应,给人类健康造成威胁、给环境以及社会带来负面影响;这就需要能够反映纳米金属氧化物特性以及提供便于安全应用的依据,纳米毒性的认知将起到关键的作用,有助于对纳米产品进行必要的安全性评价。
[0003] 在纳米尺度上研究纳米金属的生物毒性和健康效应已成为近十年来的研究热点,相较于纳米金属单质的致毒效应,金属氧化物的致毒机理可能更为复杂。同时,不同元素的纳米氧化物颗粒可能存在相似的作用位点和致毒机制。剂量效应关系和预测模型在理论和实际层面都具有重要意义。QSARs技术的最原始初衷是预测未测试化合物的毒性,并将这些知识应用于风险评估中。对于具有同一作用模式的一系列物质,QSAR可通过统计学手段构建化合物的结构参数与生物活性或毒性的相关关系,并进而预测未知化合物的活性或毒性影响。近十年来,对于纳米尺度上的QSAR研究十分活跃。Winkler等分析了当前应用QSAR方法研究纳米毒性效应的现状并预测了未来潜力,认为该方法可以在毒理学调查中优化资源,降低毒性测试的道德和货币成本。Wolterbeek和Walker综述20种阳离子的物理化学性质与不同物种的潜在毒性效应,识别和解释毒作用模式。开发了合适的化合物分类和交叉参照的方法对纳米材料进行了初步的危害风险评估。Meng认为在纳米材料的安全性评估中,机遇正确毒理学路径和损伤机理的QSAR方法起到至关重要的作用。Pathakoti等测定17种金属金属氧化物纳米颗粒对大肠杆菌的毒性,并基于此建立双参数QSAR模型预测无光(F=33.83,R2=0.87)和光诱导(F=20.51,R2=0.804)的毒性效应。Epa等建立了纳米颗粒诱导胰腺癌细胞多类型细胞PaCa2和人类脐静脉内皮细胞摄入和凋亡的定量预测模型,分别提出了针对不同材料和同一材料表面不同修饰的建模策略。Toropova等提出不依赖于空间结构的最优描述符,建立了大肠杆菌毒性预测模型。尽管Leszczynski初步构建了13种纳米金属氧化物的毒性预测模型,但模型的预测效果和适用范围仍需要进一步的研究论证。
[0004] 总体而言,以上方法只对纳米金属离子的毒性进行了初步的模型预测,对于纳米金属氧化物毒性效应的定性模式识别和定量预测,缺乏系统的研究和可靠的预测方法。
[0005] 鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本创作。

发明内容

[0006] 本发明的目的在于提供一种评价纳米金属氧化物健康效应的QSAR毒性预测方法,用以克服上述技术缺陷。
[0007] 为实现上述目的,本发明提供一种基于纳米金属氧化物定量构效关系的毒性预测方法,根据纳米金属氧化物的结构特征与细胞毒性效应的定量关系预测未知纳米金属氧化物的毒性终点;
[0008] 具体包括以下步骤:
[0009] 步骤a,建模毒性数据采集,筛选,运算和汇总;
[0010] 步骤b,构建纳米金属氧化物结构描述符数据集,以各金属氧化物对应的结构参数为自变量进行线性相关性分析和主成分分析,获得最优的结构描述符组合;
[0011] 其中,构建纳米金属氧化物结构描述符数据集,分别为金属离子软指数σp、单位电荷软指数σP/Z、原子序数AN、离子半径r、IP:ON态离子的离子势、IP(N+1):ON+1态离子的离子势、IP(N+1)和IP的差值ΔIP、原子半径R、原子量AW、鲍林(Pauling)电负性Xm、共价指数Xm2r、原子电离势AN/ΔIP、第一水解常数|logKOH|、电化学势ΔE0、原子大小AR/AW、实测电负性x、极化率z/rx、离子价Z、极化力参数Z/r、Z/r2、Z2/r、似极化力参数Z/AR、Z/AR2、气态阳离子的生成焓ΔHme+、能垒GAP、氧化物簇的标准生成热HoF。
[0012] 步骤b具体包括以下过程:
[0013] 步骤b1,以毒性终点为因变量,各金属氧化物对应的结构参数为自变量进行线性相关性分析,根据下述公式(1)计算相关系数r;
[0014]
[0015] 式中, 分别表示各结构参数和毒性值的平均值,xi和yi分别表示第i种金属对应的结构参数和毒性值;
[0016] 相关系数r>0.8为显著相关参数。
[0017] 步骤b2,在显著相关的前提下,通过主成分分析,获得最优的结构描述符组合;具体公式:
[0018] F=a1i*ZX1+a2i*ZX2+......api*ZXp   (2)
[0019] 其中a1i,a2i,......,api(i=1,......,m)为X的协方差阵∑的特征值所对应的特征向量,ZX1,ZX2,......,ZXp是原始变量经过标准化处理的值;
[0020] A=(aij)p×m=(a1,a2,...,am)   (3)
[0021] Rai=λiai   (4)
[0022] R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥...≥λp≥0。
[0023] 步骤c,构建毒性预测模型及稳健性检验;建立多元回归方程,对参数进行估计,采用F统计量对应的P值进行检验;
[0024] 具体的,步骤c1,多元回归方程的构建与参数估计;
[0025] 步骤c中确定的两最佳结构参数为自变量X,金属氧化物细胞毒性值为因变量Y,利用多元线性回归分析方法构建各模式生物的QICAR方程Y=XB+E,见公式(5),其中:
[0026]
[0027] n为观测值个数;
[0028] 采用最小二乘法对方程中参数进行估计,X′为X的转置矩阵:
[0029]
[0030] 步骤c2,拟合优度检验和回归方程的显著性检验,采用F检验;
[0031] 模型的拟合优度检验指标为:相关系数的平方R2和自由度校正的相关系数 标准偏差RMSE;
[0032] F检验的指标为多因子方差分析(Multi-ANOVA)计算得到的F值和相关概率p(SignificanceF);采用F统计量对应的P值进行检验;
[0033] 步骤c3,判别标准:根据毒性数据获取途径,体外实验R2≥0.81,体内试验R2≥0.64;显著水平为α,当p<α时,回归方程显著。
[0034] 步骤c3按照下述公式计算,
[0035]
[0036]
[0037]
[0038] 式中,R2表示相关系数的平方, 表示自由度校正的相关系数,RMSE表示标准偏差。
[0039] 步骤d,QSAR模型的内部验证;
[0040] 步骤d的具体过程包括:
[0041] 步骤d1,在给定的建模样本中,抽取一个样本作为预测集,其余样本作为训练集建模,并计算该样本的预测误差;
[0042] 步骤d2,记录每个方程中预测误差的平方加和,直到所有的样本都被预报了一次而且仅被预报一次;
[0043] 步骤d3,计算交叉验证相关系数Q2cv和交叉验证均方根误差RMSECV,判别依据:Q2cv>0.6,R2-Q2cv≤0.3。
[0044] 步骤d3采用的计算公式为:
[0045]
[0046]
[0047] 式中, 表示第i个化合物毒性的实测值, 代表第i个化合物毒性的预测值, 代表训练集毒性的平均值,n表示训练集中化合物数。
[0048] 步骤e,模型适用范围计算;经过校验的模型,以杠杆值h为横坐标,以各数据点的标准残差为纵坐标,绘制Williams图;
[0049] 步骤e中,杠杆值hi的计算公式为:
[0050] hi=xiT(XTX)-1xi   (12)
[0051] 式中,xi代表第i个金属的结构参数组成的列向量;对于双参数模型,XT表示矩阵X的转置矩阵,(XTX)-1表示对XTX矩阵的逆矩阵。
[0052] 临界值h*的计算公式为:
[0053]
[0054] 式中,p代表模型中变量数,双参数模型中p=2,n代表模型训练集化合物的数量,根据步骤a-d校验过后QSAR方程中训练集金属氧化物个数决定;
[0055] 在Williams图中h<h*的坐标空间为模型的适用范围。
[0056] 步骤f,对未知纳米金属氧化物的毒性进行快速筛选与预测。
[0057] 具体过程为,按照上述步骤a-步骤e所述的方法获得纳米QSAR预测方程,搜集并整理待预测纳米金属氧化物的所有结构描述符的值,代入方程计算待预测的毒性终点。
[0058] 本发明提供的评价纳米金属氧化物健康效应的QSAR毒性预测方法,基于纳米金属氧化物的作用模式和致毒机理,构建纳米金属毒性预测模型。通过QSAR模型方法预测未知毒性值,快速、简单,依赖较少的试验测试数据完成多种毒性数据缺乏化合物的毒性终点预测。

附图说明

[0059] 图1为本发明的预测方法的流程示意图;
[0060] 图2为本发明模型适用范围评价的Williams图之一;
[0061] 图3为本发明模型适用范围评价的Williams图之二。

具体实施方式

[0062] 以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
[0063] 本发明的原理是根据纳米金属氧化物的结构特征与细胞毒性效应的定量关系预测未知氧化物的毒性终点。是综合纳米金属氧化物理化结构参数和致毒机理建立纳米金属毒性预测模型,并将其应用于预测未知纳米金属氧化物的毒性终点的一种方法。
[0064] 如图1所示,其为本发明一种评价纳米金属氧化物健康效应的QSAR毒性预测方法的流程示意图,该具体过程为:
[0065] 步骤a,建模毒性数据采集,筛选,运算和汇总;
[0066] 步骤a1,数据采集过程;
[0067] 步骤a2,数据筛选过程;数据筛选满足的条件为:
[0068] 1)所有纳米氧化物的细胞毒性数据须来自同一试验来源,同一研究组和相同试验条件;
[0069] 2)毒性终点数据类型包括致死率,生长率和繁殖率,表现为EC50或LC50;
[0070] 3)毒性测试必须在一定范围的环境条件下以标准的操作流程进行;
[0071] 4)生物测试暴露时间48~96小时,纳米金属氧化物颗粒的粒径在30-100nm之间。
[0072] 步骤a3,数据运算过程;在本发明实施例中的运算方法为:
[0073] 以纳米金属氧化物的水溶液浓度为数据的衡量指标,如单位为质量浓度除以分子量统一转化为摩尔浓度,即mol/L。
[0074] 步骤a4,数据汇总过程:
[0075] 最终得到的数据集包括纳米金属氧化物分子式,受试细胞类型,毒性效应类型,终点指标,试验条件,暴露时间,数据来源。
[0076] 详细的毒性数据获取过程如下:
[0077] 建模的急性毒性数据优先采集自美国环保局ECOTOX毒性数据库(http://cfpub.epa.gov/ecotox/)。如果毒性数据不足,以近10年SCI科学引文索引查询的有效数据(ISIWebofKnowledge)作为补充。通过数据库和文献检索引擎,输入纳米金属氧化物名称、待测物种名称和急性毒性等关键词,导出满足条件的毒性数据集。在满足步骤a2条件的前提下,筛选出合格的毒性数据。以金属自由离子浓度为数据的衡量指标,如果原始数据以离子化合物质量为毒性终点指标。需除以分子量统一转化为微摩尔浓度,即μmol/L。在数据汇编过程中,记录纳米金属氧化物分子式,受试细胞类型,毒性效应类型,终点指标,试验条件,暴露时间,数据来源等信息,整理成Excel表格作为建模依据。
[0078] 以大肠杆菌的细胞活力毒性终点为例,进行数据筛选,运算和汇总,结果如表1所示。
[0079] 表1中的数据来源为:
[0080] PuzynT.etal.Usingnano-QSARtopredictthecytotoxicityofmetaloxides,NatureNanotechnology.6:175-178。
[0081] 表1纳米金属氧化物细胞毒性数据筛选,运算和汇总范例
[0082]
[0083]
[0084] 步骤b,构建纳米金属氧化物结构描述符数据集;
[0085] 构建金属离子结构描述符集合,采用量子化学半经验方法与文献统计相结合,计算30-100nm纳米级金属氧化物的26种理化结构参数,包括金属离子的理化参数,金属纳米颗粒的理化参数,尺度参数和热力学参数。分别为金属离子软指数σp、单位电荷软指数σP/Z、原子序数AN、离子半径r、IP:ON态离子的离子势、IP(N+1):ON+1态离子的离子势、IP(N+1)2
和IP的差值ΔIP,原子半径R、原子量AW、鲍林(Pauling)电负性Xm、共价指数Xm r、原子电离势AN/ΔIP、第一水解常数|logKOH|、电化学势ΔE0、原子大小AR/AW、实测电负性x、极化率z/rx、离子价Z、极化力参数Z/r、Z/r2、Z2/r、似极化力参数Z/AR、Z/AR2、气态阳离子的生成焓ΔHme+、能垒GAP、氧化物簇的标准生成热HoF。其中ΔHme+、GAP、HoF利用MOPAC量子化学软件中的PM6半经验算法完成。
[0086] 步骤b1,以毒性终点为因变量,各纳米金属氧化物对应的结构参数为自变量进行线性相关性分析,根据下述公式(1)计算皮尔逊相关系数r;
[0087]
[0088] 式中,xi和yi分别表示第i种金属对应的结构参数和实测毒性值, 分别表示各结构参数和实测毒性值的平均值。相关系数r>0.8为显著相关参数。采用皮尔逊相关可以简便,客观的度量两个因子之间的关联程度。该步骤中通过相关系数r,筛选出与毒性显著相关的结构参数,避免了伪相关参数引入模型。
[0089] 按照步骤b1所述的方法,分别计算各结构参数的皮尔逊相关系数r,如表2所示。
[0090]
[0091] 步骤b2,在显著相关的前提下,通过主成分分析,获得最优的结构描述符组合。具体公式:
[0092] F=a1i*ZX1+a2i*ZX2+......+api*ZXp   (2)
[0093] 其中a1i,a2i,......,api(i=1,......,m)为X的协方差阵∑的特征值所对应的特征向量,ZX1,ZX2,......,ZXp是原始变量经过标准化处理的值。
[0094] A=(aij)p×m=(a1,a2,...,am)   (3)
[0095] Rai=λiai   (4)
[0096] R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥...≥λp≥0。
[0097] 主成分分析是对于原先提出的所有变量,将关系紧密的变量删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量尽可能保持原有的信息。
[0098] 按照步骤b2所述的方法,分别计算各结构参数的皮尔逊相关系数r,如表3所示。
[0099] 表3各结构参数的主成分分析
[0100]
[0101]
[0102] 步骤c,构建毒性预测模型及稳健性检验;
[0103] 步骤c1,多元回归方程的构建与参数估计;
[0104] 以上述步骤d中确定的两最佳结构参数为自变量X,金属氧化物细胞毒性值为因变量Y,利用多元线性回归分析方法构建各模式生物的QICAR方程Y=XB+E,请参阅下述公式(5),其中:
[0105]
[0106] n为观测值个数;B代表未知参数,是方程中需要通过最小二乘法进行估计的;E代表随机误差项,反映了除x1,x2对y的线性关系之外的随机因素对y的影响。与一元线性回归相比,方程(5)采用多元线性回归建立了两种不同结构参数与毒性值的关系,完整、准确地表达预测对象与相关因素的关系。
[0107] 采用最小二乘法对方程中参数进行估计,X′为X的转置矩阵:
[0108]
[0109] 最小二乘回归是从误差拟合角度对回归模型进行参数估计,是一种标准的多元建模工具,尤其适用于预测分析。
[0110] 步骤c2,拟合优度检验和回归方程的显著性检验(F检验);
[0111] 模型的拟合优度检验指标为:相关系数的平方(R2)和自由度校正的相关系数标准偏差(RMSE)。F检验的指标为多因子方差分析(Multi-ANOVA)计算得到的F值和相关概率p(SignificanceF)。通常采用F统计量对应的P值进行检验。
[0112] 步骤c3,判别标准:根据毒性数据获取途径,体外实验R2≥0.81,体内试验R2≥0.64。显著水平为α,当p<α时,回归方程显著。
[0113]
[0114]
[0115]
[0116] 式中,yi表示第i种金属实测的毒性值,表示第i种金属预测的毒性值,表示各毒性值的平均值,n为训练集中金属的个数。
[0117] 方程(7)、(8)的相关系数和标准偏差可以度量回归直线的拟合优度;方程(9)是检验因变量与多个自变量的线性关系是否显著的通用方法。
[0118] 步骤d,QSAR模型的内部验证;
[0119] 每个物种的QSAR模型还应采用抽一法进行验证,方法的核心思想是随机从训练集中抽出一个数据,用其他的毒性数据和步骤c获得的最佳结构描述符建立多元回归模型,根据抽出数据的预测值与实验值的比较,来校验所建立的网络模型。为了减少交叉验证结果的可变性,对一个样本数据集进行多次不同的划分,得到不同的互补子集,进行多次交叉验证。本步骤中,取多次验证的平均值作为验证结果。
[0120] 此内部验证方法的优势在于用几乎所有的样本来训练模型,最接近样本,这样评估所得的结果比较可靠;实验没有随机因素,整个过程是可重复的。
[0121] 具体步骤如下:
[0122] 步骤d1,在给定的建模样本中,抽取一个样本作为预测集,其余样本作为训练集建模,并计算该样本的预测误差;
[0123] 步骤d2,记录每个方程中预测误差的平方加和,直到所有的样本都被预报了一次而且仅被预报一次;
[0124] 步骤d3,计算交叉验证相关系数Q2cv和交叉验证均方根误差RMSECV,计算公式如下所述;判别依据:Q2cv>0.6,R2-Q2cv≤0.3;
[0125]
[0126]
[0127] 式中, 表示第i个化合物毒性的实测值, 代表第i个化合物毒性的预测值, 代表训练集毒性的平均值,n表示训练集中化合物数。
[0128] 方程(10)、(11)是抽一法内部验证的指示参数,可有效降低模型对训练集数据的过拟合,测定训练集中有无特定金属对模型稳健性的影响。
[0129] 采用本发明步骤d所述的方法对模型进行内部验证。以预测方程Pred.MLR=(4.412±0.165)+(-0.001±2.57×10-4)ΔHme++(-0.121±0.068)Z/r为例,对模型进行抽一法内部验证,相关拟合参数见表4。根据步骤d3中的公式(7)和(8),计算Q2cv=0.7422,RMSECV=0.2695,R2-Q2cv=0.8793-0.7422=0.1371。满足模型稳健性判别依据Q2cv>0.6,R2-Q2cv≤0.3,该模型通过内部验证。
[0130] 表4模型内部验证抽一法相关参数
[0131]
[0132]
[0133] 步骤e,模型适用范围计算;
[0134] 经过校验的模型,采用杠杆值法计算模型的适用范围,以Williams图直观表示。此方法可保证模型在预测过程中具有最佳的可靠性。
[0135] 杠杆值hi的计算公式为:
[0136] hi=xiT(XTX)-1xi   (12)
[0137] 式中,xi代表第i个金属的结构参数组成的列向量;对于双参数模型,XT表示矩阵X的转置矩阵,(XTX)-1表示对XTX矩阵的逆矩阵。
[0138] 临界值h*的计算公式为:
[0139]
[0140] 式中,p代表模型中变量数,双参数模型中p=2,n代表模型训练集化合物的数量,根据步骤a-d校验过后各QSAR方程中训练集金属个数决定。
[0141] 以杠杆值h为横坐标,以各数据点的标准残差为纵坐标,绘制Williams图。在图中h<h*的坐标空间为模型的适用范围。
[0142] 训练集各纳米金属氧化物的结构参数和毒性终点为如表5所示。临界值h*=3*(2+1)/16=0.5625。
[0143] 表5纳米金属氧化物毒性预测模型适用范围的计算
[0144]种类 Z/r h(Z/r) ΔHme+ h(ΔHme+) 观测值 预测值 标准残差
氧化锌 2.703 0.14664 662.44 0.17261 3.45 3.39 0.06
氧化铜 2.740 0.14213 713.74 0.15188 3.20 3.35 -0.15
三氧化二钇 3.333 0.08999 837.15 0.10281 2.87 3.13 -0.26
三氧化二铋 2.913 0.12433 1137.40 0.0631 2.82 2.87 -0.05
三氧化二铟 3.750 0.06938 1271.13 0.07807 2.81 2.62 0.19
氧化铝 5.556 0.1376 1187.83 0.06638 2.49 2.46 0.03
三氧化二铁 5.455 0.12618 1363.40 0.11434 2.29 2.25 0.04
二氧化锡 5.797 0.16579 1717.32 0.27364 2.01 1.89 0.12
氧化钛 6.557 0.28462 1575.73 0.18731 1.74 1.95 -0.21
三氧化二钒 4.688 0.07299 1097.73 0.06253 3.14 2.69 0.45
三氧化二锑 3.947 0.06439 1233.06 0.07176 2.64 2.62 0.02
二氧化锆 5.556 0.1376 1357.66 0.09848 2.15 2.31 -0.16
二氧化钴 3.077 0.10878 594.59 0.20487 3.51 3.39 0.12
氧化镍 2.899 0.12531 596.88 0.20778 3.45 3.42 0.03
三氧化二铬 4.839 0.07993 1266.62 0.07762 2.51 2.48 0.03
三氧化二镧 2.913 0.12433 1017.22 0.06682 2.87 3.04 -0.17
[0145] 以各金属的两最优结构参数的杠杆值为横坐标,预测残差为纵坐标绘制Williams图,如图2和图3所示。图中三条虚线内部的空间为模型的适用范围,计算结果显示训练集的16种纳米金属氧化物在模型的预测范围之内。
[0146] 步骤f,按照上述步骤a-e所述的方法获得纳米QSAR预测方程,搜集并整理待预测纳米金属氧化物的所有结构描述符的值,代入方程计算待预测的毒性终点。