基于支持向量机的药物分子药代动力学性质和毒性预测方法转让专利

申请号 : CN200810045708.3

文献号 : CN101329699B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨胜勇黄奇魏于全马长英张会

申请人 : 四川大学

摘要 :

基于支持向量机的药物分子药代动力学性质和毒性预测方法属计算机辅助药物分子设计领域。本方法充分利用支持向量机的统计学习建模优势,采用集成的方法同时进行药物分子描述符的选择和SVM参数的优化。实施步骤:描述符的计算,描述符的预处理,对描述符数据集进行重新标度,采用集成的方法同时进行描述符的选择和SVM参数优化。SVM参数优化使用共扼梯度法对惩罚函数C和核函数γ进行优化。描述符的选择使用遗传算法,个体适应度函数采用综合反映预测准确度和描述符数目的适应函数。在描述符的选择和SVM参数优化的集成中用SVM优化参数对每一个个体进行适应度函数计算,完成轮盘赌、杂交和突变的数据集成。本方法充分利用了SVM和计算机的两大处理优势,预测效果和效率大为提高。

权利要求 :

1. 一种基于SVM的药物分子药代动力学性质和毒性预测方法,其特征在于:构建新的计算机程序预测模型,在构建过程中同时进行药物分子描述符的选择和SVM参数的优化;

构建步骤包括:描述符的计算,描述符的预处理,对描述符数据集进行重新标度,采用集成的方法同时进行描述符的优化和SVM参数优化;SVM参数的优化使用共扼梯度法,对惩罚函数C和核函数γ进行优化;描述符的优化使用遗传算法,个体适应度函数采用综合反映预测准确度和描述符数目的适应度函数Fit=WA×SVM_accuracy+WF×NF,在获得每个染色体的适应度函数后,通过轮盘赌,杂交和突变等运算产生下一代种群;描述符的选择和SVM参数优化的集成是在SVM参数优化的基础上对每一个个体进行适应度函数的计算,完成轮盘赌,杂交和突变的数据集成。

2. 如权利要求1所述的预测方法,其特征在于:所述对SVM参数优化使用共扼梯度法,对惩罚函数C和核函数γ进行优化的方法是:设C′,γ′是最优的惩罚函数和核函数,A′值最小表示SVM预测的精度最高,C′=logC,γ′=logγ,A′=-A;然后按照以下步骤进行:(1)在初始点x0=(C′0,γ′0)处计算梯度的负值,即r0=-g0,设置第一个共扼方向d0=r0;

(2)设xi=x0,di=d0,沿di方向线性搜索αi,使得-f(xi+αidi)最小,然后产生xi+1=xi+αidi;

(3)在新的点计算ri+1=-gi+1;

(4)检查是否满足收敛条件,即|ri+1|<tolerance的设定值,如果满足则退出,否则继续下一步。

(5)通过公式计算

(6)计算新的共扼方向di+1=ri+1+βi+1di;

(7)重复(2)-(6)步,直到收敛条件满足。

3. 如权利要求1所述的预测方法,其特征在于:所述描述符的优化使用遗传算法方法,采用个体适应度函数进行优化的具体步骤是:(1)编码表示:每一个描述符对应一个二进制位,若该描述符出现在选择的描述符集合中,则该位为1,否则为0;

(2)初始化遗传代数k,令k=0;

(3)初始化种群:随机产生n=20个二进制串;

(4)检查是否满足停止条件,即:k>200或最后50代均没有进一步改善预测的准确率,如果满足则退出,否则继续下面的操作;

(5)计算个体适应度函数:fitness=WA×SVM_accuracy+WF×NF,其中SVM_accuracy为

5重交叉验证的精度,NF是选择的描述符数量,WA和WF分别是它们的全重因子;

(6)按个体适应度函数大小排列,使用轮盘赌方法选择20个个体;

(7)对选择的个体进行两两配对进行10次杂交,产生20个新的个体;

(8)将新的20个个体按照2%的概率进行突变,即将0变为1,或将1变为0;

(9)设k=k+1,转第(4)步。

4. 如权利要求1所述的预测方法,其特征在于:所述描述符的选择和SVM参数的优化是集成的,步骤是:(1)按照对描述符优化的步骤(1)-(4)进行描述符优化;

(1)按照对SVM参数优化的步骤(1)-(7)进行参数优化;

(2)按照计算个体适应度函数Fit=WA×SVM_accuracy+WF×NF,对每一个个体使用SVM参数优化后获得的参数C和γ计算SVM_accuracy;

(3)按照描述符优化步骤(6)-(9)继续进行,直到结束。

5. 如权利要求1所述的预测方法,其特征在于:所述在对描述符进行预处理和进行描述符数据集的重新标度,是在预处理中删除明显差的描述符,降低冗余度和描述符的重叠,再将描述符数据集映射到同一个区间[-1,+1]进行重新标度,按照以下公式进行:其中v是描述符的原始值,vscaled是重新标度后的值,max和min分别对应该描述符的最大值和最小值。

6. 如权利要求5所述的预测方法,其特征在于:在描述符的预处理中删除明显差的描述符,是删除下面三种:(a)描述符的值超过90%为零的;(b)描述符的标准差小于0.5%的;(c)与其它描述符的相关系数大于90%的。

7. 如权利要求2所述的预测方法,其特征在于:检查是否满足收敛条件,即|ri+1|<tolerance的值,其设定值是设定tolerance为0.001。

说明书 :

基于支持向量机的药物分子药代动力学性质和毒性预测方

[0001] 所属技术领域
[0002] 本发明涉及计算机辅助药物分子设计领域,特别涉及一种基于支持向量机的药物分子药代动力学性质和毒性预测方法。背景技术:
[0003] 在药物开发的初期,使用计算机预测药物分子的药代动力学性质和毒性,可以减少后期药物开发的风险,降低研发成本。目前常用的预测药物分子药代动力学性质和毒性的方法主要包括多重线性回归、主成分分析、偏最小二乘方法等。这些方法的缺陷主要包括:它们只适用于化合物结构差异较小的体系,而实际的药物分子体系一般结构差异很大;这些方法一般要求样本的数量多,而药代动力学和毒性实验数据测试困难、并且费用较高,限制了大量实验数据的获取;由于试验数据的不足导致了预测能力非常有限。
[0004] 支持向量机(Support Vector Machine,SVM)是近年来发展起来的一种优秀的机器统计学习方法,它在文字、图像识别和数据挖掘中已得到较多的应用。但是使用SVM的方法还不能很好地完成药物分子的药代动力学和毒性预测。因为SVM本身还存在一些自身无法解决的问题,比如在SVM建模中所使用的描述符有许多是重复和冗余的,SVM参数包括惩罚函数C和核函数γ的设置不尽合理等。这些问题的存在严重地影响药物分子药代动力学性质和毒性预测模型的质量。如何充分利用支持向量机的统计学习建模和计算机快速处理外部巨大数据的独特优势,开发适用于药物分子的药代动力学和毒性预测模型,对计算机辅助药物分子设计和创新药物研发有着十分重要的作用。

发明内容

[0005] 本发明的目的是提供一种基于支持向量机的新的药物分子药代动力学性质和毒性预测方法。本方法既充分利用支持向量机的统计学习建模优势,又充分利用计算机快速处理外部大量数据的能力,其基本思路是引用药物分子描述符程序计算出描述符,进行描述符的预处理,在构建新的SVM预测模型过程中同时充分考虑药物分子描述符的选择和SVM参数的优化,并建立药物分子药代动力学性质和毒性的预测系统,使其预测质量和效率大为提高。
[0006] 本发明的目的是这样达到的:一种基于SVM的药物分子药代动力学性质和毒性预测方法,其特征在于:构建新的计算机程序预测模型,在构建过程中同时进行药物分子描述符的选择和SVM参数的优化;构建步骤包括:描述符的计算,描述符的预处理,对描述符数据集进行重新标度,采用集成的方法同时进行描述符的优化和SVM参数优化;SVM参数的优化使用共扼梯度法,对惩罚函数C和核函数γ进行优化;描述符的优化使用遗传算法,个体适应度函数采用综合反映预测准确度和描述符数目的适应度函数Fit=WA×SVM_accuracy+Wf×NF,其中SVM_accuracy为该个体的5重交叉验证的精度,WA为对应的权重,NF为描述符的个数,WF为对应的权重。在获得每个染色体的适应度函数后,通过轮盘赌,杂交和突变等运算产生下一代种群;描述符的选择和SVM参数优化的集成是在SVM参数优化的基础上对每一个个体进行适应度函数的计算,完成轮盘赌,杂交和突变的数据集成。
[0007] 所述对SVM参数优化使用共扼梯度法,对惩罚函数C和核函数γ进行优化的方法是:设C′,γ′是最优的惩罚函数和核函数,A′值最小表示SVM预测的精度最高,C′=logC,γ′=logγ,A′=-A;然后按照以下步骤进行:
[0008] (1)在初始点x0=(C′0,γ′0)处计算梯度的负值,即r0=-g0,设置第一个共扼方向d0=r0;
[0009] (2)设xi=x0,di=d0,沿di方向线性搜索αi,使得-f(xi+αidi)最小,然后产生xi+1=xi+αidi;
[0010] (3)在新的点计算ri+1=-gi+1;
[0011] (4)检查是否满足收敛条件,即|ri+1|<tolerance的设定值,如果满足则退出,否则继续下一步。
[0012] (5)通过公式计算
[0013] (6)计算新的共扼方向di+1=ri+1+βi+1di;
[0014] (7)重复(2)-(6)步,直到收敛条件满足。
[0015] 所述描述符的优化使用遗传算法方法,采用个体适应度函数进行优化的具体步骤是:
[0016] (1)编码表示:每一个描述符对应一个二进制位,若该描述符出现在选择的描述符集合中,则该位为1,否则为0;
[0017] (2)初始化遗传代数k,令k=0;
[0018] (3)初始化种群:随机产生n=20个二进制串;
[0019] (4)检查是否满足停止条件,即:k>200或最后50代均没有进一步改善预测的准确率,如果满足则退出,否则继续下面的操作;
[0020] (5)计算个体适应度函数:fitness=WA×SVM_accuracy+WF×NF,其中SVM_accuracy为5重交叉验证的精度,NF是选择的描述符数量,WA和WF分别是它们的权重因子;
[0021] (6)按个体适应度函数大小排列,使用轮盘赌方法选择20个个体;
[0022] (7)对选择的个体进行两两配对进行10次杂交,产生20个新的个体;
[0023] (8)将新的20个个体按照2%的概率进行突变,即将0变为1,或将1变为0;
[0024] (9)设遗传代数k=k+1,转第(4)步。
[0025] 所述描述符的选择和SVM参数的优化是集成的,步骤是:
[0026] (1)按照对描述符优化的步骤(1)-(4)进行描述符优化;
[0027] (2)按照对SVM参数优化的步骤(1)-(7)进行参数优化;
[0028] (3)按计算个体适应度函数公式计算个体适应度函数Fit=WA×SVM_accuracy+WF×NF,其中SVM_accuracy是使用经过SVM参数优化后获得的参数C和γ计算获得的;
[0029] (4)按照描述符优化步骤(6)-(9)继续进行,直到结束。
[0030] 所述在对描述符进行预处理和进行描述符数据集的重新标度,是在预处理中删除明显差的描述符,降低冗余度和描述符的重叠,再将描述符数据集映射到同一个区间[-1,+1]进行重新标度,按照以下公式进行: 其中v是描述符的原始值,vscaled是重新标度后的值,max和min分别对应该描述符的最大值和最小值。
[0031] 在描述符的预处理中删除明显差的描述符,是删除下面三种:(a)描述符的值超过90%为零的;(b)描述符的标准差小于0.5%的;(c)与其它描述符的相关系数大于90%的。检查是否满足收敛条件,即|ri+1|<tolerance的值,其设定值是设定tolerance为0.001。
[0032] 本发明的积极效果是:将支持向量机独特的统计学习建模思想引入到药物药代动力学性质和毒性的预测系统,有效地利用了SVM统计学习方法和计算机处理大量外部数据的独特优势。在基于支持向量机的基础上构建新的模型,通过描述符的预处理和重新标度、描述符的优化和选择、SVM参数的优化,利用合适的个体适应度函数综合反映预测准确度和描述符数目等手段,建立了高质量的药物分子药代动力学性质和毒性的预测系统和方法。预测质量和效率均大大提高。与现有的SVM方法相比本发明效果十分突出,预测质量和预测效率大为提高。预测准确率可达95%以上,而使用的描述符数目比其它方法减少50%以上,预测时间缩短至少30%。本发明具有很高的实用价值和推广意义。

附图说明

[0033] 图1是SVM参数优化的流程图。
[0034] 图2是描述符优化的流程图。
[0035] 图3是利用本发明实现基于支持向量机的药物药代分子动力学性质和毒性预测流程图。具体实施方式:
[0036] 参见附图3。
[0037] 图3给出了采用本发明的方法实现药代动力学性质和毒性预测的具体过程。
[0038] 首先,在药物分子训练集中,收集已知的有机化合物药代动力学和毒性相关物理化学性质、吸收、分布、代谢、排泄和毒性数据。本例收集典型的数据,包括:(1)抗真菌性;(2)血脑屏障渗透;(3)人口服生物利用度;(4)化合物在caco-2细胞中的渗透性;(5)致癌性;(6)清除率;(7)遗传毒性;(8)人ether-a-go-go相关基因的毒性;(9)人小肠吸收;(10)人类免疫缺陷病毒-半数有效浓度;(11)半数损伤生长浓度);(12)半数致死浓度;(13)分配系数的对数值;(14)溶解度的对数值;(15)线粒体毒性;(16)致突变性;(17)P450 2C9抑制剂;(18)P450 2C9底物;(19)P450 2D6抑制剂;(20)P450 2D6底物;(21)P450 3A4抑制剂;(22)P450 3A4底物;(23)P-糖蛋白底物;(24)人血浆蛋白结合率;(25孕甾烷X受体;(26)扭转型室性心动过速;(27)致畸。
[0039] 然后,利用原有的计算药物分子描述符的通用软件计算分子的描述符。
[0040] 得到描述符后即对描述符进行预处理和描述符数据集的重新标度。
[0041] 在预处理中删除明显差的描述符,以降低冗余度和描述符的重叠。下面的描述符将被删除:(a)描述符的值超过90%为零;(b)描述符的标准差小于0.5%;(c)与其它描述符的相关系数大于90%。
[0042] 数据集的重新标度:不同描述符的值的范围的差异很大,首先将它们映射到同一个区间[-1,+1],
[0043] 标度按照以下公式进行:
[0044]
[0045] 其中v是描述符的原始值,vscaled是重新标度后的值,max和min分别对应该描述符的最大值和最小值。
[0046] 至此,完成了描述符的预处理和描述符数据集的重新标度,也即完成了前期准备工作,进入了采用集成的方法进行描述符选择和SVM参数优化,建立计算机程序预测药物分子药代动力学和毒性的过程。
[0047] 参见附图1、附图2。SVM参数优化、描述符的优化、描述符的选择和SVM参数优化的集成均按照确定的流程进行。在描述符的优化中采用遗传算法,而SVM参数的优化则采用共扼梯度法。
[0048] 在实际操作中,描述符的选择和SVM参数的优化是同时进行的。随机产生20个二进制串,每一个二进制串代表一种描述符的选择方式,二进制位为1的表示该位对应的描述符选中,为0表示没有选中。对于每一个个体,使用前面所述的对SVM参数优化的步骤对参数惩罚函数C和核函数γ以优化。在检查是否满足收敛条件即|ri+1|<tolerance时,设tolerance为0.001,如果满足|ri+1|<tolerance也即小于为0.001则退出,否则继续下一步。
[0049] 继续按照描述符的优化方法计算每个个体的适应度函数。
[0050] 计算个体适应度函数:fitness=WA×SVM_accuracy+WF×NF,其中SVM_accuracy为5重交叉验证的精度,NF是选择的描述符数量,WA和WF分别是它们的权重因子,这里为提高计算速度,设WA=1,WF=0.
[0051] 按个体适应度函数大小排列,使用轮盘赌方法选择20个个体;
[0052] 对选择的个体进行两两配对进行10次杂交,产生20个新的个体
[0053] 将新的20个个体按照2%的概率进行突变,即将0变为1,或将1变为0。设遗传代数k=k+1,检查是否满足停止条件,即:k>200或最后50代均没有进一步改善预测的准确率。直到满足结束条件,找到最佳的描述符组合,利用该参数建立药物分子药代动力学和毒性的预测模型,完成对药物分子药代动力学和毒性的预测。