基于改进决策树的井下复杂情况预测方法转让专利

申请号 : CN202310130504.4

文献号 : CN115907236B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 肖斌姚瑞滢肖伊曼秦光源李欢谢珊汪敏

申请人 : 西南石油大学

摘要 :

本发明公开了基于改进决策树的井下复杂情况预测方法,包括以下步骤:步骤S10、收集井下历史传感器数据,进行数据清洗,并构建井漏数据集;步骤S20、根据井漏数据集建立决策树;步骤S30、利用决策树对数据进行拟合,获得训练好的融合改进决策树模型;步骤S40、利用融合改进决策树模型和神经网络进行井漏预测。本发明从新颖的角度出发,利用回归树和类似梯度下降思想,融合进入并行树,针对井下复杂情况数据更新快速,根据完备的数理知识,此方法可以快速根据当前井下数据得出结果,可以指导平台工作人员更好地进行井下情况做出预警。

权利要求 :

1.基于改进决策树的井下复杂情况预测方法,其特征在于,包括以下步骤:步骤S10、收集井下历史传感器数据,进行数据清洗,并构建井漏数据集;

所述步骤S10中数据清洗的具体过程为:对数据进行缺失值填充,然后再进行异常值检测并剔除异常点;

所述数据包括地层层位、井深、转速、钻压、扭矩、泵压、入口流量、出口流量、入口密度、出口密度、Sigma指数、DC指数;

所述缺失值填充包括平均值填充法和邻近值填充法,其中针对离散的地质层位特征采用邻近值填充法填补缺失值;针对连续型数据特征包括井深、转速、钻压、扭矩、泵压、入口流量、出口流量、入口密度、出口密度、Sigma指数、DC指数,均采取均值填充法填补缺失值;

步骤S20、根据井漏数据集建立决策树;

步骤S21、对井漏数据集进行计算现有特征对于井漏数据集的基尼指数,对每个特征的可能每个值将井漏数据集分割为漏与不漏,计算出每个特征对于可能的值下数据集的基尼指数;

步骤S22、在所有特征下的每个可能的值中选择基尼指数最小的特征作为当前最优特征,以及对应的切分点,从现有节点生成俩个子节点,并按照切分点将训练集分为俩部分对于子节点;

步骤S23、对俩个子节点递归调用步骤S21、步骤S22,直到没有特征或无切分点;

步骤S24、决策树生成;

步骤S30、利用决策树对数据进行拟合,获得训练好的融合改进决策树模型;

步骤S40、利用融合改进决策树模型和神经网络进行井漏预测;

所述步骤S40的具体过程为:将数据与融合改进决策树模型的判断结果作为输入,输入到神经网络中,实现邻近深度的井漏预测,并通过反向传播算法对神经网络进行优化。

2.根据权利要求1所述的基于改进决策树的井下复杂情况预测方法,其特征在于,所述步骤S30中采用加法模型和前向分布算法进行拟合。

3.根据权利要求1所述的基于改进决策树的井下复杂情况预测方法,其特征在于,所述步骤S30中优化目标函数为:式中: 为t‑1时刻的井漏预测机器学习模型; 为决策树; 为正则化项; 为目标函数;l为均方误差;为第i个真实值。

4.根据权利要求3所述的基于改进决策树的井下复杂情况预测方法,其特征在于,所述步骤S40中损失函数为:式中:y为真实值;y_为预测值;w为权重参数;λ为正则化系数。

说明书 :

基于改进决策树的井下复杂情况预测方法

技术领域

[0001] 本发明涉及基于改进决策树的井下复杂情况预测方法,属于井下复杂情况分析预测技术领域。

背景技术

[0002] 随着国内页岩气的开发和利用,以及井下进一步勘探,如何对井下复杂情况有效检测并且实时分析称为国内外关注的重点。井下复杂情况分析不仅关乎工人的生命安全,同时关系到生产单位的经济。
[0003] 四川盆地南部地区龙马溪组页岩气资源量丰富,其中长宁区块是中国主要页岩气产区之一,具有储层优质,物性好,保持条件好等特点。受川南地区复杂的构造运动以及地质演化影响,区域地应力分布异常复杂;同时垂向上层理发育,岩石非均质性强,综上各个情况汇总,对于开展井下复杂情况研究,并分析事故发生原因是有必要的。
[0004] 机器学习是人工智能领域的一个重要分支。近年来随着数据储存技术的快速发展,用大量井数据作为支撑。通过机器学习模型或深度神经网络模型来对采集数据进行非线性拟合,并结合实际井下复杂情况评估标签,可以在大多数场景下实现较高的准确率。
[0005] 此算法采用多颗分类回归树,并且是使用了二阶泰勒展开式对loss进行了近似,使得整个求解框架可以适用于任意二阶可导的loss。此外此算法还借鉴了随机森林的思想,支持行,列采样,采样可以加快计算速度,有助于减小过拟合。

发明内容

[0006] 为了克服现有技术中的缺点,本发明提供基于改进决策树的井下复杂情况预测方法,本发明就是不断添加树,不断进行特征分裂来生长一棵树。每次添加一个树,过程就是学习一个新函数,去拟合上次预测的残差。训练结束得到k棵树,根据这个样本的特征,将会落在每棵树上对应的一个叶子节点,每个叶子节点对应一个预测分值,最后汇总分值,即为该样本的预测值。
[0007] 本发明解决上述技术问题所提供的技术方案是:基于改进决策树的井下复杂情况预测方法,包括以下步骤:
[0008] 步骤S10、收集井下历史传感器数据,进行数据清洗,并构建井漏数据集;
[0009] 步骤S20、根据井漏数据集建立决策树;
[0010] 步骤S30、利用决策树对数据进行拟合,获得训练好的融合改进决策树模型;
[0011] 步骤S40、利用融合改进决策树模型和神经网络进行井漏预测。
[0012] 进一步的技术方案是,所述步骤S10中数据清洗的具体过程为:对数据进行缺失值填充,然后再进行异常值检测并剔除异常点。
[0013] 进一步的技术方案是,所述数据包括地层层位、井深、转速、钻压、扭矩、泵压、入口流量、出口流量、入口密度、出口密度、Sigma指数、DC指数。
[0014] 进一步的技术方案是,所述缺失值填充包括平均值填充法和邻近值填充法,其中针对离散的地质层位特征采用邻近值填充法填补缺失值;针对连续型数据特征包括井深、转速、钻压、扭矩、泵压、入口流量、出口流量、入口密度、出口密度、Sigma指数、DC指数,均采取均值填充法填补缺失值。
[0015] 进一步的技术方案是,所述步骤S20的具体过程为:
[0016] 步骤S21、对井漏数据集进行计算现有特征对于井漏数据集的基尼指数,对每个特征的可能每个值将井漏数据集分割为漏与不漏,计算出每个特征对于可能的值下数据集的基尼指数;
[0017] 步骤S22、在所有特征下的每个可能的值中选择基尼指数最小的特征作为当前最优特征,以及对应的切分点,从现有节点生成俩个子节点,并按照切分点将训练集分为俩部分对于子节点;
[0018] 步骤S23、对俩个子节点递归调用步骤S21、步骤S22,直到没有特征或无切分点;
[0019] 步骤S24、决策树生成。
[0020] 进一步的技术方案是,所述步骤S30中采用加法模型和前向分布算法进行拟合。
[0021] 进一步的技术方案是,所述步骤S30中优化目标函数为:
[0022] 式中: 为t‑1时刻的井漏预测机器学习模型; 为决策树; 为正则化项; 为目标函数;l
为均方误差; 为第i个真实值。
[0023] 进一步的技术方案是,所述步骤S40的具体过程为:将数据与融合改进决策树模型的判断结果作为输入,输入到神经网络中,实现邻近深度的井漏预测,并通过反向传播算法对神经网络进行优化。
[0024] 进一步的技术方案是,所述步骤S40中损失函数为:
[0025] 式中:y为真实值;y_为预测值;w为权重参数;λ为正则化系数。
[0026] 与现有技术相比,具有以下优点:
[0027] (1)本发明能够有效地对井下复杂事故进行预测,并且给出模型决策的解释信息来辅助现场人员对事故进行处理;
[0028] (2)本发明通过在机器学习模型上采用改进决策树(采用了回归树和前向分布),具有相当完备的数学理论基础;
[0029] (3)本发明建立的数据模型,有数个连续值特征时,通过迭代分类器不断缩小损失值,形成一个准确率很高的预测模型;
[0030] (4)本发明所采用的机器学习模型,提供了并行树提升,可以快速准确地解决许多数据科学问题。在井下复杂情况分析中大量数据下,可以快速预测。实施方式
[0031] 下面结合实施例对本发明做更进一步的说明。
[0032] 本发明的基于改进决策树的井下复杂情况预测方法,包括以下步骤:
[0033] S1、收集井下历史传感器数据,如表1所示;表1
[0034]字段名 备注
CW 地质层位
DEP 井深
HOKHEI 大钩高度
DRITIME 钻时
RPM 转速
WOB 钻压
HKLD 大钩载荷
TOR 扭矩
SPP 泵压
FLOWIN 入口流量
FLOWOUT 出口流量
MWIN 入口密度
MWOUT 出口密度
MCONDIN 入口电导
MCONDOUT 出口电导
SIGMA Sigma指数
TGAS 总烃
PITTOT 总池体积
OVERFLOW 总池增减量
VDEP 垂深
DC DC指数
[0035] S2、对井下历史传感器数据进行缺失值填充;
[0036] 本发明中采用“kNN最近邻”方法来进行缺失值的填充,基于欧氏距离的最短距离点被认为是最近邻点。在处理缺失值的时候,找到距离这条数据最近的k个数据点对应所缺失的特征的平均值来进行填补。
[0037] 根据缺失值所在数据,计算与其他数据点的加权欧式距离:
[0038]
[0039] 其中,n为本次采集的数据量,x和y分别为两条计算距离的向量。对缺失值所在数据与其他数据全部计算完成加权欧式距离后,取距离最近的k个数据点,取它们对应缺失特征的平均值作为填补值。k取5。
[0040] S3、采用K‑means聚类算法进行异常值检测,排除不符合该准则的异常值,并且对数据进行归一化处理,再构建井漏数据集;
[0041] K‑means聚类算法步骤如下:
[0042] 1、选择初始化k个样本作为初始聚类中心 ;
[0043] 2、针对数据集中每个样本计算它到 k 个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
[0044] 3、针对每个类,重新计算它的聚类中心 (即属于该类的所有样本的质心);
[0045] 4、重复上面 2 3 两步操作,直到达到某个中止条件(迭代次数、最小误差变化等);
[0046] 此处无法知道具体异常值,取出一部分数据进行预估,在验证进行聚类中心得确定;再通过聚类中心进行异常值检测;
[0047] S4、根据井漏数据集建立决策树;
[0048] S41、对井漏数据集进行计算现有特征对于井漏数据集的基尼指数,对每个特征的可能每个值将井漏数据集分割为漏与不漏,计算出每个特征对于可能的值下数据集的基尼指数;
[0049] S42、在所有特征下的每个可能的值中选择基尼指数最小的特征作为当前最优特征,以及对应的切分点,从现有节点生成俩个子节点,并按照切分点将训练集分为俩部分对于子节点;
[0050] S43、对俩个子节点递归调用步骤S21、步骤S22,直到没有特征或无切分点;
[0051] S44、决策树生成;
[0052] 其中决策树采用了分类和回归树,这种二叉树,其中每个节点对应一个判定条件,决策树在不断地对数据的划分直到满足一定条件为止。树模型的可解释性也很高,可以通过查看决策树的结构来理解模型的决策过程。
[0053] 在树中采用基尼指数作为决定如何划分数据。基尼指数是衡量数据集纯度的一个度量。假设有一个二分问题,其中正负比例分别为p和1‑p,则基尼指数定义为[0054]
[0055] 基尼指数越小,说明数据的纯度越高,也就是说正负类的比例越接近0或1。使用基尼指数来决定如何划分数据的优点在于,它可以自动处理类别型变量和数值型变量,并且可以处理缺失数据。另外,基尼指数还可以帮助防止过拟合,因为它对分割的数据的纯度要求比较高。
[0056] S5、利用决策树对数据进行拟合,获得训练好的融合改进决策树模型;
[0057] 本算法采用加法模型和前向分布算法来拟合目标。第t时刻的模型为:
[0058]
[0059] 其中 就是t‑1时刻的模型,通过经验风险最小化来获得下一棵决策树。优化目标函数为:
[0060]
[0061] 一般来讲,以结构风险最小化为优化目标的机器学习模型,其优化函数的形式如下:
[0062] 其中第一项是模型预测值与真实值的损失度量函数,第二项中T为树,整体作为一个正则化项,起到控制模型复杂度,防止过拟合的作用。
[0063] 将提升树的加法模型带入上式可得:
[0064] 在训练中每一步我们通过优化该目标来获得当前的回归树,而且,每步之间没有串行相连,故可以很容易地实现分布式运算,极大地提升训练速度;
[0065] S6、利用融合改进决策树模型和神经网络进行井漏预测;
[0066] 本发明引入神经网络对邻近待挖掘深度进行预测;
[0067] 首先使用改进决策树对历史数据进行分析。然后,使用神经网络对决策树的预测结果进行评估,以确定决策树的准确性。
[0068] 将决策树的结果作为神经网络的输入,并使用神经网络预测未来的决策。最后,比较神经网络的预测结果与实际结果,并使用反向传播算法对神经网络进行调整,以提高预测的准确性。
[0069] 其中损失函数如下:
[0070] 其中:y为真实值,y_为预测值,w为权重参数,λ为正则化系数,越大代表对惩罚力度越大。
[0071] 这种方法可以通过结合决策树的速度和神经网络的准确性,在保证预测准确性的同时,提高决策的效率。
[0072] 以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。