一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法转让专利

申请号 : CN202210441433.5

文献号 : CN114970676B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王贵何杰徐生江曹成

申请人 : 西南石油大学

摘要 :

本发明公开了一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,包括以下步骤:S1:获取井漏数据,并对井漏数据进行预处理;S2:对预处理后的井漏数据进行相似度分析,得到候选井漏数据;S3:对候选井漏数据中堵漏配方数据进行堵漏配方粒度分析并聚类,确定推荐配方集。本发明克服了堵漏施工极大依赖于工程技术人员经验式判断堵漏方法的缺点,通过相似度分析与聚类算法对井漏数据进行数据挖掘,最后达到实时推荐现场作业颗粒基堵漏配方的效果,对现场漏失处理方案的快速决策、选取科学合理的钻井液堵漏配方、提高钻井工程安全性和钻井堵漏作业一次成功率都有着积极的现实意义。

权利要求 :

1.一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,包括以下步骤:S1:获取井漏数据,并对井漏数据进行预处理;

S2:对预处理后的井漏数据进行相似度分析,得到候选井漏数据;

S3:对候选井漏数据中堵漏配方数据进行堵漏配方粒度分析并聚类,确定推荐配方集;

所述步骤S2包括以下子步骤:

S21:计算预处理后的井漏数据中数值型数据的相似度和字符型数据的相似度;

S22:根据数值型数据的相似度和字符型数据的相似度,计算井漏数据的整体相似度;

S23:构建数值型数据的(d,cd,fp1,fp2)敏感LSH函数族和字符型数据的(r,cr,sp1,sp2)敏感LSH函数族,其中,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;

S24:根据井漏数据的整体相似度、数值型数据的LSH函数族和字符型数据的LSH函数族,构建井漏数据的二元混合索引,得到候选井漏数据;

所述步骤S21中,数值型数据的相似度distE的计算公式为:其中,EuclidenanDist(·)表示计算井漏数据对象o1与o2之间的欧氏距离函数,o1·f‑type表示井漏数据对象o1的数值型数据,o2·f‑type表示井漏数据对象o2的数值型数据,dmax表示井漏数据对象o1与o2之间数值型数据特征的最大距离;

所述步骤S21中,字符型数据的相似度distJ的计算公式为:其中,o1·s‑type表示井漏数据对象o1的字符型数据,o2·s‑type表示井漏数据对象o2的字符型数据;

所述步骤S22中,井漏数据的整体相似度dist的计算公式为:dist=α×distE+(1‑α)×distJ

其中,α表示两种井漏数据类型的权重参数;

所述步骤S23中,数值型数据的(d,cd,fp1,fp2)敏感LSH函数族h(o.f‑type)的表达式为:其中,a表示随机生成的d维向量,b表示在(0,W)之间随机生成的实数,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,W表示常数,o.f‑type表示井漏数据对象o的数值型数据,t表示积分变量,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,f2(·)表示标准正则概率密度函数;

所述步骤S23中,字符型数据的(r,cr,sp1,sp2)敏感LSH函数族h(O.s‑type)的表达式为:h(O.s‑type)=arg min g(q),q∈O.s‑type其中,O.s‑type表示井漏字符型数据集,q表示井漏数据对象中的字符型数据,g(·)表示随机数生成函数,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;

所述步骤S24包括以下子步骤:

S241:分别从数值型数据的LSH函数族和字符型数据的LSH函数族中随机选取k1和k2个哈希函数,组成井漏数据二元混合索引LSH函数族G,其表达式为:G=g(o)

其中, 表示数值型数据LSH函数集, 表示字符型数据LSH函数集,g(o)表示井漏数据二元混合索引LSH函数集,o.f‑type表示井漏数据对象o的数值型数据,O.s‑type表示井漏字符型数据集;

S242:随机从井漏数据二元混合索引LSH函数族G中选取p个井漏数据哈希函数g1,…,gp,并将p个井漏数据哈希函数对应的哈希值存储至对应的哈希桶中,选取的井漏数据哈希函数个数p的计算公式为:其中,M表示井漏数据样本总数,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;

S243:在哈希桶中,将符合distE(oi,q)<cd、distJ(oi,q)<cr且dist(oi,q)<ε的井漏数据作为候选井漏数据,其中,oi表示任意井漏数据,q表示新的井漏现场查询对象,distE表示数值型数据的相似度,distJ表示字符型数据的相似度,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,r表示字符型数据的Jaccard距离敏感范围,ε表示井漏数据整体相似度阈值。

2.根据权利要求1所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤Sl包括以下子步骤:S11:对井漏数据进行数据清洗,得到优化井漏数据;

S12:对优化井漏数据进行特征编码,得到编码井漏数据;

S13:对编码井漏数据进行数据规约,完成对井漏数据的预处理。

3.根据权利要求2所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S11中,进行数据清洗的具体方法为:对缺失井漏数据进行填补,利用分箱法检测异常井漏数据,并对异常井漏数据进行填补;

所述步骤S12中,采用One‑Hot编码对优化井漏数据中的字符型井漏数据进行特征编码;

所述步骤S13包括以下子步骤:

S131:对编码井漏数据进行均值归一化,更新编码井漏数据的井漏特征值,归一化后的第i个编码井漏数据的第j个井漏特征值 的计算公式为:其中, 表示原井漏特征值,M表示井漏数据样本总数,N表示井漏数据特征总数,μj表示井漏特征的均值, 表示井漏特征的标准差;

S132:计算更新井漏特征值后编码井漏数据的协方差矩阵∑,其计算公式为:(i)

其中,x 表示第i个井漏数据样本的特征向量;

S133:对协方差矩阵∑进行奇异值分解,得到协方差矩阵∑的特征向量矩阵U和方阵S,根据方阵S确定井漏数据降维维数;

S134:根据协方差矩阵的特征向量矩阵U进行降维,确定降维后编码井漏数据的井漏特征维数,并计算降维后编码井漏数据的井漏特征向量,完成数据规约,第i个编码井漏数据(i)降维后的井漏特征向量z 的计算公式为:

其中,Ureduce表示井漏数据降维矩阵;

所述步骤S134中,降维后编码井漏数据的井漏特征维数k满足 其中,Sii表示方阵S对角线上的数据点。

4.根据权利要求1所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S3包括以下子步骤:S31:计算候选井漏数据中堵漏配方数据的离散累积粒度分布;

S32:根据堵漏配方数据的离散累积粒度分布,利用插值法计算堵漏配方数据的连续累积粒度分布;

S33:根据堵漏配方数据的连续累积粒度分布,以堵漏配方数据中最小粒度值为初始值,迭代计算当前粒径下堵漏配方数据的累积粒度,并根据当前粒度下堵漏配方数据的累积粒度确定堵漏配方关键粒径大小,直至达到最大粒度值;

S34:对堵漏配方关键粒径大小以及对应的配方浓度组成的堵漏配方参数样本集进行K‑均值聚类分析,得到各个配方参数样本划分的簇的聚类中心点;

S35:根据各个配方参数样本划分的簇的聚类中心点,确定推荐配方集。

5.根据权利要求4所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S31中,堵漏配方数据中第l+1个粒度值对应的离散累积粒度yl+1的计算公式为:yl+1=yl+ηl+1,0≤l≤Q

其中,yl表示第l个粒度值对应的累积粒度,ηl+1表示第l+1个粒度值对应的组成粒度,Q表示组成粒度分布区间总数;

所述步骤S32中,堵漏配方数据的连续累积粒度分布H3(x)的计算公式为:其中,x表示待插值点粒度值,xl表示待插值点左端点的粒度值,xl+1表示待插值点右端点的粒度值,yl表示左端点粒度值对应的累积分布,yl+1表示右端点粒度值对应的累积分布,yl′表示左端点粒度值对应的累积分布导数,yl+1′表示右端点粒度值对应的累积分布导数;

所述步骤S33中,当前粒径下堵漏配方数据的累积粒度gr的计算公式为:其中,n表示堵漏配方材料总数,εi表示第i种材料的浓度,yil‑1表示第i种材料第l‑1个粒度值对应的累积粒度,yil表示第i种材料第l个粒度值对应的累积粒度,ρi表示第i种材料的密度,V表示配方总体积;

所述步骤S33中,确定堵漏配方关键粒径大小的具体方法为:若当前粒径下堵漏配方数据的累积粒度gr达到10%,则该粒径为堵漏配方关键粒径D10;若当前粒径下堵漏配方数据的累积粒度gr达到50%,则该粒径为堵漏配方关键粒径D50;若当前粒径下堵漏配方数据的累积粒度gr达到90%,则该粒径为堵漏配方关键粒径D90。

6.根据权利要求4所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S34包括以下子步骤:S341:在堵漏配方参数样本集E中,计算各个配方参数样本与对应的初始配方参数均值向量之间的距离,并确定最近距离,各个配方参数样本与对应的配方参数均值向量之间的距离dji的计算公式为:dji=||ej‑μi||2

其中,ej表示每个配方参数样本,μi表示每个配方参数样本的初始配方参数均值向量;

S342:根据最近距离,确定各个配方参数样本的簇标记,并根据各个配方参数样本的簇标记将各个配方参数样本划入相应的簇,各个配方参数样本的簇标记i和配方参数样本的簇Cnewi的计算公式分别为:i=arg min dji

Cnewi=Ci∪{ej};

其中,Ci表示原始配方参数样本簇划分;

S343:计算各个配方参数样本划分簇后的配方参数均值向量,在各个配方参数样本划分簇前后的配方参数均值向量不一致时,更新配方参数均值向量并重新进行簇划分,直至各个配方参数样本划分簇前后的配方参数均值向量一致,并确定各个配方参数样本划分的簇的聚类中心点,各个配方参数样本划分簇后的配方参数均值向量μ′i的计算公式为:其中,e表示配方参数样本簇中的样本。

7.根据权利要求1所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S35包括以下子步骤:S351:设定推荐配方的随机采样次数;

S352:对现场堵漏材料进行随机加量,得到堵漏配方;

S353:判断当前堵漏配方是否已经被推荐,若是则返回步骤S352,否则进入步骤S354;

S354:根据各个配方参数样本划分的簇的聚类中心点,判断当前堵漏配方粒径大小是否满足推荐配方集的要求,若是则将当前堵漏配方加入推荐配方集,否则返回步骤S352,直至达到设定的随机采样次数,并确定最终的推荐配方集;

所述步骤S351中,各个配方参数样本的随机加量 与堵漏配方的配方总浓度S满足其中,m表示现场已有堵漏材料随机选择数量, 表示第i种堵漏材料的加量;

所述步骤S354中,推荐配方集中,若当前堵漏配方粒径大小为D10,则推荐配方集的要求为 若当前堵漏配方粒径大小为D50,则推荐配方集的要求为若当前堵漏配方粒径大小为D90,则推荐配方集的要求为

其中,D10re表示推荐堵漏配方粒径大小D10的参数值,D10acc表示聚类中心点堵漏配方粒径大小D10的参数值,D50re表示推荐堵漏配方粒径大小D50的参数值,D50acc表示聚类中心点堵漏配方粒径大小D50的参数值,D90re表示推荐堵漏配方粒径大小D90的参数值,D90acc表示聚类中心点堵漏配方粒径大小D90的参数值。

说明书 :

一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法

技术领域

[0001] 本发明属于石油钻井工程堵漏技术领域,具体涉及一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法。

背景技术

[0002] 井漏是在石油、天然气勘探开发的钻井、完井等作业过程中井内工作液(钻井液、修井液、固井水泥浆等)漏入地层的一种复杂情况,而裂缝性漏失是其中最普遍的漏失类型,是长期存在且难以解决的技术问题。井漏不仅会耗费钻井时间,损失泥浆,而且有可能引起卡钻、井喷和井塌等一系列复杂情况,甚至导致井眼报废,造成重大经济损失,因此必须加以有效控制。
[0003] 堵漏是井漏发生后处理步骤,是钻井作业过程中最重要且不可或缺的一环。针对堵漏工作的研究,前人工作主要集中在:1.地层漏失模型的研究:地层漏失模型研究主要集中在钻井液漏失的影响因素研究和井周地层条件反演上,以便为堵漏材料的选取提供基础数据;2.井眼强化理论:针对封堵材料封堵裂缝漏失通道的机理,以及封堵裂缝后井壁承压能力提升的原因,提出了诸多理论,如“封尾(Tip Screenout)”理论、“应力笼(Stress Cage)”理论、“裂缝闭合应力(Fracture Closure Stress)”理论和“裂缝延伸阻力(Fracture Propagation Resistance)”理论等;3.封堵材料尺寸选取准则:颗粒的尺寸和粒度分布是颗粒在裂缝内架桥与封堵行为的决定性因素,只有具备了适当尺寸和粒度分布的颗粒体系才能有效地在孔喉或者裂缝内架桥封堵,由此提出了基于理想充填理论的“d1/2规则”、“1/3架桥规则”等粒度分布选择标准。尽管前人的理论与实验研究丰富,但均未涉及到对井漏数据的相似度研究以及堵漏配方关键参数的数据挖掘。

发明内容

[0004] 本发明为了解决上述问题,提出了一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法。
[0005] 本发明的技术方案是:一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法包括以下步骤:
[0006] S1:获取井漏数据,并对井漏数据进行预处理;
[0007] S2:对预处理后的井漏数据进行相似度分析,得到候选井漏数据;
[0008] S3:对候选井漏数据中堵漏配方数据进行堵漏配方粒度分析并聚类,确定推荐配方集。
[0009] 进一步地,步骤S1包括以下子步骤:
[0010] S11:对井漏数据进行数据清洗,得到优化井漏数据;
[0011] S12:对优化井漏数据进行特征编码,得到编码井漏数据;
[0012] S13:对编码井漏数据进行数据规约,完成对井漏数据的预处理。
[0013] 进一步地,步骤S11中,进行数据清洗的具体方法为:对缺失井漏数据进行填补,利用分箱法检测异常井漏数据,并对异常井漏数据进行填补;
[0014] 步骤S12中,采用One‑Hot编码对优化井漏数据中的字符型井漏数据进行特征编码;
[0015] 步骤S13包括以下子步骤:
[0016] S131:对编码井漏数据进行均值归一化,更新编码井漏数据的井漏特征值,归一化后的第i个编码井漏数据的第j个井漏特征值 的计算公式为:
[0017]
[0018] 其中, 表示原井漏特征值,M表示井漏数据样本总数,N表示井漏数据特征总数,μj表示井漏特征的均值, 表示井漏特征的标准差;
[0019] S132:计算更新井漏特征值后编码井漏数据的协方差矩阵∑,并对协方差矩阵∑进行奇异值分解,得到协方差矩阵的特征向量矩阵U,其计算公式为:
[0020]
[0021] 其中,x(i)表示第i个井漏数据样本的特征向量;
[0022] S133:对协方差矩阵∑进行奇异值分解,得到协方差矩阵Σ的特征向量矩阵U和方阵S,根据方阵S确定井漏数据降维维数;
[0023] S134:根据协方差矩阵的特征向量矩阵U进行降维,确定降维后编码井漏数据的井漏特征维数,并计算降维后编码井漏数据的井漏特征向量,完成数据规约,第i个编码井漏(i)数据降维后的井漏特征向量z 的计算公式为:
[0024]
[0025] 其中,Ureduce表示井漏数据降维矩阵;
[0026] 步骤S134中,降维后编码井漏数据的井漏特征维数k满足 其中,Sii表示方阵S对角线上的数据点。
[0027] 进一步地,步骤S2包括以下子步骤:
[0028] S21:计算预处理后的井漏数据中数值型数据的相似度和字符型数据的相似度;
[0029] S22:根据数值型数据的相似度和字符型数据的相似度,计算井漏数据的整体相似度;
[0030] S23:构建数值型数据的(d,cd,fp1,fp2)敏感LSH函数族和字符型数据的(r,cr,sp1,sp2)敏感LSH函数族,其中,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;
[0031] S24:根据井漏数据的整体相似度、数值型数据的LSH函数族和字符型数据的LSH函数族,构建井漏数据的二元混合索引,得到候选井漏数据。
[0032] 进一步地,步骤S21中,数值型数据的相似度distE的计算公式为:
[0033]
[0034] 其中,EuclidenanDist(·)表示计算井漏数据对象o1与o2之间的欧氏距离函数,o1·f‑type表示井漏数据对象o1的数值型数据,o2·f‑type表示井漏数据对象o2的数值型数据,dmax表示井漏数据对象o1与o2之间数值型数据特征的最大距离;
[0035] 步骤S21中,字符型数据的相似度distJ的计算公式为:
[0036]
[0037] 其中,o1·s‑type表示井漏数据对象o1的字符型数据,o2·s‑type表示井漏数据对象o2的字符型数据;
[0038] 步骤S22中,井漏数据的整体相似度dist的计算公式为:
[0039] dist=α×distE+(1‑m)×diStJ
[0040] 其中,α表示两种井漏数据类型的权重参数;
[0041] 步骤S23中,数值型数据的(d,cd,fp1,fp2)敏感LSH函数族h(o.f‑type)的表达式为:
[0042]
[0043]
[0044]
[0045] 其中,a表示随机生成的d维向量,b表示在(0,W)之间随机生成的实数,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,W表示常数,o.f‑type表示井漏数据对象o的数值型数据,t表示积分变量,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,f2(·)表示标准正则概率密度函数;
[0046] 步骤S23中,字符型数据的(r,cr,sp1,sp2)敏感LSH函数族h(O.s‑type)的表达式为:
[0047] h(O·s‑type)=argming(q),q∈O·s‑type
[0048] 其中,O.s‑type表示井漏字符型数据集,q表示井漏数据对象中的字符型数据,g(·)表示随机数生成函数,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限。
[0049] 进一步地,步骤S24包括以下子步骤:
[0050] S241:分别从数值型数据的LSH函数族和字符型数据的LSH函数族中随机选取k1和k2个哈希函数,组成井漏数据二元混合索引LSH函数族G,其表达式为:
[0051] G=g(o)
[0052]
[0053] 其中,h1(·),… 表示数值型数据LSH函数集,h1(·),…, 表示字符型数据LSH函数集,g(o)表示井漏数据二元混合索引LSH函数集,o.f‑type表示井漏数据对象o的数值型数据,O.s‑type表示井漏字符型数据集;
[0054] S242:随机从井漏数据二元混合索引LSH函数族G中选取p个井漏数据哈希函数g1,…,gp,并将p个井漏数据哈希函数对应的哈希值存储至对应的哈希桶中,选取的井漏数据哈希函数个数p的计算公式为:
[0055]
[0056] 其中,M表示井漏数据样本总数,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;
[0057] S243:在哈希桶中,将符合distE(oi,q)
[0058] 进一步地,步骤S3包括以下子步骤:
[0059] S31:计算候选井漏数据中堵漏配方数据的离散累积粒度分布;
[0060] S32:根据堵漏配方数据的离散累积粒度分布,利用插值法计算堵漏配方数据的连续累积粒度分布;
[0061] S33:根据堵漏配方数据的连续累积粒度分布,以堵漏配方数据中最小粒度值为初始值,迭代计算当前粒径下堵漏配方数据的累积粒度,并根据当前粒度下堵漏配方数据的累积粒度确定堵漏配方关键粒径大小,直至达到最大粒度值;
[0062] S34:对堵漏配方关键粒径大小以及对应的配方浓度组成的堵漏配方参数样本集进行K‑均值聚类分析,得到各个配方参数样本划分的簇的聚类中心点;
[0063] S35:根据各个配方参数样本划分的簇的聚类中心点,确定推荐配方集。
[0064] 进一步地,步骤S31中,堵漏配方数据中第l+1个粒度值对应的离散累积粒度yl+1的计算公式为:
[0065] yl+1=yl+ηl+1,O≤l≤Q
[0066] 其中,yl表示第l个粒度值对应的累积粒度,ηl+1表示第l+1个粒度值对应的组成粒度,Q表示组成粒度分布区间总数;
[0067] 步骤S32中,堵漏配方数据的连续累积粒度分布H3(x)的计算公式为:
[0068]
[0069] 其中,x表示待插值点粒度值,xl表示待插值点左端点的粒度值,xl+1表示待插值点右端点的粒度值,yl表示左端点粒度值对应的累积分布,yl+1表示右端点粒度值对应的累积分布,yl′表示左端点粒度值对应的累积分布导数,yl+1′表示右端点粒度值对应的累积分布导数;
[0070] 步骤S33中,当前粒径下堵漏配方数据的累积粒度gr的计算公式为:
[0071]
[0072] 其中,n表示堵漏配方材料总数,εi表示第i种材料的浓度,yil‑1表示第i种材料第l‑1个粒度值对应的累积粒度,yil表示第i种材料第l个粒度值对应的累积粒度,ρi表示第i种材料的密度,V表示配方总体积;
[0073] 步骤S33中,确定堵漏配方关键粒径大小的具体方法为:若当前粒径下堵漏配方数据的累积粒度gr达到10%,则当前堵漏配方粒径大小为D10;若当前粒径下堵漏配方数据的累积粒度gr达到50%,则当前堵漏配方粒径大小为D50;若当前粒径下堵漏配方数据的累积粒度gr达到90%,则当前堵漏配方粒径大小为D90。
[0074] 进一步地,步骤S34包括以下子步骤:
[0075] S341:在堵漏配方参数样本集E中,计算各个配方参数样本与对应的初始配方参数均值向量之间的距离,并确定最近距离,各个配方参数样本与对应的配方参数均值向量之间的距离dji的计算公式为:
[0076] dji=||ej‑μi||2
[0077] 其中,ej表示每个配方参数样本,μi表示每个配方参数样本的初始配方参数均值向量;
[0078] S342:根据最近距离,确定各个配方参数样本的簇标记,并根据各个配方参数样本的簇标记将各个配方参数样本划入相应的簇,各个配方参数样本的簇标记i和配方参数样本的簇Cnewi的计算公式分别为:
[0079] i=argmindji
[0080] cnewi=ci∪{ej};
[0081] 其中,Ci表示原始配方参数样本簇划分;
[0082] S343:计算各个配方参数样本划分簇后的配方参数均值向量,在各个配方参数样本划分簇前后的配方参数均值向量不一致时,更新配方参数均值向量并重新进行簇划分,直至各个配方参数样本划分簇前后的配方参数均值向量一致,并确定各个配方参数样本划分的簇的聚类中心点,各个配方参数样本划分簇后的配方参数均值向量μ′i的计算公式为:
[0083]
[0084] 其中,e表示配方参数样本簇中的样本。
[0085] 进一步地,步骤S35包括以下子步骤:
[0086] S351:设定推荐配方的随机采样次数;
[0087] S352:对现场堵漏材料进行随机加量,得到堵漏配方;
[0088] S353:判断当前堵漏配方是否已经被推荐,若是则返回步骤S352,否则进入步骤S354;
[0089] S354:根据各个配方参数样本划分的簇的聚类中心点,判断当前堵漏配方粒径大小是否满足推荐配方集的要求,若是则将当前堵漏配方加入推荐配方集,否则返回步骤S352,直至达到设定的随机采样次数,并确定最终的推荐配方集;
[0090] 步骤S351中,各个配方参数样本的随机加量 与堵漏配方的配方总浓度S满足其中,m表示现场已有堵漏材料随机选择数量, 表示第i种堵漏材料的加量;
[0091] 步骤S354中,推荐配方集中,若当前堵漏配方粒径大小为D10,则推荐配方集的要求为 若当前堵漏配方粒径大小为D50,则推荐配方集的要求为若当前堵漏配方粒径大小为D90,则推荐配方集的要求为
其中,D10re表示推荐堵漏配方粒径大小D10的参数值,D10acc表示聚
类中心点堵漏配方粒径大小D10的参数值,D50re表示推荐堵漏配方粒径大小D50的参数值,D50acc表示聚类中心点堵漏配方粒径大小D50的参数值,D90re表示推荐堵漏配方粒径大小D90的参数值,D90acc表示聚类中心点堵漏配方粒径大小D90的参数值。
[0092] 本发明的有益效果是:本发明克服了堵漏施工极大依赖于工程技术人员经验式判断堵漏方法的缺点,通过相似度分析与聚类算法对井漏数据进行数据挖掘,最后达到实时推荐现场作业颗粒基堵漏配方的效果,对现场漏失处理方案的快速决策、选取科学合理的钻井液堵漏配方、提高钻井工程安全性和钻井堵漏作业一次成功率都有着积极的现实意义。

附图说明

[0093] 图1为基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法的流程图。

具体实施方式

[0094] 下面结合附图对本发明的实施例作进一步的说明。
[0095] 在描述本发明的具体实施例之前,为使本发明的方案更加清楚完整,首先对本发明中出现的缩略语和关键术语定义进行说明:
[0096] 分箱法:通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间。
[0097] One‑Hot编码:使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
[0098] D10:一个样品的累计粒度分布数达到10%时所对应的粒径。它的物理意义是粒径小于它的的颗粒占10%。
[0099] D50:一个样品的累计粒度分布百分数达到50%时所对应的粒径。它的物理意义是粒径大于它的颗粒占50%,小于它的颗粒也占50%,D50也叫中位径或中值粒径。D50常用来表示颗粒的平均粒度。
[0100] D90:一个样品的累计粒度分布数达到90%时所对应的粒径。它的物理意义是粒径小于它的的颗粒占90%。
[0101] 如图1所示,本发明提供了一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,包括以下步骤:
[0102] S1:获取井漏数据,并对井漏数据进行预处理;
[0103] S2:对预处理后的井漏数据进行相似度分析,得到候选井漏数据;
[0104] S3:对候选井漏数据中堵漏配方数据进行堵漏配方粒度分析并聚类,确定推荐配方集。
[0105] 在本发明实施例中,确定所需的样本数据特征:
[0106] 1)地层参数:构造类型、岩性、层位、顶界深度、底界深度;
[0107] 2)井段参数:直径、井深、井斜角;
[0108] 3)钻井液参数:体系、出入口流量、密度、流变参数、钻井液池体积、固相含量;
[0109] 4)工程参数:钻头直径、大钩负荷、钻速、钻压、扭矩;
[0110] 5)漏失参数:漏失速度、漏失量、漏失时间、漏失程度(微漏、大漏、失返性漏失)、漏失工况、钻头位置;
[0111] 6)堵漏参数:堵漏浆类型(随钻、停钻)、堵漏浆体积、堵漏配方(包括材料、加量、浓度)、堵漏效果(成功、失败、漏速减小);
[0112] 7)堵漏材料参数:类型(如:片状)、规格(如1~3mm)、厂家、密度、组成粒度分布。
[0113] 在本发明实施例中,步骤S1包括以下子步骤:
[0114] S11:对井漏数据进行数据清洗,得到优化井漏数据;
[0115] S12:对优化井漏数据进行特征编码,得到编码井漏数据;
[0116] S13:对编码井漏数据进行数据规约,完成对井漏数据的预处理。
[0117] 在本发明实施例中,步骤S11中,进行数据清洗的具体方法为:对缺失井漏数据进行填补,利用分箱法检测异常井漏数据,并对异常井漏数据进行填补;
[0118] 步骤S12中,采用One‑Hot编码对优化井漏数据中的字符型井漏数据进行特征编码;如岩性:砂岩、泥岩、碳酸盐岩、砾岩、火成岩;对应编码为:00001,00010,00100,01000,10000;
[0119] 步骤S13中,编码后的井漏数据共包含M条数据,整个数据集表示为:x(1),x(2),…,(M)x ;每条数据又包含N个特征,每个井漏数据特征值可以表示: 1≤i≤M,1≤j≤N。为了排除其中无关冗余特征与无用噪声,采用PCA主成分分析对井漏特征进行降维,包括以下子步骤:
[0120] S131:对编码井漏数据进行均值归一化,更新编码井漏数据的井漏特征值,归一化后的第i个编码井漏数据的第j个井漏特征值 的计算公式为:
[0121]
[0122] 其中, 表示原井漏特征值,M表示井漏数据样本总数,N表示井漏数据特征总数,μj表示井漏特征的均值, 表示井漏特征的标准差;
[0123] S132:计算更新井漏特征值后编码井漏数据的协方差矩阵∑,并对协方差矩阵∑进行奇异值分解,得到协方差矩阵的特征向量矩阵U,其计算公式为:
[0124]
[0125] 其中,x(i)表示第i个井漏数据样本的特征向量;
[0126] S133:对协方差矩阵∑进行奇异值分解,得到协方差矩阵∑的特征向量矩阵U和方阵S,根据方阵S确定井漏数据降维维数;
[0127] 对协方差矩阵∑进行奇异值分解的公式为:∑=USVT,其中,S表示用于确定井漏数据降维维数的对角矩阵,U表示井漏数据偏差矩阵,V表示井漏数据方差矩阵;
[0128] S134:根据协方差矩阵的特征向量矩阵U进行降维,确定降维后编码井漏数据的井漏特征维数,并计算降维后编码井漏数据的井漏特征向量,完成数据规约,第i个编码井漏(i)数据降维后的井漏特征向量z 的计算公式为:
[0129]
[0130] 其中,Ureduce表示井漏数据降维矩阵,由U矩阵前k个向量组成;
[0131] 步骤S134中,降维后编码井漏数据的井漏特征维数k满足 其中,Sii表示方阵S对角线上的数据点。
[0132] 步骤S133中,降维后编码井漏数据的井漏特征维数k满足 其中,Sii表示矩阵S对角线上的数据点,用于计算井漏数据降维偏差,小于5%表示井漏数据的偏差有95%都保留下来。
[0133] 在本发明实施例中,步骤S2包括以下子步骤:
[0134] S21:计算预处理后的井漏数据中数值型数据的相似度和字符型数据的相似度;
[0135] S22:根据数值型数据的相似度和字符型数据的相似度,计算井漏数据的整体相似度;
[0136] S23:构建数值型数据的(d,cd,fp1,fp2)敏感LSH函数族和字符型数据的(r,cr,sp1,sp2)敏感LSH函数族,其中,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;
[0137] S24:根据井漏数据的整体相似度、数值型数据的LSH函数族和字符型数据的LSH函数族,构建井漏数据的二元混合索引,得到候选井漏数据。
[0138] 预处理后的井漏数据特征向量为z(i),包含数值型特征和字符型特征。对于数值型特征,采用欧式距离判别相似度,对于字符型特征,采用Jaccard距离判别相似度;通过二元混合LSH算法,可以快速找到现场井漏查询实例最相似的井漏数据,为后续快速堵漏决策提供基础。
[0139] 在本发明实施例中,步骤S21中,数值型数据的相似度distE的计算公式为:
[0140]
[0141] 其中,EuclidenanDist(·)表示计算井漏数据对象o1与o2之间的欧氏距离函数,o1·f‑type表示井漏数据对象o1的数值型数据,o2·f‑type表示井漏数据对象o2的数值型数据,dmax表示井漏数据对象o1与o2之间数值型数据特征的最大距离;
[0142] 步骤S21中,字符型数据的相似度distJ的计算公式为:
[0143]
[0144] 其中,o1·s‑type表示井漏数据对象o1的字符型数据,o2·s‑type表示井漏数据对象o2的字符型数据;
[0145] 步骤S22中,对于任意两个井漏数据对象o1,o2的整体相似度,采用线性加权求和,井漏数据的整体相似度dist的计算公式为:
[0146] dist=α×distE+(1‑α)×distJ
[0147] 其中,α表示两种井漏数据类型的权重参数;
[0148] 步骤S23中,数值型数据的(d,cd,fp1,fp2)敏感LSH函数族h(o.f‑type)的表达式为:
[0149]
[0150]
[0151]
[0152] 其中,a表示随机生成的d维向量,b表示在(0,W)之间随机生成的实数,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,W表示常数,o.f‑type表示井漏数据对象o的数值型数据,t表示积分变量,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,f2(·)表示标准正则概率密度函数;fp1和fp2用于后续构建井漏数据二元混合索引;
[0153] 步骤S23中,字符型数据的(r,cr,sp1,sp2)敏感LSH函数族h(O.s‑type)的表达式为:
[0154] h(O.s‑type)=argming(q),q∈0.s‑type
[0155] 其中,O.s‑type表示井漏字符型数据集,q表示井漏数据对象中的字符型数据,g(·)表示随机数生成函数,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限,sp1=1‑r,sp2=1‑cr,sp1和sp2用于后续构建井漏数据二元混合索引。
[0156] 在本发明实施例中,步骤S24包括以下子步骤:
[0157] S241:分别从数值型数据的LSH函数族和字符型数据的LSH函数族中随机选取k1和k2个哈希函数,并组成井漏数据二元混合索引LSH函数族G,其表达式为:
[0158] G=g(o)
[0159]
[0160] k1和k2的取值为:
[0161]
[0162]
[0163] 其中,h1(·),… 表示数值型数据LSH函数集,h1(·),…, 表示字符型数据LSH函数集,g(o)表示井漏数据二元混合索引LSH函数集,o.f‑type表示井漏数据对象o的数值型数据,O.s‑type表示井漏字符型数据集;
[0164] S242:随机从井漏数据二元混合索引LSH函数族G中选取p个井漏数据哈希函数g1,…,gp,并将p个井漏数据哈希函数对应的哈希值存储至对应的哈希桶中,选取的井漏数据哈希函数个数p的计算公式为:
[0165]
[0166] 其中,M表示井漏数据样本总数,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;
[0167] S243:在哈希桶中,将符合distE(oi,q)
[0168] 在本发明实施例中,步骤S3包括以下子步骤:
[0169] S31:计算候选井漏数据中堵漏配方数据的离散累积粒度分布;
[0170] S32:根据堵漏配方数据的离散累积粒度分布,利用插值法计算堵漏配方数据的连续累积粒度分布;
[0171] S33:根据堵漏配方数据的连续累积粒度分布,以堵漏配方数据中最小粒度值为初始值,迭代计算当前粒径下堵漏配方数据的累积粒度,并根据当前粒度下堵漏配方数据的累积粒度确定堵漏配方关键粒径大小,直至达到最大粒度值;
[0172] S34:对堵漏配方关键粒径大小以及对应的配方浓度组成的堵漏配方参数样本集进行K‑均值聚类分析,得到各个配方参数样本划分的簇的聚类中心点;
[0173] S35:根据各个配方参数样本划分的簇的聚类中心点,确定推荐配方集。
[0174] 相似度分析模型查询得到的井漏数据中包含堵漏配方数据,首先对堵漏配方数据进行粒度分析,主要包括四个参数:D10、D50、D90和配方浓度,然后利用K‑均值聚类算法对配方参数集分簇并输出聚类中心点。
[0175] 在本发明实施例中,步骤S31中,堵漏配方数据中第l+1个粒度值对应的离散累积粒度yl+1的计算公式为:
[0176] yl+1=yl+ηl+1,0≤l≤Q
[0177] y0=η0
[0178] 其中,yl表示第l个粒度值对应的累积粒度,ηl+1表示第l+1个粒度值对应的组成粒度,Q表示组成粒度分布区间总数;η0表示起始点组成粒度,y0表示起始点累积粒度;
[0179] 步骤S32中,堵漏配方数据的连续累积粒度分布H3(x)的计算公式为:
[0180]
[0181] 其中,x表示待插值点粒度值,xl表示待插值点左端点的粒度值,xl+1表示待插值点右端点的粒度值,yl表示左端点粒度值对应的累积分布,yl+1表示右端点粒度值对应的累积分布,yl′表示左端点粒度值对应的累积分布导数,yl+1′表示右端点粒度值对应的累积分布导数;
[0182] 步骤S33中,当前粒径下堵漏配方数据的累积粒度gr的计算公式为:
[0183]
[0184] 其中,表示堵漏配方材料总数,εi表示第i种材料的浓度,yil‑1表示第i种材料第l‑1个粒度值对应的累积粒度,yil表示第i种材料第l个粒度值对应的累积粒度,ρi表示第i种材料的密度,V表示配方总体积;
[0185] 步骤S33中,确定堵漏配方关键粒径大小的具体方法为:若当前粒径下堵漏配方数据的累积粒度gr达到10%,则堵漏配方关键粒径大小为D10;若当前粒径下堵漏配方数据的累积粒度gr达到50%,则堵漏配方关键粒径大小为D50;若当前粒径下堵漏配方数据的累积粒度gr达到90%,则堵漏配方关键粒径大小为D90。
[0186] 在本发明实施例中,步骤S34包括以下子步骤:
[0187] S341:在堵漏配方参数样本集E中,计算各个配方参数样本与对应的初始配方参数均值向量之间的距离,并确定最近距离,各个配方参数样本与对应的配方参数均值向量之间的距离dji的计算公式为:
[0188] dji=||ej‑μi||2
[0189] 其中,ej表示每个配方参数样本,μi表示每个配方参数样本的初始配方参数均值向量;
[0190] S342:根据最近距离,确定各个配方参数样本的簇标记,并根据各个配方参数样本的簇标记将各个配方参数样本划入相应的簇,各个配方参数样本的簇标记i和配方参数样本的簇Cnewi的计算公式分别为:
[0191] i=argminji
[0192] Cnewi=Ci∪{ej};
[0193] 其中,Ci表示原始配方参数样本簇划分;
[0194] S343:计算各个配方参数样本划分簇后的配方参数均值向量,在各个配方参数样本划分簇前后的配方参数均值向量不一致时,更新配方参数均值向量并重新进行簇划分,直至各个配方参数样本划分簇前后的配方参数均值向量一致,并确定各个配方参数样本划分的簇的聚类中心点,各个配方参数样本划分簇后的配方参数均值向量μ′i的计算公式为:
[0195]
[0196] 其中,e表示配方参数样本簇中的样本。
[0197] 在本发明实施例中,步骤S35包括以下子步骤:
[0198] S351:设定推荐配方的随机采样次数;
[0199] S352:对现场堵漏材料进行随机加量,得到堵漏配方;
[0200] S353:判断当前堵漏配方是否已经被推荐,若是则返回步骤S352,否则进入步骤S354;
[0201] S354:根据各个配方参数样本划分的簇的聚类中心点,判断当前堵漏配方粒径大小是否满足推荐配方集的要求,若是则将当前堵漏配方加入推荐配方集,否则返回步骤S352,直至达到设定的随机采样次数,并确定最终的推荐配方集;
[0202] 取聚类算法输出的聚类中心点μ′i的D10、D50、D90以及配方总浓度四个参数,输入堵漏配方推荐算法,得到推荐配方,为现场堵漏提供快速决策支持。
[0203] 步骤S351中,各个配方参数样本的随机加量 与堵漏配方的配方总浓度S满足其中,m表示现场已有堵漏材料随机选择数量, 表示第i种堵漏材料的加量;
[0204] 步骤S354中,推荐配方集中,若当前堵漏配方粒径大小为D10,则推荐配方集的要求为 若当前堵漏配方粒径大小为D50,则推荐配方集的要求为若当前堵漏配方粒径大小为D90,则推荐配方集的要求为
其中,D10re表示推荐堵漏配方粒径大小D10的参数值,D10acc表示聚类
中心点堵漏配方粒径大小D10的参数值,D50re表示推荐堵漏配方粒径大小D50的参数值,D50acc表示聚类中心点堵漏配方粒径大小D50的参数值,D90re表示推荐堵漏配方粒径大小D90的参数值,D90acc表示聚类中心点堵漏配方粒径大小D90的参数值。
[0205] 本发明的工作原理及过程为:本发明首先利用井漏资料建立井漏数据库,并对井漏数据进行数据清洗、特征编码及数据规约等预处理;然后,利用二元混合LSH算法对预处理后的井漏数据进行相似度分析,根据新的井漏数据查询出相似度大于设定阈值的井史井漏数据;其次,计算查询出的历史堵漏配方特征粒度,并以堵漏配方D10、D50、D90和浓度为输入特征,训练K‑均值聚类模型,输出聚类中心点;最后,利用聚类中心点,推荐颗粒基堵漏配方。
[0206] 本发明的有益效果为:本发明克服了堵漏施工极大依赖于工程技术人员经验式判断堵漏方法的缺点,通过相似度分析与聚类算法对井漏数据进行数据挖掘,最后达到实时推荐现场作业颗粒基堵漏配方的效果,对现场漏失处理方案的快速决策、选取科学合理的钻井液堵漏配方、提高钻井工程安全性和钻井堵漏作业一次成功率都有着积极的现实意义。
[0207] 本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。