一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法转让专利
申请号 : CN202210441433.5
文献号 : CN114970676B
文献日 : 2023-02-24
发明人 : 王贵 , 何杰 , 徐生江 , 曹成
申请人 : 西南石油大学
摘要 :
权利要求 :
1.一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,包括以下步骤:S1:获取井漏数据,并对井漏数据进行预处理;
S2:对预处理后的井漏数据进行相似度分析,得到候选井漏数据;
S3:对候选井漏数据中堵漏配方数据进行堵漏配方粒度分析并聚类,确定推荐配方集;
所述步骤S2包括以下子步骤:
S21:计算预处理后的井漏数据中数值型数据的相似度和字符型数据的相似度;
S22:根据数值型数据的相似度和字符型数据的相似度,计算井漏数据的整体相似度;
S23:构建数值型数据的(d,cd,fp1,fp2)敏感LSH函数族和字符型数据的(r,cr,sp1,sp2)敏感LSH函数族,其中,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;
S24:根据井漏数据的整体相似度、数值型数据的LSH函数族和字符型数据的LSH函数族,构建井漏数据的二元混合索引,得到候选井漏数据;
所述步骤S21中,数值型数据的相似度distE的计算公式为:其中,EuclidenanDist(·)表示计算井漏数据对象o1与o2之间的欧氏距离函数,o1·f‑type表示井漏数据对象o1的数值型数据,o2·f‑type表示井漏数据对象o2的数值型数据,dmax表示井漏数据对象o1与o2之间数值型数据特征的最大距离;
所述步骤S21中,字符型数据的相似度distJ的计算公式为:其中,o1·s‑type表示井漏数据对象o1的字符型数据,o2·s‑type表示井漏数据对象o2的字符型数据;
所述步骤S22中,井漏数据的整体相似度dist的计算公式为:dist=α×distE+(1‑α)×distJ
其中,α表示两种井漏数据类型的权重参数;
所述步骤S23中,数值型数据的(d,cd,fp1,fp2)敏感LSH函数族h(o.f‑type)的表达式为:其中,a表示随机生成的d维向量,b表示在(0,W)之间随机生成的实数,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,W表示常数,o.f‑type表示井漏数据对象o的数值型数据,t表示积分变量,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,f2(·)表示标准正则概率密度函数;
所述步骤S23中,字符型数据的(r,cr,sp1,sp2)敏感LSH函数族h(O.s‑type)的表达式为:h(O.s‑type)=arg min g(q),q∈O.s‑type其中,O.s‑type表示井漏字符型数据集,q表示井漏数据对象中的字符型数据,g(·)表示随机数生成函数,r表示字符型数据的Jaccard距离敏感范围,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;
所述步骤S24包括以下子步骤:
S241:分别从数值型数据的LSH函数族和字符型数据的LSH函数族中随机选取k1和k2个哈希函数,组成井漏数据二元混合索引LSH函数族G,其表达式为:G=g(o)
其中, 表示数值型数据LSH函数集, 表示字符型数据LSH函数集,g(o)表示井漏数据二元混合索引LSH函数集,o.f‑type表示井漏数据对象o的数值型数据,O.s‑type表示井漏字符型数据集;
S242:随机从井漏数据二元混合索引LSH函数族G中选取p个井漏数据哈希函数g1,…,gp,并将p个井漏数据哈希函数对应的哈希值存储至对应的哈希桶中,选取的井漏数据哈希函数个数p的计算公式为:其中,M表示井漏数据样本总数,fp1表示数值型数据相似概率下限,fp2表示数值型数据相似概率上限,sp1表示字符型数据相似概率下限,sp2表示字符型数据相似概率上限;
S243:在哈希桶中,将符合distE(oi,q)<cd、distJ(oi,q)<cr且dist(oi,q)<ε的井漏数据作为候选井漏数据,其中,oi表示任意井漏数据,q表示新的井漏现场查询对象,distE表示数值型数据的相似度,distJ表示字符型数据的相似度,c表示井漏数据的约近因子,d表示数值型数据的欧氏距离敏感范围,r表示字符型数据的Jaccard距离敏感范围,ε表示井漏数据整体相似度阈值。
2.根据权利要求1所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤Sl包括以下子步骤:S11:对井漏数据进行数据清洗,得到优化井漏数据;
S12:对优化井漏数据进行特征编码,得到编码井漏数据;
S13:对编码井漏数据进行数据规约,完成对井漏数据的预处理。
3.根据权利要求2所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S11中,进行数据清洗的具体方法为:对缺失井漏数据进行填补,利用分箱法检测异常井漏数据,并对异常井漏数据进行填补;
所述步骤S12中,采用One‑Hot编码对优化井漏数据中的字符型井漏数据进行特征编码;
所述步骤S13包括以下子步骤:
S131:对编码井漏数据进行均值归一化,更新编码井漏数据的井漏特征值,归一化后的第i个编码井漏数据的第j个井漏特征值 的计算公式为:其中, 表示原井漏特征值,M表示井漏数据样本总数,N表示井漏数据特征总数,μj表示井漏特征的均值, 表示井漏特征的标准差;
S132:计算更新井漏特征值后编码井漏数据的协方差矩阵∑,其计算公式为:(i)
其中,x 表示第i个井漏数据样本的特征向量;
S133:对协方差矩阵∑进行奇异值分解,得到协方差矩阵∑的特征向量矩阵U和方阵S,根据方阵S确定井漏数据降维维数;
S134:根据协方差矩阵的特征向量矩阵U进行降维,确定降维后编码井漏数据的井漏特征维数,并计算降维后编码井漏数据的井漏特征向量,完成数据规约,第i个编码井漏数据(i)降维后的井漏特征向量z 的计算公式为:
其中,Ureduce表示井漏数据降维矩阵;
所述步骤S134中,降维后编码井漏数据的井漏特征维数k满足 其中,Sii表示方阵S对角线上的数据点。
4.根据权利要求1所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S3包括以下子步骤:S31:计算候选井漏数据中堵漏配方数据的离散累积粒度分布;
S32:根据堵漏配方数据的离散累积粒度分布,利用插值法计算堵漏配方数据的连续累积粒度分布;
S33:根据堵漏配方数据的连续累积粒度分布,以堵漏配方数据中最小粒度值为初始值,迭代计算当前粒径下堵漏配方数据的累积粒度,并根据当前粒度下堵漏配方数据的累积粒度确定堵漏配方关键粒径大小,直至达到最大粒度值;
S34:对堵漏配方关键粒径大小以及对应的配方浓度组成的堵漏配方参数样本集进行K‑均值聚类分析,得到各个配方参数样本划分的簇的聚类中心点;
S35:根据各个配方参数样本划分的簇的聚类中心点,确定推荐配方集。
5.根据权利要求4所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S31中,堵漏配方数据中第l+1个粒度值对应的离散累积粒度yl+1的计算公式为:yl+1=yl+ηl+1,0≤l≤Q
其中,yl表示第l个粒度值对应的累积粒度,ηl+1表示第l+1个粒度值对应的组成粒度,Q表示组成粒度分布区间总数;
所述步骤S32中,堵漏配方数据的连续累积粒度分布H3(x)的计算公式为:其中,x表示待插值点粒度值,xl表示待插值点左端点的粒度值,xl+1表示待插值点右端点的粒度值,yl表示左端点粒度值对应的累积分布,yl+1表示右端点粒度值对应的累积分布,yl′表示左端点粒度值对应的累积分布导数,yl+1′表示右端点粒度值对应的累积分布导数;
所述步骤S33中,当前粒径下堵漏配方数据的累积粒度gr的计算公式为:其中,n表示堵漏配方材料总数,εi表示第i种材料的浓度,yil‑1表示第i种材料第l‑1个粒度值对应的累积粒度,yil表示第i种材料第l个粒度值对应的累积粒度,ρi表示第i种材料的密度,V表示配方总体积;
所述步骤S33中,确定堵漏配方关键粒径大小的具体方法为:若当前粒径下堵漏配方数据的累积粒度gr达到10%,则该粒径为堵漏配方关键粒径D10;若当前粒径下堵漏配方数据的累积粒度gr达到50%,则该粒径为堵漏配方关键粒径D50;若当前粒径下堵漏配方数据的累积粒度gr达到90%,则该粒径为堵漏配方关键粒径D90。
6.根据权利要求4所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S34包括以下子步骤:S341:在堵漏配方参数样本集E中,计算各个配方参数样本与对应的初始配方参数均值向量之间的距离,并确定最近距离,各个配方参数样本与对应的配方参数均值向量之间的距离dji的计算公式为:dji=||ej‑μi||2
其中,ej表示每个配方参数样本,μi表示每个配方参数样本的初始配方参数均值向量;
S342:根据最近距离,确定各个配方参数样本的簇标记,并根据各个配方参数样本的簇标记将各个配方参数样本划入相应的簇,各个配方参数样本的簇标记i和配方参数样本的簇Cnewi的计算公式分别为:i=arg min dji
Cnewi=Ci∪{ej};
其中,Ci表示原始配方参数样本簇划分;
S343:计算各个配方参数样本划分簇后的配方参数均值向量,在各个配方参数样本划分簇前后的配方参数均值向量不一致时,更新配方参数均值向量并重新进行簇划分,直至各个配方参数样本划分簇前后的配方参数均值向量一致,并确定各个配方参数样本划分的簇的聚类中心点,各个配方参数样本划分簇后的配方参数均值向量μ′i的计算公式为:其中,e表示配方参数样本簇中的样本。
7.根据权利要求1所述的基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法,其特征在于,所述步骤S35包括以下子步骤:S351:设定推荐配方的随机采样次数;
S352:对现场堵漏材料进行随机加量,得到堵漏配方;
S353:判断当前堵漏配方是否已经被推荐,若是则返回步骤S352,否则进入步骤S354;
S354:根据各个配方参数样本划分的簇的聚类中心点,判断当前堵漏配方粒径大小是否满足推荐配方集的要求,若是则将当前堵漏配方加入推荐配方集,否则返回步骤S352,直至达到设定的随机采样次数,并确定最终的推荐配方集;
所述步骤S351中,各个配方参数样本的随机加量 与堵漏配方的配方总浓度S满足其中,m表示现场已有堵漏材料随机选择数量, 表示第i种堵漏材料的加量;
所述步骤S354中,推荐配方集中,若当前堵漏配方粒径大小为D10,则推荐配方集的要求为 若当前堵漏配方粒径大小为D50,则推荐配方集的要求为若当前堵漏配方粒径大小为D90,则推荐配方集的要求为
其中,D10re表示推荐堵漏配方粒径大小D10的参数值,D10acc表示聚类中心点堵漏配方粒径大小D10的参数值,D50re表示推荐堵漏配方粒径大小D50的参数值,D50acc表示聚类中心点堵漏配方粒径大小D50的参数值,D90re表示推荐堵漏配方粒径大小D90的参数值,D90acc表示聚类中心点堵漏配方粒径大小D90的参数值。
说明书 :
一种基于数据挖掘的裂缝性漏失颗粒基堵漏配方推荐方法
技术领域
背景技术
发明内容
其中,D10re表示推荐堵漏配方粒径大小D10的参数值,D10acc表示聚
类中心点堵漏配方粒径大小D10的参数值,D50re表示推荐堵漏配方粒径大小D50的参数值,D50acc表示聚类中心点堵漏配方粒径大小D50的参数值,D90re表示推荐堵漏配方粒径大小D90的参数值,D90acc表示聚类中心点堵漏配方粒径大小D90的参数值。
附图说明
具体实施方式
其中,D10re表示推荐堵漏配方粒径大小D10的参数值,D10acc表示聚类
中心点堵漏配方粒径大小D10的参数值,D50re表示推荐堵漏配方粒径大小D50的参数值,D50acc表示聚类中心点堵漏配方粒径大小D50的参数值,D90re表示推荐堵漏配方粒径大小D90的参数值,D90acc表示聚类中心点堵漏配方粒径大小D90的参数值。