基于混合神经网络的油气藏经济可采储量评估方法及系统转让专利

申请号 : CN202211560212.6

文献号 : CN115660221B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张剑郝翱枭杨云李坤盛行李梓涵

申请人 : 西南石油大学

摘要 :

本发明公开了一种基于混合神经网络的油气藏经济可采储量评估方法及系统,该方法包括获取油气藏开发过程中的原始数据;对获取的原始数据按数据类型分别进行预处理;采用神经网络模型对每一类特征数据集进行重要性分析;构建混合神经网络模型,将各类特征数据集的主特征变量和复合特征变量共同作为输入特征变量对混合神经网络模型进行模型训练;根据训练后的混合神经网络模型预测油气藏经济可采储量。本发明通过考虑多种类型的特征参数作为影响因素,并通过适合不同类型数据的方式进行特征选择和特征提取,再进行特征融合得到多种类型的数据,能够有效提高储量评估结果的精确性。

权利要求 :

1.一种基于混合神经网络的油气藏经济可采储量评估方法,其特征在于,包括以下步骤:S1、获取油气藏开发过程中的原始数据;所述原始数据包括地质参数数据、工艺参数数据、产量历史数据、经济参数数据、测井曲线数据;

S2、对获取的原始数据按数据类型分别进行预处理,得到各类特征数据集;具体包括以下分步骤:S2‑1、将地质参数数据和工艺参数数据的数值型数据进行数据清洗、数据填充和标准化处理,将地质参数数据和工艺参数数据的分类标签采用独热编码进行编码,与经济可采储量值结合得到第一类特征数据集;

S2‑2、将产量历史数据和经济参数数据进行数据清洗、数据填充和标准化处理,与经济可采储量值结合得到第二类特征数据集;

S2‑3、将测井曲线数据进行数据清洗、数据填充和标准化处理,与经济可采储量值结合得到第三类特征数据集;

S3、采用神经网络模型对每一类特征数据集进行重要性分析,将每一类特征数据集中特征变量按重要性划分为主特征变量、次特征变量和无效特征变量,选择次特征变量构建复合特征变量;

S4、构建混合神经网络模型,将各类特征数据集的主特征变量和复合特征变量共同作为输入特征变量对混合神经网络模型进行模型训练;

S5、根据训练后的混合神经网络模型预测油气藏经济可采储量。

2.根据权利要求1所述的一种基于混合神经网络的油气藏经济可采储量评估方法,其特征在于,步骤S3具体包括以下分步骤:S3‑1、构建全连接神经网络模型并设置超参数,利用第一类特征数据集对全连接神经网络模型进行训练和测试,得到全连接神经网络模型迭代结束时的模型参数;

S3‑2、根据步骤S3‑1得到的模型参数计算每个特征变量的重要性特征值;

S3‑3、根据步骤S3‑2计算的重要性特征值将所有特征变量划分为主特征变量、次特征变量和无效特征变量,并根据次特征变量构建复合特征变量;

S3‑4、采用步骤S3‑1至S3‑3的方法对第二类特征数据集中的经济参数进行处理,得到经济参数对应的主特征变量和复合特征变量,将第二类特征数据集中的产量历史数据与经济参数对应的主特征变量共同作为第二类特征数据集的主特征变量,将经济参数对应的复合特征变量作为第二类特征数据集的复合特征变量。

3.根据权利要求2所述的一种基于混合神经网络的油气藏经济可采储量评估方法,其特征在于,所述模型参数包括:输入层‑隐藏层连接权重、隐藏层‑输出层连接权重、输入层神经元的值、隐藏层神经元的输出值、输出层神经元的输出值。

4.根据权利要求3所述的一种基于混合神经网络的油气藏经济可采储量评估方法,其特征在于,步骤S3‑2具体包括以下分步骤:S3‑2‑1、从全连接神经网络模型的测试结果中选取性能最优的第一数量的全连接神经网络模型;

S3‑2‑2、根据每个特征变量对应的输入层‑隐藏层连接权重和隐藏层‑输出层连接权重计算每个特征变量对应的连接权重总值 ;

S3‑2‑3、根据每个特征变量对应的输入层‑隐藏层连接权重和隐藏层‑输出层连接权重计算每个特征变量对应的连接权重乘积 ;

S3‑2‑4、根据每个特征变量对应的输入层‑隐藏层连接权重 、输入层神经元的值和隐藏层神经元的输出值 计算输入层第i个神经元对隐藏层第j个神经元的影响值;

S3‑2‑5、根据每个特征变量对应的隐藏层‑输出层连接权重 、隐藏层神经元的输出值和输出层神经元的输出值 计算隐藏层第j个神经元对输出层神经元的影响值;

S3‑2‑6、采用下式计算每个特征变量对应的输入层第i个神经元对输出值的影响值:,

其中,M为隐藏层神经元的个数;

S3‑2‑7、根据每个特征变量对应的输入层‑隐藏层连接权重的绝对值 ,隐藏层‑输出层连接权重的绝对值 ,计算其乘积 ;

S3‑2‑8、采用下式计算每个特征变量对隐藏层每个神经元的基于权重绝对值的重要性,其中,N为输入层神经元的个数;

S3‑2‑9、采用下式计算每个特征变量对输出层的基于权重绝对值的重要性特征值:,

其中,M为隐藏层神经元的个数。

5.根据权利要求4所述的一种基于混合神经网络的油气藏经济可采储量评估方法,其特征在于,步骤S3‑3具体包括以下分步骤:S3‑3‑1、根据步骤S3‑2的计算结果分别计算 、 、 、 的平均值 、 、 、 ;

S3‑3‑2、采用下式分别计算每个特征变量的相对重要性特征值:,

其中,n为特征变量序号;

S3‑3‑3、将所有特征变量分别对 、 、 、 按大小进行四次排序,生成四种相对重要性排序表;

S3‑3‑4、将四种相对重要性排序表按阈值划分为主特征变量、次特征变量和无效特征变量;

S3‑3‑5、计算每个次特征变量的四种相对重要性特征值的均值,以及其在所有次特征变量中的权重均值比例,将所有次特征变量进行加权求和,构建得到复合特征变量。

6.根据权利要求5所述的一种基于混合神经网络的油气藏经济可采储量评估方法,其特征在于,所述混合神经网络模型具体包括:第一特征提取通道、第二特征提取通道和第三特征提取通道构成的并行特征提取通道,以及与并行特征提取通道连接的全连接神经网络;

所述第一特征提取通道用于输入第一类特征数据集的主特征变量和复合特征变量,提取地质参数和工艺参数的数值和分类标签的特征向量;

所述第二特征提取通道用于输入第二类特征数据集的主特征变量和复合特征变量,提取经济参数和产量历史数据的特征向量;

所述第三特征提取通道用于输入第三类特征数据集,提取测井曲线数据的特征向量;

所述全连接神经网络用于将并行特征提取通道连接提取的特征向量进行特征级联作为输入特征向量,预测得到油气藏经济可采储量。

7.根据权利要求6所述的一种基于混合神经网络的油气藏经济可采储量评估方法,其特征在于,所述混合神经网络模型采用优化的自适应动量法进行迭代训练,其中迭代更新公式为:,

其中, 为下一次迭代时的网络权值, 为当前迭代的网络权值, 、 为自适应超参数,为网络误差对权值的偏导数矩阵, 是 的转置矩阵,为比例因子,m为惩罚因子,I为单位矩阵,E为网络误差向量, 为上一次迭代时的网络权值,k为当前迭代序号。

8.一种应用如权利要求1至7任一所述方法的基于混合神经网络的油气藏经济可采储量评估系统,其特征在于,包括:数据获取模块,用于获取油气藏开发过程中的原始数据;

数据预处理模块,用于对获取的原始数据按数据类型分别进行预处理,得到各类特征数据集;

特征提取模块,用于采用神经网络模型对每一类特征数据集进行重要性分析,将每一类特征数据集中特征变量按重要性划分为主特征变量、次特征变量和无效特征变量,选择次特征变量构建复合特征变量;

模型训练模块,用于构建混合神经网络模型,将各类特征数据集的主特征变量和复合特征变量共同作为输入特征变量对混合神经网络模型进行模型训练;

数据预测模块,用于根据训练后的混合神经网络模型预测油气藏经济可采储量。

说明书 :

基于混合神经网络的油气藏经济可采储量评估方法及系统

技术领域

[0001] 本发明涉及油气藏经济可采储量评估技术领域,具体涉及一种基于混合神经网络的油气藏经济可采储量评估方法及系统。

背景技术

[0002] 储量评估是油气藏开发管理中一项十分重要的工作,特别是经济可采储量直接影响到油田公司的经济效益和盈利能力。科学准确地评估经济可采储量尤为重要,对于制定中长期发展规划及提高开发效益,确保可持续发展具有重要的现实意义。
[0003] 经济可采储量是指经过经济评价认定、在一定时期内具有商业效益的可采储量。通常是在评价期内参照油气性质相近著名的油气田发布的国际油气价格和当时的市场条件进行评价,确认该可采储量投入开采技术上可行、经济上合理、环境等其他条件允许,在评价期内储量收益能满足投资回报的要求。
[0004] 储量评估与产量预测类似,传统的方法主要是统计分析方法,如产量递减曲线法和水驱曲线法,包括传统Arps递减预测模型及在其基础上改进的递减分析模型。然而,这种曲线拟合的方法是在很多假设和经验的基础上进行的,带有较多的主观因素,没有考虑到各种客观条件的影响,得出的结果随着经验或者人为因素的改变而缺乏稳定性和泛化性,运用到不同的油井,其结果可能会有偏差。此外,油藏数值模拟法是目前国内外进行油藏开发指标预测的主要方法,是典型的物理驱动数据分析方法,能够更加细致考虑更多因素,预测结果较油藏工程更加客观,但是计算过程受限于地质模型的建立,并且需要研究人员熟练掌握专业软件,预测过程繁杂,耗时长。此外,经济可采储量的另外一类方法是只考虑经济影响因素的公式法,如现金流法、经济极限法、井网密度法、边际成本法、类比法等。这些方法虽然具有一定的可行性,但受人为主观影响较大,且不同油藏适用性具有差异,这限制了它们对涉及海量数据集的问题的适用性。
[0005] 机器学习和神经网络技术作为人工智能领域的主流发展方向,利用其相关算法去分析油气数据已成为研究热点。虽然部分算法被成功应用于岩性识别、测井曲线解释、石油价格预测等领域,但是将其应用于经济可采储量评估方面的研究内容还不足,且通常只考虑一种单一类型的数据作为输入。经济可采储量评估是一个复杂的多变量非线性系统,数据类型多,数据量大,涉及油藏地质特征、开采工艺、历史产量、经济因素等多方面的参数,单一的预测系统可能会效果不佳。

发明内容

[0006] 针对现有技术中的上述不足,本发明提供了一种基于混合神经网络的油气藏经济可采储量评估方法及系统。
[0007] 为了达到上述发明目的,本发明采用的技术方案为:
[0008] 第一方面,本发明提出了一种基于混合神经网络的油气藏经济可采储量评估方法,包括以下步骤:
[0009] S1、获取油气藏开发过程中的原始数据;
[0010] S2、对获取的原始数据按数据类型分别进行预处理,得到各类特征数据集;
[0011] S3、采用神经网络模型对每一类特征数据集进行重要性分析,将每一类特征数据集中特征变量按重要性划分为主特征变量、次特征变量和无效特征变量,选择次特征变量构建复合特征变量;
[0012] S4、构建混合神经网络模型,将各类特征数据集的主特征变量和复合特征变量共同作为输入特征变量对混合神经网络模型进行模型训练;
[0013] S5、根据训练后的混合神经网络模型预测油气藏经济可采储量。
[0014] 可选择地,所述原始数据包括:
[0015] 地质参数数据、工艺参数数据、产量历史数据、经济参数数据、测井曲线数据。
[0016] 可选择地,步骤S2具体包括以下分步骤:
[0017] S2‑1、将地质参数数据和工艺参数数据的数值型数据进行数据清洗、数据填充和标准化处理,将地质参数数据和工艺参数数据的分类标签采用独热编码进行编码,与经济可采储量值结合得到第一类特征数据集;
[0018] S2‑2、将产量历史数据和经济参数数据进行数据清洗、数据填充和标准化处理,与经济可采储量值结合得到第二类特征数据集;
[0019] S2‑3、将测井曲线数据进行数据清洗、数据填充和标准化处理,与经济可采储量值结合得到第三类特征数据集。
[0020] 可选择地,步骤S3具体包括以下分步骤:
[0021] S3‑1、构建全连接神经网络模型并设置超参数,利用第一类特征数据集对全连接神经网络模型进行训练和测试,得到全连接神经网络模型迭代结束时的模型参数;
[0022] S3‑2、根据步骤S3‑1得到的模型参数计算每个特征变量的重要性特征值;
[0023] S3‑3、根据步骤S3‑2计算的重要性特征值将所有特征变量划分为主特征变量、次特征变量和无效特征变量,并根据次特征变量构建复合特征变量;
[0024] S3‑4、采用步骤S3‑1至S3‑3的方法对第二类特征数据集中的经济参数进行处理,得到经济参数对应的主特征变量和复合特征变量,将第二类特征数据集中的产量历史数据与经济参数对应的主特征变量共同作为第二类特征数据集的主特征变量,将经济参数对应的复合特征变量作为第二类特征数据集的复合特征变量。
[0025] 可选择地,所述模型参数包括:
[0026] 输入层‑隐藏层连接权重、隐藏层‑输出层连接权重、输入层神经元的值、隐藏层神经元的输出值、输出层神经元的输出值。
[0027] 可选择地,步骤S3‑2具体包括以下分步骤:
[0028] S3‑2‑1、从全连接神经网络模型的测试结果中选取性能最优的第一数量的全连接神经网络模型;
[0029] S3‑2‑2、根据每个特征变量对应的输入层‑隐藏层连接权重和隐藏层‑输出层连接权重计算每个特征变量对应的连接权重总值 ;
[0030] S3‑2‑3、根据每个特征变量对应的输入层‑隐藏层连接权重和隐藏层‑输出层连接权重计算每个特征变量对应的连接权重乘积 ;
[0031] S3‑2‑4、根据每个特征变量对应的输入层‑隐藏层连接权重 、输入层神经元的值 和隐藏层神经元的输出值 计算输入层第i个神经元对隐藏层第j个神经元的影响值;
[0032] S3‑2‑5、根据每个特征变量对应的隐藏层‑输出层连接权重 、隐藏层神经元的输出值 和输出层神经元的输出值 计算隐藏层第j个神经元对输出层神经元的影响值;
[0033] S3‑2‑6、采用下式计算每个特征变量对应的输入层第i个神经元对输出值的影响值:
[0034]
[0035] 其中,M为隐藏层神经元的个数;
[0036] S3‑2‑7、根据每个特征变量对应的输入层‑隐藏层连接权重的绝对值 ,隐藏层‑输出层连接权重的绝对值 ,计算其乘积 ;
[0037] S3‑2‑8、采用下式计算每个特征变量对隐藏层每个神经元的基于权重绝对值的重要性 ,其中,N为输入层神经元的个数;
[0038] S3‑2‑9、采用下式计算每个特征变量对输出层的基于权重绝对值的重要性特征值:
[0039]
[0040] 其中,M为隐藏层神经元的个数。
[0041] 可选择地,步骤S3‑3具体包括以下分步骤:
[0042] S3‑3‑1、根据步骤S3‑2的计算结果分别计算 、 、 、 的平均值 , , , ;
[0043] S3‑3‑2、采用下式分别计算每个特征变量的相对重要性特征值:
[0044]
[0045]
[0046]
[0047]
[0048] 其中,n为特征变量序号;
[0049] S3‑3‑3、将所有特征变量分别对 , , , 按大小进行四次排序,生成四种相对重要性排序表;
[0050] S3‑3‑4、将四种相对重要性排序表按阈值划分为主特征变量、次特征变量和无效特征变量;
[0051] S3‑3‑5、计算每个次特征变量的四种相对重要性特征值的均值,以及其在所有次特征变量中的权重均值比例,将所有次特征变量进行加权求和,构建得到复合特征变量。
[0052] 可选择地,所述混合神经网络模型具体包括:
[0053] 第一特征提取通道、第二特征提取通道和第三特征提取通道构成的并行特征提取通道,以及与并行特征提取通道连接的全连接神经网络;
[0054] 所述第一特征提取通道用于输入第一类特征数据集的主特征变量和复合特征变量,提取地质参数和工艺参数的数值和分类标签的特征向量;
[0055] 所述第二特征提取通道用于输入第二类特征数据集的主特征变量和复合特征变量,提取经济参数和产量历史数据的特征向量;
[0056] 所述第三特征提取通道用于输入第三类特征数据集,提取测井曲线数据的特征向量;
[0057] 所述全连接神经网络用于将并行特征提取通道连接提取的特征向量进行特征级联作为输入特征向量,预测得到油气藏经济可采储量。
[0058] 可选择地,所述混合神经网络模型采用优化的自适应动量法进行迭代训练,其中迭代更新公式为:
[0059]
[0060]
[0061] 其中, 为下一次迭代时的网络权值, 为当前迭代的网络权值, 、为自适应超参数,为网络误差对权值的偏导数矩阵, 是 的转置矩阵,为比例因子,m为惩罚因子,I为单位矩阵,E为网络误差向量, 为上一次迭代时的网络权值,k为当前迭代序号。
[0062] 第二方面,本发明提出了一种应用上述方法的基于混合神经网络的油气藏经济可采储量评估系统,包括:
[0063] 数据获取模块,用于获取油气藏开发过程中的原始数据;
[0064] 数据预处理模块,用于对获取的原始数据按数据类型分别进行预处理,得到各类特征数据集;
[0065] 特征提取模块,用于采用神经网络模型对每一类特征数据集进行重要性分析,将每一类特征数据集中特征变量按重要性划分为主特征变量、次特征变量和无效特征变量,选择次特征变量构建复合特征变量;
[0066] 模型训练模块,用于构建混合神经网络模型,将各类特征数据集的主特征变量和复合特征变量共同作为输入特征变量对混合神经网络模型进行模型训练;
[0067] 数据预测模块,用于根据训练后的混合神经网络模型预测油气藏经济可采储量。
[0068] 本发明具有以下有益效果:
[0069] 本发明通过考虑多种类型的特征参数作为影响因素,并通过适合不同类型数据的方式进行特征选择和特征提取,再进行特征融合得到多种类型的数据,能够有效提高储量评估结果的精确性。

附图说明

[0070] 图1为本发明实施例1中一种基于混合神经网络的油气藏经济可采储量评估方法的流程示意图;
[0071] 图2为本发明实施例1中混合神经网络模型的结构示意图;
[0072] 图3为本发明实施例2中一种基于混合神经网络的油气藏经济可采储量评估系统的结构示意图。

具体实施方式

[0073] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0074] 实施例1
[0075] 如图1所示,本发明实施例提供了一种基于混合神经网络的油气藏经济可采储量评估方法,包括以下步骤S1至S5:
[0076] S1、获取油气藏开发过程中的原始数据;
[0077] 在本发明的一个可选实施例中,在考虑经济可采储量评估问题时,需要确定与评估相关的数据特征,以及如何选择和使用这些数据。新的传感器技术能够将大量、多尺度和高维的储层数据实时流式传输到数据库中。数据类型极其多样化,从多源、多类型数据中学习,包含更多细节,可以获取各种数据之间的对应关系,为了体现这些大数据的所有“7V”特征,即数量、速度、多样性、可变性、真实性、可视化和价值,如何组合多种类型的数据,如何处理不同级别的噪音,以及如何处理丢失的数据,以有意义的方式表示数据的能力对于经济可采储量评估问题至关重要,对于不同类型的数据需要采用不同的数据处理方式。
[0078] 本发明将各种来源和各种类型的海量数据集用于经济可采储量评估问题中,涉及了油藏地质特征、开采工艺、历史产量、经济因素等多方面的参数,全面客观,考虑多种类型的特征参数作为输入,并通过适合不同类型的数据的方式进行特征提取,再进行特征融合,多种类型的数据有助于储量评估结果的精确性。
[0079] 初始特征选择是基于油井生产理论和最可能影响油井生产的因素,获取某油田真实的储量相关数据,包含多个评估单元的储量数据,将每个油井单元收集到的特征变量分为对应的以下三类输入特征数据。
[0080] 第一类:地质参数和工艺参数的数值和分类标签。包括井块、层位、孔隙度、渗透率、原始地层压力、原油黏度、含油面积、含油饱和度、原油地质储量、当年投产采油井数、生产天数、储层岩性、物性分类、开采方式等信息。这类数据是离散的,表示储层的整体效应。
[0081] 第二类:产量历史数据和经济参数。在油田的实际生产过程中,会产生很多时间序列数据,这些数据记录过去时刻某一种或几种变化量。产量历史数据是按月统计的,包含每月的产油量、产气量、产水量、注水量、开井数等信息;经济参数包含操作费、固定成本占比、油价、气价、汇率、特别收益金、税费、建井成本、吨油成本、投入产出比、净现金流、内部收益率、财务净现值、回收期、百万吨产能投资等信息。
[0082] 第三类:测井曲线,测井曲线需要根据各储层的深度范围来提取,根据实际测量的有限性,只取测量的一部分作为输入是可以接受的。在井眼正常段,各测井曲线与地层特征之间有良好的映射关系,探测深度较深,不受井眼垮塌影响的曲线越多,建模效果就越好。样本数据要选择井径正常段,测井资料质量高的进行实验。这些测井数据之间的对应关系才是正确的。测井曲线,包含声波时差、自然伽马、电阻率、密度、中子、自然电位等信息。测井曲线这类结构化数据,包含了更多的储层细节,具有时间空间双重信息。
[0083] S2、对获取的原始数据按数据类型分别进行预处理,得到各类特征数据集;
[0084] 在本发明的一个可选实施例中,步骤S2具体包括以下分步骤:
[0085] S2‑1、将地质参数数据和工艺参数数据的数值型数据进行数据清洗、数据填充和标准化处理,将地质参数数据和工艺参数数据的分类标签采用独热编码进行编码,与经济可采储量值结合得到第一类特征数据集;
[0086] S2‑2、将产量历史数据和经济参数数据进行数据清洗、数据填充和标准化处理,与经济可采储量值结合得到第二类特征数据集;
[0087] S2‑3、将测井曲线数据进行数据清洗、数据填充和标准化处理,与经济可采储量值结合得到第三类特征数据集。
[0088] 具体而言,由于数据采集方式或采集人员的不同和各种突发状况,会使得油田的数据出现一定的冗余数据、缺省值以及异常值。对于重复数据,在已知重复数据内容的基础上,从每一个重复数据中取出一条记录保留下来,删除其他的重复数据。对于零值、坏值等异常数值利用数据清洗技术进行处理,并以局部均值或众数进行填充,最大程度降低异常数值引起的预测结果不稳定。
[0089] 数据预处理对于深度学习至关重要,需要将准备好的采样数据集转化成能够输入混合神经网络模型的数据格式。不同类型的数据是不同性质的测量值,具有不同的取值范围。为了消除不同变量之间量纲不同带来的影响,需要将变量转换到同一量纲下,考虑到采样数据会有一定的离群点,对数据进行标准化处理。标准化处理公式如下:
[0090]
[0091] 其中,是某种输入数据的均值, 是某种输入数据的标准差。为了提高模型的收敛速率,本文对输出数据(即经济可采储量的数值)也进行标准化处理,模型预测的储量是属于标准化后的范围,要获得真实的经济可采储量还需要对模型的预测值进行反标准化处理。
[0092] 需要注意的是,标准化处理是针对数值类型的数据使用的,因此地质参数和工艺参数的数值、产量历史数据和经济参数、测井曲线,都可以并且都需要进行标准化处理,而地质参数和工艺参数的分类标签,不能数值化,因此不能采取标准化处理方式,而是采用独热编码的处理方式,转换成模型能够进行学习和特征提取的数据格式。独热编码的优点是将分类值映射到整数值,能够处理非连续型数值特征,将离散型特征使用独热编码,会让特征之间的距离计算更加合理。
[0093] 独热编码的方式:
[0094] 比如物性分类:["低渗透","中渗透","高渗透"],"低渗透"映射为100,"中渗透"映射为010,"高渗透"映射为001;
[0095] 比如陆海分类:["陆地","滩海"],"陆地"映射为10,"滩海"映射为01;
[0096] 所以,当一个样本为["中渗透","滩海"]的时候,完整的特征数字化的结果为:[0,1,0,0,1]。
[0097] 本发明将预处理后的特征值和经济可采储量值的组合,构成实验所需的数据集。在构建和训练混合神经网络模型时按照8:1:1的比例划分训练集、验证集和测试集。训练集用来训练模型,验证集用于训练过程种损失函数的计算,测试集用于评估模型的预测效果。
[0098] S3、采用神经网络模型对每一类特征数据集进行重要性分析,将每一类特征数据集中特征变量按重要性划分为主特征变量、次特征变量和无效特征变量,选择次特征变量构建复合特征变量;
[0099] 在本发明的一个可选实施例中,步骤S3具体包括以下分步骤:
[0100] S3‑1、构建全连接神经网络模型并设置超参数,利用第一类特征数据集对全连接神经网络模型进行训练和测试,得到全连接神经网络模型迭代结束时的模型参数;其中模型参数包括:输入层‑隐藏层连接权重、隐藏层‑输出层连接权重、输入层神经元的值、隐藏层神经元的输出值、输出层神经元的输出值;
[0101] S3‑2、根据步骤S3‑1得到的模型参数计算每个特征变量的重要性特征值;具体包括以下分步骤:
[0102] S3‑2‑1、从全连接神经网络模型的测试结果中选取性能最优的第一数量的全连接神经网络模型;
[0103] S3‑2‑2、根据每个特征变量对应的输入层‑隐藏层连接权重和隐藏层‑输出层连接权重计算每个特征变量对应的连接权重总值 ;
[0104] S3‑2‑3、根据每个特征变量对应的输入层‑隐藏层连接权重和隐藏层‑输出层连接权重计算每个特征变量对应的连接权重乘积 ;
[0105] S3‑2‑4、根据每个特征变量对应的输入层‑隐藏层连接权重 、输入层神经元的值 和隐藏层神经元的输出值 计算输入层第i个神经元对隐藏层第j个神经元的影响值;
[0106] S3‑2‑5、根据每个特征变量对应的隐藏层‑输出层连接权重 、隐藏层神经元的输出值 和输出层神经元的输出值 计算隐藏层第j个神经元对输出层神经元的影响值;
[0107] S3‑2‑6、采用下式计算每个特征变量对应的输入层第i个神经元对输出值的影响值:
[0108]
[0109] 其中,M为隐藏层神经元的个数;
[0110] S3‑2‑7、根据每个特征变量对应的输入层‑隐藏层连接权重的绝对值 ,隐藏层‑输出层连接权重的绝对值 ,计算其乘积 ;
[0111] S3‑2‑8、采用下式计算每个特征变量对隐藏层每个神经元的基于权重绝对值的重要性 ,其中,N为输入层神经元的个数;
[0112] S3‑2‑9、采用下式计算每个特征变量对输出层的基于权重绝对值的重要性特征值:
[0113]
[0114] 其中,M为隐藏层神经元的个数;
[0115] S3‑3、根据步骤S3‑2计算的重要性特征值将所有特征变量划分为主特征变量、次特征变量和无效特征变量,并根据次特征变量构建复合特征变量;具体包括以下分步骤:
[0116] S3‑3‑1、根据步骤S3‑2的计算结果分别计算 、 、 、 的平均值 , , , ;
[0117] S3‑3‑2、采用下式分别计算每个特征变量的相对重要性特征值:
[0118]
[0119]
[0120]
[0121]
[0122] 其中,n为特征变量序号;
[0123] S3‑3‑3、将所有特征变量分别对 , , , 按大小进行四次排序,生成四种相对重要性排序表;
[0124] S3‑3‑4、将四种相对重要性排序表按阈值划分为主特征变量、次特征变量和无效特征变量;
[0125] S3‑3‑5、计算每个次特征变量的四种相对重要性特征值的均值,以及其在所有次特征变量中的权重均值比例,将所有次特征变量进行加权求和,构建得到复合特征变量;
[0126] S3‑4、采用步骤S3‑1至S3‑3的方法对第二类特征数据集中的经济参数进行处理,得到经济参数对应的主特征变量和复合特征变量,将第二类特征数据集中的产量历史数据与经济参数对应的主特征变量共同作为第二类特征数据集的主特征变量,将经济参数对应的复合特征变量作为第二类特征数据集的复合特征变量。
[0127] 具体而言,由于混合神经网络本身结构复杂,参数较多,因此对于多源、多类型数据不仅要分类分别处理,在每一类特征变量中,也需要进行重要性分析和特征选择,使用全连接神经网络去预测目标值,得到最优结果下的权值,通过每个变量的连接权重总值,连接权值乘积,对输出值的影响值,对输出层的基于权重的重要性综合分析,保留相对重要性高的变量,弱化并整合相对重要性较低的变量,去除相对重要性极低的变量,进而提高预测的精度。
[0128] 本发明设置模型超参数时,设置模型学习率的取值区间为{0.001,0.003,0.005,0.01,0.03,0.05,0.1},隐藏层单元数目的取值区间为{5,6,7,⋯,35},数据集随机选取比例取值区间{50%,55%,60%,65%,70%,75%,80%,85%,90%,95%,100%},损失函数为均方根误差(Root Mean Square Error,RMSE)损失函数,权重初始化方法为均匀分布初始化方法(Random Uniform),最大epoch数量为100,连续5次误差小于0.001就提前结束迭代。
[0129] 在神经网络中,神经元之间的连接权值是输入和输出之间的联系,因此也是问题和解之间的联系。自变量特征对神经网络预测输出的相对重要性主要取决于连接权值的大小和方向。但在深度学习中,处理高维度向量会使得计算资源造成极大的消耗,甚至出现维度灾难问题。因此,需要寻找将高维向量转换为低维向量,且不丢失数据特征的方法。在常规的油藏工程中,是对特征进行初步分析,利用石油生产工程直觉和经验,对特征进行缩减,但是这种方法主观性太强。本发明提出一种特征重要性分析方法,用于统计评估输入变量在神经网络中的贡献,提高对海量特征参数的分辨能力,识别对网络预测有重要贡献的变量,进而对特征变量进行选择。
[0130] 首先对第一类特征变量,地质参数和工艺参数的数值和分类标签进行重要性分析,只以第一类特征变量为输入,经济可采储量为输出,构建三层全连接神经网络,并进行训练和测试。由于网络权重矩阵初始化是随机的,模型训练具有一定的随机性,如果数据集中某个特定变量的表现很差,那么有可能,尽管这个变量在本次实验看起来不重要,但随着实验超参数设置或者数据集选取发生变化,它可能变得更重要,因此采用多次随机实验。本发明设置了多个超参数的取值范围,构建若干三层全连接神经网络,对学习率、隐藏层单元数目、数据集随机选取比例,进行随机选取和配对。重复多次,如100次。由于网络中每个连接权重都具有大小和方向,为更加全面地评估重要性变量,在每次实验的全连接神经网络达到临界条件或最优迭代状态时,记录以下值:(1)输入层‑隐藏层连接权重 ;(2)隐藏层‑输出层连接权重 ;(3)输入层神经元i的值 ;(4)隐藏层神经元j的输出值 ;其中 取值1,2, ,N,即输入层神经元的个数;j取值 ,即隐藏层神经元的个数;(5)输出层神经元的输出值 。
[0131] 在多次随机化实验结束后,选取其中性能最好的10个全连接神经网络,记录他们的(1)学习率(2)隐藏层单元数目。计算出他们的以下值:(1)连接权重总值,包括每个变量的从输入层到隐藏层,再到输出层的所有连接权值的总和,令其为 ;(2)连接权值乘积,包括每个变量输入层与隐藏层连接权值 与每个隐藏层神经元的隐藏层与输出层连接权值 的乘积之和,令其为 ;(3)输入层第i个神经元对隐藏层第j个神经元的影响值,隐藏层第j个神经元对输出层神经元的影响值 ;计算输入层第i个神经元对输出值的影响值 ;(4)每个变量输入层与隐藏层连接权值的绝对值,每个隐藏层神经元的隐藏层与输出层连接权值的绝对值 ,计算其乘积
,再计算每个变量对隐藏层每个神经元的基于权重绝对值的重要性
,每个变量对输出层的基于权重绝对值的重要性特征值 。
其中i取值 ,即输入层神经元的个数;j取值 ,即隐藏层神经元的个数。这样接下来可以得到每个变量的重要性的统计显著性。
[0132] 筛选出模型实验中性能最优的10个的全连接神经网络模型。求出这10个的 、 、、 的平均值 , , , ,计算每个变量的四种相对重要性特征值 ,  ,  ,
 ,从四种角度综合分析连接权值对变量和输出的影响,将所有变量
分别对 , , , ,按大小进行四次排序,并生成四种相对重要性的排序表。
[0133] 按照一定标准将所有变量分为主特征变量(即重要性较高的变量)、次特征变量(即重要性较低的变量)和无效特征变量(即重要性最低的变量)。
[0134] 因为输出变量值是所有特征变量共同影响的结果,次特征变量只是相对于主变量而言,贡献更小,但并非完全无用。所以本发明不抛弃所有次特征变量,而是弱化次特征变量的连接权值,更清晰地分析各输入特征变量对输出变量的影响。
[0135] 设定两个百分比阈值,一个较大,一个较小。分别在四次排序中,取出相对重要性超过较大阈值的所有特征变量,并形成四个集合 ,将四个集合的交集中的所有变量定义为主特征变量,取出相对重要性低于较小阈值的所有
特征变量,并形成四个集合 ,将四个集合的交集 中的所有
特征变量定义为无效特征变量,其余的特征变量全部定义为次特征变量。或者设定某个百分比阈值,达到这个阈值2到4次的特征变量定义为主特征变量,达到这个阈值1次的特征变量定义为次特征变量,达到这个阈值0次的特征变量定义为无效特征变量。
[0136] 求出每一个次特征变量的四种相对重要性的均值 ,以及其在所有次特征变量中的权重均值比例 ,L为次特征变量个数。按照这个权重比例,将次特征变量进行加权求和,整合为一个新的复合特征变量。复合特征变量中各个次特征变量的权重比例是确定的,在后续混合神经网络模型训练过程中,不训练这些权重。将该复合特征变量与主特征变量共同作为混合神经网络模型的输入特征变量。过多的特征变量输入会使模型复杂化,增加神经网络的参数。为了简化模型,在保证预测精度的同时有效利用更多数据类型,这样不仅可以更加充分考虑到收集到的所有特征数据,发挥每一种特征变量的价值,而且减少了低重要性特征变量与神经网络的连接,从而减少了模型训练时的参数数量,优化了模型结构。
[0137] 本发明将第一类特征数据集进行重要性分析得到的主特征变量与新特征变量定义为第一类主特征变量与第一类复合特征变量。
[0138] 对第二类特征数据集,产量历史数据和经济参数进行重要性分析,由于产量历史数据与储量有着最直接的关系,全部保留,因此只以第二类特征变量中的为经济参数输入,经济可采储量为输出,方法与步骤S3‑1至S3‑3类似,最后得到第二类主特征变量(产量历史数据与相对重要性较高的经济参数)与第二类复合特征变量(相对重要性较低的经济参数的复合变量)。
[0139] 对于第三类特征数据集,由于在实际中测井曲线序列容易有较多的缺失值,因此在数据预处理阶段就筛选出测井资料质量高的几种曲线,包含声波时差、自然伽马、电阻率、密度、中子、自然电位等信息,因此不对这类数据进行重要性分析,全部定义为第三类主特征变量。
[0140] S4、构建混合神经网络模型,将各类特征数据集的主特征变量和复合特征变量共同作为输入特征变量对混合神经网络模型进行模型训练;
[0141] 在本发明的一个可选实施例中,本发明考虑到油气藏开发过程中的单井历年的地质参数,工艺参数,经济参数,产量历史数据等多种类型的数据,提出了一种混合神经网络(HDNN)模型来进行经济可采储量评估。
[0142] 本发明构建的混合神经网络模型具体包括:
[0143] 第一特征提取通道、第二特征提取通道和第三特征提取通道构成的并行特征提取通道,以及与并行特征提取通道连接的全连接神经网络;
[0144] 所述第一特征提取通道用于输入第一类特征数据集的主特征变量和复合特征变量,提取地质参数和工艺参数的数值和分类标签的特征向量;
[0145] 所述第二特征提取通道用于输入第二类特征数据集的主特征变量和复合特征变量,提取经济参数和产量历史数据的特征向量;
[0146] 所述第三特征提取通道用于输入第三类特征数据集,提取测井曲线数据的特征向量;
[0147] 所述全连接神经网络用于将并行特征提取通道连接提取的特征向量进行特征级联作为输入特征向量,预测得到油气藏经济可采储量。
[0148] 本发明的混合神经网络模型用合适的网络分别处理每种输入类型进行特征学习。然后,所有学习到的特征被连接整合成一个特征集合。该集成包含来自不同输入的有效信息,然后输入到后续的神经网络进行总目标学习。
[0149] 输入数据可以是连续的,也可以是离散的,把所有这些数据都输入到一个网络中是不方便的,为了处理混合输入,本发明将多种类型的神经网络应用于不同的数据类型,再进行整合。
[0150] 针对一些地质参数为数值,如孔隙度、渗透率、原始地层压力、原油黏度、含油饱和度等,一些地质参数为分类标签,如储层岩性、物性分类等;一些工艺参数也包括当年投产采油井数、生产天数等数值,和开采方式等分类标签。数值和分类标签是离散的,代表储层的整体效应。因此本发明使用全连接神经网络(Fully Connected Neural Network,FCNN)对地质参数和工艺参数的数值和分类标签输入进行特征处理。
[0151] 产量历史数据和经济参数是油田长期以来的重要数据,数据本身包含时间序列的信息,这些数据记录过去时刻某一种或几种变化量,因此本发明使用门控循环单元网络(Gated Recurrent Unit,GRU)对经济参数和产量历史数据进行特征提取和关系挖掘。
[0152] 针对一些结构测量如测井曲线包含更多的细节,可提供多种序列曲线,反映了在储层中的累积效应,既包含时间信息,又包含空间信息。因此本发明使用一维卷积神经网络(Convolutional Neural Networks, CNN),包括Conv1D卷积层和池化层,与门控循环网络 (Gated Recurrent Unit,GRU)相结合的循环卷积神经网络对测井曲线进行处理,进行特征提取和关系挖掘。
[0153] 本发明分别对不同格式的数据进行特征学习后,将FCNN、GRU、和循环卷积神经网络的输出进行特征级联,实现对经济可采储量的最终评估。
[0154] 将地质参数和工艺参数的数值和分类标签、经济参数和产量历史数据、测井曲线这三种数据作为输入,转化为特征向量A、特征向量B、特征向量C,输入到学习特征的非线性映射方程,分别表示为:
[0155]
[0156]
[0157]
[0158] 其中, 为FCNN, 为门控循环网络, 为循环卷积神经网络, 、 、 分别为地质参数和工艺参数的数值和分类标签输入到FCNN中学习到的特征,经济参数和产量历史数据输入到GRU中学习到的特征,测井曲线输入到循环卷积神经网络中学习到的特征。
[0159] 将所有学习到的特征进行特征级联,就得到一个集成特征,特征级联操作方式取决于具体的数据类型有几种需要合并,然后,将集成特征作为经济可采储量最终评估模型的输入,表示为
[0160]
[0161] 其中,Y表示最终模型得到的经济可采储量的值, 为一层全连接网络层。
[0162] 在上述特征提取的基础上,本发明提出的混合神经网络(HDNN)模型实现了一个端到端的深度学习模型,表示为
[0163]
[0164] 其中F表示从多源多类输入到目标值的非线性映射,即本发明提出的HDNN模型,是FCNN、GRU、循环卷积神经网络并联后与 串联后的组合模型。在对HDNN模型进行整体训练时,通过神经网络训练算法,不断优化模型的权值W和权值V以及阈值,将其训练为最优效果的模型。
[0165] 本发明在模型训练时,学习率的设置为设置模型学习率的取值区间随机结果中性能最优的10个全连接神经网络的学习率取值的平均值 ,与对第二类特征变量中的经济参数进行重要性分析时性能最优的10个全连接神经网络的学习率取值的平均值 ,的平均值 ;FCNN端的隐藏层单
元数目为隐藏层单元数目的取值区间随机结果中性能最优的10个全连接神经网络的隐藏层单元数目的平均值(如果有小数就向下取整),GRU端的隐藏层单元数目为对第二类特征变量中的经济参数进行重要性分析时性能最优的10个全连接神经网络的隐藏层单元数目的平均值(如果有小数就向下取整);损失函数为均方根误差(Root Mean Square Error,RMSE)损失函数,权重初始化方法为均匀分布初始化方法(Random Uniform),最大epoch数量为100,连续5次误差小于0.001就提前结束迭代。
[0166] 为了避免出现过拟合的情况,增大网络模型收敛到全局最优值的概率,本发明采用优化的自适应动量法,通过引入简单的权重衰减正则化,进行模型训练。权重的变化被限制在超椭圆内。所有后续下降方向之间也保持共轭性,其中仅接受充分减小目标函数的下降方向,迭代更新公式表示为:
[0167]
[0168]
[0169] 其中, 为下一次迭代时的网络权值, 为当前迭代的网络权值, 、为自适应超参数,为网络误差对权值的偏导数矩阵, 是 的转置矩阵,为比例因子,m为惩罚因子,I为单位矩阵,E为网络误差向量, 为上一次迭代时的网络权值,k为当前迭代序号。
[0170] 本发明在进行模型训练时,将第一类主特征变量与第一类复合特征变量输入到提出的HDNN中的FCNN端,将第二类主特征变量与第二类复合特征变量输入到提出的HDNN中的GRU端,将第三类主特征变量输入到提出的HDNN中的循环卷积神经网络端,模型架构如图2所示。采用优化的自适应动量法(OLMAM)进行训练,直到达到最大迭代次数或者达到误差要求;经济可采储量评估是回归问题,因此在训练过程中使用均方根误差(Root Mean Square Error,RMSE)损失函数作为网络训练过程中评价预测效果的标准。均方根误差是用来描述“系统误差”的一种指标,值越小越接近于0,则模型的性能越好。均方根误差损失函数的计算公式如下:
[0171]
[0172] 其中,总样本数为T, 是已有的第t个样本的经济可采储量真实值,是第t个样本的经济可采储量预测值。
[0173] 本发明在进行模型测试时,将测试数据集输入训练完成后的模型,评估其性能。因为对所有数据都进行了标准化处理,训练过程中均方根误差的计算用的是标准化后的数据。因此在评估模型性能时,要体现模型实际的预测效果,先对模型输出进行反标准化处理得到预测的经济可采储量值,再用预测值与实际值计算均方根误差。
[0174] S5、根据训练后的混合神经网络模型预测油气藏经济可采储量。
[0175] 实施例2
[0176] 如图3所示,本发明在实施例1描述的一种基于混合神经网络的油气藏经济可采储量评估方法的基础上,提供了一种应用上述方法的基于混合神经网络的油气藏经济可采储量评估系统,包括:
[0177] 数据获取模块,用于获取油气藏开发过程中的原始数据;
[0178] 数据预处理模块,用于对获取的原始数据按数据类型分别进行预处理,得到各类特征数据集;
[0179] 特征提取模块,用于采用神经网络模型对每一类特征数据集进行重要性分析,将每一类特征数据集中特征变量按重要性划分为主特征变量、次特征变量和无效特征变量,选择次特征变量构建复合特征变量;
[0180] 模型训练模块,用于构建混合神经网络模型,将各类特征数据集的主特征变量和复合特征变量共同作为输入特征变量对混合神经网络模型进行模型训练;
[0181] 数据预测模块,用于根据训练后的混合神经网络模型预测油气藏经济可采储量。
[0182] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0183] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0184] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0185] 本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
[0186] 本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。