一种基于强化学习的煤层气井排采参数智能优化系统和方法转让专利
申请号 : CN202010822638.9
文献号 : CN111963115B
文献日 : 2021-10-22
发明人 : 檀朝东 , 邓涵文 , 宋文容 , 冯钢 , 张雄英
申请人 : 中国石油大学(北京) , 北京雅丹石油技术开发有限公司
摘要 :
权利要求 :
1.一种基于强化学习的煤层气井排采参数智能优化系统,包括动作执行模块(400),用于调节螺杆泵采气装置(100)的排采参数,而使得所述螺杆泵采气装置(100)能够实现连续高效的排采;
其特征在于,
在所述螺杆泵采气装置(100)的过程中,状态采集模块(200)采集煤层气井螺杆泵的状态参数而生成状态信息,
所述状态采集模块(200)将所述状态信息发送至智能决策模块(300),以使得所述智能决策模块(300)基于煤层气井螺杆泵的状态参数结合环境应变强化学习机制生成用于调节所述螺杆泵采气装置(100)的排采参数的决策信息;
其中,所述动作执行模块(400)与所述智能决策模块(300)数据连接,并基于所述决策信息作用于所述螺杆泵采气装置(100),从而使得所述螺杆泵采气装置(100)的排采参数得到调节,以至少能够改变所述煤层气井的当前生产压差;
在所述螺杆泵采气装置(100)的排采参数经由所述动作执行模块(400)得以调节的情况下,所述螺杆泵采气装置(100)的产能参数经由奖励反馈模块(500)进行奖励结算后而将生成的奖励信息反馈至所述智能决策模块(300),以使得所述智能决策模块(300)能够基于所述奖励信息实时地对所述螺杆泵采气装置(100)的排采参数进一步调节;
所述奖励反馈模块(500)基于所述智能决策模块(300)确定的根据所述决策信息而反馈的奖励原始参数采集信号与所述状态采集模块(200)通信连接,而使得所述奖励反馈模块(500)能够从所述状态采集模块(200)中获取至少一个与所述决策信息匹配的奖励信息的原始参数;
在所述螺杆泵采气装置(100)每基于所述决策信息调节一次所述排采参数的情况下,所述奖励反馈模块(500)对奖励信息的原始参数按照叠加的方式进行迭代以确定最后一次所述螺杆泵采气装置(100)调节排采参数之后的对应的奖励信息;
如果决策信息是调节转速,则所述奖励反馈模块(500)从所述状态采集模块(200)中获取产水参数和动液面参数;
如果决策信息是调节气嘴大小,则所述奖励反馈模块(500)从所述状态采集模块(200)中获取产气参数和套压参数。
2.根据权利要求1所述的优化系统,其特征在于,所述动作执行模块(400)至少能够按照调节螺杆泵转速和/或油嘴调节阀开度作用于所述螺杆泵采气装置(100)中的螺杆泵和/或油嘴调节阀,从而所述动作执行模块(400)能够改变动液面的高度和/或油压,以使得在所述螺杆泵转速和/或油嘴调节阀开度得以调节的情况下而改变所述煤层气井的当前生产压差。
3.根据权利要求2所述的优化系统,其特征在于,在所述动作执行模块(400)获取决策信息的情况下,所述动作执行模块(400)对所述螺杆泵采气装置(100)中的螺杆泵转速和/或油嘴调节阀的开度按照动作特征量对应于调节变化量的方式进行迭代式调节。
4.根据权利要求3所述的优化系统,其特征在于,所述智能决策模块(300)按照能够使得奖励信息最大化的方式基于环境应变强化学习机制生成所述决策信息,其中,所述智能决策模块(300)至少配置有两种环境应变强化学习机制以能够适用于螺杆泵采气装置(100)的排采初期和中后期。
5.根据权利要求4所述的优化系统,其特征在于,所述智能决策模块(300)设置有更新单元,所述更新单元能够基于螺杆泵采气装置(100)的排采参数的对所述环境应变强化学习机制进行动态更新。
6.一种基于强化学习的煤层气井排采参数智能优化方法,其特征在于,所述方法包括:
采集煤层气井螺杆泵的状态参数,
基于煤层气井螺杆泵的状态参数结合环境应变强化学习机制生成用于调节螺杆泵采气装置(100)的排采参数的决策信息,基于所述决策信息作用于所述螺杆泵采气装置(100),从而使得所述螺杆泵采气装置(100)的排采参数得到调节,以至少能够适应所述煤层气井的当前状态;在所述螺杆泵采气装置(100)的排采参数得以调节的情况下,所述螺杆泵采气装置(100)的产能参数经由奖励结算后生成奖励信息,进而所述螺杆泵采气装置(100)的排采参数能够基于所述奖励信息实时地进一步调节;
如果决策信息是调节转速,则奖励反馈模块(500)从所述状态采集模块(200)中获取产水参数和动液面参数;
如果决策信息是调节气嘴大小,则奖励反馈模块(500)从所述状态采集模块(200)中获取产气参数和套压参数。
说明书 :
一种基于强化学习的煤层气井排采参数智能优化系统和方法
技术领域
背景技术
煤层气主要以吸附态附存在煤基质的微空隙中,必须通过排水降压降低储层压力进行开
采,它的产出是一个复杂的降压‑解吸‑扩散‑渗流的过程。
举升方式具有更多优势,包括:(1)处理大量生产固体的能力;(2)本身不会发生气锁;(3)相
对较高的系统效率。因此螺杆泵也被广泛的应用于煤层气的开采中。
能。现有技术中,煤层气井排采参数的调整需要地质技术人员的经验对生产状况进行动态
分析,不定时地进行人工现场调参,这种方法依赖于工程师的经验知识,受时间、地理位置
及气候的影响。但如果环境发生变化,不能迅速做出调整,会使储层受到不同程度的伤害,
使降压‑解吸‑扩散‑渗流过程受到阻碍,排采效果降低甚至导致无产出。因此,有必要针对
煤层气的开采环境、产能等进行智能控制而使得煤层气的开采是连续、高效、节能以及环保
的。
控系统;煤层气井参数监测设备主要包括气体流量计、液体流量计、井下流压压力传感计、
套压压力传感计、温度传感计、液位测试装置和变频器;本发明还公开了用于煤层气井排采
装置的智能远程控制系统的远程控制方法。本发明具有针对不同地质类型煤层气井和不同
阶段排采特点,实现了不同类型煤层气井的智能排采;实现了煤层气井排采的远程实时监
测监控,远程用户可以在远程查看查询和保存详细的实时数据和历史数据;用户可以对变
频器进行参数设定和指令控制,包括现场操作和远程控制。
器,所述扭矩载荷传感器接入所述多参数记录仪,所述液面测试仪、所述多参数记录仪和所
述阀值存储模块分别与所述处理器的输入端相连接,所述处理器的输出端连接所述报警
器。所述液面测试仪、所述扭矩载荷传感器和所述多参数记录仪实时测试螺杆泵井的各项
参数,处理器比对各项参数和阀值存储器内相应的阀值,如果参数超出阀值,则通知报警器
报警,提示现场作业人员对应调整螺杆泵井的工作参数,防止发生杆断脱、烧泵、卡泵等现
象。
参数采集器、无线控制器、液面自动监测仪、中控计算机、便携式数据采集器、监测诊断软
件。多参数记录仪通过电流互感器、电参数采集器可以测量螺杆泵井的电压、电流参数,并
能够计算出有功功率、功率因数等其他电参数。在中控计算机中安装数据监测诊断软件,接
收测试数据,形成数据库,对数据库中的各测试参数进行综合分析诊断,结合历史数据参数
自动描绘出煤层气井各参数变化情况。所有参数数据历史记录曲线采用K线图形式表现,可
以方便查看每一口井、每天、以及任意一段时间内的参数变化。
气候的影响。机器学习可以预测煤层气螺杆泵的运行寿命和优化运行参数,典型的机器学
习(ML)算法需要数百万个数据点才能成功地发现和预测煤层气螺杆泵排采优化模式。但如
果环境发生变化,不能迅速做出调整,会使储层受到不同程度的伤害,使解吸过程受到阻
碍,排采效果降低。并且由于环境问题的多变和复杂,建立好的控制模型随时面临变化,经
常需要进行更改以适应新环境,可见现有技术均不符合智能控制的根本需求。
非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申
请人保留在背景技术中增加相关现有技术之权利。
发明内容
方法通过与环境的交互式学习,对动态环境进行灵活的奖惩,实现了智能决策模块在复杂
环境下智能决策和参数优化的效果,在煤层气井螺杆泵排采参数优化控制问题上具有实时
调整参数设置、自适应环境变化和无需大数据进行训练的优势。该方法能提高螺杆泵排采
效率,使煤层气井按照生产规律长期、连续、高效地进行开采,并提高整体开发效果和经济
效益。
现连续高效的排采;在所述螺杆泵采气装置的过程中,状态采集模块采集煤层气井螺杆泵
的状态参数而生成状态信息,所述状态采集模块将所述状态信息发送至智能决策模块,以
使得所述智能决策模块基于煤层气井螺杆泵的状态参数结合环境应变强化学习机制生成
用于调节所述螺杆泵采气装置的排采参数的决策信息;其中,所述动作执行模块与所述智
能决策模块数据连接,并基于所述决策信息作用于所述螺杆泵采气装置,从而使得所述螺
杆泵采气装置的排采参数得到调节,以至少能够改变所述煤层气井的当前生产压差。
后而将生成的奖励信息反馈至所述智能决策模块,以使得所述智能决策模块能够基于所述
奖励信息实时地对所述螺杆泵采气装置的排采参数进一步调节。
奖励反馈模块能够从所述状态采集模块中获取至少一个与所述决策信息匹配的奖励信息
的原始参数。
代以确定最后一次所述螺杆泵采气装置调节排采参数之后的对应的奖励信息。
作执行模块能够改变动液面的高度和/或油压,以使得在所述螺杆泵转速和/或油嘴调节阀
开度得以调节的情况下而改变所述煤层气井的当前生产压差。
量对应于调节变化量的方式进行迭代式调节。
种环境应变强化学习机制以能够适用于螺杆泵采气装置的排采初期和中后期。
参数结合环境应变强化学习机制生成用于调节螺杆泵采气装置的排采参数的决策信息,基
于所述决策信息作用于所述螺杆泵采气装置,从而使得所述螺杆泵采气装置的排采参数得
到调节,以至少能够适应所述煤层气井的当前状态。
装置的排采参数能够基于所述奖励信息实时地进一步调节。
附图说明
具体实施方式
螺杆泵排采的环境应变强化学习机制和Q学习(或Sarsa、Sarsa(lambda))更新算法。该系统
通过与环境(螺杆泵采气状态参数和/或煤层气井状态参数)的交互式学习,对动态环境进
行灵活的奖惩,以能够实现在复杂环境下智能决策和参数优化的效果,可有效获取煤层气
螺杆泵排采参数最优协调决策,以至少能够改变煤层气井的当前压差的方式从而能够解决
传统方法中如果环境发生变化,现有系统需要通过人工决策而不能迅速做出调整造成排采
效果降低的问题。
节螺杆泵的转速和/或气嘴调节阀的开度。螺杆泵采气装置100在采煤层气的过程中以不发
生气锁的方式将煤层气从井底采送至集输装置。
采集套压、动液面、井底流压、产水量和产气量的传感器。状态采集模块200将状态刺激信息
发送至智能决策模块300。智能决策模块300基于螺杆泵采气状态参数和/或煤层气井状态
参数结合环境应变强化学习机制生成用于调节螺杆泵采气装置100的排采参数的决策信
息。决策信息包括调节转速的大小、气嘴的开度大小。其中,动作执行模块400与智能决策模
块300数据连接,并基于决策信息作用于螺杆泵采气装置100,从而使得螺杆泵采气装置100
的排采参数得到调节,以至少能够改变煤层气井的当前生产压差。套压、动液面、井底流压、
产水量和产气量可以组合为状态刺激信息。在煤层气的开采过程中,可以通过改变变频器
的频率可以调整螺杆泵的转速进而改变产水速率,从而控制动液面的高度,通过调节气油
嘴大小可以改变气产气速率进而改变套压的大小,动液面和套压最终决定着井底流压的大
小。井底流压和储层压力决定了生产压差,生产压差决定了煤层气的降压‑解吸‑扩散‑渗流
过程,进而决定了煤层气的产量。
的四元组{s,a,p,r}表示。对于离散时间MDP,状态和动作的集合称为状态空间(State
Space)和动作空间(Action Space),分别使用S和A表示,si∈S,ai∈A。根据第t步选择的行
动,状态根据概率P(st+1,st,at)从st转移到st+1,在状态的转移的同时,智能决策模块得到一
个即时的奖励R(st+1,st,at)。该过程结束时的累积奖励(Reward)为:
杆泵采气装置100每基于决策信息调节一次排采参数的情况下,奖励反馈模块500对奖励刺
激原始参数按照叠加的方式进行迭代以确定最后一次螺杆泵采气装置100调节排采参数之
后的对应的奖励信息(即累积奖励Reward)。
括储层在内的整个排采系统,环境的功能是输出执行动作后系统的状态以及该动作产生的
效果,比如频率增大会使日产气量增大,频率减小会减缓储层能量的衰减速度等等;这些反
馈数值量化之后,就是系统中的奖励(rewards)。
奖励反馈模块500将奖励信息反馈至智能决策模块300。智能决策模块300能够基于奖励信
息实时地对螺杆泵采气装置100的排采参数进一步调节。
的方式进行迭代式调节。煤层气井螺杆泵排采过程的主要控制量包括动液面和套压,这两
个量与螺杆泵的电机频率(直接决定转速)和气嘴开度的大小直接相关。以电机的变频器为
例,设该系统中一共有n口煤层气井,动作执行模块400的控制动作设置为n维的列向量,其
中第0维到第n‑1维的特征量分别井1到井n的变频器频率控制v1,v2,…vn,即:
化量Δv过小可能导致收敛速度缓慢,过大则有可能导致系统运行不稳,无法收敛等问题。
Δv大小的设置应根据实际运行情况确定。根据研究表明:在系统使用前期Δv取较小值,以
获取更多过程数据来修正环境应变强化学习机制;而在系统使用后期,此时由于系统已经
存在大量的过程优化数据,Δv取较小值,因此煤层气井能够在较短的周期内高产稳产。该
系统可以基于煤层气产能最大化的目标,因此需要选择与产量直接相关的属性作为状态空
间。其中包括每口单井的产气量qg1,qg2,...qgn,因此,煤层气井螺杆泵排采系统的运行状态
量是一个n维的列向量:
且由于煤层气井特殊条件,模块之间优选为无线通信。
本实施例的补充。
息匹配的采集信号。在煤层气的开采机理中,螺杆泵的转速决定产水速率、产水速率决定动
液面;而气嘴大小决定产气速率,进而决定套压。因此,如果决策信息是调节转速,则奖励反
馈模块500从状态采集模块200中获取产水参数和动液面参数。如果决策信息是调节气嘴大
小,则奖励反馈模块500从状态采集模块200中获取产气参数和套压参数。也即:奖励反馈模
块500基于智能决策模块300确定的根据决策信息而反馈的奖励原始参数采集信号与状态
采集模块200通信连接,而使得奖励反馈模块500能够从状态采集模块200中获取至少一个
与决策信息匹配的奖励刺激原始参数。本实施例减小了奖励反馈模块500的数据处理量,有
针对性的对调节排采参数进行奖励结算,有助于下一步迭代调节的控制,提升了系统达到
目标产能的速率。
为本实施例的补充。
以能够适用于螺杆泵采气装置100的排采初期和中后期。
另一方面,在训练的最后回合,智能决策模块有足够的经验去利用所获得的知识。任何行动
选择策略都应该提供这种探索/利用权衡的特性。
可做动作 的一个子集, 是根据先前状态St‑1中选择的动作at‑1而确定的,在实际应
用中,将任何一系列输入动作应用于系统是不实际的,因此输入值的推导应受到限制。因
此,状态St中选择的动作,应位于动作at‑1的附近,由集合 表示;而不是来自 的任何
动作。这里,利用系数τ(τ>0)控制探索/利用特征。系数越高导致更多的探索,动作选择更
加随机。系数越低导致更多的利用,动作选择更加贪婪。也就是说低的系数会使智能决策模
块选择价值最高或相应奖励最高的动作。此外,在每个回合的学习过程中,系数都会按照以
下更新规则进行更新:
获取经验知识进行利用的过渡阶段。ζ应以一种柔和的方式进行调整,使智能决策模块在学
习过程中有足够的探索/利用的时间。
动作会增大。这种策略使模型将会有一定的概率随机选择一个动作来获取奖励,保证了模
型更新的可行性。本发明优选采用∈‑greedy作为动作选择策略。
的整体和/或部分内容可以作为本实施例的补充。
或时间差被认为是奖励平均方法,但不同方法的平均过程中存在的差异会导致不同的特征
以及不同的计算复杂度。
采的运作特征,具备较好的收敛性和反馈效果。设Q(s,a)是智能系统在状态s下采用控制动
作a的价值,Qo(s,a)为先前价值,Qn(s,a)为更新后的价值,Sarsa采用的更新机制如下:
(s1,a1)是奖惩值R(s1,a1)和先前价值Qo(s2,a2)的叠加作用:
行价值的更新。
块在某一时刻的s状态下采取动作a能够获得的“分数”。算法的主要思想就是将状态与动作
构建成一张Q表(表1)来存储Q值,对于不同的状态而言,采取不同的动作会得到不同的结
果,记录某个状态和动作二元组的分数能够让智能决策模块在无数次试验和错误后记住当
前的最优决策,即最大Q值的决策。训练到一定程度后,智能决策模块会根据Q值来选取能够
获得最大收益的动作。
响越大。
往Q表里面的Q(s,a)作为Q估计,而新的Q(s,a)就等于Q现实与Q估计的差值乘以学习率α再
加上Q估计。综上可得煤层气井螺杆泵排采的Q学习算法流程如表2所示。
是根据每一步决策进行优化,类似于说到做到的效果,而离线学习可以从过去的经验和他
人的决策中进行学习,不完全依赖于实时反馈的更新,所以两者产生的效果也不同。
策模块的下个一个状态‑动作在算法更新时是不确定的。在实际中,如果比较在乎机器的损
害,使用保守的Sarsa算法在训练时能减少损坏的次数。
间接地反映出储层能量的变化规律。已知煤层气的产气量的变化是一个先增加后减小、维
持最大产气量生产时间较短的过程,本文将依照此规律构建一个随机环境。由于本实施例
通过最简单的强化学习思路来初步塑造煤层气排采参数优化的结构,为了避免内部计算的
复杂性,本实验以单井为研究对象,只考虑变频器的动作而不考虑气嘴调节阀的动作,产气
量和生产周期的设定都被简化,其值的大小只为了反映其变化趋势。
T的关系满足Q=‑k(x‑a)+b这样一种二次函数的关系,其中k,a,b三个系数的设定应使Q在
T∈[1,365]恒定大于0。通过增加噪声,使曲线的走向由平滑变成震荡,使之更符合实际的
变化趋势。通过python编程,可以得到产气量和时间的变化趋势。
顺序放入格子。
因此本文引入一个衰减系数β,使智能决策模块不会一直选择使螺杆泵频率增大的动作。不
同的动作对应的β值不同,本实验的状态空间a=[‑1,0,1],β的取值应满足βa=‑1<βa=0<
βa=1。因此Q表更新公式变为:
空间选出一个动作,则变频器的频率会相应的增加或减少1赫兹,或者保持原来的频率不
变。设变频器的初始频率为75赫兹,阈值为[60,90]。
学习模型在状态空间较小的情况下可以较好的收敛。奖励值变化曲线呈现一种震荡的效果
是因为,始终保持了一定的探索/利用概率。
过程中,很多动作‑状态的值还未被探索或更新,奖励值还在增大。当智能决策模块进行400
回合的学习后,智能决策模块已经学到了如何选择动作使得总产气量最大,此时累积奖励
基本稳定。令Δv=5,即智能决策模块每次从动作空间选出一个动作,则变频器的频率会相
应的增加或减少5赫兹,或者保持原来的频率不变。设变频器的初始频率为65赫兹,阈值同
样为[60,90]。
据Max函数选择Q值,因此,在工业应用中Sarsa算法更能避免机器故障的发生。在原来Q‑
learning算法的基础上,通过编程得到了基于Sarsa算法的的煤层气螺杆泵优化控制模型
的训练奖励值变化。经过研究得出:其最优产气量最终稳定在51900左右,小于Q‑learning
的52100,由此可见,以最大产气量为优化目标,Sarsa算法更为保守。
Sarsa(lambda)就是更新获取到reward的前lambda步。lambda是在[0,1]之间取值,如果
lambda=0,Sarsa(lambda)就是Sarsa,只更新获取到reward前经历的最后一步。如果
lambda=1,Sarsa(lambda)更新的是获取到reward前所有经历的步。可以得出基于Sarsa
(lambda)算法的煤层气螺杆泵优化控制模型的训练奖励值变化。
标,Sarsa(lambda)算法较于Q‑learning算法和Sarsa算法能够更加快速有效地获得排采变
频控制的最优策略,可提高单井产气量,降低螺杆泵运行能耗,提高智能决策能力及控制精
度。
于奖励信息实时地进一步调节。
明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非
构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。