一种基于强化学习的煤层气井排采参数智能优化系统和方法转让专利

申请号 : CN202010822638.9

文献号 : CN111963115B

文献日 : 2021-10-22

本发明涉及一种基于强化学习的煤层气井排采参数智能优化系统和方法，方法包括：采集煤层气井螺杆泵排采参数，基于煤层气井螺杆泵排采参数结合自适应环境变化的强化学习机制生成用于调节排采参数的决策信息，基于决策信息作用于螺杆泵采气装置，从而使得螺杆泵采气装置的排采参数得到调节，以至少能够适应煤层气井的当前状态，在螺杆泵采气装置的排采参数得以调节的情况下，螺杆泵采气装置的产能参数通过奖励机制生成奖励信息，使得排采参数能够基于奖励信息连续调节。

1.一种基于强化学习的煤层气井排采参数智能优化系统，包括动作执行模块（400），用于调节螺杆泵采气装置（100）的排采参数，而使得所述螺杆泵采气装置（100）能够实现连续高效的排采；

其特征在于，

在所述螺杆泵采气装置（100）的过程中，状态采集模块（200）采集煤层气井螺杆泵的状态参数而生成状态信息，

所述状态采集模块（200）将所述状态信息发送至智能决策模块（300），以使得所述智能决策模块（300）基于煤层气井螺杆泵的状态参数结合环境应变强化学习机制生成用于调节所述螺杆泵采气装置（100）的排采参数的决策信息；

其中，所述动作执行模块（400）与所述智能决策模块（300）数据连接，并基于所述决策信息作用于所述螺杆泵采气装置（100），从而使得所述螺杆泵采气装置（100）的排采参数得到调节，以至少能够改变所述煤层气井的当前生产压差；

在所述螺杆泵采气装置（100）的排采参数经由所述动作执行模块（400）得以调节的情况下，所述螺杆泵采气装置（100）的产能参数经由奖励反馈模块（500）进行奖励结算后而将生成的奖励信息反馈至所述智能决策模块（300），以使得所述智能决策模块（300）能够基于所述奖励信息实时地对所述螺杆泵采气装置（100）的排采参数进一步调节；

所述奖励反馈模块（500）基于所述智能决策模块（300）确定的根据所述决策信息而反馈的奖励原始参数采集信号与所述状态采集模块（200）通信连接，而使得所述奖励反馈模块（500）能够从所述状态采集模块（200）中获取至少一个与所述决策信息匹配的奖励信息的原始参数；

在所述螺杆泵采气装置（100）每基于所述决策信息调节一次所述排采参数的情况下，所述奖励反馈模块（500）对奖励信息的原始参数按照叠加的方式进行迭代以确定最后一次所述螺杆泵采气装置（100）调节排采参数之后的对应的奖励信息；

如果决策信息是调节转速，则所述奖励反馈模块（500）从所述状态采集模块（200）中获取产水参数和动液面参数；

如果决策信息是调节气嘴大小，则所述奖励反馈模块（500）从所述状态采集模块（200）中获取产气参数和套压参数。

2.根据权利要求1所述的优化系统，其特征在于，所述动作执行模块（400）至少能够按照调节螺杆泵转速和/或油嘴调节阀开度作用于所述螺杆泵采气装置（100）中的螺杆泵和/或油嘴调节阀，从而所述动作执行模块（400）能够改变动液面的高度和/或油压，以使得在所述螺杆泵转速和/或油嘴调节阀开度得以调节的情况下而改变所述煤层气井的当前生产压差。

3.根据权利要求2所述的优化系统，其特征在于，在所述动作执行模块（400）获取决策信息的情况下，所述动作执行模块（400）对所述螺杆泵采气装置（100）中的螺杆泵转速和/或油嘴调节阀的开度按照动作特征量对应于调节变化量的方式进行迭代式调节。

4.根据权利要求3所述的优化系统，其特征在于，所述智能决策模块（300）按照能够使得奖励信息最大化的方式基于环境应变强化学习机制生成所述决策信息，其中，所述智能决策模块（300）至少配置有两种环境应变强化学习机制以能够适用于螺杆泵采气装置（100）的排采初期和中后期。

5.根据权利要求4所述的优化系统，其特征在于，所述智能决策模块（300）设置有更新单元，所述更新单元能够基于螺杆泵采气装置（100）的排采参数的对所述环境应变强化学习机制进行动态更新。

6.一种基于强化学习的煤层气井排采参数智能优化方法，其特征在于，所述方法包括：

采集煤层气井螺杆泵的状态参数，

基于煤层气井螺杆泵的状态参数结合环境应变强化学习机制生成用于调节螺杆泵采气装置（100）的排采参数的决策信息，基于所述决策信息作用于所述螺杆泵采气装置（100），从而使得所述螺杆泵采气装置（100）的排采参数得到调节，以至少能够适应所述煤层气井的当前状态；在所述螺杆泵采气装置（100）的排采参数得以调节的情况下，所述螺杆泵采气装置（100）的产能参数经由奖励结算后生成奖励信息，进而所述螺杆泵采气装置（100）的排采参数能够基于所述奖励信息实时地进一步调节；

如果决策信息是调节转速，则奖励反馈模块（500）从所述状态采集模块（200）中获取产水参数和动液面参数；

如果决策信息是调节气嘴大小，则奖励反馈模块（500）从所述状态采集模块（200）中获取产气参数和套压参数。

一种基于强化学习的煤层气井排采参数智能优化系统和方法

技术领域

[0001] 本发明涉及煤层气智能开采技术领域，尤其涉及一种基于强化学习的煤层气井排采参数智能优化系统和方法。

背景技术

[0002] 煤层气，是指储存在煤层中以甲烷为主要成分、以吸附在煤基质颗粒表面为主、部分游离于煤孔隙中或溶解于煤层水中的烃类气体，是煤的伴生矿产资源，属非常规天然气。
煤层气主要以吸附态附存在煤基质的微空隙中，必须通过排水降压降低储层压力进行开
采，它的产出是一个复杂的降压‑解吸‑扩散‑渗流的过程。

[0003] 在20世纪80年代中期，螺杆泵在美国首次用于煤层气排采，并取得了良好的效果。90年代中期，螺杆泵首次在澳大利亚昆士兰进行试验。在煤层气应用中，螺杆泵比其他人工
举升方式具有更多优势，包括：(1)处理大量生产固体的能力；(2)本身不会发生气锁；(3)相
对较高的系统效率。因此螺杆泵也被广泛的应用于煤层气的开采中。

[0004] 经过长达约40年的工程实践和理论研究：在螺杆泵开采过程中，环境因素和螺杆泵运行参数直接影响煤层气的降压‑解吸‑扩散‑渗流的过程，进而直接地影响煤层气的产
能。现有技术中，煤层气井排采参数的调整需要地质技术人员的经验对生产状况进行动态
分析，不定时地进行人工现场调参，这种方法依赖于工程师的经验知识，受时间、地理位置
及气候的影响。但如果环境发生变化，不能迅速做出调整，会使储层受到不同程度的伤害，
使降压‑解吸‑扩散‑渗流过程受到阻碍，排采效果降低甚至导致无产出。因此，有必要针对
煤层气的开采环境、产能等进行智能控制而使得煤层气的开采是连续、高效、节能以及环保
的。

[0005] 例如，公开号为CN108756820A的中国专利公开的用于煤层气井排采装置的智能远程控制系统，包括煤层气井参数监测设备、数据采集系统、智能排采控制系统和远程监测监
控系统；煤层气井参数监测设备主要包括气体流量计、液体流量计、井下流压压力传感计、
套压压力传感计、温度传感计、液位测试装置和变频器；本发明还公开了用于煤层气井排采
装置的智能远程控制系统的远程控制方法。本发明具有针对不同地质类型煤层气井和不同
阶段排采特点，实现了不同类型煤层气井的智能排采；实现了煤层气井排采的远程实时监
测监控，远程用户可以在远程查看查询和保存详细的实时数据和历史数据；用户可以对变
频器进行参数设定和指令控制，包括现场操作和远程控制。

[0006] 例如，公开号为CN204267016U的中国专利公开的一种煤层气螺杆泵井工矿诊断系统，该系统包括液面测试仪、扭矩载荷传感器、多参数记录仪、处理器、阀值存储模块和报警
器，所述扭矩载荷传感器接入所述多参数记录仪，所述液面测试仪、所述多参数记录仪和所
述阀值存储模块分别与所述处理器的输入端相连接，所述处理器的输出端连接所述报警
器。所述液面测试仪、所述扭矩载荷传感器和所述多参数记录仪实时测试螺杆泵井的各项
参数，处理器比对各项参数和阀值存储器内相应的阀值，如果参数超出阀值，则通知报警器
报警，提示现场作业人员对应调整螺杆泵井的工作参数，防止发生杆断脱、烧泵、卡泵等现
象。

[0007] 例如，公开号为CN102169337B的中国专利公开的一种煤层气螺杆泵井监控系统。煤层气螺杆泵井监控系统，包括：太阳能控制装置、传感器、多参数记录仪、电流互感器、电
参数采集器、无线控制器、液面自动监测仪、中控计算机、便携式数据采集器、监测诊断软
件。多参数记录仪通过电流互感器、电参数采集器可以测量螺杆泵井的电压、电流参数，并
能够计算出有功功率、功率因数等其他电参数。在中控计算机中安装数据监测诊断软件，接
收测试数据，形成数据库，对数据库中的各测试参数进行综合分析诊断，结合历史数据参数
自动描绘出煤层气井各参数变化情况。所有参数数据历史记录曲线采用K线图形式表现，可
以方便查看每一口井、每天、以及任意一段时间内的参数变化。

[0008] 目前煤层气井排采参数的调整需要地质技术人员的经验对生产状况进行动态分析，不定时地进行人工现场调参，这种方法依赖于工程师的经验知识，受时间、地理位置及
气候的影响。机器学习可以预测煤层气螺杆泵的运行寿命和优化运行参数，典型的机器学
习(ML)算法需要数百万个数据点才能成功地发现和预测煤层气螺杆泵排采优化模式。但如
果环境发生变化，不能迅速做出调整，会使储层受到不同程度的伤害，使解吸过程受到阻
碍，排采效果降低。并且由于环境问题的多变和复杂，建立好的控制模型随时面临变化，经
常需要进行更改以适应新环境，可见现有技术均不符合智能控制的根本需求。

[0009] 此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于发明人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝
非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申
请人保留在背景技术中增加相关现有技术之权利。

发明内容

[0010] 针对现有技术之不足，本发明应用机器学习中的强化学习方法，通过控制螺杆泵的转速和/或气嘴调节阀的开度，建立煤层气某生产周期内产气量最大的强化学习模型，该
方法通过与环境的交互式学习，对动态环境进行灵活的奖惩，实现了智能决策模块在复杂
环境下智能决策和参数优化的效果，在煤层气井螺杆泵排采参数优化控制问题上具有实时
调整参数设置、自适应环境变化和无需大数据进行训练的优势。该方法能提高螺杆泵排采
效率，使煤层气井按照生产规律长期、连续、高效地进行开采，并提高整体开发效果和经济
效益。

[0011] 具体地，本发明提供一种基于强化学习的煤层气井排采参数智能优化系统，包括动作执行模块，用于调节螺杆泵采气装置的排采参数，而使得所述螺杆泵采气装置能够实
现连续高效的排采；在所述螺杆泵采气装置的过程中，状态采集模块采集煤层气井螺杆泵
的状态参数而生成状态信息，所述状态采集模块将所述状态信息发送至智能决策模块，以
使得所述智能决策模块基于煤层气井螺杆泵的状态参数结合环境应变强化学习机制生成
用于调节所述螺杆泵采气装置的排采参数的决策信息；其中，所述动作执行模块与所述智
能决策模块数据连接，并基于所述决策信息作用于所述螺杆泵采气装置，从而使得所述螺
杆泵采气装置的排采参数得到调节，以至少能够改变所述煤层气井的当前生产压差。

[0012] 根据一种优选的实施方式，在所述螺杆泵采气装置的排采参数经由所述动作执行模块得以调节的情况下，所述螺杆泵采气装置的产能参数经由奖励反馈模块进行奖励结算
后而将生成的奖励信息反馈至所述智能决策模块，以使得所述智能决策模块能够基于所述
奖励信息实时地对所述螺杆泵采气装置的排采参数进一步调节。

[0013] 根据一种优选的实施方式，所述奖励反馈模块基于所述智能决策模块确定的根据所述决策信息而反馈的奖励原始参数采集信号与所述状态采集模块通信连接，而使得所述
奖励反馈模块能够从所述状态采集模块中获取至少一个与所述决策信息匹配的奖励信息
的原始参数。

[0014] 根据一种优选的实施方式，在所述螺杆泵采气装置每基于所述决策信息调节一次所述排采参数的情况下，所述奖励反馈模块对奖励信息的原始参数按照叠加的方式进行迭
代以确定最后一次所述螺杆泵采气装置调节排采参数之后的对应的奖励信息。

[0015] 根据一种优选的实施方式，所述动作执行模块至少能够按照调节螺杆泵转速和/或油嘴调节阀开度作用于所述螺杆泵采气装置中的螺杆泵和/或油嘴调节阀，从而所述动
作执行模块能够改变动液面的高度和/或油压，以使得在所述螺杆泵转速和/或油嘴调节阀
开度得以调节的情况下而改变所述煤层气井的当前生产压差。

[0016] 根据一种优选的实施方式，在所述动作执行模块获取决策信息的情况下，所述动作执行模块对所述螺杆泵采气装置中的螺杆泵转速和/或油嘴调节阀的开度按照动作特征
量对应于调节变化量的方式进行迭代式调节。

[0017] 根据一种优选的实施方式，所述智能决策模块按照能够使得奖励信息最大化的方式基于环境应变强化学习机制生成所述决策信息，其中，所述智能决策模块至少配置有两
种环境应变强化学习机制以能够适用于螺杆泵采气装置的排采初期和中后期。

[0018] 根据一种优选的实施方式，所述智能决策模块设置有更新单元，所述更新单元能够基于螺杆泵采气装置的排采参数的对所述环境应变强化学习机制进行动态更新。

[0019] 根据一种优选的实施方式，本发明提供一种基于强化学习的煤层气井排采参数智能优化方法，所述方法包括：采集煤层气井螺杆泵的状态参数，基于煤层气井螺杆泵的状态
参数结合环境应变强化学习机制生成用于调节螺杆泵采气装置的排采参数的决策信息，基
于所述决策信息作用于所述螺杆泵采气装置，从而使得所述螺杆泵采气装置的排采参数得
到调节，以至少能够适应所述煤层气井的当前状态。

[0020] 根据一种优选的实施方式，在所述螺杆泵采气装置的排采参数得以调节的情况下，所述螺杆泵采气装置的产能参数经由奖励结算后生成奖励信息，进而所述螺杆泵采气
装置的排采参数能够基于所述奖励信息实时地进一步调节。

附图说明

[0021] 图1是本发明提供的一种优化系统的模块示意图。

[0022] 附图标记列表

[0023] 100：螺杆泵采气装置 200：状态采集模块

[0024] 300：智能决策模块 400：动作执行模块

[0025] 500：奖励反馈模块

具体实施方式

[0026] 下面结合附图1进行详细说明。

[0027] 实施例1

[0028] 本实施例公开一种基于强化学习的煤层气井排采参数智能优化系统。该系统以煤层气井螺杆泵生产周期内最大累积产气量为优化目标，提出了一种具有动作自寻优能力的
螺杆泵排采的环境应变强化学习机制和Q学习(或Sarsa、Sarsa(lambda))更新算法。该系统
通过与环境(螺杆泵采气状态参数和/或煤层气井状态参数)的交互式学习，对动态环境进
行灵活的奖惩，以能够实现在复杂环境下智能决策和参数优化的效果，可有效获取煤层气
螺杆泵排采参数最优协调决策，以至少能够改变煤层气井的当前压差的方式从而能够解决
传统方法中如果环境发生变化，现有系统需要通过人工决策而不能迅速做出调整造成排采
效果降低的问题。

[0029] 该系统，如图1所示，包括动作执行模块400、状态采集模块200、智能决策模块300和奖励反馈模块500。动作执行模块400用于调节螺杆泵采气装置100的排采参数，如通过调
节螺杆泵的转速和/或气嘴调节阀的开度。螺杆泵采气装置100在采煤层气的过程中以不发
生气锁的方式将煤层气从井底采送至集输装置。

[0030] 状态采集模块200用于采集螺杆泵采气状态参数和/或煤层气井状态参数。具体地，状态采集模块200采集套压、动液面、井底流压、产水量和产气量。状态采集模块200包括
采集套压、动液面、井底流压、产水量和产气量的传感器。状态采集模块200将状态刺激信息
发送至智能决策模块300。智能决策模块300基于螺杆泵采气状态参数和/或煤层气井状态
参数结合环境应变强化学习机制生成用于调节螺杆泵采气装置100的排采参数的决策信
息。决策信息包括调节转速的大小、气嘴的开度大小。其中，动作执行模块400与智能决策模
块300数据连接，并基于决策信息作用于螺杆泵采气装置100，从而使得螺杆泵采气装置100
的排采参数得到调节，以至少能够改变煤层气井的当前生产压差。套压、动液面、井底流压、
产水量和产气量可以组合为状态刺激信息。在煤层气的开采过程中，可以通过改变变频器
的频率可以调整螺杆泵的转速进而改变产水速率，从而控制动液面的高度，通过调节气油
嘴大小可以改变气产气速率进而改变套压的大小，动液面和套压最终决定着井底流压的大
小。井底流压和储层压力决定了生产压差，生产压差决定了煤层气的降压‑解吸‑扩散‑渗流
过程，进而决定了煤层气的产量。

[0031] 环境应变强化学习机制：

[0032] 强化学习的基本过程是一个马尔科夫决策过程，马尔科夫决策过程可以用状态(State)、动作(Action)、状态转移概率(Possibility)、状态转移奖励或回报(Reward)构成
的四元组{s，a，p，r}表示。对于离散时间MDP，状态和动作的集合称为状态空间(State
Space)和动作空间(Action Space)，分别使用S和A表示，si∈S，ai∈A。根据第t步选择的行
动，状态根据概率P(st+1，st，at)从st转移到st+1，在状态的转移的同时，智能决策模块得到一
个即时的奖励R(st+1，st，at)。该过程结束时的累积奖励(Reward)为：

[0033]

[0034] 其中，γ为折扣因子，用于削减远期决策对应的奖励权重。决策的最终目标是在抵达目标状态的同时实现累积奖励最大化。本系统优选可以以产能作为奖励指标。例如，在螺
杆泵采气装置100每基于决策信息调节一次排采参数的情况下，奖励反馈模块500对奖励刺
激原始参数按照叠加的方式进行迭代以确定最后一次螺杆泵采气装置100调节排采参数之
后的对应的奖励信息(即累积奖励Reward)。

[0035] 例如，变频器在接受到智能决策模块的动作信号后会及时调频，反映在螺杆泵上就是使它的转速增大、减小或不变，在做出动作之后会得到环境的反馈，这里的环境是指包
括储层在内的整个排采系统，环境的功能是输出执行动作后系统的状态以及该动作产生的
效果，比如频率增大会使日产气量增大，频率减小会减缓储层能量的衰减速度等等；这些反
馈数值量化之后，就是系统中的奖励(rewards)。

[0036] 优选地，在螺杆泵采气装置100的排采参数经由动作执行模块400得以调节的情况下，螺杆泵采气装置100的产能参数经由奖励反馈模块500进行奖励结算后生产奖励信息。
奖励反馈模块500将奖励信息反馈至智能决策模块300。智能决策模块300能够基于奖励信
息实时地对螺杆泵采气装置100的排采参数进一步调节。

[0037] 优选地，在动作执行模块400获取决策信息的情况下，动作执行模块400对螺杆泵采气装置100中的螺杆泵转速和/或气嘴调节阀的开度按照动作特征量对应于调节变化量
的方式进行迭代式调节。煤层气井螺杆泵排采过程的主要控制量包括动液面和套压，这两
个量与螺杆泵的电机频率(直接决定转速)和气嘴开度的大小直接相关。以电机的变频器为
例，设该系统中一共有n口煤层气井，动作执行模块400的控制动作设置为n维的列向量，其
中第0维到第n‑1维的特征量分别井1到井n的变频器频率控制v1，v2，…vn，即：

[0038] 动作空间at：[v1，v2，…vn] (2)

[0039] 按照智能系统的调控方式，规定变频器的动作特征量如下：

[0040]

[0041] 公式(3)的含义是：每当智能决策模块给一口井的变频器得到一个决策信息(1，0或‑1)，则该井的电机的变频器会在原来的频率上增加或者减小Δv赫兹或者不变。调节变
化量Δv过小可能导致收敛速度缓慢，过大则有可能导致系统运行不稳，无法收敛等问题。
Δv大小的设置应根据实际运行情况确定。根据研究表明：在系统使用前期Δv取较小值，以
获取更多过程数据来修正环境应变强化学习机制；而在系统使用后期，此时由于系统已经
存在大量的过程优化数据，Δv取较小值，因此煤层气井能够在较短的周期内高产稳产。该
系统可以基于煤层气产能最大化的目标，因此需要选择与产量直接相关的属性作为状态空
间。其中包括每口单井的产气量qg1，qg2，...qgn，因此，煤层气井螺杆泵排采系统的运行状态
量是一个n维的列向量：

[0042] 状态空间St：[qg1，qg2，...qgn] (4)

[0043] 如此，在该煤层气的产能尚未达到最大值的情况下，智能决策模块会在得到奖励信息之后进一步的给变频器决策信息，以进一步地迭代式调节。

[0044] 本发明中，模块是指具有对应功能的硬件、软件或者软硬件组合的处理器，并兼备有数据传输功能、信号生成功能等。本发明中，由于井口与井场指挥中心具有一定的距离，
且由于煤层气井特殊条件，模块之间优选为无线通信。

[0045] 实施例2

[0046] 本实施例可以是对实施例1的进一步改进和/或补充，重复的内容不再赘述。在不造成冲突或者矛盾的情况下，其他实施例的优选实施方式的整体和/或部分内容可以作为
本实施例的补充。

[0047] 优选地，智能决策系统300在生成决策信息的同时也生成采集信号。该采集信号与决策信息相互匹配，用于奖励反馈模块500通过状态采集模块按照采集信号获取与决策信
息匹配的采集信号。在煤层气的开采机理中，螺杆泵的转速决定产水速率、产水速率决定动
液面；而气嘴大小决定产气速率，进而决定套压。因此，如果决策信息是调节转速，则奖励反
馈模块500从状态采集模块200中获取产水参数和动液面参数。如果决策信息是调节气嘴大
小，则奖励反馈模块500从状态采集模块200中获取产气参数和套压参数。也即：奖励反馈模
块500基于智能决策模块300确定的根据决策信息而反馈的奖励原始参数采集信号与状态
采集模块200通信连接，而使得奖励反馈模块500能够从状态采集模块200中获取至少一个
与决策信息匹配的奖励刺激原始参数。本实施例减小了奖励反馈模块500的数据处理量，有
针对性的对调节排采参数进行奖励结算，有助于下一步迭代调节的控制，提升了系统达到
目标产能的速率。

[0048] 实施例3

[0049] 本实施例可以是对实施例1、2的进一步改进和/或补充，重复的内容不再赘述。在不造成冲突或者矛盾的情况下，其他实施例的优选实施方式的整体和/或部分内容可以作
为本实施例的补充。

[0050] 优选地，智能决策模块300按照能够使得奖励信息最大化的方式基于环境应变强化学习机制生成决策信息。其中，智能决策模块300至少配置有两种环境应变强化学习机制
以能够适用于螺杆泵采气装置100的排采初期和中后期。

[0051] 在与环境交互的初始阶段，智能决策模块对系统没有清晰的认识，也不知道如何表现才能使奖励最大化。因此，它应该在最初的回合中探索环境以获得所需的知识和经验。
另一方面，在训练的最后回合，智能决策模块有足够的经验去利用所获得的知识。任何行动
选择策略都应该提供这种探索/利用权衡的特性。

[0052] (1)玻尔兹曼分布(Boltzmann Distribution)策略：

[0053]

[0054] 该策略的含义是，动作值函数大的动作被选中的概率大，动作值函数小的动作被选中的概率小。p(at|St)是指智能决策模块在状态St下选择动作at的概率，是状态St下
可做动作的一个子集，是根据先前状态St‑1中选择的动作at‑1而确定的，在实际应
用中，将任何一系列输入动作应用于系统是不实际的，因此输入值的推导应受到限制。因
此，状态St中选择的动作，应位于动作at‑1的附近，由集合表示；而不是来自的任何
动作。这里，利用系数τ(τ＞0)控制探索/利用特征。系数越高导致更多的探索，动作选择更
加随机。系数越低导致更多的利用，动作选择更加贪婪。也就是说低的系数会使智能决策模
块选择价值最高或相应奖励最高的动作。此外，在每个回合的学习过程中，系数都会按照以
下更新规则进行更新：

[0055]

[0056] 其中ζ(0＜ζ＜＜1)是学习率。很明显，在学习过程结束时，策略是完全贪婪的，在每个状态下，智能决策模块会选择状态‑动作价值最高的动作。参数ζ决定了从环境探索到
获取经验知识进行利用的过渡阶段。ζ应以一种柔和的方式进行调整，使智能决策模块在学
习过程中有足够的探索/利用的时间。

[0057] (2)∈‑greedy贪婪策略

[0058]

[0059] ε为贪婪因子，该策略的含义是，在采取动作的时候，会有1‑ε的概率选择使得Q值最大的动作，随着训练时间变长，ε的值逐渐减小，在后期智能决策模块选择最大Q值对应的
动作会增大。这种策略使模型将会有一定的概率随机选择一个动作来获取奖励，保证了模
型更新的可行性。本发明优选采用∈‑greedy作为动作选择策略。

[0060] 实施例4

[0061] 本实施例可以是对实施例1、2、3或者其结合的进一步改进和/或补充，重复的内容不再赘述。本实施例公开了，在不造成冲突或者矛盾的情况下，其他实施例的优选实施方式
的整体和/或部分内容可以作为本实施例的补充。

[0062] 优选地，智能决策模块300设置有更新单元，更新单元能够基于螺杆泵采气装置100的排采参数的对环境应变强化学习机制进行动态更新。

[0063] 更新单元的更新机制为：

[0064] 不同的强化学习方法主要是根据不同的更新规则来区分的，这些更新规则影响学习率、收敛率、稳定性和最优获得奖励等特性。例如，虽然大多数经典学习方法，如蒙特卡罗
或时间差被认为是奖励平均方法，但不同方法的平均过程中存在的差异会导致不同的特征
以及不同的计算复杂度。

[0065] 本发明采用Sarsa机制进行更新，与Q学习相比，Sarsa机制无须对新状态的动作价值函数(即Q值)做最大评估，而是直接利用当前选择的策略执行，更适用于煤层气螺杆泵排
采的运作特征，具备较好的收敛性和反馈效果。设Q(s，a)是智能系统在状态s下采用控制动
作a的价值，Qo(s，a)为先前价值，Qn(s，a)为更新后的价值，Sarsa采用的更新机制如下：

[0066] Qn(s，a)＝QQ(s，a)+α[Qr(s，a)‑QQ(s，a)] (9)

[0067] 其中α为学习率，Qr(s，a)为现实价值，即执行动作后的环境反馈。假设系统在状态s1执行了控制动作a1，智能系统状态由此转移到状态s2，之后系统执行动作a2，而现实价值Qr
(s1，a1)是奖惩值R(s1，a1)和先前价值Qo(s2，a2)的叠加作用：

[0068] Qr(s1，a1)＝R(s1，a1)+γ·Qo(s2，a2) (10)

[0069] 其中，γ为衰减值，表示状态s1采用控制动作a1的价值与下一状态和动作(s2，a2)的关联性衰减了。可以看出：系统每次执行控制动作，都可以对上一个状态下的执行动作进
行价值的更新。

[0070] 本发明还可以采用其他更新机制：

[0071] Q学习是一种经典的基于价值的强化学习算法，Q即为Q(s，a)，指的是动作效用函数(action‑utility function)，用来评价特定状态下采取某个动作的优劣，即为智能决策模
块在某一时刻的s状态下采取动作a能够获得的“分数”。算法的主要思想就是将状态与动作
构建成一张Q表(表1)来存储Q值，对于不同的状态而言，采取不同的动作会得到不同的结
果，记录某个状态和动作二元组的分数能够让智能决策模块在无数次试验和错误后记住当
前的最优决策，即最大Q值的决策。训练到一定程度后，智能决策模块会根据Q值来选取能够
获得最大收益的动作。

[0072] 表1 Q表框架

[0073]

[0074] Q值的更新公式如下所示：

[0075] Q(s，a)←Q(s，a)+α[R(s，a)+γmaxa′Q(s′，a′)‑Q(s，a)] (11)

[0076] α和γ分别为学习速率(learning rate)和折扣因子(discount factor)。学习速率越高，意味着保留过去记忆的程度越低；折扣因子越大，意味着maxa′Q(s′，a′)对结果的影
响越大。

[0077] 该公式的定义是：智能决策模块在状态s下执行动作a后转移到状态s′，然后从状态s′中选取最大的Q(s′，a′)乘以折扣因子γ加上获得的奖励，并将它作为Q现实，而根据过
往Q表里面的Q(s，a)作为Q估计，而新的Q(s，a)就等于Q现实与Q估计的差值乘以学习率α再
加上Q估计。综上可得煤层气井螺杆泵排采的Q学习算法流程如表2所示。

[0078] 表2煤层气井螺杆泵排采的Q学习算法

[0079]

[0080] Sarsa和Sarsa(lambda)

[0081] Sarsa算法在Q学习的基础上进行了改进，是相较于Q学习而言更为保守一种算法，Q学习和Sarsa分别属于离线学习(off‑poliCy)和在线学习(on‑policy)的范围。在线学习
是根据每一步决策进行优化，类似于说到做到的效果，而离线学习可以从过去的经验和他
人的决策中进行学习，不完全依赖于实时反馈的更新，所以两者产生的效果也不同。

[0082] Sarsa的更新Q表的公式如下：

[0083] Q(s，a)←Q(s，a)+α[R(s，a)+γQ(s’，a’)‑Q(s，a)] (12)

[0084] 煤层气井螺杆泵排采的Sarsa算法流程如表3所示。

[0085] 表3煤层气井螺杆泵排采Sarsa学习算法

[0086]

[0087] 从上表可以看出Sarsa的整个循环都在一个路径上，取行动a后在s’估算的动作也是接下来一定执行的动作。而Q学习只会在s’观察接下来的动作哪个奖励最大，其实智能决
策模块的下个一个状态‑动作在算法更新时是不确定的。在实际中，如果比较在乎机器的损
害，使用保守的Sarsa算法在训练时能减少损坏的次数。

[0088] 而Sarsa(lambda)算法与Sarsa的不同则是它增加了矩阵E来保存在路径中所经历的每一步，引入λ来控制衰减幅度。煤层气井螺杆泵的Sarsa(lambda)算法流程如表4所示。

[0089] 表4煤层气井螺杆泵排采Sarsa(lambda)学习算法

[0090]

[0091]

[0092] 该算法使状态优化变得平滑，越靠近奖励的步骤越重要。这种改变使得智能决策模块能够更加快速有效地学习到最优策略。

[0093] 为验证本发明建立的煤层气井螺杆泵排采的强化学习模型的可操作性，开展了模型的编程和计算分析。本实施例不直接对煤层气的地层环境建模，而是通过产气量的变化
间接地反映出储层能量的变化规律。已知煤层气的产气量的变化是一个先增加后减小、维
持最大产气量生产时间较短的过程，本文将依照此规律构建一个随机环境。由于本实施例
通过最简单的强化学习思路来初步塑造煤层气排采参数优化的结构，为了避免内部计算的
复杂性，本实验以单井为研究对象，只考虑变频器的动作而不考虑气嘴调节阀的动作，产气
量和生产周期的设定都被简化，其值的大小只为了反映其变化趋势。

[0094] (1)先令生产周期T＝365，时间步长Δt＝1，则T＝[1，2，3，...，365]。令产气量Q和2
T的关系满足Q＝‑k(x‑a)+b这样一种二次函数的关系，其中k，a，b三个系数的设定应使Q在
T∈[1，365]恒定大于0。通过增加噪声，使曲线的走向由平滑变成震荡，使之更符合实际的
变化趋势。通过python编程，可以得到产气量和时间的变化趋势。

[0095] (2)引入高斯函数，令每个T对应的Q为均值，随机产生符合正太分布的N个数值，即当T1＝1，令μ＝Q1，σ＝1。

[0096] (3)本实验中，令N＝33，于是便产生了N*T个产气量值。至此可以将环境参数构建成一个33x365的表格，每一列表示以Qn为均值产生的33个正态分布随机数，以从小到大的
顺序放入格子。

[0097] (4)每次智能决策模块执行使螺杆泵频率增大的动作后，环境反馈给智能决策模块的状态落在产气量较大的区间的概率更大，但是该动作也会增大地层能量的衰竭速率，
因此本文引入一个衰减系数β，使智能决策模块不会一直选择使螺杆泵频率增大的动作。不
同的动作对应的β值不同，本实验的状态空间a＝[‑1，0，1]，β的取值应满足βa＝‑1＜βa＝0＜
βa＝1。因此Q表更新公式变为：

[0098] Q(s，a)＝Q(s，a)+α[R(s，a)+(1‑β)*γ*maxa′Q(s′，a′)‑Q(s，a)] (13)

[0099] 第一种：Q学习更新

[0100] 实验开始时，令经贪婪因子ε＝0.1，使智能决策模块每次选择动作时，有90％的概率会选择Q值最大的动作，10％的概率会随机探索。令Δv＝1，即智能决策模块每次从动作
空间选出一个动作，则变频器的频率会相应的增加或减少1赫兹，或者保持原来的频率不
变。设变频器的初始频率为75赫兹，阈值为[60，90]。

[0101] 本实验一共训练了500回合，经过研究得出：看出当训练到400回合左右的时候，智能决策模块已经学会了一系列控制动作，使得目标值达到最大。这也证明了基于Q学习强化
学习模型在状态空间较小的情况下可以较好的收敛。奖励值变化曲线呈现一种震荡的效果
是因为，始终保持了一定的探索/利用概率。

[0102] 为了具体反映智能决策模块的学习过程，本实施例能够得出智能决策模块动作选择曲线以及相应变频器频率变化的曲线。其反映了智能决策模块还在进行学习，Q表在构建
过程中，很多动作‑状态的值还未被探索或更新，奖励值还在增大。当智能决策模块进行400
回合的学习后，智能决策模块已经学到了如何选择动作使得总产气量最大，此时累积奖励
基本稳定。令Δv＝5，即智能决策模块每次从动作空间选出一个动作，则变频器的频率会相
应的增加或减少5赫兹，或者保持原来的频率不变。设变频器的初始频率为65赫兹，阈值同
样为[60，90]。

[0103] 第二种：Sarsa学习

[0104] Sarsa是在线学习(on policy)的算法，至始至终只有一个策略(Policy).它使用了两次greedy‑epsilon方法来选择出了Q(S，A)和Q(S’，A’)，Sarsa算法更为保守，因为它根
据Max函数选择Q值，因此，在工业应用中Sarsa算法更能避免机器故障的发生。在原来Q‑
learning算法的基础上，通过编程得到了基于Sarsa算法的的煤层气螺杆泵优化控制模型
的训练奖励值变化。经过研究得出：其最优产气量最终稳定在51900左右，小于Q‑learning
的52100，由此可见，以最大产气量为优化目标，Sarsa算法更为保守。

[0105] Sarsa算法在训练了320回合左右即收敛，相较于Q学习的收敛速度更快。

[0106] (3)Sarsa(lambda)学习算法

[0107] Sarsa(lambda)是基于Sarsa方法的升级版，能更有效率地学习到怎么样获得好的奖励，如果说Sarsa和Qlearning都是每次获取到奖励，只更新获取到奖励的前一步。那
Sarsa(lambda)就是更新获取到reward的前lambda步。lambda是在[0，1]之间取值，如果
lambda＝0，Sarsa(lambda)就是Sarsa，只更新获取到reward前经历的最后一步。如果
lambda＝1，Sarsa(lambda)更新的是获取到reward前所有经历的步。可以得出基于Sarsa
(lambda)算法的煤层气螺杆泵优化控制模型的训练奖励值变化。

[0108] 可知Sarsa(lambda)算法其最优产气量最终稳定在52300左右，其值是三个算法内最高的，并且其在260回合即收敛，收敛速度也是最快的。由此可见，以最大产气量为优化目
标，Sarsa(lambda)算法较于Q‑learning算法和Sarsa算法能够更加快速有效地获得排采变
频控制的最优策略，可提高单井产气量，降低螺杆泵运行能耗，提高智能决策能力及控制精
度。

[0109] 实施例5

[0110] 本实施例还公开了一种调度方法，该方法可以由本发明的系统和/或其他可替代的零部件实现。比如，通过使用本发明的系统中的各个零部件实现本发明的方法。

[0111] 一种基于强化学习的煤层气井排采参数智能优化方法，该方法包括：

[0112] S1：采集螺杆泵采气状态参数和/或煤层气井状态参数，

[0113] S2：基于螺杆泵采气状态参数和/或煤层气井状态参数结合环境应变强化学习机制生成用于调节螺杆泵采气装置100的排采参数的决策信息，

[0114] S3：基于决策信息作用于螺杆泵采气装置100，从而使得螺杆泵采气装置100的排采参数得到调节，以至少能够改变煤层气井的当前状态。

[0115] 优选地，在螺杆泵采气装置100的排采参数得以调节的情况下，螺杆泵采气装置100的产能参数经由奖励结算后生成奖励信息，进而螺杆泵采气装置100的排采参数能够基
于奖励信息实时地进一步调节。

[0116] 需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发
明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非
构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

一种基于强化学习的煤层气井排采参数智能优化系统和方法转让专利

申请号 : CN202010822638.9

文献号 : CN111963115B

文献日 : 2021-10-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 檀朝东 , 邓涵文 , 宋文容 , 冯钢 , 张雄英

申请人 : 中国石油大学(北京) , 北京雅丹石油技术开发有限公司

摘要 :

权利要求 :

说明书 :