水库入库流量预测方法、装置、计算机设备及存储介质转让专利
申请号 : CN202011626832.6
文献号 : CN112712209B
文献日 : 2021-11-05
发明人 : 于翠翠 , 王伟 , 黄勇其 , 张兴
申请人 : 润联智慧科技(西安)有限公司
摘要 :
权利要求 :
1.一种水库入库流量预测方法,其特征在于,包括:获取水库入库流量的历史多元数据序列,并对所述历史多元数据序列进行预处理,其中,所述历史多元数据序列包括目标序列水库入库流量以及对应的外部环境变量;
对所述历史多元数据序列进行全采样,得到第一数据集,以及利用自适应间隔采样对所述历史多元数据序列构建得到第二数据集;
所述利用自适应间隔采样对所述历史多元数据序列构建得到第二数据集,包括:按照下式对所述历史多元数据序列进行数据偏移界定:式中,C为所述历史多元数据序列中的偏离数量, 为在t时刻的时序数据, 为在t时刻运用插值拟合的时序数据, 表示时序数据与拟合数据之间的欧几里得距离;ε为阈值,表示四分位数间距, 表示若 满足则等于1,否则记为0;
定义所述历史多元数据序列的序列总长度为M、每次采样滑窗的大小为R、每次预测使用的历史数据量为T以及采样间隔d,从而得到一次滑窗中采样数量为 偏移程度为然后基于采样数据和偏移程度对采样间隔d进行计算:通过Transformer网络分别对所述第一数据集和第二数据集提取相关性特征,得到第一目标特征和第二目标特征;
对所述第一目标特征和第二目标特征进行拼接,得到候选特征,然后通过所述Transformer网络对所述候选特征提取相关性特征,得到第三目标特征;
将所述第一目标特征、第二目标特征和第三目标特征进行全连接处理得到历史多元数据序列对应的水库入库流量预测结果,从而构建水库入库流量预测模型;
利用所述水库入库流量预测模型对指定时间的水库入库流量进行预测。
2.根据权利要求1所述的水库入库流量预测方法,其特征在于,所述获取水库入库流量的历史多元数据序列,并对所述历史多元数据序列进行预处理,包括:利用异常值检测方法对所述历史多元数据序列进行异常值检测,并将检测到的异常值剔除;
对剔除后的历史多元数据序列进行缺失值判断;
若所述历史多元数据序列中的缺失值少于预设数值,则对缺失值进行填充;
若所述历史多元数据序列中的某一特征序列的缺失值不少于预设数值,则删除对应的特征序列;
按照下式对所述历史多元数据序列进行归一化处理,以对所述历史多元数据序列中的不同量纲进行统一:
式中,zi为经过归一化处理之后的历史多元数据序列,xi为所述历史多元数据中的第i个特征序列,μi为特征序列xi的均值,σi为特征序列xi的标准差。
3.根据权利要求1所述的水库入库流量预测方法,其特征在于,所述通过Transformer网络分别对所述第一数据集和第二数据集提取相关性特征,得到第一目标特征和第二目标特征,包括:
通过Transformer网络对所述第一数据集提取相关性特征,得到第一特征向量,以及通过所述Transformer网络对所述第二数据集提取相关性特征,得到第二特征向量;
基于门控机制分别对所述第一特征向量和第二特征向量进行特征提取,得到第一目标特征和第二目标特征。
4.根据权利要求3所述的水库入库流量预测方法,其特征在于,所述通过Transformer网络分别对所述第一数据集和第二数据集提取相关性特征,得到第一目标特征和第二目标特征,包括:
分别按照下式对所述第一数据集中的特征序列进行查询向量、键向量和值向量计算:Q
q:i=xi·W
K
k:i=xi·W
V
v:i=xi·W
式中,xi为所述第一数据集中的第i各个特征序列,q:i、k:i和v:i分别表示特征序列xi的Q K V
查询向量、键向量和值向量,W、W 和W分别表示将特征序列xi映射为q:i、k:i和v:i的权重矩阵;
基于每一特征序列的查询向量、键向量和值向量对每一特征序列在所述第一数据集中的权重向量进行计算:
式中,α:i为特征序列xi的权重向量,K为由所有特征序列的键向量组成的矩阵,d为查询向量与键向量的维度;
将每一特征序列的权重向量输入至单头自注意力网络中,并按照下式计算得到单头自注意力网络的输出向量c:i:
c:i=V·α:i
式中,V为由所述第一数据集中的所有特征序列的值向量组成的矩阵;
基于多头注意力结构,对上述得到单头自注意力网络的输出向量步骤重复进行Q次,得到Q个输出向量,然后将Q个输出向量进行拼接,并对拼接结果进行线性变换,得到第一目标向量;
按照下式对所述第一目标向量进行残差连接与归一化处理,得到第二目标向量:式中,Z为第二目标向量X为所述第一数据集的输入序列,C为所述第一目标向量,μ′为所述第一目标向量进行残差连接后的均值,σ′为所述第一目标向量进行残差连接后的标准差;
将所述第二目标向量输入至前馈神经网络中,按照下式获取经由所述前馈神经网络输出的第三目标向量:
Z′=f(w2*f(w1*Z+b1)+b2)式中,Z为所述第二目标向量,Z′为所述第三目标向量,w1,w2,b1,b2均为训练参数;
对所述第三目标向量进行残差连接与归一化处理,得到所述第一特征向量。
5.根据权利要求4所述的水库入库流量预测方法,其特征在于,所述基于门控机制分别对所述第一特征向量和第二特征向量进行特征提取,得到第一目标特征和第二目标特征之前,还包括:
将所述第一特征向量分别输入至双向长短时记忆循环神经网络与sigmoid函数中,按照下式计算获得第一融合特征 和第一概率向量式中,f为双向长短时记忆循环神经网络的函数集合,σ为sigmoid函数, 为t时刻的第一特征向量, 为t‑1时刻的第一特征向量,WZ′、bZ′是线性变换的两个训练参数;
将所述第二特征向量分别输入至双向长短时记忆循环神经网络与sigmoid函数中,按照下式计算获得第二融合特征 和第二概率向量式中,f为双向长短时记忆循环神经网络的函数集合,σ为sigmoid函数, 为t时刻的第二特征向量, 为t‑1时刻的第二特征向量,WZ″、bZ″是线性变换的两个训练参数。
6.根据权利要求5所述的水库入库流量预测方法,其特征在于,所述基于门控机制分别对所述第一特征向量和第二特征向量进行特征提取,得到第一目标特征和第二目标特征,包括:
利用门控机制对所述第一特征向量按照下式进行特征捕捉,得到所述第一目标特征:式中, 为所述第一目标特征, 为所述第一特征向量, 为第一概率向量;
利用门控机制对所述第二特征向量按照下式进行特征捕捉,得到所述第二目标特征:式中, 为所述第二目标特征, 为所述第二特征向量, 为第二概率向量。
7.一种水库入库流量预测装置,其特征在于,包括:预处理单元,用于获取水库入库流量的历史多元数据序列,并对所述历史多元数据序列进行预处理,其中,所述历史多元数据序列包括目标序列水库入库流量以及对应的外部环境变量;
采样单元,用于对所述历史多元数据序列进行全采样,得到第一数据集,以及利用自适应间隔采样对所述历史多元数据序列构建得到第二数据集;
所述采样单元602包括:
界定单元,用于按照下式对所述历史多元数据序列进行数据偏移界定:式中,C为所述历史多元数据序列中的偏离数量, 为在t时刻的时序数据, 为在t时刻运用插值拟合的时序数据, 表示时序数据与拟合数据之间的欧几里得距离;ε为阈值,表示四分位数间距, 表示若 满足则等于
1,否则记为0;
定义单元,用于定义所述历史多元数据序列的序列总长度为M、每次采样滑窗的大小为R、每次预测使用的历史数据量为T以及采样间隔d,从而得到一次滑窗中采样数量为 偏移程度为 然后基于采样数据和偏移程度对采样间隔d进行计算:第一特征提取单元,用于通过Transformer网络分别对所述第一数据集和第二数据集提取相关性特征,得到第一目标特征和第二目标特征;
拼接单元,用于对所述第一目标特征和第二目标特征进行拼接,得到候选特征,然后通过所述Transformer网络对所述候选特征提取相关性特征,得到第三目标特征;
全连接单元,用于将所述第一目标特征、第二目标特征和第三目标特征进行全连接处理得到历史多元数据序列对应的水库入库流量预测结果,从而构建水库入库流量预测模型;
预测单元,用于利用所述水库入库流量预测模型对指定时间的水库入库流量进行预测。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的水库入库流量预测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的水库入库流量预测方法。
说明书 :
水库入库流量预测方法、装置、计算机设备及存储介质
技术领域
背景技术
数据的采集通常从多个维度进行,这就导致产生的时序数据大多以多元特征的形式出现,
并且通常伴随有一定的非平稳以及时序相关性。比如对水力发电领域的水库入库流量的预
测就是利用水库泄水与蓄水情况、上下游干支流测站的流量情况、水位变化情况、土壤含水
量、降雨量等多种水文要素,并将其输入模拟河川径流产流过程的物理模型中进行水库入
库流量的预测。因此研究多元的非平稳时间序列的水库入库流量的预测具有重要的现实意
义。
为简单,但是对建立物理模型所需要的部分细节数据却难以搜集,除此之外,数据普遍都具
有一定的非线性与非恒定性,使用单纯的物理模型难以对其进行准确模拟。
单因素模型有自回归模型(AR、MA、ARIMA、SARIMAX等自回归模型),趋势分析法等,这类方法
在平稳、线性的条件下具有较好的预测结果,但是对于非线性的时序数据建模效果不理想。
除此之外,该类模型也难以对多元数据进行建模。多因素模型包括有多元回归、决策树、随
机森林等,这些方法虽然能对更多的特征进行分析,在一定程度提升预测的精度,但是却难
以对各特征之间的相关性信息进行提取。
Memory RNN,LSTM),门控循环单元(Gated Recurrent Unit,GRU)等,该类方法在捕捉水库
入库流量的时序数据的非平稳、非线性关系方面展现出了巨大的灵活性,但是不管是传统
的RNN,还是改进的LSTM,GRU都难以对时序数据长期的依赖关系进行抓取,因此在输入数据
序列长度增加时,该类方法的预测精度会有所降低。
发明内容
外部环境变量;
模型;
现如第一方面所述的水库入库流量预测方法。
库流量预测方法。
处理,其中,所述历史多元数据序列包括目标序列水库入库流量以及对应的外部环境变量;
对所述历史多元数据序列进行全采样,得到第一数据集,以及利用自适应间隔采样对所述
历史多元数据序列构建得到第二数据集;通过Transformer网络分别对所述第一数据集和
第二数据集提取相关性特征,得到第一目标特征和第二目标特征;对所述第一目标特征和
第二目标特征进行拼接,得到候选特征,然后通过所述Transformer网络对所述候选特征提
取相关性特征,得到第三目标特征;将所述第一目标特征、第二目标特征和第三目标特征进
行全连接处理得到历史多元数据序列对应的水库入库流量预测结果,从而构建水库入库流
量预测模型;利用所述水库入库流量预测模型对指定时间的水库入库流量进行预测。本发
明实施例基于自适应间隔采样与Transformer网络,对水库入库流量对应的多元非平稳时
序数据进行预测,从而提高水库入库流量的预测精度。
附图说明
通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
体、步骤、操作、元素、组件和/或其集合的存在或添加。
下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
量;
元数据序列进行预处理后,对所述历史多元数据序列分别进行全采样和自适应间隔采样,
并利用Transformer网络对全采样得到的第一数据集和自适应间隔采样得到的第二数据集
进行相关性特征提取,得到所述第一数据集对应的第一目标特征和所述第二数据集对应的
第二目标特征。将所述第一目标特征和第二目标特征进行拼接处理,并再次通过所述
Transformer网络对拼接得到的候选特征进行特征提取,从而得到所述第三目标特征。将所
述第一目标特征、第二目标特征和第三目标特征进行全连接处理后,即可得到关于所述历
史多元数据序列的水库入库流量预测结果,从而构建得到水库入库流量预测模型。利用所
述水库入库流量预测模型便可对指定时间的水库入库流量进行预测。
施例引入自适应间隔采样构建数据集,从而对更多的历史信息加以利用,有效缓解时间序
列过长导致的信息缺失问题。同时,本实施例使用Transformer网络对数据集中的特征序列
进行特征选择,可以充分提取同时间点不同特征序列与目标序列之间的相关性关系,使特
征表征更精确。还需说明的是,本实施例提供的水库入库流量预测方法还适用于其他有关
时间序列预测的场景。
例如天气预报降雨量、遥测站降雨量、气温、风向和风速等等。在一具体应用场景中,将获取
的水库入库流量表示为y=(y1,y2,…,ym),将对应的外部环境变量表示为(x1,x2,…,xn)。
的异常值时,可以根据具体的应用场景选择具体的异常值检测方法,例如3σ原则、箱型图、
DBScan聚类、孤立森林等异常值检测方法,当检测到异常值时,则将该异常值剔除,作为缺
失值处理。在对缺失值进行判断时,若所述历史多元数据序列中的某一特征序列中的缺失
值较少,可以利用插值或者回归等方式进行缺失值填充,若所述历史多元数据序列中的某
一特征序列中的缺失值较多,则采用填充方法难以对该缺失的特征序列进行精准还原,如
果强行还原可能会对预测结果造成不良影响,因此本实施例对缺失值较多的特征序列进行
删除处理。进一步的,为了统一所述历史多元数据序列的量纲,进而提升最终的预测精度,
可对所述历史多元数据序列进行标准化处理。
距离;ε为阈值,表示四分位数间距, 表示若 满足则等
于1,否则记为0;
然后基于采样数据和偏移程度对采样间隔d进行计算:
集)得到的第一数据集和由自适应间隔采样得到的第二数据集。在一具体应用场景中,采集
的数据集(即所述第一数据集和第二数据集)输入X的维度为[T,N+1],输出Y维度为[P,1],
即使用T个时间点的N+1个序列所构成的历史数据(包括特征序列与目标序列),对未来P个
时间点的目标序列进行预测。
的预测;当数据波动比较大时,便需要采集较多的数据,以实现对时序数据的内在规律进行
捕捉。
量;
而得到所述第一目标特征和第二目标特征,以此提高最终对于水库入库流量的准确度。
xi的查询向量、键向量和值向量,W、W和W分别表示将特征序列xi映射为q:i、k:i和v:i的权重
矩阵;
标准差;
据集中的时序数据的特征表征更加精准。
(Value),根据所述查询向量、键向量和值向量可以计算得到每一特征序列在所述第一数据
集所有特征序列中的权重,然后由单头自注意力网络输出对应的输出向量。需要注意的是,
为了提高各特征序列的表征精度,本实施例中的Transformer网络采用多头注意力结构,例
如设置多头个数为Q个,那么上述得到输出向量需重复执行Q次,如此,可以得到Q个输出向
量,将Q个输出向量进行拼接和线性变换,即可得到所述第一目标向量。对所述第一目标向
量进行残差连接和归一化处理,得到所述第二目标向量,然后利用前馈神经网络对所述第
二目标向量进行计算,得到所述第三目标向量,对所述第三目标向量进一步地进行残差连
接和归一化处理,即可完成对所述第一数据集的相关性特征提取,得到所述第一特征向量。
一数据集相同,可参考上述提取过程,此处不再赘述。
Transformer网络输出的第一特征向量和第二特征向量进行融合,以及通过sigmoid函数分
别对所述第一特征向量和第二特征向量进行映射,以得到所述第一特征向量和第二特征向
量各自对应的概率,即所述第一概率向量和第二概率向量。本实施例使用Bi-LSTM网络将
关于水库入库流量的时序数据的多种特征进行循环融合,使多元时序数据具有更高的预测
精度。
行融合,以得到第三融合向量,以及通过sigmoid函数对所述第三特征向量进行映射,以得
到第三概率向量。
还能有选择性的对时序数据的特征再次提取,进一步提升预测准确度。
得到历史多元数据序列对应的水库入库流量预测结果,从而构建水库入库流量预测模型。
数据序列对应的预测值,p为预测的时期数,Y 为所述历史多元数据序列中的第i个时刻的
i
真实值,Ypre为所述历史多元数据序列中的第i个时刻对应的预测值。
的外部环境变量;
测模型;
距离;ε为阈值,表示四分位数间距, 表示若 满足则等
于1,否则记为0;
偏移程度为 然后基于采样数据和偏移程度对采样间隔d进行计算:
征,得到第二特征向量;
xi的查询向量、键向量和值向量,W、W和W分别表示将特征序列xi映射为q:i、k:i和v:i的权重
矩阵;
标准差;
只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁
碟或者光盘等各种可以存储程序代码的介质。
当然计算机设备还可以包括各种网络接口,电源等组件。
言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明
即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还
可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围
内。
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排
除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。