一种基于向量聚类的时序数据预测模型建立方法转让专利

申请号 : CN202311728973.2

文献号 : CN117407681B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张杜王琛吴煜

申请人 : 江苏为恒智能科技有限公司

摘要 :

本发明公开了一种基于向量聚类的时序数据预测模型建立方法,涉及储能预测技术领域,包括以下步骤:S1、数据预处理:从能源管理系统中提取时序数据,并对时序数据进行预处理;S2、数据向量表示:将预处理后的时序数据转换为数据向量;S3、数据向量聚类:对所述数据向量进行聚类,分为若干个类别;S4、构建时序数据预测模型,利用历史时序数据和其他相关数据对所述时序数据预测模型进行训练,并循环执行S1‑S4,直至所述时序数据预测模型适配。本发明提供了一种高效准确的时序数据预测模型建立方法,以满足能量管理系统对于各种场景下的时序数据预测需求,赋能智能化能源服务及能量系统运维。

权利要求 :

1.一种基于向量聚类的时序数据预测模型建立方法,其特征在于:包括以下步骤:S1、数据预处理:从能源管理系统中提取时序数据,并对时序数据进行预处理;所述从能源管理系统中提取时序数据包括以下步骤:设定查询输入时间段,起点为s时刻,终点为e时刻,且s时刻和e时刻均为详细到分钟的时刻;提取历史时序数据,将时间间隔r分为t时刻一个数据点,计算每个数据点xS,其中,数据点xS是t时刻内时序数据的平均值, dS,dS+1,...,de为s到e时刻的分钟的数据点;

S2、数据向量表示:将预处理后的时序数据转换为数据向量,具体包括以下步骤:S2.1、分别按照日、周、月时间间隔r获取数据集合D,组成数据集;

S2.2、将预处理后的不等长时序数据转换等长的向量,将清洗后的数据序列作为序列集X,X={Dday,Dweek,Dmonth};

S2.3、将每个所述数据序列在t时刻向左向右裁剪得到两段子序列,t为X序列集中每个序列起始时间到终止时间的任一时刻,不同时刻t的子序列对视为样本对;

S2.4、将成对子序列转变成成对向量;

S3、数据向量聚类:对所述数据向量进行聚类,分为若干个类别;

S4、构建时序数据预测模型,利用历史时序数据和时间序列数据对所述时序数据预测模型进行训练,并循环执行S1‑S4,直至所述时序数据预测模型适配。

2.根据权利要求1所述的基于向量聚类的时序数据预测模型建立方法,其特征在于:所述对时序数据进行预处理包括以下步骤:将不符合物理规律的点替换成合理值;

对记录的值按照固定时间区间分组;

当缺少某一时刻的记录值时选择线性插值法填充,使用其相邻的前后数据点xprev和xnext加权计算平均填充该处数据点xmiss,其中,加权计算平均公式:xmiss=(xprev+xnext)/2;

采用异常检测算法去除异常数据;

每类归类时间序列数据使用标签值确定时序数据的类别,并记录到最终的数据集合D中,表示为:Dr,t={Ps,e|P=(Load,Pv,DG)},其中,Load为负载,Pv为光伏数据,DG为储能系统。

3.根据权利要求1所述的基于向量聚类的时序数据预测模型建立方法,其特征在于:所述S2.4将成对子序列转变成成对向量包括以下步骤:S2.4.1、将成对子序列输入第一层神经网络得到隐层输出Y;

S2.4.2、对隐层输出Y进行掩码操作;

S2.4.3、将处理好的时间序列输入至空洞卷积层;

S2.4.4、获得的成对向量记为 通过最后一层卷积层输出Z与Y拼接得到序列的时序特征成对向量,时序特征向量是一维的特征大向量,提取了时序数据上下文;

S2.4.5、挑选正负样本,正样本对记为+R,负样本对记为‑R;

S2.4.6、每一轮训练得出向量表示,向量表示包含正负样本的时序数据上下文,+R,‑R输入到层次对比学习框架中,计算层次对比损失函数Loss,将得到的Loss反馈到参数更新,并循环执行步骤S2.4.5、S2.4.6直到模型参数收敛;

S2.4.7、经由收敛后的模型,输入X中的每一个序列得到的编码后的向量Vi,Vi的所在维度记为u;所有时间序列序列集都统一向量化到u维向量X,X={Dday,Dweek,Dmonth}都统一向量化到u维向量。

4.根据权利要求3所述的基于向量聚类的时序数据预测模型建立方法,其特征在于:所述S2.4.5中+R的选择方式为t为第i个时间序列的时

刻;‑R的选择方式为 g为时刻点。

5.根据权利要求3所述的基于向量聚类的时序数据预测模型建立方法,其特征在于:所述S2.4.6包括以下步骤:所述层次对比损失函数Loss=Loss1+Loss2,其中,计算子序列内损失函数,记为Loss1,计算样本对之间的损失函数,记为Loss2,

当损失函数前后相邻两个值的差大于0,模型参数收敛。

6.根据权利要求1所述的基于向量聚类的时序数据预测模型建立方法,其特征在于,所述S3包括以下步骤:用向量聚类算法对向量表示的时序数据进行聚类,将相似的序列数据片段归为同一类别,设定聚类类别的个数超参数K,重复执行以下步骤:S3.1、获取第i个u维向量表示Vi;

S3.2、生成K个向量空间的初始点,构成聚类数据集center={C1,C2,...CK},任取时序片段编码后的第i向量Vi,第j个初始点向量Cj,计算Vi与Cj每个点的距离dij,若Vi={p1,p2,...pu},Cj={c1,c2,...cu},则 l为参数所在的维度;选择最小dij,dij对应的Vi和Cj,将i加入对应的Cj中;

S3.3、聚类后得到新的数据点集合的中心点C′k,按照公式C′k=mean({v1,v2...vl|v1,v2...vl in cate k})计算向量平均值,更新center数据集;

S3.4、重复S3.2和S3.3直到center数据集及中心点对应的类别稳定。

7.根据权利要求6所述的基于向量聚类的时序数据预测模型建立方法,其特征在于:所述S3中用向量聚类算法对向量表示的时序数据进行聚类的收敛判断条件为:满足以下任一条件则center数据集及中心点对应的类别稳定:‑3 ‑6

当前中心点向量 与前一轮记录的中心点向量 的差小于阈值[1e ,1e ];

超过设定的最大轮迭轮数值M。

8.根据权利要求1所述的基于向量聚类的时序数据预测模型建立方法,其特征在于,S4中的时序数据预测模型构建包括以下步骤:S4.1、构建专项离散模型f1,构建序列得到类别标签,用于下一个周期时段内的序列模式预测;

S4.2、构建数值模型f2,由历史所有标记的数据点组成集合C2,得到预测周期内的点;

其中,预测周期为24h。

说明书 :

一种基于向量聚类的时序数据预测模型建立方法

技术领域

[0001] 本发明涉及储能预测技术领域,特别是涉及一种基于向量聚类的时序数据预测模型建立方法。

背景技术

[0002] 虚拟电厂(VPP)是一种集成了分布式能源资源的能源管理系统,它可以作为单一的虚拟发电资产进行交易和管理。VPP的实现依赖于对分布式能源资源的灵活控制和优化管理,其中负荷预测是实现这种灵活控制的关键技术之一。通过对未来负荷的准确预测,可以实现对分布式能源资源的合理调度和管理,从而使得VPP能够快速响应电力现货市场的价格信号和调节要求,获得额外的电力现货交易和电力辅助服务收益。
[0003] 为了实现准确的负荷预测,需要获得大量的时序数据。这些数据包括历史负荷数据、天气数据、电力市场交易数据等。通过对这些数据的分析和处理,可以预测未来的负荷变化趋势,从而为VPP的优化运行提供重要的决策支持。
[0004] 时序数据是指随时间变化而变化的数据,如股票价格、气象数据等。对时序数据进行准确预测对于许多领域至关重要。传统的时序数据预测方法主要基于统计分析、周期性时间序列建模等,如ARIMA模型(自回归移动平均模型)、指数平滑方法、季节性分解方法等,被广泛应用于时序数据预测。这些方法基于历史数据的统计特征和趋势,进行模型拟合和预测。传统的方法需要大量中间指标的估计,这些中间指标通常是时序数据的某些时刻的平均值,标准差,方差等,正确提取和计算这些指标能大大提升预测准确性,对结果有重大影响。通常需要领域专家结合经验提取,所以基于统计的方法效率不高。
[0005] 在用户侧能源管理领域,能量管理系统(EMS)会收集大量时序数据,诸如负载、光伏、电机、储能电池等随时间变化的统计指标。但是往往真实场景下这些时序数据受到温湿度、季节、用电习惯、场景、电价、节假日等多种因素的影响,而传统负荷预测方法对这些特征的研究及其造成的负荷波动研究则有所欠缺,周期性也不明确,呈现分段的模式。如果时序数据是给定的较大尺度数据,传统的统计时间序列分析方法很难给出准确预测,需要人工标定特征以区别不同序列模式,例如厂区的工作日非工作日,商场的节假日和非节假日等电力需求都存在较大的差异。
[0006] 因此,需要一种新的方法来对历史负荷数据和其他相关数据的分析和处理,可以快速、准确地预测未来的负荷变化趋势,提高对复杂场景模式下的时序数据预测的准确性和效率性。

发明内容

[0007] 本发明所要解决的技术问题是,克服现有技术的缺点,提供一种基于向量聚类的时序数据预测模型建立方法。
[0008] 为了解决以上技术问题,本发明的技术方案如下:
[0009] 一种基于向量聚类的时序数据预测模型建立方法,包括以下步骤:
[0010] S1、数据预处理:从能源管理系统中提取时序数据,并对时序数据进行预处理;
[0011] S2、数据向量表示:将预处理后的时序数据转换为数据向量;
[0012] S3、数据向量聚类:对所述数据向量进行聚类,分为若干个类别;
[0013] S4、构建时序数据预测模型,利用历史时序数据和其他相关数据对所述时序数据预测模型进行训练,并循环执行S1‑S4,直至所述时序数据预测模型适配。
[0014] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述从能源管理系统中提取时序数据包括以下步骤:
[0015] 设定查询输入时间段,起点为s时刻,终点为e时刻,且s时刻和e时刻均为详细到分钟的时刻;提取历史时序数据,将时间间隔分为t时刻一个数据点,计算每个数据点 ,其中,数据点 是t时刻内时序数据的平均值, ,dS,dS+1,...,de为s到e时刻的分钟的数据点。
[0016] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述对时序数据进行预处理包括以下步骤:
[0017] 将不符合物理规律的点替换成合理值;
[0018] 对记录的值按照固定时间区间分组;
[0019] 当缺少某一时刻的记录值时选择线性插值法填充,使用其相邻的前后数据点和 加权计算平均填充该处数据点 ,其中,加权计算平均公式:;其中, 的确定方式还包括多项式拟合法对光伏类
beta分布曲线拟合来填补缺失值,或用拟合函数和曲线拟合器完成的拟合曲线y填充;
[0020] 每类归类时间序列数据使用标签值确定时序数据的类别,并记录到最终的数据集合D中,表示为: ,其中,Load为负载,Pv为光伏数据,DG为储能系统。
[0021] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述S2中的数据向量化包括以下步骤:
[0022] S2.1、分别按照日、周、月等不同时间间隔r获取数据集合D,组成数据集;其中,, , ,day,week,month为时间长度单位,数据集长度大小排序: ;
[0023] S2.2、将预处理后的不等长时序数据转换等长的向量,将清洗后的数据序列作为序列集X, ;
[0024] S2.3、将每个所述数据序列在t时刻向左向右裁剪得到两段子序列,t为X序列集中每个序列起始时间到终止时间的任一时刻,不同时刻t的子序列对视为样本对;
[0025] S2.4、将成对子序列转变成成对向量。
[0026] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述S2.4将成对子序列转变成成对向量包括以下步骤:
[0027] S2.4.1、将成对子序列输入第一层神经网络得到隐层输出Y;
[0028] S2.4.2、对隐层输出Y进行掩码操作,随机修改Y中某些值为0,屏蔽一部分X时间戳上序列信息,使模型能更好的处理变长时间序列;
[0029] S2.4.3、将处理好的时间序列输入至空洞卷积层,该层由10个残差网络构成,每个残差网络包含2个1维卷积层,达到每个卷积层的空洞卷积核与输入数据之间存在间隔,每一层卷积层都输出数据向量;
[0030] S2.4.4、获得的成对向量记为 , ,i=1,2…N;通过最后一层卷积层输出Z与Y拼接得到序列的时序特征成对向量,时序特征向量是一维的特征大向量,提取了时序数据上下文;
[0031] S2.4.5、挑选正负样本,正样本对记为+R,负样本对记为‑R;
[0032] S2.4.6、每一轮训练得出向量表示,向量表示包含正负样本的时序数据上下文,+R,‑R输入到层次对比学习框架中,计算层次对比损失函数Loss,将得到的Loss反馈到参数更新,并循环执行步骤S2.4.5、S2.4.6直到模型参数收敛;
[0033] S2.4.7、经由收敛后的模型,输入X中的每一个序列得到的编码后的向量Vi,Vi的所 在维 度记 为 u;所 有时 间 序列 序 列集 都统 一 向量 化 到u 维 向量 X ,都统一向量化到u维向量。
[0034] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述S2.4.5中+R的选择方式为 ,i=1,2…N, t=1,2,3,…n,t为第i个时间序列的时刻;‑R的选择方式为 ,g为时刻
点,即所有相同序列i中不是同一个时刻向左裁剪的子序列可以构成负样本和,即所有相同序列中不是任意时刻的左裁剪子序列和右裁剪子序列可以构成负样本和

[0035] 此时负样本对‑R的构造方式修改为即所序列中对同一个时刻t进行裁剪得到的左序列向量和右序列向量和 ,即所有不同序列中对同一个时刻t进行裁剪得到的左序列向量互为负样本对。
[0036] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述S2.4.6包括以下步骤:
[0037] 所述层次对比损失函数 ,其中,计算子序列内损失函数,记为, ;计算样本对之间的损失
函数,记为 , ;
[0038] 当损失函数前后相邻两个值的差大于0,模型参数收敛。
[0039] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述S3包括以下步骤:
[0040] 用向量聚类算法对向量表示的时序数据进行聚类,将相似的序列数据片段归为同一类别,设定聚类类别的个数超参数K,重复执行以下步骤:
[0041] S3.1、获取第i个u维向量表示 ;
[0042] S3.2、生成K个向量空间的初始点,构成聚类数据集 ,任取时序片段编码后的第i向量 ,第j个初始点向量 ,计算 与 每个点的距离 ,若,则 ,为参数所在的维度;
选择最小 , 对应的 和 ,将i加入对应的 中;
[0043] S 3 .3 、聚 类 后 得 到 新 的数 据 点 集 合 的 中 心点 ,按 照 公 式计算向量平均值,更新center数据集;
[0044] S3.4、重复S3.2和S3.3直到center数据集及中心点对应的类别稳定。
[0045] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:所述S3中用向量聚类算法对向量表示的时序数据进行聚类的收敛判断条件为:
[0046] 满足以下任一条件则center数据集及中心点对应的类别稳定:
[0047] ;‑3 ‑6
[0048] 当前中心点向量 与前一轮记录的中心点向量 的差小于阈值(1e 1e );~
[0049] 超过设定的最大轮迭轮数值M。
[0050] 作为本发明所述基于向量聚类的时序数据预测模型建立方法的一种优选方案,其中:S4中的时序数据预测模型构建包括以下步骤:
[0051] S4.1、构建专项离散模型f1,构建序列得到类别标签,用于下一个周期时段内的序列模式预测;比如按天数周期构建的序列得到的最终类别标签是c1,…,cn,即;
[0052] S4.2、构建数值模型f2,由历史所有标记的数据点组成集合C2,得到预测周期内的点;比如假设 ,则该预测周期内的点可以由历史所有标记的c2组成数据集合C2得到, ,其中,预测周期为24h。
[0053] 本发明的有益效果是:
[0054] (1)本发明的预测模型建立方法通过将负荷、光伏、柴油电机等时序数据转化为向量表示,并利用向量聚类技术进行相似性检索,以得到最相似的历史时序数据集合,从而确定与之匹配的序列模式标签。
[0055] (2)本发明通过分析历史数据的特征结合匹配的序列模式标签,进行时序分析和建模。在此基础上,预测模型可以结合深度学习预测算法,实现对未来时序数据的准确预测。
[0056] (3)本发明通过结合向量聚类,利用已有的序列特征以及添加的时间序列聚类分析,无需人工标注序列标签特征,从而优化模型能力并将预测模型与已有深度学习算法进行适配。这种方法可以提高对复杂时序数据在储能场景下的预测精确度,并减少人工标注的工作量。模型与已有的深度学习算法进行适配从而优化模型能力,增加储能场景下对复杂时序数据的预测精确度。

附图说明

[0057] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0058] 图1为本发明提供的基于向量聚类的时序数据预测模型建立方法的流程示意图;
[0059] 图2为本发明中序列裁剪示意图;
[0060] 图3为本发明中左裁剪示意图;
[0061] 图4为本发明中右裁剪示意图;
[0062] 图5为本发明中成对子序列转变为成对向量示意图;
[0063] 图6为本发明中时序预测过程示意图;
[0064] 图7为本发明的流程示例图。

具体实施方式

[0065] 为使本发明的内容更容易被清楚地理解,下面根据具体实施方式并结合附图,对本发明作出进一步详细的说明。
[0066] 本发明提供了一种基于向量聚类的时序数据预测模型建立方法,旨在满足储能能源管理系统系统在各种场景下对时序数据预测的需求,以实现高效准确的预测。该方法赋予模型智能化运维能力,并适用于电力系统的时序数据预测。
[0067] 以下结合具体实施例对本发明的具体实现进行详细描述。在本发明的一个实施例中,参见图1,所述一种基于向量聚类的时序数据预测模型建立方法包括数据提取和数据预处理,如下步骤:
[0068] S1、对数据进行提取和预处理:
[0069] S1.1、从能源管理系统(EMS)提取数据的方法,该方法包括以下步骤:
[0070] 设定查询输入时间段,起点为s时刻,终点为e时刻;提取历史数据,其中时间长度为 小时,将时间间隔分为t时刻一个数据点,其中t∈(1,60),计算每个数据点 , 作为集合中的一个值。其中,数据点 是t时刻内时序数据的平均值, ,dS,dS+1,...,de为s到e时刻的分钟的数据点。
[0071] S1.2、对原始时序数据进行预处理的方法,包括以下步骤:1.2.1.将不符合物理规律的点替换成合理值。例如光伏或者负载的数据的值<0的数据点替换为0。
[0072] S1.2.2、对于记录的值按照固定时间区间分组。
[0073] S1.2.3、当缺少某一时刻的记录值,选择线性插值法填充,具体为使用其前后数据点 和 加权计算平均填充该处数据点 。
[0074] 加权计算平均公式: 。
[0075] 另外,还可以选择多项式拟合法对光伏等类beta分布曲线拟合来填补缺失值,或用拟合函数和曲线拟合器完成的拟合曲线y填充 。
[0076] S1.2.4、用异常检测算法对异常数据进行去除,例如某一时刻的光伏数据飙升或者负载突破记录电表读数的最大值,而该时刻前读数都正常等情况,以防止电表或通讯出错。
[0077] S1.2.5、归类时间序列数据种类如 等,每类数据使用标签值确定时序数据的类别记录到最终的数据集合D中: ,其中,Load为负载,Pv为光伏数据,DG为储能系统。
[0078] S2、获得时序数据向量表示:
[0079] S2.1、按照日、周、月等不同的时间间隔r获取D,组成数据集。 ,, 。三段时间序列的数据长度排序:。
[0080] S2.2、将这些预处理后的不等长时序数据转换等长的向量,清洗后的数据序列如序列集 ,该序列集中的一个序列如图一展示的曲线。每个序列进行第三步裁剪。
[0081] S2.3、将每个所述数据序列在t时刻向左向右裁剪得到两段子序列。t为X序列集中每个序列起始时间到终止时间的任一时刻。
[0082] 如图2所示,具体而言,可以设定一个固定窗口大小,表示裁剪时获取的长度,假设窗口大小为w,向左裁剪时,窗口右侧距离t为较小偏移的宽度记为pad,窗口左侧距离t为较大偏移的宽度为w减去pad,记为w-pad。同样向右裁剪时左侧较小偏移pad,右侧较大偏移为w-pad。选择一些不同的时刻t,根据上述同样的裁剪规则,取得若干长度为w的子序列。这些不同时刻t的子序列对视为样本对。
[0083] S2.4、对于两段成对子序列的所有数据点,如图3‑图4所示,以管理系统里的光伏序列数据为例,t=2023年7月1日 12点,该时刻对应的向左裁剪窗口w=8h,pad=2h,取2023年7月1日6点至2023年7月1日14点的数据,构成第i个t时刻的子序列{10,30,80,260,300,70,
402,200},单位kW。
[0084] 该时刻的向右裁剪窗口为2023年7月1日10点至2023年7月1日18点的数据,构成第i个t时刻的子序列 {10,30,80,260,300,70,402,200},单位kW。
[0085] 该时刻的向右裁剪窗口为2023年7月1日10点至2023年7月1日18点的数据,构成第i个t时刻的子序列 {300,70,402,200,140,100,70,50,2},单位kW。
[0086] S2.4.1、将成对子序列输入第一层神经网络得到隐层输出Y。
[0087] S2.4.2、对隐层输出Y进行掩码操作,随机修改Y中某些值为0。屏蔽一部分X时间戳上序列信息,使模型能更好的处理变长时间序列。
[0088] 在处理变长时间序列的表征学习中,需要对整体序列一个较高水平的理解。掩码操作故意删除一部分输入序列内容,具体做法生成一个掩码向量M,其长度与输入序列X的时间步数相同,其中的元素取值为0或1,表示该时间戳的值在该时间序列中是否有效。无效时间戳上的序列信息就被屏蔽了,这些丢失数据可以依靠训练的模型恢复。过往经验表明这种做法能显著提升变长时间序列表征学习的准确率。在时间序列中,固定的掩码位置往往很容易依靠掩码点左右紧邻的时间数值相互联系来推断,偏离了序列抽象表征的目标。为了解决这个问题采用随机的策略来对不同长度的时间序列进行掩码操作。我们将掩码向量M上0的位置随机后,表征学习的向量更加合理。
[0089] S2.4.3、处理好的时间序列输入空洞卷积层,该层由10个残差网络构成,每个网络包含2个1维卷积层,达到每个卷积层的空洞卷积核与输入数据之间存在间隔,每一层卷积层都输出数据向量。
[0090] S2.4.4、最后一层卷积层输出Z与Y拼接得到序列的时序特征成对向量,时序特征向量是一维的特征大向量,提取了时序数据上下文。
[0091] 我们将获得的成对向量,记为 , 。
[0092] 成对子序列转变为成对向量的流程如如图5所示。
[0093] S2.4.5、挑选正负样本,正样本对记为+R,负样本对记为‑R。+R的选择方式为,i=1,2…N, t=1,2,3,…n,t为第i个时间序列中的某一时刻(假设第i个时间序列的长度为n),即所有相同序列中对同一个时刻t进行裁剪得到的成对序列输出的成对向量为正样本。‑R的选择方式为 ,g为
时刻点,即所有相同序列i中不是同一个时刻向左裁剪的子序列可以构成负样本和,即所有相同序列中不是任意时刻的左裁剪子序列和右裁剪子
序列可以构成负样本。
[0094] 计算子序列内损失函数:。
[0095] 另计算样本对之间的损失,记为loss2。此时的负样本对‑R的构造方式修改为,即所序列中对同一个时刻t进行裁剪得到的左序列向量和右序列向量和 ,即所不同序列中对同一个时刻t进行裁剪得到的左序
列向量互为负样本对。其中, 。
[0096] S2.4.6、每一轮训练得出上述向量表示,向量表示包含正负样本的时序数据上下文,+R,‑R输入到层次对比学习框架中,计算层次对比损失函数 ,将得到的loss反馈到参数更新。重新开始步骤5、6直到模型参数收敛,即损失函数相邻两个值差大于0。
[0097] S2.4.7、经由收敛后的模型,我们可以输入X中的每一个序列得到的编码后的向量, 的维度记为u。在这一步所有不等长序列片段 都可以统一向量化到u维向量。
[0098] S3、向量聚类:用向量聚类算法对向量表示的时序数据进行聚类,将相似的序列数据片段归为同一类别,设定的超参数K为聚类类别个数。
[0099] 重复执行以下步骤直到收敛:
[0100] S3.1、获取第i个u维向量表示 ;
[0101] S3.2、生成K个向量空间的初始点,构成聚类数据集 ,任取u维向量 ,计算 与 每个点的距离 , ,
,为参数所在的维度。选择最小 , 对应的 和 ,将i加入对
应的 中。
[0102] S3.4、重复S3.2和S3.3直到center数据集及中心点对应的类别稳定。
[0103] S3.3、聚类后得到新的数据点集合的中心点 ,按照如下公式计算向量平均值,更新center数据集: 。
[0104] S3.4、重复3.2和3.3直到center数据集及中心点对应的类别稳定。
[0105] S3.5、当以下条件满足一条则center数据集及中心点对应的类别稳定。
[0106] 条件1、若 ;
[0107] 条件2、若当前中心点向量 与前一轮记录的中心点向量 的差小于阈值‑3 ‑6(1e 1e );
~
[0108] 条件3、若超过设定的最大轮迭轮数值M。
[0109] S4、时序预测模型建立:
[0110] S4.1、构建专项离散预测模型f1:用于下一个周期时段内的序列模式预测,假设按天级周期构建的序列得到的最终类别标签是c1,…cn,即 。如图6所示,轴上的c2,c1,c2对应为2023‑08‑01至2023‑08‑03的时序数据对应的聚类标签,时序数据变化曲线在最下方,预测周期为期望预测的2023‑08‑04的时序数据,则首先由f1模型预测2023‑08‑04这个时段的标签结果 。
[0111] S4.2、构建数值预测模型f2:假设 ,则该预测周期24h内的点可以由历史所有标记的c2组成数据集合C2得到。 ,如图6所示,深色部分代表数值预测模型,在c2标签的基础上得到2023‑08‑04的时序数据预测数值 ,共24个点。
[0112] 例如:对于某制造业储能系统管理SaaS服务,其能量管理系统收集每天的光伏与负载数据,其厂内数据经过向量化聚类后设定K=2,即简单的高低负载模式。对于该厂的时序数据预测任务可以拆分为两部分,第一步为预测一周内序列模式的规律(例如得到周一至周五为高负载,周六周日为低负载),第二部分为在第一部分的基础上,若当前时间为周一至周五的工作日时会抽取所有高负载时间段内的数据来建模预测模型,得到高负载时序数据预测模型。然后利用这个模型来预测当前预测窗口的数据,若当前时间为周六周日则会抽取所有低负载时段的数据在构建预测模型,相似的可以得到低负载时序数据预测模型。
[0113] 另外,还可以包括步骤S5、优化预测大模型,即:在各自领域上的专项预测特性,f1和f2可以是通用模型,例如f1可以是离散事件序列模型LSTM,f2可以是ARIMA模型或者deepAR模型。与负载预测大模型连接,达到优化整个模型。
[0114] 整个流程细化后如图7所示。
[0115] 除上述实施例外,本发明还可以有其他实施方式;凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。