一种确定策略数据的方法、装置、可读介质及电子设备转让专利

申请号 : CN201910042690.X

文献号 : CN109857911B

文献日 : 2021-03-05

本发明公开了一种确定策略数据的方法、装置、可读介质及电子设备，方法包括：采集综合能源站在多个设定时间段内的实际状态数据及实际策略数据；对采集的各个数据下的每一个数据项分别进行编码处理，根据完成编码处理的实际状态数据、实际策略数据形成树结构，记录树结构中每个节点分别对应的实际状态数据及实际策略数据；从树结构中确定出与待匹配状态数据相邻的相邻节点，确定相邻节点对应的当前策略数据；将当前策略数据作为起始点搜索能效模型的最优解以得到目标策略数据。通过本发明的技术方案，可实现结合相应的待匹配状态数据确定其对应的策略数据，便于综合能源系统在根据该待匹配状态数据及策略数据运行以避免资源浪费。

1.一种确定策略数据的方法，其特征在于，包括：

采集综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据；

对所述实际状态数据及所述实际策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述实际状态数据、所述实际策略数据形成树结构，并记录所述树结构中每一个节点分别对应的所述实际状态数据及所述实际策略数据；

从所述树结构中确定出与待匹配状态数据相邻的相邻节点，确定所述相邻节点对应的当前策略数据，其中，所述从所述树结构中确定出与待匹配状态数据相邻的相邻节点，包括：针对于树结构中的每个节点，通过第一公式计算所述节点与所述待匹配状态数据之间的距离，其中，所述第一公式包括：其中，F表征节点与待匹配状态数据之间的距离、m表征待匹配状态数据中所包含的数据项的总数、w(i)表征待匹配状态数据中第i个数据项所对应的权重系数、Xk(i)表征待匹配状态数据中第i个数据项、表征节点对应的各个实际状态数据中第i个数据项的平均值；根据各个所述节点与所述待匹配状态数据之间的所述距离，从各个所述节点中选择至少一个目标节点作为与所述待匹配状态数据相邻的相邻节点；

根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索能效模型的最优解以得到目标策略数据。

2.根据权利要求1所述的方法，其特征在于，

所述根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索所述能效模型的最优解以得到目标策略数据，包括：将所述待匹配状态数据代入所述能效模型的目标函数；

针对每一个所述当前策略数据分别执行如下A0～A5：

A0、对所述当前策略数据进行迭代更新，并将记录的迭代更新次数加1；

A1、对所述能效模型的目标函数关于所述当前策略数据中各个数据项对应的变量分别进行求导以得到梯度向量；

A2、根据所述梯度向量确定迭代误差；

A3、检测所述迭代误差的绝对值是否小于预设阈值，是则执行A5，否则执行A4；

A4、检测迭代次数是否达到设定次数，是则执行A5，否则执行A0；

A5、将所述当前策略数据确定为局部最优解；

针对每一个所述局部最优解，将所述待匹配状态数据及所述局部最优解代入所述能效模型的目标函数以计算适应度值；

根据各个所述局部最优解分别对应的所述适应度值，从各个所述最优解中确定出目标策略数据。

3.根据权利要求2所述的方法，其特征在于，

所述对所述当前策略数据进行迭代更新，包括：

当记录的所述迭代更新次数大于1时，通过如下第二公式对所述当前策略数据进行迭代更新，其中，所述第二公式包括：其中，yz+1表征第对当前策略数据进行第z+1次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、yz表征对当前策略数据进行第z次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、表征对当前策略数据进行第z次迭代更新时得到的迭代误差。

4.根据权利要求1至3中任一所述的方法，其特征在于，

对所述待匹配状态数据及所述目标策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述待匹配状态数据及所述目标策略数据更新所述树结构。

5.一种确定策略数据的装置，其特征在于，包括：

数据采集模块，用于采集综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据；

编码处理模块，用于对所述实际状态数据及所述实际策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述实际状态数据、所述实际策略数据形成树结构，并记录所述树结构中每一个节点分别对应的所述实际状态数据及所述实际策略数据；

节点确定模块，用于从所述树结构中确定出与待匹配状态数据相邻的相邻节点，确定所述相邻节点对应的当前策略数据，其中，所述从所述树结构中确定出与待匹配状态数据相邻的相邻节点，包括：针对于树结构中的每个节点，通过第一公式计算所述节点与所述待匹配状态数据之间的距离，其中，所述第一公式包括：其中，F表征节点与待匹配状态数据之间的距离、m表征待匹配状态数据中所包含的数据项的总数、w(i)表征待匹配状态数据中第i个数据项所对应的权重系数、Xk(i)表征待匹配状态数据中第i个数据项、表征节点对应的各个实际状态数据中第i个数据项的平均值；

根据各个所述节点与所述待匹配状态数据之间的所述距离，从各个所述节点中选择至少一个目标节点作为与所述待匹配状态数据相邻的相邻节点；

搜索处理模块，用于根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索能效模型的最优解以得到目标策略数据。

6.根据权利要求5所述的装置，其特征在于，

所述搜索处理模块，用于执行如下各个步骤，

将所述待匹配状态数据代入所述能效模型的目标函数；

针对每一个所述当前策略数据分别执行如下A0～A5：

A0、对所述当前策略数据进行迭代更新，并将记录的迭代更新次数加1；

A1、对所述能效模型的目标函数关于所述当前策略数据中各个数据项对应的变量分别进行求导以得到梯度向量；

A2、根据所述梯度向量确定迭代误差；

A3、检测所述迭代误差的绝对值是否小于预设阈值，是则执行A5，否则执行A4；

A4、检测迭代次数是否达到设定次数，是则执行A5，否则执行A0；

A5、将所述当前策略数据确定为局部最优解；

针对每一个所述局部最优解，将所述待匹配状态数据及所述局部最优解代入所述能效模型的目标函数以计算适应度值；

根据各个所述局部最优解分别对应的所述适应度值，从各个所述最优解中确定出目标策略数据。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的方法。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4中任一所述的方法。

一种确定策略数据的方法、装置、可读介质及电子设备

技术领域

[0001] 本发明涉及能源领域，尤其涉及一种确定策略数据的方法、装置、可读介质及电子设备。

背景技术

[0002] 综合能源系统是指一定空间中整合煤炭、石油、天然气、电能、热能、光伏等多种能源，实现多种异质能源子系统之间的协调规划、优化运行和互补互济。

[0003] 目前，通常需要针对综合能源系统建立对应的能效模型，通过对建立的能效模型进行优化以确定综合能源系统的状态数据(比如，每一种能源的供能数据)及策略数据(比如，综合能源系统中各个能源转换设备的负荷分配数据)，综合能源系统即可根据确定的状态数据及策略数据运行以避免资源浪费。

[0004] 但是，综合能源系统运行时，其状态数据可能需要结合实际业务需求而调整，即其在和后续过程中运行时对应的状态数据与通过对能效模型进行优化而得到的状态数据可能并不相同；此时，如何确定出对应的策略数据，使得综合能源系统能够相应的状态数据及其对应的策略数据运行，从而避免资源浪费则成为亟待解决的问题。

发明内容

[0005] 本发明提供一种确定策略数据的方法、装置、可读介质及电子设备，可实现结合相应的待匹配状态数据确定其对应的策略数据，便于综合能源系统在实际运行过程中接收到外部提供的与该待匹配状态数据相对应的能源时，根据该待匹配状态数据及策略数据运行以避免资源浪费。

[0006] 第一方面，本发明提供了一种确定策略数据的方法，包括：

[0007] 采集综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据；

[0008] 对所述实际状态数据及所述实际策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述实际状态数据、所述实际策略数据形成树结构，并记录所述树结构中每一个节点分别对应的所述实际状态数据及所述实际策略数据；

[0009] 从所述树结构中确定出与待匹配状态数据相邻的相邻节点，确定所述相邻节点对应的当前策略数据；

[0010] 根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索能效模型的最优解以得到目标策略数据。

[0011] 优选地，

[0012] 所述从所述树结构中确定出与待匹配状态数据相邻的相邻节点，包括：

[0013] 针对于树结构中的每个节点，通过第一公式计算所述节点与所述待匹配状态数据之间的距离，其中，所述第一公式包括：

[0014]

[0015] 其中，F表征节点与待匹配状态数据之间的距离、m表征待匹配状态数据中所包含的数据项的总数、w(i)表征待匹配状态数据中第i个数据项所对应的权重系数、Xk(i)表征待匹配状态数据中第i个数据项、表征节点对应的各个实际状态数据中第i个数据项的平均值；

[0016] 根据各个所述节点与所述待匹配状态数据之间的所述距离，从各个所述节点中选择至少一个目标节点作为与所述待匹配状态数据相邻的相邻节点。

[0017] 优选地，

[0018] 所述根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索所述能效模型的最优解以得到目标策略数据，包括：

[0019] 将所述待匹配状态数据代入所述能效模型的目标函数；

[0020] 针对每一个所述当前策略数据分别执行如下A0～A5：

[0021] A0、对所述当前策略数据进行迭代更新，并将记录的迭代更新次数加1；

[0022] A1、对所述能效模型的目标函数关于所述当前策略数据中各个数据项对应的变量分别进行求导以得到梯度向量；

[0023] A2、根据所述梯度向量确定迭代误差；

[0024] A3、检测所述迭代误差的绝对值是否小于预设阈值，是则执行A5，否则执行A4；

[0025] A4、检测迭代次数是否达到设定次数，是则执行A5，否则执行A0；

[0026] A5、将所述当前策略数据确定为局部最优解；

[0027] 针对每一个所述局部最优解，将所述待匹配状态数据及所述局部最优解代入所述能效模型的目标函数以计算适应度值；

[0028] 根据各个所述局部最优解分别对应的所述适应度值，从各个所述最优解中确定出目标策略数据。

[0029] 优选地，

[0030] 所述对所述当前策略数据进行迭代更新，包括：

[0031] 当记录的所述迭代更新次数大于1时，通过如下第二公式对所述当前策略数据进行迭代更新，其中，所述第二公式包括：

[0032]

[0033] 其中，yz+1表征第对当前策略数据进行第z+1次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、yz表征对当前策略数据进行第z次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、表征对当前策略数据进行第z次迭代更新时得到的迭代误差。

[0034] 优选地，

[0035] 对所述待匹配状态数据及所述目标策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述待匹配状态数据及所述目标策略数据更新所述树结构。

[0036] 第二方面，本发明提供了一种确定策略数据的装置，包括：

[0037] 数据采集模块，用于采集综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据；

[0038] 编码处理模块，用于对所述实际状态数据及所述实际策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述实际状态数据、所述实际策略数据形成树结构，并记录所述树结构中每一个节点分别对应的所述实际状态数据及所述实际策略数据；

[0039] 节点确定模块，用于从所述树结构中确定出与待匹配状态数据相邻的相邻节点，确定所述相邻节点对应的当前策略数据；

[0040] 搜索处理模块，用于根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索所述能效模型的最优解以得到目标策略数据。

[0041] 优选地，

[0042] 所述节点确定个模块，包括：距离计算单元和节点确定单元；其中，

[0043] 所述距离计算单元，用于针对于树结构中的每个节点，通过第一公式计算所述节点与所述待匹配状态数据之间的距离，其中，所述第一公式包括：

[0044]

[0045] 其中，F表征节点与待匹配状态数据之间的距离、m表征待匹配状态数据中所包含的数据项的总数、w(i)表征待匹配状态数据中第i个数据项所对应的权重系数、Xk(i)表征待匹配状态数据中第i个数据项、表征节点对应的各个实际状态数据中第i个数据项的平均值；

[0046] 所述节点确定单元，用于根据各个所述节点与所述待匹配状态数据之间的所述距离，从各个所述节点中选择至少一个目标节点作为与所述待匹配状态数据相邻的相邻节点。

[0047] 优选地，

[0048] 所述搜索处理模块，用于执行如下各个步骤，

[0049] 将所述待匹配状态数据代入所述能效模型的目标函数；

[0050] 针对每一个所述当前策略数据分别执行如下A0～A5：

[0051] A0、对所述当前策略数据进行迭代更新，并将记录的迭代更新次数加1；

[0052] A1、对所述能效模型的目标函数关于所述当前策略数据中各个数据项对应的变量分别进行求导以得到梯度向量；

[0053] A2、根据所述梯度向量确定迭代误差；

[0054] A3、检测所述迭代误差的绝对值是否小于预设阈值，是则执行A5，否则执行A4；

[0055] A4、检测迭代次数是否达到设定次数，是则执行A5，否则执行A0；

[0056] A5、将所述当前策略数据确定为局部最优解；

[0057] 针对每一个所述局部最优解，将所述待匹配状态数据及所述局部最优解代入所述能效模型的目标函数以计算适应度值；

[0058] 根据各个所述局部最优解分别对应的所述适应度值，从各个所述最优解中确定出目标策略数据。

[0059] 第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一所述的方法。

[0060] 第四方面，本发明提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一所述的方法。

[0061] 本发明提供了一种确定策略数据的方法、装置、可读介质及电子设备，该方法通过采集综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据，然后对采集的各个数据下的每一个数据项分别进行编码处理，根据完成编码处理的实际状态数据、实际策略数据形成树结构，并记录树结构中每一个节点分别对应的实际状态数据及实际策略数据；当获知未来的一个时间段内综合能源系统可能接收的各种能源所对应的待匹配状态数据时，即可从形成的树结构中确定出与待匹配状态数据相邻的一个或多个相邻节点，并确定出每一个相邻节点对应的一个或多个当前策略数据，后续即可根据待匹配状态数据，将各个当前策略数据分别作为起始点搜索综合能源系统的能效模型的最优解以得到目标策略数据。综上所述，本发明提供的技术方案可实现结合相应的待匹配状态数据确定其对应的策略数据，便于综合能源系统在实际运行过程中接收到外部提供的与该待匹配状态数据相对应的能源时，根据该待匹配状态数据及策略数据运行以避免资源浪费。

附图说明

[0062] 为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0063] 图1为本发明一实施例提供的一种确定策略数据的方法的流程示意图；

[0064] 图2为本发明一实施例提供的一种确定策略数据的方法中形成的树结构的示意图；

[0065] 图3为本发明一实施例提供的一种策略数据的装置的结构示意图；

[0066] 图4为本发明一实施例提供的另一种策略数据的装置的结构示意图；

[0067] 图5为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

[0068] 为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0069] 如图1所示，本发明实施例提供了一种确定策略数据的方法，包括如下步骤101～步骤104。

[0070] 步骤101，采集综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据。

[0071] 实际状态数据具体可以由多个数据项组成，每个数据项可分别指示综合能源系统在相应的设定时间间隔内接收的一种能源的供应量，比如设定时间间隔内向综合能源系统提供的煤炭供应量、石油供应量、天然气供应量、电能供应量、热能供应量等，这里具体可以通过一个状态向量X＝[x0，x1，x2，......xm]来描述综合能源系统在一个设定时间段内运行时所对应的实际状态数据，状态向量X中的m个元素(即数据项)中，第i个元素即表征综合能源系统在一个设定时间段内接收的第i中能源的供应量。

[0072] 基于与实际状态数据相似的原理，可通过策略向量Y＝[y0，y1，y2，......yn]来描述综合能源系统在一个设定时间段内、根据对应于实际状态数据的各种能源运行时对应的实际策略数据，策略向量Y中第j个元素即表征综合能源系统在一个设定时间段内运行时的第j个调度数据，比如综合能源站中第j个能源集线器的负荷信息。

[0073] 需要说明的是，状态向量X及策略向量Y中各个数据项的排序，可结合各个数据项分别对应的权重系数按照对应权重系数由大到小的顺序进行排序，以便后续过程中能够较为快速的从树结构中确定出一个或多个相邻节点。

[0074] 显而易见的，对于一个相同的设定时间间隔，其实际状态数据与实际策略数据之间存在必然的对应关系。即对于步骤101，通过对综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据进行采集，最终可得到并形成多组由状态向量X及策略向量Y组成的综合能源站的运行数据。

[0075] 步骤102，对所述实际状态数据及所述实际策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述实际状态数据、所述实际策略数据形成树结构，并记录所述树结构中每一个节点分别对应的所述实际状态数据及所述实际策略数据。

[0076] 对于由一个状态向量X(即一个实际状态数据)及其对应的一个策略向量Y(即一个实际策略数据)构成的一个运行数据，具体可以将每一个运行数据作为一个案例进行记录。

[0077] 对实际状态数据及实际策略数据下的每一个数据项(即各个状态向量及策略向量下的每一个元素)分别进行编码处理时，具体可以依据各个数据项的取值类型及取值范围进行编码。

[0078] 这里具体以针对一个案例的状态向量X中第i个元素xi进行十进制编码为例进行详细说明，其编码规则具体可以包括：

[0079] A、xi的取值类型为离散变量，且取值的个数不大于10，则利用0、1、2、3、4、5、6、7、8、9共10个数字代替状态向量X中第i个元素xi；

[0080] B、xi的取值类型为连续变量，或者xi的取值类型为离散变量但取值的个数大于10，则把xi能够取得的最大值和最小值之间的差切割为10个区间，并利用0、1、2、3、4、5、6、7、8、9共10个数字分别标记各个区间，xi的实际取值落入某一区间则用该区间对应的数字代替状态向量X中第i个元素xi。

[0081] 需要说明的是，xi能够取得的最大值和最小值可以预先确定，将xi能够取得的最大值和最小值之差切割成10个区间具体可以是平均切割，也可以是预先设置的其他指定的切割方法。

[0082] 在完成对每一个案例下的全部数据项(或者元素)xi和yi进行编码后，得到所有状态状态向量X及策略向量Y的编码结果，比如，对于包括两个元素x0及元素x1的状态向量X(即包括数据项x0和数据项x1的实际状态数据)，若利用数字0替换状态向量X中的元素x0、利用数字1替换状态向量X中的元素x1，即可得到完成编码后的状态向量X＝[0，1]，即完成编码得到的一个实际状态数据为[0，1]。之后，即可根据每个案例(即由一个状态向量X及一个策略向量Y构成的运行数据)中，完成编码处理的状态向量X及策略向量Y下的各个元素的取值形成树结构(树结构中的每一个节点可以作为一个候选项目)。

[0083] 这里具体以指示实际状态数据及实际策略数据的状态向量X及策略向量Y的长度均为2进行举例描述，即以实际状态数据和实际策略数据中均包括两个数据项进行举例描述。且以对实际状态数据中第一个数据项进行编码时，该数据项可能的取值为0或1；对实际状态数据中第二个数据项进行编码时，该数据项可能的取值为0、1或2；对实际策略数据中的第一个数据项进行编码时，该数据项可能的取值为0或1；对实际策略数据中的第二个数据项进行编码时，该数据项可能的取值为2、3或4。那么，进一步以8个案例A、B、C、D、E、F、G、H中，案例A(即运行数据A)中完成编码后的实际状态数据(即完成编码后的状态向量)为[0，0]、完成编码后的实际策略数据(即完成编码后的状态向量)为[0，4]，案例B中完成编码后的实际状态数据为[0，0]、完成编码后的实际策略数据为[1，2]，案例C中完成编码后的实际状态数据为[0，1]、完成编码后的实际策略数据为[0，4]，案例D中完成编码后的实际状态数据为[0，1]、完成编码后的实际策略数据为[1，2]，案例E中完成编码后的实际状态数据为[0，1]、完成编码后的实际策略数据为[1，3]，案例F中完成编码后的实际状态数据为[1，2]、完成编码后的实际策略数据为[0，4]，案例G中完成编码后的实际状态数据为[1，2]、完成编码后的实际策略数据为[1，2]，案例H中完成编码后的实际状态数据为[1，2]、完成编码后的实际策略数据为[1，3]，那么，即可形成如图2所示的树结构，同时，还应当记录各个节点与案例之间的对应关系，即记录树结构中每个节点分别对应的未进行编码的实际状态数据及未进行编码的实际策略数据。

[0084] 形成树结构之后，还应当记录树结构中每一个节点分别对应的实际状态数据及实际策略数据；显而易见的，在实际业务场景中，一个节点可能对应多个实际状态数据及实际策略数据。

[0085] 下面以图2所示的树结构为例，对形成的树结构进行详细解释。请参考图2，树结构的每一个节点中，数字之间的横线表示对应关系，位于横线前的数字指示完成编码的状态向量X中各个数据项的编码值，横线后的数字指示完成编码的策略向量Y中各个数据项的编码值，树结构中位于第一层的节点R为树结构的根节点，树结构中位于第二层的各个节点指示状态向量X中第一个数据项与策略向量Y中第一个数据项之间的对应关系，位于第三层的各个节点指示状态向量X的前两个数据项分别对应的取值与策略向量Y的前两个数据项分别对应的取值之间的对应关系；以此类推，如果状态向量或策略向量的长度越大，即实际状态数据或实际策略数据中的数据项越多，树结构的中节点的层级则越多。

[0086] 步骤103，从所述树结构中确定出与待匹配状态数据相邻的相邻节点，确定所述相邻节点对应的当前策略数据。

[0087] 作为一种实施方式，步骤103包括：

[0088] 针对于树结构中的每个节点，通过如下公式(1)计算所述节点与所述待匹配状态数据之间的距离：

[0089]

[0090] 其中，F表征节点与待匹配状态数据之间的距离、m表征待匹配状态数据中所包含的数据项的总数、w(i)表征待匹配状态数据中第i个数据项所对应的权重系数、Xk(i)表征待匹配状态数据中第i个数据项、表征节点对应的各个实际状态数据中第i个数据项的平均值；

[0091] 根据各个所述节点与所述待匹配状态数据之间的所述距离，从各个所述节点中选择至少一个目标节点作为与所述待匹配状态数据相邻的相邻节点。

[0092] 不难理解的，当一个节点与待匹配状态数据之间的距离F的值越小，则说明该待匹配状态数据与该节点所对应的各个实际状态数据之间的差异越小，相应的，与该节点相对应的各个实际策略数据则越适用于该待匹配状态数据。因此，这里具体可以选取对应距离值较小的若干个节点作为相邻节点，对于选取的每一个相邻节点，从其对应的各个实际策略数据中选择一个实际策略作为当前策略数据，如此，便于后续过程中将选择的各个当前策略数据分别作为一个起始点，并行搜索综合能源系统的能效模型的多个局部最优解(具体指能效模型的目标函数对应的局部最优解，且该最优解应当满足能效模型的约束条件)，进而从各个局部最优解中确定出一个全局最优解作为待匹配状态数据所对应的目标策略数据。

[0093] 步骤104，根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索能效模型的最优解以得到目标策略数据。

[0094] 一般的，综合能源系统的能效模型通常可以为：

[0095]

[0096] 其中，Z表征综合能源系统的能效值、m表征状态数据下的数据项的个数、n表征策略数据下的数据项的个数、r(xi)表征与状态数据中第i个数据项相关的经济函数、c1(xi)表征与状态数据中第i个数据项相关的成本函数、c2(yj)表征与策略数据中第j个数据项相关的成本函数、a和b均为常数、f(xi，yj)和g(xi，yj)均为与状态数据及策略数据相关的约束函数。

[0097] 作为一种实施方式，具体可以通过如下方法实现步骤104：

[0098] 可将所述待匹配状态数据代入所述能效模型的目标函数；

[0099] 针对每一个所述当前策略数据分别执行如下A0～A5，

[0100] A0、对所述当前策略数据进行迭代更新，并将记录的迭代更新次数加1；

[0101] A1、对所述能效模型的目标函数关于所述当前策略数据中各个数据项对应的变量分别进行求导以得到梯度向量；

[0102] A2、根据所述梯度向量确定迭代误差；

[0103] A3、检测所述迭代误差的绝对值是否小于预设阈值，是则执行A5，否则执行A4；

[0104] A4、检测迭代次数是否达到设定次数，是则执行A5，否则执行A0；

[0105] A5、将所述当前策略数据确定为局部最优解；

[0106] 针对每一个所述局部最优解，将所述待匹配状态数据及所述局部最优解代入所述能效模型的目标函数以计算适应度值；

[0107] 根据各个所述局部最优解分别对应的所述适应度值，从各个所述最优解中确定出目标策略数据。

[0108] 这里，预设阈值ε应当大于0，预设阈值及设定次数(即最大迭代次数)均可由用户结合实际业务场景进行设置，显而易见的，预设阈值越小、最大迭代次数越大，得到的目标策略数据则越准确。

[0109] 需要说明的是，进行第z+1次迭代时得到的迭代误差，具体指的是进行第z+1次迭代得到的梯度向量与进行第z次得到的梯度向量计算出的误差

[0110] 具体地，作为一种实施方式，可以通过如下实现方式1或实现方式2实现对当前策略数据进行迭代更新。

[0111] 实现方式1，当记录的所述迭代更新次数大于1时，通过如下公式(2)对所述当前策略数据进行迭代更新：

[0112]

[0113] 其中，yz+1表征第对当前策略数据进行第z+1次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、yz表征对当前策略数据进行第z次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、表征对当前策略数据进行第z次迭代更新时得到的迭代误差。

[0114] 实现方式2，当记录的所述迭代更新次数大于1时，通过如下公式(3)对所述当前策略数据进行迭代更新：

[0115]

[0116] 其中，yz+1表征对当前策略数据进行第z+1次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、yz表征对当前策略数据进行第z次迭代更新后得到的当前策略数据中各个数据项构成的策略向量、表征对当前策略数据进行第z次迭代更新时得到的迭代误差、θ表征历史搜索过程中体现更利于搜索的方向变量的权重向量。

[0117] 对于实现方式1或实现方式2，首次对一个当前策略数据进行迭代更新时，上述公式(2)及公式(3)中的应当替换为用户结合实际业务场景预先设置的一个基准值。

[0118] 本发明一个实施例中，在得到对应于待匹配状态数据的目标策略数据之后，对所述待匹配状态数据及所述目标策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述待匹配状态数据及所述目标策略数据更新所述树结构。如此，则有利于后续过程中依据形成的树结构继续匹配其它待匹配状态数据所对应的目标策略数据。

[0119] 基于与本发明方法实施例相同的构思，请参考图3，本发明实施例还提供了一种确定策略数据的装置，包括：

[0120] 数据采集模块301，用于采集综合能源站在至少两个设定时间段内的实际状态数据及其对应的实际策略数据；

[0121] 编码处理模块302，用于对所述实际状态数据及所述实际策略数据下的每一个数据项分别进行编码处理，根据完成编码处理的所述实际状态数据、所述实际策略数据形成树结构，并记录所述树结构中每一个节点分别对应的所述实际状态数据及所述实际策略数据；

[0122] 节点确定模块303，用于从所述树结构中确定出与待匹配状态数据相邻的相邻节点，确定所述相邻节点对应的当前策略数据；

[0123] 搜索处理模块304，用于根据所述待匹配状态数据，将所述当前策略数据作为起始点搜索所述能效模型的最优解以得到目标策略数据。

[0124] 请参考图4，本发明一个实施例中，所述节点确定个模块303，包括：距离计算单元3031和节点确定单元3032；其中，

[0125] 所述距离计算单元3031，用于针对于树结构中的每个节点，通过第一公式计算所述节点与所述待匹配状态数据之间的距离，其中，所述第一公式包括：

[0126]

[0127] 其中，F表征节点与待匹配状态数据之间的距离、m表征待匹配状态数据中所包含的数据项的总数、w(i)表征待匹配状态数据中第i个数据项所对应的权重系数、Xk(i)表征待匹配状态数据中第i个数据项、表征节点对应的各个实际状态数据中第i个数据项的平均值；

[0128] 所述节点确定单元3032，用于根据各个所述节点与所述待匹配状态数据之间的所述距离，从各个所述节点中选择至少一个目标节点作为与所述待匹配状态数据相邻的相邻节点。

[0129] 本发明一个实施例中，所述搜索处理模块304，用于执行如下各个步骤，[0130] 将所述待匹配状态数据代入所述能效模型的目标函数；

[0131] 针对每一个所述当前策略数据分别执行如下A0～A5：

[0132] A0、对所述当前策略数据进行迭代更新，并将记录的迭代更新次数加1；

[0133] A1、对所述能效模型的目标函数关于所述当前策略数据中各个数据项对应的变量分别进行求导以得到梯度向量；

[0134] A2、根据所述梯度向量确定迭代误差；

[0135] A3、检测所述迭代误差的绝对值是否小于预设阈值，是则执行A5，否则执行A4；

[0136] A4、检测迭代次数是否达到设定次数，是则执行A5，否则执行A0；

[0137] A5、将所述当前策略数据确定为局部最优解；

[0138] 针对每一个所述局部最优解，将所述待匹配状态数据及所述局部最优解代入所述能效模型的目标函数以计算适应度值；

[0139] 根据各个所述局部最优解分别对应的所述适应度值，从各个所述最优解中确定出目标策略数据。

[0140] 为了描述的方便，描述以上装置实施例时以功能分为各种单元或模块分别描述，在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。

[0141] 图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

[0142] 处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

[0143] 存储器，用于存放计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

[0144] 在一种可能实现的方式中，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，也可从其它设备上获取相应的计算机程序，以在逻辑层面上形成确定策略数据的装置。处理器执行存储器所存放的执计算机程序，以通过执行的计算机程序实现本发明任一实施例中提供的确定策略数据的方法。

[0145] 上述如本发明图3、图4所示实施例提供的确定策略数据的装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

[0146] 结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

[0147] 本发明实施例还提出了一种计算机可读存储介质，该可读存储介质存储有计算机程序，存储的计算机程序被电子设备的处理器执行时，能够使该电子设备执行本发明任一实施例中提供的确定策略数据的方法，并具体用于执行如图1所示的方法。

[0148] 前述各个实施例中所述的电子设备可以为计算机。

[0149] 综上所述，本发明提供的技术方案可实现结合相应的待匹配状态数据确定其对应的策略数据，便于综合能源系统在实际运行过程中接收到外部提供的与该待匹配状态数据相对应的能源时，根据该待匹配状态数据及策略数据运行以避免资源浪费。

[0150] 本领域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

[0151] 本发明中的各个实施例采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0152] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

[0153] 以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

一种确定策略数据的方法、装置、可读介质及电子设备转让专利

申请号 : CN201910042690.X

文献号 : CN109857911B

文献日 : 2021-03-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李合敏

申请人 : 新奥数能科技有限公司

摘要 :

权利要求 :

说明书 :