电动机控制装置、变换器控制装置、机械学习装置及方法转让专利

申请号 : CN201610618087.8

文献号 : CN106411208B

文献日 : 2018-01-16

本发明提供一种电动机控制装置、变换器控制装置、机械学习装置及方法。机械学习装置(1)具备：状态观测部(11)，其观测状态变量，该状态变量由以下数据中的至少一个数据构成：与DC链路的直流电压的值相关的数据、与通过变换器(101)的电源再生动作从DC链路侧返回交流电源侧的电能即电源再生量相关的数据、与表示DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据；学习部(12)，其按照由状态变量构成的训练数据集，学习与变换器(101)的电源再生动作相关联的条件。

1.一种机械学习装置，其学习与变换器的将DC链路侧的直流电力变换为交流电力后返回交流电源侧的电源再生动作相关联的条件，所述变换器通过从交流电源侧的交流电力进行变换来生成用于生成电动机驱动用交流电力的所述DC链路中的直流电力，所述机械学习装置的特征在于，具备：状态观测部，其观测状态变量，该状态变量由以下数据中的至少一个数据构成：与所述DC链路的直流电压的值相关的数据、与通过所述变换器的电源再生动作从所述DC链路侧返回交流电源侧的电能即电源再生量相关的数据、与表示所述DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据；以及学习部，其按照由所述状态变量构成的训练数据集，学习与所述变换器的电源再生动作相关联的条件。

2.根据权利要求1所述的机械学习装置，其特征在于，

所述学习部具备：

回报计算部，其根据所述状态变量计算回报；

函数更新部，其根据所述回报来更新函数，所述函数用于变更成为所述变换器开始电源再生动作的基准的DC链路电压即电源再生开始电压以及成为所述变换器停止已开始的该电源再生动作的基准的DC链路电压即电源再生停止电压。

3.根据权利要求2所述的机械学习装置，其特征在于，

所述回报计算部在由所述状态观测部观测到的当前的DC链路的直流电压高于在该当前的DC链路的直流电压之前由所述状态观测部观测到的DC链路的直流电压时增加回报。

4.根据权利要求2所述的机械学习装置，其特征在于，

所述回报计算部在由所述状态观测部观测到的当前的DC链路的直流电压低于在该当前的DC链路的直流电压之前由所述状态观测部观测到的DC链路的直流电压时减少回报。

5.根据权利要求2所述的机械学习装置，其特征在于，

所述回报计算部在由所述状态观测部观测到的当前的电源再生量小于在该当前的电源再生量之前由所述状态观测部观测到的电源再生量时增加回报。

6.根据权利要求2所述的机械学习装置，其特征在于，

所述回报计算部在由所述状态观测部观测到的当前的电源再生量大于在该当前的电源再生量之前由所述状态观测部观测到的电源再生量时减少回报。

7.根据权利要求2所述的机械学习装置，其特征在于，

所述回报计算部在由所述状态观测部观测到没有发生所述过电压警报时增加回报。

8.根据权利要求2所述的机械学习装置，其特征在于，

所述回报计算部在由所述状态观测部观测到发生了所述过电压警报时减少回报。

9.根据权利要求1至8中的任意一项所述的机械学习装置，其特征在于，将所述学习部构成为按照对于多个变换器取得的所述训练数据集，学习所述条件。

10.一种变换器的控制装置，该控制装置具备权利要求1至9中的任意一项所述的机械学习装置，该控制装置的特征在于，具备：意图决定部，其根据所述学习部按照所述训练数据集进行学习的结果，对当前的所述状态变量的输入进行响应，来决定电源再生开始电压以及电源再生停止电压；以及变换器用电力变换动作控制部，其控制将交流电源侧的交流电力与DC链路侧的直流电力相互进行变换的变换器的电力变换动作，所述变换器用电力变换动作控制部在所述DC链路的直流电压上升从而超过由所述意图决定部决定的所述电源再生开始电压时，对所述变换器指令开始电源再生动作，在所述变换器开始了电源再生动作后，在所述DC链路的直流电压下降从而低于由所述意图决定部决定的所述电源再生停止电压时，对所述变换器指令停止电源再生动作。

11.根据权利要求10所述的变换器的控制装置，其特征在于，

将所述学习部构成为按照由所述当前的状态变量构成的追加的训练数据集，再学习所述条件来进行更新。

12.根据权利要求10或11所述的变换器的控制装置，其特征在于，还具备测定所述DC链路的直流电压的直流电压测定部、测定所述电源再生量的电源再生量测定部、接收与所述过电压警报有无发生相关的数据的过电压警报接收部中的至少一个。

13.一种电动机控制装置，其具备权利要求10至12中的任意一项所述的变换器的控制装置，其特征在于，还具备逆变器用电力变换动作控制部，其控制将所述DC链路侧的直流电力与交流电动机侧的交流电力相互进行变换的逆变器的电力变换动作。

14.一种机械学习方法，其学习与变换器的将DC链路侧的直流电力变换为交流电力后返回交流电源侧的电源再生动作相关联的条件，所述变换器通过从交流电源侧供给的交流电力进行变换来生成所述DC链路中的直流电力，该直流电力用于生成用于电动机驱动的交流电力，所述机械学习方法的特征在于，具备：观测状态变量的步骤，该状态变量由以下数据中的至少一个数据构成：与所述DC链路的直流电压的值相关的数据、与通过所述变换器的电源再生动作从所述DC链路侧返回交流电源侧的电能即电源再生量相关的数据、与表示所述DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据；以及按照由所述状态变量构成的训练数据集，学习与所述变换器的电源再生动作相关联的条件的步骤。

电动机控制装置、变换器控制装置、机械学习装置及方法

技术领域

[0001] 本发明涉及一种电动机控制装置、在该电动机控制装置中使用的变换器的控制装置以及用于该变换器的控制装置的机械学习装置及其方法，上述电动机控制装置在将从交流电源侧提供的交流电力变换为直流电力来输出到直流链路后将该直流电力进一步变换为用于驱动电动机的交流电力来提供给电动机。

背景技术

[0002] 在对机床、锻压机械、注射成型机、工业机械、或者各种机器人内的电动机进行驱动的电动机控制装置中，在将从交流电源侧提供的交流电力暂时变换为直流电力后进一步变换为交流电力，将该交流电力用作针对每个驱动轴设置的电动机的驱动电力。

[0003] 图7是表示一般的电动机控制装置的结构的图。电动机控制装置100具备：将来自商用交流电源103(以下简称为“交流电源”)的交流电力变换为直流电力的变换器101；将从变换器101输出的直流电力变换为作为电动机104的驱动电力而提供的希望频率的交流电力或者将电动机104再生的交流电力变换为直流电力的逆变器102，控制与该逆变器102的交流侧连接的电动机104的速度、转矩、或者转子的位置。为了使附图简明扼要，在图7中表示了驱动一台电动机104的情况。一般来说，在驱动多个驱动轴时，针对每个驱动轴分别设置电动机，此时，为了单独对各个电动机提供驱动电力，需要设置多个逆变器。

[0004] 变换器101和逆变器102经由DC链路(直流链路)来连接。在DC链路中设置有DC链路电容器105。DC链路电容器105具有积蓄直流电力的蓄电功能以及抑制变换器101的直流输出的脉动量的平滑功能。

[0005] 近年来，因为节能的要求，作为电动机控制装置中的变换器，例如多使用日本专利第2567830号公报中记载的那样的，可使电动机减速时生成的再生电力返回到交流电源侧的电源再生方式的变换器。

[0006] 电源再生方式的变换器具有把从交流电源侧提供的交流电力变换为直流电力来输出到DC链路侧的功能，并且还具有在电动机减速时将从DC链路侧提供的直流电力变换为交流电力来输出到交流电源侧的功能。通过逆变器将电动机减速时电动机产生的再生电力从交流电力变换为直流电力，将该直流电力经由DC链路输入到变换器，并且通过变换器变换为交流电力后在交流电源侧进行电源再生。

[0007] 作为电源再生方式的变换器，例如有PWM控制方式整流电路或120度通电型整流电路等。

[0008] 其中，PWM控制方式整流电路例如像在日本特开平8-47279号公报中记载的那样，由半导体开关元件以及与其逆并联连接的二极管的桥电路构成，对内部的半导体开关元件的开关动作进行PWM控制，在交流电源侧的交流电力和直流链路侧的直流电力之间进行电力变换。

[0009] 在这样的电动机控制装置中，在DC链路中设置的DC链路电容器的两端施加的直流电力压(以下有时简称为“DC链路电压”)与以下的量对应地进行变动：由电动机消耗的驱动电力的量或者由电动机产生的再生电力的量、通过变换器从交流电力向直流电力的电力变换量或其反方向的电力变换量、通过逆变器从直流电力向交流电力的电力变换量或其反方向的电力变换量。例如在电动机减速时，通过逆变器将电动机产生的交流的再生电力变换为直流电力，但是通过调整变换器的从直流电力向交流电力的变换动作(以下称为“通过变换器的电源再生动作”)来进行调整，以使DC链路电压成为不会损坏变换器及逆变器内的各元件以及不会损坏DC链路电容器的电压。

[0010] 例如，像在日本专利第5319318号公报中记载的那样，提出了若干根据DC链路电压的大小控制变换器的电源再生动作的方法。

[0011] 如上所述，通过逆变器将电动机减速时电动机产生的交流的再生电力变换为直流电力来返回到DC链路，因此DC链路电压升高。如果由于再生电力使DC链路电压升得过高，则会损坏变换器及逆变器内的各元件以及DC链路电容器，或者由于为了防止损坏而设置的过电压警报，电动机控制装置停止，因此需要使变换器进行电源再生动作从而使DC链路中的能量返回到交流电源侧。另一方面，如果变换器进行电源再生，则由于开关损耗导致变换器内的半导体开关元件发热。特别是如果长时间进行电源再生，变换器内的半导体开关元件的发热变大，由此变换器内的半导体开关元件会发生热损坏，或者由于以变换器内的半导体开关元件的过热保护为目的的过电压警报而使电动机控制装置停止。由此，一边极力避免电源再生，一边为了使DC链路电压不过于升高，进行调整从容高效且恰当地进行变换器的电源再生动作是非常重要的。这样的调整在电动机控制装置的设计阶段由设计者进行，或者在组装了电动机控制装置的机械的调整阶段由作业者手动进行。另外，根据各个机械的运转状况通过手动进行这样的调整是非常复杂的。

发明内容

[0012] 鉴于上述问题，本发明的目的在于提供一种可高效率地进行变换器的将DC链路侧的直流电力变换为交流电力来返回到交流电源侧的电源再生动作的电动机控制装置、在该电动机控制装置中使用的变换器的控制装置，以及用于该变换器的控制装置的机械学习装置及其方法，其中，上述变换器通过从交流电源侧的交流电力进行变换，来生成为了生成用于驱动电动机的交流电力而使用的DC链路中的直流电力。

[0013] 为了实现上述的目的，机械学习装置，学习与变换器的将DC链路侧的直流电力变换为交流电力后返回交流电源侧的电源再生动作相关联的条件，变换器通过从交流电源侧的交流电力进行变换来生成用于生成电动机驱动用交流电力的DC链路中的直流电力，机械学习装置具备：状态观测部，其观测状态变量，该状态变量由以下数据中的至少一个数据构成：与DC链路的直流电压的值相关的数据、与通过变换器的电源再生动作从DC链路侧返回交流电源侧的电能即电源再生量相关的数据、与表示DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据；以及学习部，其按照由状态变量构成的训练数据集，学习与变换器的电源再生动作相关联的条件。

[0014] 在此，学习部可以具备：回报计算部，其根据状态变量计算回报；函数更新部，其根据回报来更新函数，函数用于变更成为变换器开始电源再生动作的基准的DC链路电压即电源再生开始电压以及成为变换器停止已开始的该电源再生动作的基准的DC链路电压即电源再生停止电压。

[0015] 另外，回报计算部可以在由状态观测部观测到的当前的DC链路的直流电压高于在该当前的DC链路的直流电压之前由状态观测部观测到的DC链路的直流电压时增加回报。

[0016] 另外，回报计算部可以在由状态观测部观测到的当前的DC链路的直流电压低于在该当前的DC链路的直流电压之前由状态观测部观测到的DC链路的直流电压时减少回报。

[0017] 另外，回报计算部可以在由状态观测部观测到的当前的电源再生量小于在该当前的电源再生量之前由状态观测部观测到的电源再生量时增加回报。

[0018] 另外，回报计算部可以在由状态观测部观测到的当前的电源再生量大于在该当前的电源再生量之前由状态观测部观测到的电源再生量时减少回报。

[0019] 另外，回报计算部可以在由状态观测部观测到没有发生过电压警报时增加回报。

[0020] 另外，回报计算部可以在由状态观测部观测到发生了过电压警报时减少回报。

[0021] 另外，学习部可以构成为按照对于多个变换器取得的训练数据集，学习条件。

[0022] 另外，一种变换器的控制装置，其具备上述的机械学习装置，其具备：意图决定部，其根据学习部按照训练数据集进行学习的结果，对当前的状态变量的输入进行响应，来决定电源再生开始电压以及电源再生停止电压；以及变换器用电力变换动作控制部，其控制将交流电源侧的交流电力与DC链路侧的直流电力相互进行变换的变换器的电力变换动作，变换器用电力变换动作控制部在DC链路的直流电压上升从而超过由意图决定部决定的电源再生开始电压时，对变换器指令开始电源再生动作，在变换器开始了电源再生动作后，在DC链路的直流电压下降从而低于由意图决定部决定的电源再生停止电压时，对变换器指令停止电源再生动作。

[0023] 在此，可以将学习部构成为按照由当前的状态变量构成的追加的训练数据集，再学习条件来进行更新。

[0024] 另外，变换器的控制装置可以还具备测定DC链路的直流电压的直流电压测定部、测定电源再生量的电源再生量测定部、接收与过电压警报有无发生相关的数据的过电压警报接收部中的至少一个。

[0025] 另外，具备上述变换器的控制装置的电动机控制装置还具备逆变器用电力变换动作控制部，其控制将DC链路侧的直流电力与交流电动机侧的交流电力相互进行变换的逆变器的电力变换动作。

[0026] 另外，一种机械学习方法，其学习与变换器的将DC链路侧的直流电力变换为交流电力后返回交流电源侧的电源再生动作相关联的条件，变换器通过从交流电源侧供给的交流电力进行变换来生成DC链路中的直流电力，该直流电力用于生成用于电动机驱动的交流电力，机械学习方法具备：观测状态变量的步骤，该状态变量由以下数据中的至少一个数据构成：与DC链路的直流电压的值相关的数据、与通过变换器的电源再生动作从DC链路侧返回交流电源侧的电能即电源再生量相关的数据、与表示DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据；以及按照由状态变量构成的训练数据集，学习与变换器的电源再生动作相关联的条件的步骤。

附图说明

[0027] 通过参照以下的附图，可以更加明确地理解本发明。

[0028] 图1是实施例的机械学习装置的原理框图。

[0029] 图2是表示实施例的机械学习方法的动作原理的流程图。

[0030] 图3是实施例的使用强化学习的机械学习装置的原理框图。

[0031] 图4是表示实施例的使用强化学习的机械学习方法的原理的流程图。

[0032] 图5是表示具备实施例的机械学习装置的变换器的控制装置、以及具备该变换器的控制装置的电动机控制装置的原理框图。

[0033] 图6是表示实施例的使用强化学习的机械学习装置的动作流程的流程图。

[0034] 图7表示一般的电动机控制装置的结构。

具体实施方式

[0035] 以下，参考附图来说明调整电源再生的电动机控制装置、变换器的控制装置以及机械学习装置及机械学习方法。然而，希望理解本发明并不限于附图或以下说明的实施方式。

[0036] 图1是实施例的机械学习装置的原理框图。以后，在不同的附图中被赋予了相同的参考符号的构成要素意味着是具有相同功能的构成要素。

[0037] 实施例的机械学习装置1在具备变换器和逆变器的电动机控制装置中，学习与变换器所执行的将DC链路则的直流电力变换为交流电力后返回交流电源侧的电源再生动作相关联的条件，其中，上述变换器将来自交流电源的交流电力变换为直流电力后输出给DC链路，上述逆变器将DC链路的直流电力变换为作为电动机的驱动电力而提供的期望频率的交流电力后提供给电动机或者将从电动机再生的交流电力变换为直流电力后输出给DC链路。即，机械学习装置1学习与能够实现变换器101的高效的电源再生动作的电源再生动作相关联的条件，即电源再生开始电压以及电源再生停止电压。

[0038] 机械学习装置1具备状态观测部11和学习部12。

[0039] 状态观测部11观测状态变量来作为训练数据集，状态变量由以下数据中的至少一个数据构成：与DC链路的直流电压的值相关的数据、与通过变换器的电源再生动作从DC链路侧向交流电源侧返回的电能即电源再生量相关的数据、表示DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据。

[0040] 学习部12按照由状态变量构成的训练数据集，学习与变换器的电源再生动作相关联的条件，即电源再生开始电压以及电源再生停止电压。此外，也可以从多个变换器取得训练数据集，此时，学习部12按照针对多个变换器取得的训练数据集，学习与电源再生动作相关联的条件。

[0041] 图2是表示实施例的机械学习方法的动作原理的流程图。机械学习方法学习与变换器的将DC链路侧的直流电力变换为交流电力后返回交流电源侧的电源再生动作相关联的条件，所述变换器通过从交流电源侧供给的交流电力进行变换来生成为了生成用于驱动电动机的交流电力而使用的DC链路中的直流电力，所述机械学习方法具备状态观测步骤S101和机械学习步骤S102。

[0042] 状态观测步骤S101通过状态观测部11来执行，即为观测由以下数据中的至少一个数据构成的状态变量：与DC链路的直流电压的值相关的数据、与通过变换器的电源再生动作从DC链路返回交流电源侧的电能即电源再生量相关的数据、与表示DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据。

[0043] 机械学习步骤S102通过学习部12来执行，即按照由状态变量构成的训练数据集，学习与变换器的电源再生动作相关联的条件。

[0044] 学习部12所用的学习算法可以使用任何算法。在此，作为一个例子，说明采用了强化学习(Reinforcement Learning)的情况。强化学习是指某个环境中的智能体(行为主体)观测当前的状态，并决定应采取的行为。智能体通过选择行为从环境取得回报，通过一连串的行为来学习得到最多回报的策略。作为强化学习的代表性方法，已知有Q学习(Q-Learning)或TD学习(TD-Learning)。例如在Q学习的情况下，行为价值函数Q(s，a)的一般的更新式(行为价值表)由式1来表示。

[0045]

[0046] 在式1中，st表示在时刻t的环境，at表示在时刻t的行为。通过行为at，环境变为st+1。rt+1表示由于环境的变化所得到的回报(reward)，γ表示折扣率，α表示学习系数。在应用了Q学习的情况下，电源再生开始电压以及电源再生停止电压成为行为at。

[0047] 图3是实施例的使用了强化学习的机械学习装置的原理框图。学习部12具备回报计算部21和函数更新部22。回报计算部21根据状态变量计算回报。函数更新部22根据回报来更新函数，该函数用于变更成为变换器开始电源再生动作的基准的DC链路电压即电源再生开始电压以及成为变换器停止已开始的该电源再生动作的基准的DC链路电压即电源再生停止电压。例如，在Q学习的情况下，将式1表示的行为价值函数(s，a)作为用于变更行为at即电源再生开始电压以及电源再生停止电压的函数来使用。关于这些以外的电路构成要素，与图1所示的电路构成要素相同，因此对同一电路构成要素赋予同一符号并省略该电路构成要素的详细说明。

[0048] 图4是表示实施例的使用强化学习的机械学习方法的原理的流程图。

[0049] 首先，在状态观测步骤S101中，状态观测部11观测状态变量，该状态变量由以下数据中的至少一个数据构成：与DC链路的直流电压的值相关的数据、与通过变换器的电源再生动作从DC链路返回交流电源侧的电能即电源再生量相关的数据、与表示DC链路的直流电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据。

[0050] 接着，在回报计算步骤S102-1中，回报计算部21根据在步骤S101中观测到的状态变量计算回报。

[0051] 接着，在函数更新步骤S102-2中，函数更新部22根据回报更新函数，该函数用于变更成为变换器开始电源再生动作的基准的DC链路电压即电源再生开始电压以及成为变换器停止已开始的该电源再生动作的基准的DC链路电压即电源再生停止电压。

[0052] 然后，对具备上述机械学习装置的变换器的控制装置以及具备该变换器的控制装置的电动机控制装置进行说明。在此，作为一个例子，说明作为学习部的学习算法使用了强化学习的情况。

[0053] 图5是表示具备实施例的机械学习装置的变换器的控制装置、以及具备该变换器的控制装置的电动机控制装置的原理框图。在此，说明对一个电动机104进行驱动控制的电动机控制装置1000，但是，关于通过电动机控制装置1000驱动控制的电动机104的个数，在本发明中并不特别限定，也可以为多个。另外，关于通过电动机控制装置1000驱动的电动机104的种类，在本发明中并不特别限定，例如可以是感应电动机也可以是同步电动机。另外，关于相数在本发明中也不特别限定，除了三相以外，例如也可以是单相或其他的多相。

[0054] 作为主要电路结构，电动机控制装置1000具备变换器101、逆变器102、DC链路电容器105。在电动机控制装置1000的三相交流输入侧连接交流电源103，在电动机控制装置1000的交流电动机侧连接三相的电动机104。此外，为了简化说明，在图5中将用于驱动电动机104的控制系统统一记载为逆变器用电力变换动作控制部41。另外，关于在将DC链路电压从0(V)升压到交流电源的电压峰值时使用的初始充电单元，省略了图示。

[0055] 变换器101根据从变换器用电力变换动作控制部14接收的指令，在交流电源103侧的交流电力与直流侧即DC链路的直流电力之间进行电力变换。即，变换器101是将从交流电源103侧提供的交流电力变换为直流电力后输出到直流侧，或者将DC链路中的直流电力变换为交流电力后输出到交流电源103侧的，能够在交直流双向上进行变换的电力变换器。只要变换器101是能够在交直流双向上进行变换的电力变换器，则不特别限定实施方式，例如有120度通电型整流电路或者PWM控制方式的整流电路等。变换器101由开关元件以及与其逆并联连接的二极管的桥电路构成。作为开关元件的例子，具有IGBT、晶闸管、GTO(Gate Turn-OFF thyristor：门极可关断晶闸管)、晶体管等，但是在本发明中不限定开关元件的种类本身，也可以是其他的半导体元件。例如，在变换器101为PWM控制方式的整流器的情况下，关于其内部的开关元件的开关动作，根据变换器用电力变换动作控制部14生成的PWM控制信号控制变换器101，从而产生功率因数1的交流电力，并且把在DC链路电容器105的两端施加的直流电压保持为希望的值，并且控制变换器101使其进行将交流电力变换为直流电力的动力运行动作(正变换动作)以及将直流电力变换为交流电力的电源再生动作(逆变换动作)中的某一个动作。在通过电动机控制装置1000的控制使电机104进行减速时，电动机104产生再生电力，针对变换器101，根据PWM控制信号控制其内部的开关元件的开关动作，进行将直流电力变换为交流电力的电源再生动作(逆变换动作)，将经由逆变器102返回的再生能量进一步返回到交流电源103侧。

[0056] DC链路电容器105设置在将变换器101的直流侧与逆变器的直流侧相连接的DC链路中。DC链路电容器105具有积蓄DC链路中的直流电力的功能和抑制变换器101的直流输出的脉动量的平滑功能。

[0057] 逆变器102与DC链路相连接，能够在DC链路的直流电力和作为电动机104的驱动电力或再生电力的交流电力之间进行双向的电力变换，按照从逆变器用电力变换动作控制部41接收到的电动机驱动指令，进行将直流电力变换为交流电力的再生动作(逆变换动作)以及将交流电力变换为直流电力的动力运行动作(正变换动作)中的某一个动作。具体来说，逆变器102根据从逆变器用电力变换动作控制部41接收到的电动机驱动指令使内部的开关元件进行开关动作，从而将从DC链路侧提供的直流电力变换为用于驱动电动机104的期望的电压以及期望的频率的三相交流电力。由此，电动机104根据所提供的电压可变以及频率可变的三相交流电力进行动作。另外，在电动机104减速时产生再生电力，此时根据从逆变器用电力变换动作控制部41接收到的电动机驱动指令，将电动机104产生的交流的再生电力变换为直流电力后返回到DC链路。在通过电动机控制装置1000驱动控制多个电动机104时，为了对各个电动机104单独提供驱动电力来驱动控制电动机104，并联连接与电动机104的个数相同数量的逆变器102。逆变器102例如像PWM逆变器那样，由开关元件以及与其逆并联连接的二极管的桥电路构成。作为开关元件的例子，具有IGBT、晶闸管、GTO(Gate Turn-OFF thyristor：门极可关断晶闸管)、晶体管等，但是在本发明中不限定开关元件的种类自身，也可以是其他的半导体元件。

[0058] 作为变换器101的控制装置，电动机控制装置1000具备参照图3以及图4说明的使用了强化学习的机械学习装置1、意图决定部13、变换器用电力变换动作控制部14。

[0059] 机械学习装置1具备状态观测部11和学习部12。

[0060] 状态观测部11观测状态变量，该状态变量由以下数据中的至少一个数据构成：与DC链路的直流电压的值相关的数据、与通过变换器101的电源再生动作从DC链路侧返回交流电源103侧的电能即电源再生量相关的数据、与表示DC链路电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据。将观测到的状态变量作为训练数据集在学习部12的学习中使用。通过直流电压测定部31测定DC链路电压，通过电源再生量测定部32测定变换器101的电源再生量，通过过电压警报接收部33接收与过电压警报有无发生相关的数据。此外，关于电源再生量测定部32针对电源再生量的测定，可以通过根据变换器101的交流电源103侧的交流电压和交流电流进行计算来实现，或者可以通过使用设置在变换器101的交流电源103侧的电能仪表(未图示)进行测量来实现，或者也可以通过根据DC链路电压(即直流电压测定部31测定出的直流电压)和从变换器101向DC链路侧输出的直流电流进行计算来实现。

[0061] 学习部12内的回报计算部21根据通过状态观测部11观测到的状态变量计算回报。

[0062] 在将与DC链路电压的值相关数据作为状态变量时，在通过状态观测部11观测到的当前的DC链路电压高于在该当前的DC链路电压之前通过状态观测部11观测到的DC链路电压时(即DC链路电压上升时)，回报计算部21增加回报，在通过状态观测部11观测到的当前的DC链路电压低于在该当前的DC链路电压之前通过状态观测部11观测到的DC链路电压时(即DC链路电压降低时)，回报计算部21减少回报。如上所述，在DC链路电压上升时增加回报，在DC链路电压下降时减少回报，其原因在于，如果DC链路电压降低，则在发生了瞬间电压降低或发生了停电时，变换器101可使用的电力降低。

[0063] 另外，在将与电源再生量相关的数据作为状态变量时，回报计算部21在通过状态观测部11观测到的当前的电源再生量小于在该当前的电源再生量之前通过状态观测部11观测到的电源再生量时(即，电源再生量减少时)增加回报，在通过状态观测部11观测到的当前的电源再生量大于在该当前的电源再生量之前通过状态观测部11观测到的电源再生量时(即，电源再生量增加时)减少回报。如上所述，在电源再生量减少时增加回报，在电源再生量增加时减少回报，其原因在于，如果变换器进行电源再生则由于开关损耗使得半导体开关元件发热，因此电源再生量越多，变换器的电源再生动作的效率越差。

[0064] 另外，在将与过电压警报有无发生相关的数据作为状态变量时，回报计算部21在通过状态观测部11观测到的没有发生过电压警报时增加回报，在通过状态观测部11观测到有发生过电压警报时减少回报。如上所述在产生过电压警报时减少回报，其原因在于，如果DC链路电压成为过电压，则变换器以及逆变器内的各元件以及DC链路电容有可能被损坏。

[0065] 学习部12内的函数更新部22根据由回报计算部21计算出的回报来更新函数，该函数用于变更电源再生开始电压以及电源再生停止电压。例如在为Q学习时，将式1所表示的行为价值函数Q(st，at)作为用于变更电源再生开始电压以及电源再生停止电压的函数来使用。

[0066] 意图决定部13根据学习部12按照训练数据集进行学习而得到的结果，对当前状态变量的输入进行响应，来决定电源再生开始电压以及电源再生停止电压。在本实施例中，例如一个例子，作为学习算法使用了强化学习，因此根据学习部12内的回报计算部21计算出的回报，学习部12内的函数更新部22更新用于变更电源再生开始电压以及电源再生停止电压的函数，意图决定部13根据更新后的函数来选择得到最多回报的电源再生开始电压以及电源再生停止电压。

[0067] 变换器用电力变换动作控制部14控制将交流电源103侧的交流电力与DC链路侧的直流电力相互进行变换的变换器101的电力变换动作。作为基本的动作，变换器用电力变换动作控制部14对变换器101进行指令从而使其将从交流电源103侧提供的交流电力变换为直流电力后输出到直流侧，并且根据直流电压测定部31测定出的DC链路电压来对变换器101进行指令使其进行电力再生动作。具体来说，变换器用电力变换动作控制部14在DC链路电压上升从而超过电源再生开始电压时，对变换器101进行指令使其开始电源再生动作，在变换器开始了电源再生动作后，在DC链路电压下降从而低于电源再生停止电压时对变换器指令停止电源再生动作。在变换器用电力变换动作控制部14的处理中使用的电源再生开始电压以及电源再生停止电压是如上所述由意图决定部13所决定的电压。在变换器101为PWM控制方式的整流器时，作为用于对变换器101内的开关元件的开关动作进行PWM控制的PWM控制信号，生成上述各指令。

[0068] 逆变器用电力变换动作控制部41控制将DC链路侧的直流电力与交流电动机侧的交流电力相互进行变换的逆变器102的电力变换动作。即，逆变器用电力变换动作控制部41使用电动机104的动作程序、逆变器102的交流电动机侧的交流电流或者交流电压以及/或电动机104的旋转速度等，作为用于控制电动机104的速度、转矩、或者转子位置的驱动指令，对逆变器102指令将交流电力变换为直流电力的动力运行动作(正变换动作)以及将直流电力变换为交流电力的再生动作(逆变换动作)中任意一个动作。在逆变器102为PWM控制方式的逆变器时，作为用于对逆变器102内开关元件的开关动作进行PWM控制的PWM控制信号，生成上述各指令。

[0069] 综合控制部51对变换器用电力变换动作控制部14以及逆变器用电力变换动作控制部41进行综合控制。

[0070] 图6是表示实施例的使用了强化学习的机械学习装置的动作流程的流程图。

[0071] 一般来说，在强化学习中随机地选择行为的初期值。在实施例中，在步骤S201随机地选择作为行为的电源再生开始电压以及电源再生停止电压的初始值。但是，电源再生开始电压必须为比电源再生停止电压高的值。

[0072] 在步骤S202中，电动机控制装置1000的综合控制部51对变换器用电力变换动作控制部14以及逆变器用电力变换动作控制部41进行与电动机104的驱动相关的指令。具体来说，变换器101根据从变换器用电力变换动作控制部14接收到的指令，将从交流电源103侧提供的交流电力变换为直流电力后输出到直流侧。逆变器102根据从逆变器用电力变换动作控制部41接收到的电动机驱动指令，进行将交流电力变换为直流电力的动力运行动作(正变换动作)以及将直流电力变换为交流电力的再生动作(逆变换动作)中的某一个动作。由此，电动机104进行加速动作、定速动作或者减速动作。

[0073] 在步骤S203中，作为训练数据集，状态观测部11观测状态变量，该状态变量由以下数据构成：与DC链路电压的值相关的数据、与通过变换器的电源再生动作从DC链路侧返回交流电源103侧的电能即电源再生量相关的数据、与表示DC链路电压超过了预先设定的过电压警报等级的过电压警报有无发生相关的数据。在本实施例中，作为一个例子将这三个数据作为状态变量，但也可以将这三个数据中的至少一个作为状态变量。

[0074] 在步骤S204中，状态观测部11观测DC链路电压是否升高，在DC链路电压升高时，即在观测到的当前的DC链路电压高于在该当前的DC链路电压之前测定出的DC链路电压时，在步骤S205中回报计算部21增加回报。另外，在DC链路电压降低时，即在观测到的当前的DC链路电压低于在该当前的DC链路电压之前观测到的DC链路电压时，在步骤S206中回报计算部21减少回报。

[0075] 在步骤S207中，状态观测部11观测通过变换器101的电源再生量是否增加，在电源量增加时，即在观测到的当前的电源再生量大于在该当前的电源再生量之前观测到的电源再生量时，在步骤S208中回报计算部21减少回报。在电源再生量减少了时，即在观测到的当前的电源再生量小于在该当前的电源再生量之前观测到的电源再生量时，在步骤S209中回报计算部21增加回报。

[0076] 在步骤S210中，状态观测部11观测是否产生了过电压警报，在观测到产生过电压警报时，在步骤S211中，回报计算部21减少回报。另外，在观测到没有产生过电压警报时，在步骤S212中，回报计算部21增加回报。

[0077] 上述的步骤S204～S206的处理、步骤S207～S209的处理、步骤S210～S212的处理可以任意地调换来执行。

[0078] 在步骤S213中，函数更新部22根据回报计算部21计算出的回报来更新用于变更电源再生开始电压以及电源再生停止电压的函数。

[0079] 接下来在步骤S214中，意图决定部13根据在步骤S213中更新后的函数，选择得到最多回报的电源再生开始电压以及电源再生停止电压。然后，返回步骤S202，从此之后，反复执行步骤S202～S214的处理。由此，机械学习装置1学习与能够实现变换器101的高效的电源再生动作的电源再生动作相关联的条件，即电源再生开始电压以及电源再生停止电压。可以从多个变换器101取得训练数据集，此时，学习部12按照针对多个变换器101取得的训练数据集，反复执行步骤S201～S214的处理，来学习电源再生开始电压以及电源再生停止电压。如果针对多个变换器101取得训练数据集，则机械学习装置1的学习精度提高。

[0080] 此外，上述的状态观测部11、学习部12以及意图决定部13例如也可以通过软件程序形式来构筑，或者可以通过各种电子电路与软件程序的组合来构筑。例如在以软件程序形式构筑这些部分时，通过使电动机控制装置1000内的运算处理装置按照该软件程序进行动作，来实现上述各部的功能。又或者，可以作为写入了用于实现各部的功能的软件程序的半导体集成电路来实现具备状态观测部11以及学习部12的机械学习装置1。又或者可以通过不仅包含具有状态观测部11以及学习部12的机械学习装置1还包含意图决定部13的方式，来实现写入了用于实现各部的功能的软件程序的半导体集成电路。

[0081] 另外，使用电动机控制装置1000为了驱动控制电动机原本具备的直流电压测定部21、电源再生量测定部32以及过电压警报接收部33测定的各种数据来执行机械学习处理，因此不需要像现有技术那样设置新的硬件装置，所以可以随后安装在既有的电动机控制装置中来使用。此时，可以在该既有的电动机控制装置中安装写入了用于实现机械学习装置1和意图决定部13的各部的功能的软件程序的半导体集成电路，也可以在该既有的电动机控制装置内的运算处理装置中追加安装用于实现机械学习装置1和意图决定部13的各部的功能的软件程序。另外，也可以将关于某个电动机控制装置已学习了电源再生开始电压以及电源再生停止电压的机械学习装置1安装在其他的电动机控制装置中，关于该其他的电动机控制装置再学习电源再生开始电压以及电源再生停止电压来进行更新。

[0082] 根据本发明，能够实现可高效地进行变换器的将DC链路侧的直流电力变换为交流电力后返回交流电源侧的电源再生动作的电动机控制装置、在该电动机控制装置中使用的变换器的控制装置、以及用于该变换器的控制装置的机械学习装置及其方法，上述变换器通过从交流电源侧的交流电力进行变换来生成用于生成驱动电动机的交流电力的DC链路中的直流电力。

[0083] 通过本发明，针对正在进行动作的电动机控制装置，机械学习装置自身调整能够高效且恰当地进行变换器的电源再生动作的电源再生开始电压以及电源再生停止电压，因此在电动机控制装置的设计阶段或运行阶段不需要人工进行调整。除此之外，由于通过机械学习装置进行调整即可，因此可以用较短的时间来进行目前复杂的运行状况不同的每个机械的变换器的电源再生动作的调整。对于运行状况相同的机械，通过多个机械学习装置分散地进行训练数据集的学习，由此与单独进行学习相比，能够用较短的时间进行变换器的电源再生动作的调整。另外，通过调整电源再生开始电压和电源再生停止电压，可以抑制电源再生造成的变换器以及逆变器内的半导体开关元件的发热，同时可以防止由于电源再生不足而发生的DC链路过电压警报。并且，通过抑制电源再生，可以利用DC链路电压的上升，对于发生瞬间电压降低或停电时的电力不足，使用在DC链路部中储存的电力，由此能够使机械持续运行。在没有发生瞬间电压降低或停电时，通过在逆变器的输出上升时使用在DC链路部中储存的电力，直到DC链路电压成为交流电源的电压峰值以下为止，在变换器的半导体开关元件中不会流过电流，因此可抑制半导体开关元件的发热。

电动机控制装置、变换器控制装置、机械学习装置及方法转让专利

申请号 : CN201610618087.8

文献号 : CN106411208B

文献日 : 2018-01-16

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 黑木涉

申请人 : 发那科株式会社

摘要 :

权利要求 :

说明书 :