机械学习装置和方法以及转子设计装置转让专利

申请号 : CN201610697198.2

文献号 : CN106557605B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 村上贵视

申请人 : 发那科株式会社

摘要 :

本发明涉及机械学习装置和方法以及转子设计装置。对与马达转子的铁芯上的磁铁的配置位置相关联的条件进行学习的机械学习装置具备:状态观测部(11),其观测由以下数据构成的状态变量:与排列设置在铁芯上的多个磁铁的配置位置有关的数据、与多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小有关的数据、以及与各磁铁的磁通密度有关的数据;以及学习部(12),其按照由状态变量构成的训练数据集,来对与铁芯上的磁铁的配置位置相关联的条件进行学习。

权利要求 :

1.一种机械学习装置,其对与马达转子的铁芯上的磁铁的配置位置进行学习,其特征在于,该机械学习装置具备:状态观测部,其观测由以下状态变量:排列设置在铁芯上的多个磁铁的配置位置、由齿槽转矩计算部计算出的所述多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小、以及各所述磁铁的磁通密度;以及学习部,其按照由所述状态变量构成的训练数据集,通过找出因排列设置在铁芯上的磁铁而产生的齿槽转矩的大小为最小时磁铁的最佳配置位置的位置数据的学习方式,来对所述铁芯上的磁铁的配置位置进行学习。

2.根据权利要求1所述的机械学习装置,其特征在于,

所述学习部具备:

回报计算部,其基于所述多个磁铁在所述铁芯上排列设置于某配置位置时产生的齿槽转矩的大小来计算回报;以及函数更新部,其基于所述状态变量以及所述回报来更新行为价值函数,该行为价值函数用于计算所述铁芯上的磁铁的配置位置。

3.根据权利要求2所述的机械学习装置,其特征在于,

当所述多个磁铁在所述铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的所述齿槽转矩的大小、之前通过所述状态观测部观测到的齿槽转矩的大小都小时,所述回报计算部增加回报,当所述多个磁铁在所述铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的所述齿槽转矩的大小、之前通过所述状态观测部观测到的齿槽转矩的大小都大时,所述回报计算部减少回报。

4.根据权利要求2所述的机械学习装置,其特征在于,

当所述多个磁铁在所述铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围内时,所述回报计算部增加回报,当所述多个磁铁在所述铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在所述规定范围外时,所述回报计算部减少回报。

5.根据权利要求2至4中任一项所述的机械学习装置,其特征在于,

所述函数更新部基于所述状态变量以及所述回报并按照神经网络模型来更新用于计算所述铁芯上的磁铁的配置位置的函数。

6.根据权利要求1至4中任一项所述的机械学习装置,其特征在于,

所述学习部构成为:按照针对多个转子而作成的所述训练数据集来学习所述铁芯上的磁铁的配置位置。

7.一种转子设计装置,其具备权利要求1至6中任一项所述的机械学习装置,其特征在于,该转子设计装置还具备:输入部,其输入各所述磁铁的磁通密度;

齿槽转矩计算部,其基于经由所述输入部输入的各所述磁铁的磁通密度,来计算所述多个磁铁在所述铁芯上排列设置于某配置位置时产生的齿槽转矩的大小;

意图决定部,其基于所述学习部按照所述训练数据集进行学习而得的结果,响应当前的所述状态变量的输入,来决定所述铁芯上的磁铁的配置位置;以及通知部,其通知通过所述意图决定部决定出的所述磁铁的配置位置。

8.根据权利要求7所述的转子设计装置,其特征在于,

该转子设计装置还具备:数据存储部,其存储与作为库存的磁铁的磁通密度有关的数据,该作为库存的磁铁的个数存在比用于某转子的组装的所述磁铁的个数更多,所述意图决定部基于所述学习部按照包含存储在所述数据存储部中的与所述作为库存的磁铁的磁通密度有关的数据的所述训练数据集进行学习而得的结果,以使对于各转子由排列设置在所述铁芯上的磁铁而产生的齿槽转矩的大小为最小的方式,从所述作为库存的磁铁中决定用于构成各所述转子的所述磁铁的组合以及其配置位置,所述通知部通知通过所述意图决定部决定出的所述磁铁的组合以及其配置位置。

9.一种机械学习方法,用于对与马达转子的铁芯上的磁铁的配置位置进行学习,其特征在于,该机械学习方法具备以下步骤:观测由以下数据构成的状态变量的状态观测步骤:排列设置在铁芯上的多个磁铁的配置位置、由齿槽转矩计算部计算出的所述多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小、以及各所述磁铁的磁通密度;以及学习步骤,按照由所述状态变量构成的训练数据集,通过找出因排列设置在所述铁芯上的磁铁而产生的齿槽转矩的大小为最小时磁铁的最佳配置位置的位置数据的学习方式,来对所述铁芯上的磁铁的配置位置进行学习。

说明书 :

机械学习装置和方法以及转子设计装置

技术领域

[0001] 本发明涉及对马达的转子上的磁铁的配置位置进行学习的机械学习装置和方法以及具备该机械学习装置的转子设计装置。

背景技术

[0002] 图11是说明通常的同步马达的转子组装的概略图。例如,如日本特开 2010-233325号公报中所记载,通过在铁芯101的周面上排列设置多个磁铁102 来作成同步马达的转子100。
[0003] 由于排列设置在构成转子的铁芯上的各个磁铁存在磁通密度的偏差,因此齿槽转矩根据铁芯上的磁铁的排列方法(配置位置)而变化。即,根据磁铁的配置位置情况,有时组装后的转子的进给的平稳性(齿槽转矩)会变差。
[0004] 迄今,在进行转子的组装时考虑各个磁铁的磁通密度的偏差时,如日本特开2010-233325号公报那样,存在通过追加用于调整各个磁铁的磁通密度的部件来使进给的平稳性最佳化的方法。但是,存在部件的追加所导致的成本增加、调整耗时等问题。
[0005] 另外,对于齿槽转矩(进给的平稳性)与磁铁的配置位置的关系,可利用市面上销售的分析软件来进行模拟。但是,例如在将n个(其中,n为自然数) 磁铁排列设置在铁芯上时,磁铁的排列顺序存在“n!(n的阶乘)”种 。在测定n个磁铁各自的磁通密度的基础上,针对磁铁的“n!”种全部配置模式对齿槽转矩大小进行模拟分析来决定使齿槽转矩大小最小化(使转子的进给的平稳性最佳)的磁铁的配置位置并不现实,事实上比较困难。

发明内容

[0006] 鉴于上述问题,本发明的目的在于提供一种机械学习装置和方法以及具备该机械学习装置的转子设计装置,可以容易地决定马达转子的铁芯上的磁铁的最佳配置位置。
[0007] 为了实现上述目的,本发明的机械学习装置,其对与马达转子的铁芯上的磁铁的配置位置相关联的条件进行学习,该机械学习装置具备:状态观测部,其观测由以下数据构成的状态变量:与排列设置在铁芯上的多个磁铁的配置位置有关的数据、与多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小有关的数据、以及与各磁铁的磁通密度有关的数据;以及学习部,其按照由状态变量构成的训练数据集,来对与铁芯上的磁铁的配置位置相关联的条件进行学习。
[0008] 其中,也可以是,学习部具备:回报计算部,其基于多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小来计算回报;以及函数更新部,其基于状态变量以及回报来更新函数,该函数用于计算铁芯上的磁铁的配置位置。
[0009] 另外,也可以是,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部观测到的齿槽转矩的大小都小时,回报计算部增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部观测到的齿槽转矩的大小都大时,回报计算部减少回报。
[0010] 另外,也可以是,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围内时,回报计算部增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围外时,回报计算部减少回报。
[0011] 另外,也可以是,函数更新部基于状态变量以及回报并按照神经网络模型来更新用于计算铁芯上的磁铁的配置位置的函数。
[0012] 另外,也可以是,学习部构成为:按照针对多个转子而作成的训练数据集来学习条件。
[0013] 另外,本发明的转子设计装置,其具备上述的机械学习装置,该转子设计装置还具备:输入部,其输入与各磁铁的磁通密度有关的数据;齿槽转矩计算部,其基于经由输入部输入的与各磁铁的磁通密度有关的数据,来计算多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小;意图决定部,其基于学习部按照训练数据集进行学习而得的结果,响应当前的状态变量的输入,来决定铁芯上的磁铁的配置位置;以及通知部,其通知通过意图决定部决定出的磁铁的配置位置。
[0014] 另外,也可以是,该转子设计装置还具备:数据存储部,其存储与作为库存的磁铁的磁通密度有关的数据,该作为库存的磁铁的个数存在比用于某转子的组装的磁铁的个数更多,意图决定部基于学习部按照包含存储在数据存储部中的与作为库存的磁铁的磁通密度有关的数据的训练数据集进行学习而得的结果,以使对于各转子由排列设置在铁芯上的磁铁而产生的齿槽转矩的大小为最小的方式,从作为库存的磁铁中决定用于构成各转子的磁铁的组合以及其配置位置,通知部通知通过意图决定部决定出的磁铁的组合以及其配置位置。
[0015] 另外,本发明的机械学习方法,用于对与马达转子的铁芯上的磁铁的配置位置相关联的条件进行学习,该机械学习方法具备以下步骤:观测由以下数据构成的状态变量的状态观测步骤:与排列设置在铁芯上的多个磁铁的配置位置有关的数据、与多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小有关的数据、以及与各磁铁的磁通密度有关的数据;以及学习步骤,按照由状态变量构成的训练数据集,来对与铁芯上的磁铁的配置位置相关联的条件进行学习。

附图说明

[0016] 通过参照以下的附图,可更清楚地理解本发明。
[0017] 图1是实施例的机械学习装置的原理框图。
[0018] 图2是例示磁铁的磁通密度的图。
[0019] 图3是表示实施例的机械学习方法的动作流程的流程图。
[0020] 图4是实施例的使用了强化学习的机械学习装置的原理框图。
[0021] 图5是表示实施例的使用了强化学习的机械学习方法的动作流程的流程图。
[0022] 图6是表示实施例的具备机械学习装置的转子设计装置的原理框图。
[0023] 图7是表示实施例的具备机械学习装置的转子设计装置的动作流程的流程图。
[0024] 图8是表示实施例的变形例的具备机械学习装置的转子设计装置的原理框图。
[0025] 图9是表示神经元的模型的模式图。
[0026] 图10是表示具有D1~D3的3层权值的神经网络的模式图。
[0027] 图11是说明通常的同步马达转子的组装的概略图。

具体实施方式

[0028] 以下,参照附图对学习转子上的磁铁的配置位置的机械学习装置、方法以及具备该机械学习装置的转子设计装置进行说明。但是,希望理解本发明不限于附图或者以下说明的实施方式。
[0029] 图1是实施例的机械学习装置的原理框图。之后,在不同的附图中附加了相同的参照符号的部分表示具有相同功能的构成要素。
[0030] 通过在铁芯上排列设置多个磁铁来作成同步马达的转子,实施例的机械学习装置1构成为对马达的转子的铁芯上的磁铁的配置位置进行学习。只要是在转子中使用磁铁的马达(同步马达)就可应用本发明,另外,也可以在将磁铁贴装于转子表面的表面贴装式(SPM)马达、将磁铁内嵌于转子内的内嵌式 (IPM)马达中应用本发明。
[0031] 机械学习装置1具备状态观测部11及学习部12。
[0032] 状态观测部11观测状态变量,所述状态变量由与排列设置在铁芯上的多个磁铁的配置位置有关的数据、与多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小有关的数据、以及与各磁铁的磁通密度有关的数据构成。
[0033] 在将多个磁铁并排设置在铁芯上时,磁铁的排列顺序存在多种模式,对于各模式的齿槽转矩的大小使用公知的分析软件并利用计算机计算而得。另外,图2是例示磁铁的磁通密度的图。排列设置在构成转子的铁芯上的各个磁铁存在磁通密度的偏差,在本实施方式中,预先测定各磁铁的磁通密度,将各磁铁的磁通密度与识别编号(在图示的例子中为M1~M5)建立关联而进行数据库化。
[0034] 学习部12按照由状态变量构成的训练数据集来学习铁芯上的磁铁的配置位置。此外,也可以就多个转子的情况取得训练数据集,这种情况下,学习部 12按照针对多个转子而作成的训练数据集来学习铁芯上的磁铁的配置位置。此外,也可以是学习部12基于与具备该学习部12的机械学习装置1不同的机械学习装置内的学习部学习而得的结果来学习铁芯上的磁铁的配置位置。
[0035] 图3是表示实施例的机械学习方法的动作流程的流程图。学习与马达的转子的铁芯上的磁铁的配置位置相关联的条件的机械学习方法具备状态观测步骤S101及学习步骤S102。
[0036] 状态观测部11执行状态观测步骤S101,即观测状态变量,其中所述状态变量由与排列设置在铁芯上的多个磁铁的配置位置有关的数据、与多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小有关的数据、以及与各磁铁的磁通密度有关的数据构成。
[0037] 学习部12执行学习步骤S102,即按照由状态变量构成的训练数据集来学习铁芯上的磁铁的配置位置。
[0038] 关于机械学习装置1所使用的学习算法可以使用任何算法。机械学习装置 1具有如下功能:通过分析从输入到装置的数据集合提取其中存在的有用的规则、知识表现、判断标准等,输出其判断结果并且进行知识的学习。其方法各种各样,大致可分为“有教师学习”、“无教师学习”、“强化学习”。还存在被称作“深层学习”的方法,该方法在实现了上述方法的基础上学习特征量自身的提取。以下,参照图4及图5以使用了强化学习的情况为例进行说明。关于“有教师学习”、“无教师学习”等后续描述。
[0039] 图4是实施例的使用了强化学习的机械学习装置的原理框图。学习部12 具备回报计算部21及函数更新部22。此外,由于回报计算部21及函数更新部22以外的构成要素与图1所示的构成要素相同,因此对相同构成要素附加相同符号并省略关于该构成要素的详细说明。
[0040] 回报计算部21基于多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小来计算回报。即,回报计算部21捕捉为齿槽转矩的大小越小则铁芯上的磁铁的该配置位置所带来的影响越好并赋予高回报。例如,可以是当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部11观测到的齿槽转矩的大小都小时,回报计算部21增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部11观测到的齿槽转矩的大小都大时,回报计算部21减少回报。又例如,也可以是当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围内时,回报计算部21增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围外时,回报计算部21减少回报。
[0041] 函数更新部22基于通过状态观测部11观测到的状态变量以及通过回报计算部21计算出的回报来更新用于计算铁芯上的磁铁的配置位置的函数(行为价值表)。关于函数(行为价值表)的更新方法后续描述。
[0042] 也可以是学习部12以多层结构对通过状态观测部11观测到的状态变量进行运算并实时更新函数(行为价值表)。例如,也可以是函数更新部22基于通过状态观测部11观测到的状态变量以及通过回报计算部21计算出的回报并按照神经网络模型来更新用于计算铁芯上的磁铁的配置位置的函数。这里,作为以多层结构对状态变量进行运算的方法,例如可以使用后续描述的图10所示的多层神经网络。
[0043] 图5是表示实施例的使用了强化学习的机械学习方法的动作流程的流程图。
[0044] 首先,在状态观测步骤S101中,状态观测部11观测状态变量,其中所述状态变量由与排列设置在铁芯上的多个磁铁的配置位置有关的数据、与多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小有关的数据、以及与各磁铁的磁通密度有关的数据构成。
[0045] 接着,在回报计算步骤S102-1中,回报计算部21基于多个磁铁排列设置在铁芯的某配置位置时产生的齿槽转矩的大小来计算回报。
[0046] 接着,在函数更新步骤S102-2中,函数更新部22基于通过状态观测部11 观测到的状态变量以及通过回报计算部21计算出的回报来更新用于计算铁芯上的磁铁的配置位置的函数(行为价值表)。
[0047] 接下来,说明具备上述的机械学习装置的转子设计装置。
[0048] 图6是表示实施例的具备机械学习装置的转子设计装置的原理框图。
[0049] 实施例的转子设计装置100具备上述的机械学习装置1、意图决定部13、输入部14、齿槽转矩计算部15以及通知部16。
[0050] 输入部14输入与所测定的各个磁铁的磁通密度有关的数据,其例如具有附属于计算机(未图示)的键盘、鼠标、触摸面板等。又或者,也可以是输入部14经由有线线缆或者经由无线通信直接输入从测定磁铁的磁通密度的测定装置(未图示)输出的数据。与所输入的磁通密度有关的数据与各磁铁的识别编号建立关联地存储在存储装置(未图示)并用于齿槽转矩计算部15中的下一处理。
[0051] 齿槽转矩计算部15基于经由输入部14输入的与各磁铁的磁通密度有关的数据计算多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小。将与通过齿槽转矩计算部15计算出的每个配置位置的齿槽转矩的大小有关的数据输入到机械学习装置1中的状态观测部11。计算了齿槽转矩的大小的磁铁的配置位置的变化越多,则学习结果的精度越高。例如,当磁铁的个数为n 个(其中,n为自然数)时,磁铁的配置位置模式(排列顺序)存在“n!(n 的阶乘)”种。
[0052] 如上所述,转子设计装置100中的机械学习装置1具备状态观测部11及学习部12。
[0053] 状态观测部11观测状态变量,其中所述状态变量由从齿槽转矩计算部15 输入来的与排列设置在铁芯上的多个磁铁的配置位置有关的数据和与多个磁铁排列设置在该配置位置时产生的齿槽转矩的大小有关的数据、以及从输入部14输入的与各磁铁的磁通密度有关的数据构成。
[0054] 学习部12中的回报计算部21基于多个磁铁在铁芯上排列设置于某配置位置时发生的齿槽转矩的大小来计算回报。例如,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部11观测到的齿槽转矩的大小都小时,回报计算部21增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部11观测到的齿槽转矩的大小都大时,回报计算部21减少回报。又例如,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围内时,回报计算部21增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围外时,回报计算部21减少回报。
[0055] 学习部12中的函数更新部22基于通过状态观测部11观测到的状态变量以及通过回报计算部21计算出的回报来更新用于计算铁芯上的磁铁的配置位置的函数(行为价值表)。
[0056] 意图决定部13基于学习部12按照训练数据集学习而得的结果,响应当前的状态变量的输入来决定铁芯上的磁铁的配置位置。在本实施例中,以将强化学习用作学习算法为例,因此,学习部12中的函数更新部22基于通过学习部 12中的回报计算部21算出的回报来更新用于计算铁芯上的磁铁的配置位置的函数,意图决定部13基于所更新的函数选择可最多地获取回报的磁铁的配置位置。
[0057] 通知部16用于将通过意图决定部13决定的、可最多地获取回报的磁铁的配置位置通知给操作者。作为通知部16例如存在计算机、便携终端、触摸面板等的显示器等,这种情况下,利用以磁铁的识别编号罗列的字符形式或者附图形式来显示所决定的配置位置。又或者,也可以利用扬声器、蜂鸣器、响铃等发出声音的音响设备来实现通知部16,这种情况下,利用表现磁铁的识别编号的声音或者蜂鸣、响铃的次数将决定出的配置位置通知给操作者。又或者,关于通知部16,也可以采取使用打印机打印到纸张等来通知操作者的形态。又或者,也可以适当地组合这些形态来实现通知部16。
[0058] 图7是表示实施例的具备机械学习装置的转子设计装置的动作流程的流程图。
[0059] 通常,在强化学习中随机地选择行为的初始值。实施例中,在步骤S201 中,在行为中随机地选择某铁芯上的磁铁的配置位置(排列顺序)。
[0060] 在步骤S202中,齿槽转矩计算部15基于经由输入部14输入的与各磁铁的磁通密度有关的数据来计算多个磁铁排列设置在铁芯上时产生的齿槽转矩的大小。
[0061] 在步骤S203中,状态观测部11观测状态变量,所述状态变量由从齿槽转矩计算部15输入来的与排列设置于铁芯上的多个磁铁的配置位置有关的数据、与多个磁铁排列设置于该配置位置时产生的齿槽转矩的大小有关的数据、以及从输入部14输入来的与各磁铁的磁通密度有关的数据构成。
[0062] 在步骤S204中,状态观测部11判别多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小是否在规定范围内。当通过状态观测部11判定为多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围内时,在步骤S205中,回报计算部21增加回报。另一方面,当通过状态观测部11判定为齿槽转矩的大小在规定范围外时,在步骤S206中,回报计算部21减少回报。这里,关于规定范围,操作者考虑转子的制造成本、使用环境等各种因素来适当地设定即可。此外,在图7所示的例子中,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围内时,回报计算部21增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小在规定范围外时,回报计算部21减少回报,但是,作为其替代例,也可以是当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部11观测到的齿槽转矩的大小都小时,回报计算部21增加回报,当多个磁铁在铁芯上排列设置于某配置位置时产生的齿槽转矩的大小比当前的齿槽转矩的大小、之前通过状态观测部11观测到的齿槽转矩的大小都大时,回报计算部21减少回报。
[0063] 在步骤S207中,函数更新部22基于通过状态观测部11观测到的状态变量以及通过回报计算部21计算出的回报,来更新用于计算铁芯上的磁铁的配置位置的函数。
[0064] 在步骤S208中,意图决定部13判别是否接收了指示决定磁铁的配置位置的决定指令。决定指令例如在操作者希望输出机械学习装置1的学习结果的时刻经由输入装置等输入意图决定部13。在步骤S208中,当意图决定部13判定为未接收决定指令时,返回步骤S202。当判定为接收了决定指令时,进入步骤S209。此外,在图7所示的例子中,意图决定部13基于有无接收决定指令来判断是否决定磁铁的设置位置或者是否继续机械学习处理,但是,作为其替代例,也可以是意图决定部13基于齿槽转矩计算部15是否就全部的配置模式计算了齿槽转矩的大小来判断是否决定磁铁的配置位置或者是否继续机械学习处理。这种情况下,当意图决定部13判定为齿槽转矩计算部15就全部的配置模式计算了齿槽转矩的大小时,进入步骤S209。机械学习装置1通过反复执行步骤S202~S208的处理来学习使齿槽转矩为最小的磁铁的最佳配置位置。此外,也可以就多个转子的情况取得训练数据集,这种情况下,学习部 12按照针对多个转子而作成的训练数据集反复执行步骤S201~S208的处理来学习铁芯上的磁铁的配置位置。当就多个转子取得训练数据集时,机械学习装置1的学习精度提高。
[0065] 在步骤S209中,意图决定部13基于在步骤S207中更新的函数来提取(选择)可最多地获取回报的磁铁的配置位置。
[0066] 在接下来的步骤S210中,通知部16将在步骤S209中决定的可最多地获取回报的磁铁的配置位置通知给操作者。
[0067] 作为上述的转子设计装置的变形例,也可以按如下方式来构成转子设计装置:在具备比用于一个转子的组装的磁铁的个数更多的个数的磁铁来作为库存时,当为了作成多个转子而从作为库存的磁铁(以下,有时称为“库存磁铁”) 中选择磁铁时,以使对组装后的各转子而言所产生的齿槽转矩的大小不散乱而是平均地变小的方式进行选择。图8是表示实施例的变形例的具备机械学习装置的转子设计装置的原理框图。本变形例中,在图6所示的转子设计装置100 中还具备存储与比用于某转子的组装的磁铁的个数更多地存在的库存磁铁的磁通密度有关的数据的数据存储部17。
[0068] 与预先测定的库存磁铁的磁通密度有关的数据经由输入部14输入并与各库存磁铁的识别编号建立关联地存储在数据存储部17。齿槽转矩计算部15基于存储在数据存储部17中的与库存磁铁的磁通密度有关的数据就库存磁铁的各种各样的配置位置模式来计算齿槽转矩的大小。意图决定部13基于学习部 12按照包含存储在数据存储部17中的与库存磁铁的磁通密度有关的数据的数据集所学习的结果,以使对于各转子因排列设置在铁芯上的磁铁而产生的齿槽转矩的大小为最小的方式从库存磁铁中决定用于各转子的构成的磁铁的组合及其配置位置。通知部16通知通过意图决定部13决定的磁铁的组合及其配置位置。此外,由于除此以外的构成要素及其动作与参照图7及图8所说明的相同,因此对相同构成要素附加相同符号并省略关于该构成要素的详细说明。
[0069] 根据本变形例,在使用大量存在的库存磁铁作成多个转子时,能够抑制生产批次的不同所导致的转子的齿槽转矩的大小的偏差,并能够使齿槽转矩的大小整体较小,提高了经济性。
[0070] 这里,更加详细地说明机械学习装置1。机械学习装置1具有如下功能:通过分析从输入到装置的数据的集合提取其中存在的有用的规则、知识表现、判断标准等,输出其判断结果并且进行知识的学习。其方法各种各样,大致可分为“有教师学习”、“无教师学习”、“强化学习”。还存在被称作“深层学习”的方法,该方法在实现了上述方法的基础上学习特征量自身的提取。
[0071] 所谓“有教师学习”是指通过将某输入与结果(标签)的数据组大量地赋予学习装置来学习这些数据集中存在的特征并根据输入推算结果的模式,即,能够归纳地获得其关联性。在本实施方式中,“有教师学习”能够用于计算铁芯上的磁铁的配置位置的部分等。能够使用后续描述的神经网络等算法来实现“有教师学习”。
[0072] 所谓“无教师学习”是指通过仅将输入数据大量地赋予学习装置来学习输入数据为何种分布,对即使不赋予对应的教师输出数据也可针对输入数据进行压缩、分类、整形等的装置进行学习的方法。能够将这些数据集中存在的特征聚类为彼此相似的特征等。通过使用其结果设置某些标准来进行使其最佳的输出的分配,能够实现输出的预测。另外,作为介于“无教师学习”与“有教师学习”的之间的问题设定还存在被称作“半有教师学习”的算法,其相当于仅存在一部分输入与输出的数据组且除此以外只存在输入数据的情况。在本实施方式中,在无教师学习中利用即使不使转子设计装置实际地动作也可取得的数据,能够高效地进行学习。
[0073] 将强化学习的问题设定如下。
[0074] ·转子设计装置观测环境的状态并决定行为。
[0075] ·环境按照某些规则变化,再者,自己的行为有时也赋予环境变化。
[0076] ·每当进行行为返回回报信号。
[0077] ·希望最大化的是将来的(折扣)回报的合计。
[0078] ·学习从完全未知行为所导致的结果或者仅不完全知道行为所导致的结果的状态开始。转子设计装置只有实际地进行动作才能够作为数据获取该结果。也就是,需要边试错边探索最佳行为。
[0079] ·也可以将模拟人类的动作那样进行了提前学习(称为上述的有教师学习、逆向强化学习的方法)的状态作为初始状态而从良好的起始点开始学习。
[0080] 所谓“强化学习”是指通过不仅学习判定、分类还学习行为而根据行为赋予环境的相互作用来学习恰当的行为,即学习用于使将来所获取的回报为最大的方法。在本实施方式中,这表示能够获得对未来产生影响的行为。例如,以 Q学习的情况继续说明,但不限于此。
[0081] Q学习是在某环境状态s下学习选择行为a的价值Q(s,a)的方法。也就是,在某状态s时,只要将价值Q(s,a)最高的行为a选择为最佳行为即可。但是,关于状态s与行为a的组合,最初完全不知道价值Q(s,a)的正确值。因此,智能体(行为主体)在某状态s下选择各种各样的行为a并就当时的行为a被赋予回报。由此,智能体学习更优行为的选择,即正确的价值Q (s,a)。
[0082] 由于希望使将来所获取的回报的合计最大化,因此将使行为的结果最终为 Q(s,a)=E[Σγtrt]作为目标(期望值是在按照最佳行为进行了状态变化时取得。当然,由于其未知,因此必须边探索边学习)。这样的价值Q(s,a) 的更新式例如可通过式1来表示。
[0083]
[0084] 这里,st表示时刻t的环境的状态,at表示时刻t的行为。通过行为at,状态变化为st+1。rt+1表示根据该状态的变化可领受的回报。另外,带有max的项为对在状态st+1下选择了当时所知的Q值最高的行为a时的Q值乘以γ。γ为 0<γ≦1的参数,其被称作折扣率。α为学习系数,其范围为0<α≦1。
[0085] 式1表示基于作为试探行为at的结果反馈的回报rt+1来更新状态st的行为 at的评价值Q(st,at)的方法。其示出了:若回报rt+1+基于行为a的下一状态的最优行为max a的评价值Q(st+1,max at+1)比状态s的行为a的评价值Q (st,at)大,则使Q(st,at)增大,相反,若回报rt+1+基于行为a的下一状态的最优行为max a的评价值Q(st+1,max at+1)比状态s的行为a的评价值Q (st,at)小,则使Q(st,at)也减小。也就是,使某状态的某行为的价值接近作为结果即时反馈的回报和基于该行为的下一状态的最优行为的价值。
[0086] Q(s,a)在计算机上的表现方法有如下2种:针对全部的状态行为对(s, a)将其值保存为表(行为价值表)的方法、准备对Q(s,a)进行近似的函数的方法。在后者的方法中,可通过以随机梯度下降法等方法调整近似函数的参数来实现上述的更新式。作为近似函数可使用后续描述的神经网络。
[0087] 作为有教师学习、无教师学习以及强化学习中的价值函数的近似算法可使用神经网络。神经网络例如由实现对图9所示的神经元模型进行模仿而得的神经网络的运算装置及存储器等构成。图9是表示神经元的模型的模式图。
[0088] 如图9所示,神经元输出针对多个输入x(这里,以输入x1~输入x3为例)的输出y。对各输入x1~x3乘以与该输入x对应的权值w(w1~w3)。由此,神经元输出通过式2表现的输出y。此外,输入x、输出y以及权值w 均为向量。
[0089]
[0090] 这里,θ为偏置,fk为激活函数。
[0091] 接着,参照图10说明组合了上述的神经元的具有3层权值的神经网络。图10是表示具有D1~D3的3层权值的神经网络的模式图。
[0092] 如图10所示,从神经网络的左侧输入多个输入x(这里,以输入x1~输入x3为例),从右侧输出结果y(这里,以结果y1~结果y3为例)。
[0093] 具体地,将输入x1~输入x3乘以对应的权值并分别输入3个神经元N11~ N13。将与这些输入相乘的权值统一标记为w1。
[0094] 神经元N11~N13分别输出z11~z13。将这些z11~z13统一标记为特征向量z1,可将他们看作提取输入向量的特征量而得的向量。该特征向量z1为权值w1与权值w2之间的特征向量。
[0095] 将z11~z13乘以对应的权值并分别输入2个神经元N21、N22。将与这些特征向量相乘的权值统一标记为w2。
[0096] 神经元N21、N22分别输出z21、z22。将他们统一标记为特征向量z2。该特征向量z2为权值w2与权值w3之间的特征向量。
[0097] 将特征向量z21、z22乘以对应的权值并分别输入3个神经元N31~N33。将与这些特征向量相乘的权值统一标记为w3。
[0098] 最后,神经元N31~N33分别输出结果y1~结果y3。
[0099] 神经网络的动作中存在学习模式与价值预测模式,在学习模式中使用学习数据集学习权值w,在预测模式中使用该参数进行转子设计装置的行为判断 (为了方便起见,描述了预测,可以进行检测、分类、推理等多种多样的任务)。
[0100] 可以在预测模式中即时学习使转子设计装置实际地动作而获得的数据并反映在下一行为(在线学习),也可以使用预先收集的数据群进行汇总的学习,之后一直使用该参数进行检测模式(批量学习)。也可以是介于上述之间的、每当数据积累某种程度就插入学习模式。
[0101] 权值w1~w3可利用误差反向传播法(反向传播法)学习而得。误差的信息从右侧进入并流向左侧。误差反向传播法是对于各神经元以使输入x被输入时的输出y与真正的输出y(教师)之差较小的方式调整(学习)各权值的方法。
[0102] 这种神经网络也可以将层进一步增加到3层以上(被称作深层学习)。可以仅根据教师数据自动地获得分阶段地进行输入的特征提取并对结果进行反馈的运算装置。
[0103] 因此,为了执行上述的Q学习,本实施方式的机械学习装置1例如如图4 所示具备状态观测部11、学习部12以及意图决定部13。但是,本发明中应用的机械学习方法不限于Q学习。例如在应用有教师学习时,价值函数对应于学习模型,回报对应于误差。此外,也可以将使用上述的神经网络进行近似的函数用作其行为价值表,在如图像数据等s及a的信息量巨大时特别有效。
[0104] 上述的状态观测部11、学习部12、意图决定部13及齿槽转矩计算部15 例如也可以通过软件程序形式来构筑,或者,也可以通过各种电子电路与软件程序的组合来构筑。例如,在通过软件程序形式来构筑他们时,通过使计算机内存在的运算处理装置按照该软件程序动作来实现上述的各部的功能。又或者,也可以将具备状态观测部11及学习部12的机械学习装置1实现为写入了实现各部的功能的软件程序的半导体集成电路。又或者,也可以按不仅包括具备状态观测部11及学习部12的机械学习装置1还包括意图决定部13的形式或者包括状态观测部11、学习部12、意图决定部13及齿槽转矩计算部15的形式来实现写入了实现各部的功能的软件程序的半导体集成电路。
[0105] 根据本发明,能够实现可容易地决定马达的转子的铁芯上的磁铁的最佳配置位置的机械学习装置、方法以及具备该机械学习装置的转子设计装置。
[0106] 根据本发明,机械学习装置自己学习并调整使因排列设置在铁芯上的磁铁而产生的齿槽转矩的大小为最小且使进给的平稳性最佳化的磁铁的配置位置 (排列方法),因此,能够缩短转子的设计所需的时间并减轻操作者的负担。
[0107] 另外,根据本发明的变形例,在使用大量存在的库存磁铁作成多个转子时,能够抑制生产批次的不同所导致的转子的齿槽转矩的大小的偏差,并能够使齿槽转矩的大小整体较小,提高了经济性。