具有移动轴异常负载警告功能的线放电加工机转让专利

申请号 : CN201610868465.8

文献号 : CN106552974B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 安部博之平贺薰

申请人 : 发那科株式会社

摘要 :

本发明提供一种具有移动轴异常负载警告功能的线放电加工机。线放电加工机具备对线放电加工机的轴进给指令的调整进行学习的机械学习器。该机械学习器使用轴的移动状态相关的数据来决定轴进给指令的调整量,基于该决定的轴进给指令的调整量来调整轴进给指令。而且,根据决定的轴进给指令的调整量、轴的移动状态相关的数据、以及基于该轴的移动状态相关的数据而计算出的回报,对轴进给指令的调整进行机械学习。

权利要求 :

1.一种线放电加工机,按照基于程序或者作业人员的操作的轴进给指令来移动轴,其特征在于,该线放电加工机具备:机械学习器,其对上述轴的移动中的轴进给指令的调整对象参数和该调整对象参数的调整量进行机械学习,上述机械学习器具有:

状态观测部,其取得表示上述轴的移动中的轴的移动状态的信息、即状态数据;

回报条件设定部,其设定回报条件;

回报计算部,其根据上述状态数据和上述回报条件来计算回报;

轴进给指令调整学习部,其对轴进给指令调整进行机械学习;以及

轴进给指令输出部,其根据基于上述轴进给指令调整学习部的轴进给指令调整的机械学习结果和上述状态数据,将上述轴进给指令的调整对象参数及其调整量决定为调整行为,根据决定出的该调整行为来调整上述轴进给指令而输出该轴进给指令,并且,上述轴进给指令调整学习部构成为,根据上述调整行为、基于输出的调整后的上述轴进给指令的由上述状态观测部取得的上述轴的移动后的上述状态数据、以及上述回报计算部计算出的上述回报,对上述轴进给指令调整进行机械学习,上述线放电加工机被设置为根据输出的调整后的上述轴进给指令来移动上述轴,上述回报条件构成为,在上述轴的速度尽快达到上述轴的指令速度的情况下、或者在上述轴的移动中上述轴的负载未超过该轴的异常负载水平的情况下、或者移动轴碰撞时在上述移动轴的机构部未发生破损的情况下,给予正的回报;另一方面在上述轴的速度缓慢达到上述轴的指令速度的情况下、或者在上述轴的移动中上述轴的负载超出了该轴的异常负载水平的情况下、或者移动轴碰撞时在上述移动轴的机构部发生了破损的情况下,给予负的回报。

2.根据权利要求1所述的线放电加工机,其特征在于,

上述状态数据包括:上述轴的负载、上述轴的指令速度、上述轴的速度、上述轴的指令加速度、上述轴的加速度、上述轴的异常负载水平、上述轴的机构部的破损、周围的室温、湿度的至少某一个。

3.根据权利要求1所述的线放电加工机,其特征在于,

上述轴进给指令的调整对象参数包括:上述轴的速度、上述轴的加速度、上述轴的异常负载水平的至少某一个。

4.根据权利要求1所述的线放电加工机,其特征在于,

该线放电加工机还具备:学习结果存储部,其存储上述轴进给指令调整学习部学习而得的结果,上述轴进给指令输出部构成为,根据上述轴进给指令调整学习部学习而得的轴进给指令调整的学习结果和在上述学习结果存储部中存储的轴进给指令调整的学习结果,来调整上述轴的轴进给指令。

5.根据权利要求1所述的线放电加工机,其特征在于,

该线放电加工机与至少一个其他线放电加工机连接,在与上述其他线放电加工机之间相互交换或者共享机械学习的结果。

6.一种机械学习器,对线放电加工机中的轴的移动中的轴进给指令的调整进行机械学习,其特征在于,该机械学习器具备:

状态观测部,其取得表示上述轴的移动中的轴的移动状态的信息、即状态数据;

回报条件设定部,其设定回报条件;

回报计算部,其根据上述状态数据和上述回报条件来计算回报;

轴进给指令调整学习部,其对轴进给指令调整进行机械学习;以及

轴进给指令输出部,其根据基于上述轴进给指令调整学习部的轴进给指令调整的机械学习结果和上述状态数据,将上述轴进给指令的调整对象参数及其调整量决定为调整行为,根据该调整行为来调整上述轴进给指令而输出该轴进给指令,上述轴进给指令调整学习部构成为,根据上述调整行为、基于输出的调整后的上述轴进给指令的由上述状态观测部取得的上述轴的移动后的上述状态数据、以及上述回报计算部计算出的上述回报,对上述轴进给指令调整进行机械学习,上述线放电加工机被设置为根据输出的调整后的上述轴进给指令来移动上述轴,上述回报条件构成为,在上述轴的速度尽快达到上述轴的指令速度的情况下、或者在上述轴的移动中上述轴的负载未超过该轴的异常负载水平的情况下、或者移动轴碰撞时在上述移动轴的机构部未发生破损的情况下,给予正的回报;另一方面在上述轴的速度缓慢达到上述轴的指令速度的情况下、或者在上述轴的移动中上述轴的负载超出了该轴的异常负载水平的情况下、或者移动轴碰撞时在上述移动轴的机构部发生了破损的情况下,给予负的回报。

7.根据权利要求6所述的机械学习器,其特征在于,

该机械学习器还具有:学习结果存储部,其存储上述轴进给指令调整学习部学习而得的结果,上述轴进给指令输出部构成为,根据上述轴进给指令调整学习部学习而得的轴进给指令调整的学习结果和上述学习结果存储部中存储的轴进给指令调整的学习结果,来调整上述轴的轴进给指令。

说明书 :

具有移动轴异常负载警告功能的线放电加工机

技术领域

[0001] 本发明涉及线放电加工机,尤其涉及具有对应于移动轴的状态、机械所处环境状态来调整移动轴的移动指令、异常负载水平的阈值的功能的线放电加工机。

背景技术

[0002] 在使用线放电加工机时,有时由于作业人员的误操作使线导引部与工件、固定工件的夹具碰撞。此时,如图8中所示,监视移动轴的负载量,在其达到了所设定的阈值的情况下,使移动轴报警停止,从而防止线导引部等移动轴的机构部破损,该技术在日本特开2007-72879号公报等中被公开。
[0003] 但是,通常线放电加工机的线导引部由塑料等比较容易破损的材料制成,所以即使使用上述的日本特开2007-72879号公报中公开的技术,如果将上述阈值设定得高,则如图9中所示,有时机构部会在使移动轴报警停止前破损。另一方面,如果将上述阈值设定得低从而欲在破损之前使移动轴报警停止,则由于通常操作的细微负载变动就导致报警停止,使用不便。
[0004] 通常,在低温状态下润滑剂的粘度高的情况下,轴负载也高,另一方面,在高温状态下润滑剂的粘度低的情况下,轴负载也低。另外,在以低速进行轴移动的情况下,轴负载也低,在以高速进行轴移动的情况下,轴负载也高,这尤其在轴移动开始时显著。在低温状态下使轴移动的情况下,如图10中所示,如果从最初以高速使轴移动,则轴负载突然增大,发生报警,而如图11中所示,如果在最初以低速开始轴移动,施加(应用)润滑剂并使其软化,则之后即使以高速使轴移动,轴负载也不会突然增大,不会报警。但是,该施加操作对于准备(安装)作业中的作业人员而言很麻烦,仍然使用不便。
[0005] 如上述的那样,在通过报警停止来进行移动轴的停止的情况下,有必要对应于环境的状态将报警停止的阈值设定为适当值,或者调整移动轴的移动指令,但是存在这些作业对于作业人员而言成为很大的负担的课题。

发明内容

[0006] 于是,本发明的目的在于提供具备对应于移动轴的状态、机械所处的环境状态来调整移动轴的移动指令、异常负载水平的阈值的功能的线放电加工机。
[0007] 根据本发明的线放电加工机,依照程序或者作业人员操作的轴进给指令而使轴移动,具备机械学习器,该机械学习器对上述轴移动中的轴进给指令的调整对象参数和该调整对象参数的调整量进行机械学习。而且,上述机械学习器具有:状态观测部,其取得表示上述轴移动中轴的移动状态的信息、即状态数据;回报条件设定部,其设定回报条件;回报计算部,其基于上述状态数据和上述回报条件计算回报;轴进给指令调整学习部,其对轴进给指令调整进行机械学习;以及轴进给指令输出部,其基于上述轴进给指令调整学习部对轴进给指令调整的机械学习结果和上述状态数据,将上述轴进给指令的调整对象参数及其调整量决定为调整行为,基于该决定的调整行为调整并输出上述轴进给指令。而且,上述轴进给指令调整学习部基于上述调整行为、基于输出的调整后的上述轴进给指令的由上述状态观测部取得到的上述轴移动后的上述状态数据、以及上述回报计算部计算出的上述回报,对上述轴进给指令调整进行机械学习。
[0008] 上述状态数据能够包括:上述轴的负载、上述轴的指令速度、上述轴的速度、上述轴的指令加速度、上述轴的加速度、上述轴的异常负载水平、上述轴的机构部的破损、周围的室温、湿度的至少任一个。
[0009] 上述轴进给指令的调整对象参数能够包括:上述轴的速度、上述轴的加速度、上述轴的异常负载水平的至少任一个。
[0010] 上述线放电加工机还可具备学习结果存储部,其存储上述轴进给指令调整学习部学习到的结果,上述轴进给指令输出部基于上述轴进给指令调整学习部学习到的轴进给指令调整的学习结果和在上述学习结果存储部中存储的轴进给指令调整的学习结果,调整上述轴的轴进给指令。
[0011] 上述回报条件在上述轴的速度达到上述轴的指令速度快的情况、或者在上述轴的移动过程中上述轴的负载未超过该轴的异常负载水平的情况、或者移动轴碰撞时在上述移动轴的机构部未发生破损的情况下,给予正的回报,而在上述轴的速度达到上述轴的指令速度慢的情况、或者在上述轴的移动过程中上述轴的负载超出了该轴的异常负载水平的情况、或者移动轴碰撞时在上述移动轴的机构部发生了破损的情况下,给予负的回报。
[0012] 上述线放电加工机与至少一个其他线放电加工机连接,与上述其他线放电加工机之间相互交换或者共享机械学习的结果。
[0013] 根据本发明的机械学习器的第1方式是,线放电加工机中对轴移动中的轴进给指令的调整进行机械学习的机械学习器,其具有:学习结果存储部,其存储上述轴进给指令的调整的机械学习结果;状态观测部,其取得表示上述轴移动中轴的移动状态的信息、即状态数据;以及轴进给指令输出部,其构成为基于上述学习结果存储部中存储的上述轴进给指令的调整的机械学习结果和上述状态数据,将上述轴进给指令的调整对象参数及其调整量决定为调整行为,基于该决定的调整行为来调整并输出上述轴移动中的上述轴进给指令。
[0014] 根据本发明的机械学习器的第2方式是,线放电加工机中对轴移动中的轴进给指令的调整进行机械学习的机械学习器,其具有:状态观测部,其取得表示上述轴移动中的轴的移动状态的信息、即状态数据;回报条件设定部,其设定回报条件;回报计算部,其基于上述状态数据和上述回报条件来计算回报;轴进给指令调整学习部,其对轴进给指令调整进行机械学习;以及轴进给指令输出部,其基于上述轴进给指令调整学习部的轴进给指令调整的机械学习结果和上述状态数据,将上述轴进给指令的调整对象参数及其调整量决定为调整行为,基于该调整行为来调整并输出上述轴进给指令。而且,构成为,上述轴进给指令调整学习部基于上述调整行为、基于输出的调整后的上述轴进给指令的由上述状态观测部取得到的上述轴移动后的上述状态数据、以及上述回报计算部计算出的上述回报,对上述轴进给指令调整进行机械学习。
[0015] 上述的对轴进给指令的调整进行机械学习的机械学习器还具有学习结果存储部,其存储上述轴进给指令调整学习部学习到的结果,上述轴进给指令输出部基于上述轴进给指令调整学习部学习到的轴进给指令调整的学习结果和上述学习结果存储部中存储的轴进给指令调整的学习结果,调整上述轴的轴进给指令。
[0016] 在本发明中,通过机械学习来进行移动轴的移动指令、异常负载水平的阈值调整,从而能够避免由误操作导致的机构部的破损,改善通常操作时的便利性。

附图说明

[0017] 本发明上述及其他目的及特征通过参照附图对以下实施例的说明得以明确。图中:
[0018] 图1是说明强化学习算法的基本概念的图。
[0019] 图2是表示神经元模型的示意图。
[0020] 图3是表示具有3层权值的神经网络的示意图。
[0021] 图4是根据本发明的一种实施方式的线放电加工机的机械学习相关的概念图。
[0022] 图5是说明图4的线放电加工机的轴进给调整的概要的图。
[0023] 图6是图4的线放电加工机的功能框图。
[0024] 图7是表示图6的线放电加工机具备的机械学习器所进行的机械学习的流程的流程图。
[0025] 图8是针对基于移动轴的负载的报警停止进行说明的图。
[0026] 图9是说明移动轴的机构部在报警停止前破损的例子的图。
[0027] 图10是说明使移动轴以高速开始移动导致发生报警的图。
[0028] 图11是针对使移动轴以低速开始移动来避免报警发生进行说明的图。

具体实施方式

[0029] 本发明中,在加工工件的线放电加工机中导入人工智能的机械学习器。而且,从线放电加工机取得移动轴的负载、移动轴的速度、移动轴的加速度、移动轴的动作时间、移动轴的异常负载水平、移动轴的机构部的破损、以及室温、湿度等“与移动轴的移动状态相关的数据”,针对该“与移动轴的移动状态相关的数据”,进行调整移动轴的速度、加速度、移动轴的异常负载水平等轴进给指令所相关的机械学习。由此,进行调整,使轴进给指令对应于移动轴的状态而成为最佳。
[0030] 在以下,针对本发明中导入的机械学习简单进行说明。
[0031] <1.机械学习>
[0032] 此处,针对机械学习简单进行说明。机械学习通过下述方式来实现:从输入到进行机械学习的装置(以下,机械学习器)的数据的集合中,通过解析提取其中具有的有用的规则、知识表现、判断基准等,将该解析结果输出,并且进行知识的学习。机械学习的方法多样,大致分为“有教师学习(supervised learning)”、“无教师学习(unsupervised learning)”、“强化学习(reinforcement learning)”。进而,在实现这些方法时,还具有被称作“深层学习(deep machine learning)”的方法,即学习特征量自身的提取。
[0033] “有教师学习”是指,通过向机械学习器提供大量的某一输入与结果(标签)的数据的组,学习这些数据组所具有的特征,能够归纳地获取从输入推定结果的模型、即其关系性。这能够使用后述的神经网络等算法来实现。
[0034] “无教师学习”是指,通过向学习器仅提供大量的输入数据,从而学习输入数据如何分布,并学习即使不提供对应的教师输出数据也对输入数据进行压缩、分类、整形等的装置的方法。能够将那些数据组中具有的特征在相似者之间进行聚类等。使用该结果,设置某种基准进行使其最佳的输出分配,从而能够实现输出的预测。
[0035] 另外作为“无教师学习”和“有教师学习”的中间性问题设定,还有被称作“半有教师学习(semi-supervised learning)”的方法,其相当于存在仅一部分输入和输出的数据组,除此之外为仅为输入的数据的情况。在本实施方式中,在无教师学习中使用即使实际不使加工机动作也能取得的数据,能够有效进行学习。
[0036] “强化学习”不仅仅是判定、分类,还学习行为,由此基于行为给予环境的相互作用来学习适当的行为,即,为了使将来得到的回报最大而进行学习的方法。在强化学习中,机械学习器能够从完全不知道行为引起的结果的状态、或者只是不完全知道的状态开始学习。另外,为了模拟人的动作,还能够将进行了事先学习(上述的有教师学习、逆强化学习等手法)的状态设为初始状态,使学习从良好的开始地点开始。
[0037] 需要说明的是,在加工机中应用机械学习的情况下,有必要考虑该加工机需要实际上先动作而取得该结果作为数据,即,一边进行试错一边探索最佳行为。于是,在本发明中,采用通过给予回报,机械学习器自动学习用于达到目标的行为的强化学习的算法,作为机械学习器的主要学习算法。
[0038] 图1是说明强化学习算法的基本概念的图。
[0039] 在强化学习中,通过作为进行学习的主体的智能体(机械学习器)和作为控制对象的环境(控制对象系统)之间的交换来推进智能体的学习和行为。更具体地,在智能体与环境之间进行以下交换:
[0040] (1)智能体观测某一时间点的环境的状态st,
[0041] (2)基于观测结果和过去的学习,选择自己所能采取的行为at,并执行该选择的行为at,
[0042] (3)基于某种规则及行为at的执行,环境的状态st变化为下一状态st+1,[0043] (4)基于作为行为at的结果的状态变化,智能体接受回报rt+1,
[0044] (5)智能体基于状态st、行为at、回报rt+1及过去的学习结果来推进学习。
[0045] 在强化学习的初期阶段,智能体在以上(2)的行为选择时完全不知道用于选择相对于环境的状态st的最佳行为at的价值判断的基准。于是,智能体基于某一状态st而选择各种行为at,基于对此时的行为at给予的回报rt+1来选择更好的行为,即学习正确的价值判断的基准。
[0046] 在上述的(5)中的学习中,智能体获取观测到的状态st、行为at、回报rt+1的匹配(mapping),作为成为用于判断将来能取得的回报的量的基准的信息。例如,将在各时刻能取得的状态的个数设为m,能采取的行为的个数设为n,则通过反复进行行为,能得到存储相对于状态st和行为at的组的回报rt+1的m×n的2维排列。
[0047] 然后,使用表示基于上述得到的匹配所选择的状态、行为如何良好的函数、即价值函数(评价函数),通过在反复进行行为的过程中不断更新价值函数(评价函数),来不断学习相对于状态的最佳行为。
[0048] 状态价值函数是表示某一状态st是如何良好的状态的价值函数。状态价值函数表现为以状态为自变量的函数,在反复进行行为过程中的学习中,基于对于某一状态下的行为而得到的回报、通过该行为而要变化的未来状态的价值等,来更新状态价值函数。对应于强化学习的算法来定义状态价值函数的更新式,例如,在作为强化学习算法之一的TD学习中,状态价值函数以下述的式(1)而被更新。需要说明的是,在式(1)中,α被称作学习系数,γ被称作折扣率,定义在0<α≤1、0<γ≤1的范围。
[0049] V(st)←V(st)+α[rt+1+γV(st+1)-V(st)]……(1)
[0050] 另外,行为价值函数是表示在某一状态st下行为at是如何良好的行为的价值函数。行为价值函数表现为以状态和行为作为自变量的函数,在反复进行行为的过程中的学习中,基于针对某一状态下的行为而得到的回报、通过该行为而要变化的未来状态下的行为价值等,来更新行为价值函数。对应于强化学习的算法来定义行为价值函数的更新式,例如,在作为代表性强化学习算法之一的Q学习中,行为价值函数以下述的式(2)而更新。需要说明的是,式(2)中,α被称作学习系数,γ被称作折扣率,定义在0<α≤1、0<γ≤1的范围。
[0051]
[0052] 以上的式(2)表示基于作为行为at的结果而返回的回报rt+1,对状态st下的行为at的评价值Q(st,at)进行更新的方法。表示的是,如果基于回报rt+1为正的行为at的下一状态下最好的行为max(a)的评价值Q(st+1,max(a))相比状态st下的行为at的评价值Q(st,at)更大,则增大Q(st,at),相反如果小于状态st下的行为at的评价值Q(st,at),则减小Q(st,at)。即,使某一状态下的某一行为的价值接近作为结果实时返回的回报和基于该行为的下一状态下的最佳行为的价值。
[0053] 在Q学习中,通过反复进行这样的更新,希望最终Q(st,at)成为期待值E[Σγtrt](期待值是依照最佳行为而进行了状态变化时得到的值。当然,其是未知的,因此必须一边探索一边学习)。
[0054] 然后,在上述(2)的行为的选择中,使用根据过去的学习而生成的价值函数(评价函数)来选择在当前的状态st下跨越到将来的回报(rt+1+rt+2+……)为最大的行为at(在使用状态价值函数的情况下,是用于转移到最高价值状态的行为,在使用行为价值函数的情况下,是在该状态下价值最高的行为)。需要说明的是,在智能体的学习过程中,以推进学习为目的,在上述(2)的行为的选择中有时以固定的概率选择随机的行为(ε贪婪算法)。
[0055] 需要说明的是,作为存储作为学习结果的价值函数(评价函数)的方法,有对于所有的状态行为对(s,a)将其值以表格(行为价值表)进行保存的方法、准备对上述价值函数进行近似那样的函数的方法。后者的方法中,前述的更新式能够通过以随机梯度下降法等方法不断调整近似函数的参数来实现。作为近似函数,能够使用神经网络等有教师学习器。
[0056] 神经网络例如由实现模拟图2中所示那样的神经元模型的神经网络的运算装置及存储器等构成。图2是表示神经元模型的示意图。
[0057] 如图2中所示,神经元针对多个输入x(此处作为一个例子,输入x1~输入x3)而输出输出y。使各输入x1~x3与对应于该输入x的权值w(w1~w3)相乘。由此,神经元输出由下述式(3)表现的输出y。需要说明的是,在式(3)中,输入x、输出y及权值w均为矢量。另外,θ为偏置(bias),fk为激活函数。
[0058]
[0059] 接着,参照图3说明上述的组合神经元而得的具有3层权值的神经网络。
[0060] 图3是表示具有D1~D3这3层权值的神经网络的示意图。如图3中所示,从神经网络的左侧输入多个输入x(此处作为一个例子,输入x1~输入x3),从右侧输出结果y(此处作为一个例子,结果y1~结果y3)。
[0061] 具体地,将输入x1~输入x3乘以对应的权值而输入到3个神经元N11~N13的每一个中。这些与输入相乘的权值统一标记为w1。神经元N11~N13分别输出z11~z13。这些z11~z13统一(汇总地)标记为特征矢量z1,能够视为提取了输入矢量的特征量后的矢量。该特征矢量z1是权值w1与权值w2之间的特征矢量。
[0062] z11~z13与对应的权值相乘而输入到2个神经元N21、N22的每一个。与这些特征矢量相乘的权值统一标记为w2。神经元N21、N22分别输出z21、z22。它们统一被标记为特征矢量z2。该特征矢量z2是权值w2与权值w3之间的特征矢量。
[0063] 特征矢量z21、z22与对应的权值相乘而输入到3个神经元N31~N33的每一个。与这些特征矢量相乘的权值统一标记为w3。
[0064] 最后,神经元N31~N33分别输出结果y1~结果y3。
[0065] 在神经网络的动作中,具有学习模式和价值预测模式,在学习模式下,使用学习数据组来学习权值w,并使用该参数在预测模式下进行加工机的行为判断(为了方便表述,表述为预测,但是能够为检测、分类、推论等各种任务)。
[0066] 能够实时学习在预测模式下实际使加工机动作而得到的数据,并反映到下一行为(在线学习),另外,还能够使用预先收集好的数据组进行汇总的学习,以后一直以该参数进行检测模式(批量学习)。还能够采用其中间性方式,在每当积攒某一程度数据时插入学习模式。
[0067] 权值w1~w3能够通过误差反向传播法来学习。误差的信息从右侧进入流向左侧。误差反向传播法是下述方法,针对各神经元,以减小输入x被输入时的输出y与真实的输出y(教师)之间的差的方式,调整(学习)各自的权值。
[0068] 神经网络能够在3层以上进一步增加层(称作深层学习)。可以仅根据教师数据自动地获得阶段性地进行输入的特征提取并对结果进行回归的运算装置。
[0069] 通过将这样的神经网络用作近似函数,能够一边反复进行上述的强化学习的过程中的(1)~(5),一边存储上述的价值函数(评价函数)来推进学习。
[0070] 在某一环境下的学习结束后,在置于新环境的情况下通过进行追加学习,也能够以适应该环境的方式推进学习。因此,通过如本发明那样应用于线放电加工机中移动轴的速度、加速度、移动轴的异常负载水平等轴进给指令的调整,即便在应用于新的线放电加工机的控制的情况下,在过去的轴进给指令调整的学习的基础上进行新环境下追加的学习,由此能够在短期内进行轴进给指令调整的学习。
[0071] 另外,在强化学习时,通过设为将多个智能体经由网络等连接成的系统,智能体间共享状态s、行为a、回报r等信息并用于各自的学习,进行各个智能体也考虑其他智能体的环境而进行学习的分散强化学习,由此,能够进行高效的学习。在本发明中,也通过在控制多个环境(线放电加工机)的多个智能体(机械学习器)经由网络等连接的状态下进行分散机械学习,由此能够有效进行线放电加工机中的轴进给指令的调整的学习。
[0072] 需要说明的是,作为强化学习的算法,Q学习、SARSA法、TD学习、AC法等各种方法是公知的,作为应用于本发明的方法,可采用任一种强化学习算法。上述的各种强化学习算法是公知的,因此省略在本说明书中详细说明各算法。
[0073] 在以下基于具体实施方式说明导入机械学习器的本发明的线放电加工机。
[0074] <2.实施方式>
[0075] 图4是表示根据本发明的一种实施方式的导入了机械学习器的线放电加工机中的、调整移动轴的速度、加速度、移动轴的异常负载水平等轴进给指令的机械学习所相关的概念的图。需要说明的是,图4仅示出说明根据本实施方式的线放电加工机中的机械学习所需的构成。
[0076] 在本实施方式中,作为用于机械学习器20确定环境(在<1.机械学习>中说明的状态st)的信息,将线放电加工机1的轴移动时的移动轴的负载、移动轴的指令速度、移动轴的速度、移动轴的指令加速度、移动轴的加速度、移动轴的异常负载水平、移动轴的机构部的破损、及线放电加工机1周围的室温、湿度等状态信息输入机械学习器20中。这些信息各自的值是从线放电加工机1的各部(控制部10、环境测定部11、伺服电动机等驱动部、各种传感器类)获取到的数据。
[0077] 在本实施方式中,作为机械学习器20向环境的输出(在<1.机械学习>中说明的行为at),将线放电加工机1中的轴移动时的移动轴的速度、移动轴的加速度、移动轴的异常负载水平等轴进给指令的调整作为输出数据。
[0078] 图5是说明根据本实施方式的线放电加工机1的轴移动所相关的各数据的图。
[0079] 通常的线放电加工机1在被指令(指示)了轴移动时,以根据针对该轴设定的时间常数求出的加速度,加速到通过该移动指令指示的移动速度,之后,使轴以通过该移动指令所指示的移动速度移动。对此,本实施方式的线放电加工机1在被指令了轴移动时,机械学习器20在其每个动作周期获取线放电加工机1的状态信息,基于该获取到的状态信息来决定该时刻时的移动轴的速度、加速度、及异常负载水平的调整,将通过该调整而决定的移动轴的速度、加速度、及异常负载水平向线放电加工机1输出。例如,如图5中所示,在时刻t,移动轴的速度调整为vt,加速度调整为act、及异常负载水平调整为tht。机械学习器20进行移动轴的速度、加速度、及异常负载水平的调整,直至轴的移动速度达到由原来的移动指令指示的移动速度、或者轴的移动结束为止。
[0080] 另外在本实施方式中,作为给予机械学习器20的回报(在<1.机械学习>中说明的回报rt),采用移动轴的负载和异常负载水平的大小(负回报)、移动轴的速度(正回报)、移动轴的机构部发生破损(负回报)等。
[0081] 需要说明的是,关于基于哪一数据来决定回报,可由作业人员适当设定。
[0082] 并且,在本实施方式中,机械学习器20基于上述的输入数据、输出数据、回报来进行机械学习。在该机械学习中,在某一时刻t,通过输入数据的组合来定义状态st,对该定义的状态st进行的轴进给指令的调整为行为at。然后,基于作为通过该行为at进行轴进给指令调整的结果而新得到的输入数据而评价计算出的值,为回报rt+1。将其如<1.机械学习>中说明的那样,代入对应于机械学习算法的价值函数(评价函数)的更新式来推进学习。
[0083] 图6是本实施方式的线放电加工机的功能框图。
[0084] 本实施方式的控制线放电加工机1的控制部10对基于从存储器(未图示)读出的程序的轴进给指令、基于操作板(未图示)的操作的轴进给指令进行解析,根据作为该解析结果得到的控制数据,控制线放电加工机1的轴移动。线放电加工机1具备检测施加到移动轴的负载、移动轴的速度/加速度、移动轴的机构部的破损等的机构或传感器(未图示),控制部10构成为,能够经由这些机构或传感器获取表示线放电加工机的状态的信息。
[0085] 另外,线放电加工机1具备测定线放电加工机周围的室温、湿度等的环境测定部11。
[0086] 需要说明的是,设线放电加工机1、控制部10具备线放电加工机、控制装置的一般性构成,除了本发明中说明的机械学习的动作所特别需要的构成以外,在本说明书中省略了其他构成的详细说明。图6中所示的机械学习器20对应于图1的“智能体”,图6中所示的除机械学习器20之外的线放电加工机1、控制部10、及环境测定部11具备的各构成对应于图1的“环境”。
[0087] 在线放电加工机1中执行轴移动相关的指令,并在轴产生正的加速时,机械学习器20进行轴进给指令的调整动作及其调整动作的学习。轴进给指令的调整动作及学习在轴的移动速度达到了所指令的原来的移动速度的时间点一度(临时)结束,之后再次执行轴移动相关的指令而在轴产生正的加速时,再次执行机械学习器20进行的轴进给指令的调整动作及该调整动作的学习。机械学习器20的动作开始和结束的契机,可以是基于后述的状态观测部21观测到的状态数据由机械学习器20自主进行,也可以是基于来自线放电加工机1的信号等,由机械学习器20进行行作开始和结束。
[0088] 进行机械学习的机械学习器20具备状态观测部21、状态数据存储部22、回报条件设定部23、回报计算部24、轴进给指令调整学习部25、学习结果存储部26以及轴进给指令输出部27。机械学习器20可以如图6中所示设置在线放电加工机1内,也可以设置在线放电加工机1外的电脑中。
[0089] 作为移动轴的移动状态相关的数据,状态观测部21观测从控制部10得到的线放电加工机1的移动轴的负载、移动轴的指令速度、移动轴的速度、移动轴的指令加速度、移动轴的加速度、移动轴的异常负载水平、移动轴的机构部的破损、及从环境测定部11得到的线放电加工机1的周围室温、湿度等状态信息,并取入到机械学习器20内。
[0090] 状态数据存储部22输入并存储移动轴的移动状态相关的数据,并将该存储的移动轴的移动状态相关的数据向回报计算部24、轴进给指令调整学习部25输出。所输入的移动轴的移动状态相关的数据可以是通过线放电加工机1的最新运转而获取到的数据,也可以是通过过去的运转获取到的数据。另外,还能够输入并存储在其他线放电加工机40、集中管理系统30中存储的移动轴的移动状态相关的数据,或者输出这些数据。
[0091] 回报条件设定部23是用于设定并存储通过作业人员等输入的、给予机械学习的回报的条件的功能单元。回报具有正的回报和负的回报,能适当设定。向回报条件设定部23的输入可以通过集中管理系统30中使用的电脑、平板终端等输入,也能够经由控制部10具备的未图示的MDI设备输入,从而能够更简便地设定。
[0092] 回报计算部24基于通过回报条件设定部23设定的条件,分析从状态观测部21或者状态数据存储部22输入的移动轴的移动状态相关的数据,将计算出的回报向轴进给指令调整学习部25输出。
[0093] 在以下表示通过根据本实施方式的回报条件设定部23设定的回报条件的例子。
[0094] [回报1:移动轴的负载和异常负载水平的大小]
[0095] 在从上一次调整轴进给指令(时刻t-1时轴进给指令的调整)至本次观测时间点为止的期间,在移动过程中的移动轴的负载超出了异常负载水平的情况下,对应于其程度给予负的回报。另外,在移动过程中的移动轴的负载未超出异常负载水平的情况下,对应于其程度给予正的回报。
[0096] [回报2:移动轴的速度]
[0097] 移动轴的移动速度接近并到达移动指令所指令的指令速度越快,对应于其程度给予正的回报。另外,移动轴的移动速度接近并达到由移动指令指令的指令速度越慢,对应于其程度给予负的回报。
[0098] [回报3:移动轴的机构部破损发生]
[0099] 线放电加工机1具备的移动轴与工件、夹具发生了碰撞时,在移动轴的机构部(线导引等)发生了破损的情况下,给予负的回报。另外,在移动轴的机构部(线导引等)未发生破损的情况下,给予正的回报。
[0100] 轴进给指令调整学习部25基于从状态观测部21或者状态数据存储部22输入的移动轴的移动状态相关的数据、自身进行的轴进给指令的调整结果、及由回报计算部24计算出的回报,进行机械学习(强化学习)。
[0101] 此处,在轴进给指令调整学习部25进行的机械学习中,通过某一时刻t时移动轴的移动状态相关的数据的组合来定义状态st,对应于定义的状态st来决定轴进给指令的调整量,为行为at,通过后述的轴进给指令输出部27进行轴进给指令的调整,该调整结果被输出到控制部10,然后,基于调整后的轴进给指令,控制线放电加工机1,使轴移动,基于作为其结果得到的数据而由上述回报计算部24计算出的值,为回报rt+1。关于用于学习的价值函数,对应于适用的学习算法来决定。例如,在使用Q学习的情况下,可依照上述的式2更新行为价值函数Q(st,at),由此来推进学习。
[0102] 使用图7的流程图,说明轴进给指令调整学习部25进行的机械学习的流程。以下,依照各步骤进行说明。
[0103] [步骤SA01]机械学习开始时,状态观测部21获取线放电加工机1的移动轴的移动状态相关的数据。
[0104] [步骤SA02]轴进给指令调整学习部25基于状态观测部21获取到的移动轴的移动状态相关的数据,确定当前的状态St。
[0105] [步骤SA03]轴进给指令调整学习部25基于过去的学习结果和由步骤SA02确定的状态St,选择行为at(调整轴进给指令)。
[0106] [步骤SA04]执行由步骤SA03选择的行为at。
[0107] [步骤SA05]状态观测部21获取表示线放电加工机1中轴的移动状态的移动轴的移动状态相关的数据。该阶段中,线放电加工机1的状态随着从时刻t向时刻t+1的时间推移,通过步骤SA04所执行的行为at而发生变化。
[0108] [步骤SA06]基于由步骤SA05获取到的评价结果的数据,回报计算部24算出回报rt+1。
[0109] [步骤SA07]基于由步骤SA02确定的状态St、由步骤SA03选择的行为at、由步骤SA06算出的回报rt+1,轴进给指令调整学习部25推进机械学习,并返回步骤SA02。
[0110] 返回图6,学习结果存储部26存储轴进给指令调整学习部25所学习的结果。另外,在轴进给指令调整学习部25再次使用学习结果时,将存储的学习结果向轴进给指令调整学习部25输出。关于学习结果的存储,如上述的那样,可将所利用的机械学习算法对应的价值函数,利用近似函数、排列、或者多值输出的SVM、神经网络等有教师学习器等存储。
[0111] 需要说明的是,还能够向学习结果存储部26输入并存储其他线放电加工机40、集中管理系统30存储的学习结果,或者将学习结果存储部26存储的学习结果向其他线放电加工机40、集中管理系统30输出。
[0112] 轴进给指令输出部27基于轴进给指令调整学习部25所学习的结果和当前的移动轴的移动状态相关的数据,决定轴进给指令的调整量。此处所说的决定轴进给指令的调整量,相当于用于机械学习的行为a(参照图1)。关于轴进给指令的调整,例如,可以准备由构成轴进给指令的各参数的变更量组合成的组合作为能选择的行为(例如,行为1=将移动轴的速度与原来的轴进给指令速度的10%相加,行为2=将移动轴的速度变更为原来的轴进给指令速度,行为3=移动轴的加速度也减去由时间常数确定的加速度的10%,……),选择基于过去的学习结果而在将来能得到的回报最大的行为。能选择的行为可以作为同时调整多个轴进给指令的项目(移动轴的速度、移动轴的加速度、异常负载水平)的行为。另外,可以通过采用上述的ε贪婪算法,以预定的概率选择随机行为,从而实现轴进给指令调整学习部25的学习进展。需要说明的是,作为行为的选择结果,在轴的移动速度因原来的移动指令而成为超过指令速度的速度的情况、或者轴的加速度超过根据设定给该轴的时间常数算出的加速度的情况、移动速度成为0以下的情况、加速度为不足0的情况下,不选择该行为,而是选择其他行为。
[0113] 之后,轴进给指令输出部27基于通过行为的选择而决定的轴进给指令的调整量来调整轴进给指令,然后,基于轴进给指令输出部27所调整而得的轴进给指令,由控制部10进行对线放电加工机1的轴移动的控制。
[0114] 之后,再次由机械学习器20获取当前的线放电加工机1的状况,使用所输入的移动轴的移动状态相关的数据,反复进行学习,从而能够得到更优异的学习结果。
[0115] 这样,作为机械学习器20所学习的结果,在控制部10适当调整了对应于线放电加工机1中的轴的移动状态的轴进给指令的阶段,机械学习器20所进行的学习完成。
[0116] 在使用上述学习完成后的学习数据而实际运转线放电加工机时,机械学习器20可以不进行新的学习,而是直接使用学习完成时的学习数据并进行反复运转。
[0117] 另外,也可以将完成了学习的机械学习器20(或者,将其他机械学习器20完成的学习数据复制到学习结果存储部26的机械学习器20)安装到其他线放电加工机40,直接使用学习完成时的学习数据并进行反复运转。
[0118] 并且,还能够在保持完成学习的机械学习器20的学习功能有效的状态下安装在其他线放电加工机继续运转,使其进一步学习每台线放电加工机不同的个体差、经年变化等,一边探索对于线放电加工机而言更优良的轴进给指令的调整,一边进行运转。
[0119] 线放电加工机1的机械学习器20可以单独进行机械学习,如果多个线放电加工机1分别还具备与外部进行通信的通信单元,则能够收发各自的状态数据存储部22所存储的移动轴的移动状态相关的数据、学习结果存储部26所存储的学习结果,从而共享,并能够进行效率更好的机械学习。例如,当在预定的范围内使轴进给指令变动而进行学习时,在多个线放电加工机1中使不同调整量分别在预定的范围内变动而进行轴移动的同时,通过在各个线放电加工机1、40之间交换移动轴的移动状态相关的数据、学习数据,并行推进学习,从而能够高效进行学习。
[0120] 这样在多个线放电加工机1之间进行交换时,可以经由集中管理系统30等主机进行通信,也可以直接由线放电加工机1彼此进行通信,也可以使用云,但是由于具有处理9大量数据的情况,因此尽量优选通信速度快的通信单元。
[0121] 以上,针对本发明的实施方式进行了说明,但是本发明不仅限于上述的实施方式的例子,通过施加适当的变更,能够以各种方式实施。