数控装置、放电加工装置及放电加工方法转让专利

申请号 : CN201980094602.9

文献号 : CN113646119B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 中川孝幸关本大介

申请人 : 三菱电机株式会社

摘要 :

数控装置(1)对放电加工装置(100)中的加工电极和被加工物的相对速度进行控制,该放电加工装置(100)通过在加工电极和被加工物的间隙使放电发生而对被加工物进行加工。数控装置(1)具有:加工面移动速度推定部(20),其对放电的状态进行检测,基于放电的状态的检测结果,对被加工物之中的与加工电极相对的面即加工面由于加工的进展而向从加工电极远离的方向移动的移动速度进行推定;以及作为速度指令值补偿部的加法器(13),其基于移动速度的推定值(27),计算指令值,该指令值是相对速度的指令值、且是对移动速度进行补偿的速度指令值(28)。

权利要求 :

1.一种数控装置,其对放电加工装置中的加工电极和被加工物的相对速度进行控制,该放电加工装置通过在所述加工电极和所述被加工物的间隙使放电发生而对所述被加工物进行加工,该数控装置的特征在于,具有:

加工面移动速度推定部,其对所述放电的状态进行检测,基于所述放电的状态的检测结果,对所述被加工物之中的与所述加工电极相对的面即加工面由于加工的进展而向从所述加工电极远离的方向移动的移动速度进行推定;以及速度指令值补偿部,其基于所述移动速度的推定值,计算指令值,该指令值是所述相对速度的指令值、且是对所述移动速度进行补偿的速度指令值。

2.根据权利要求1所述的数控装置,其特征在于,

所述加工面移动速度推定部通过在所述放电的状态的检测结果中乘以系数,从而求出所述推定值。

3.根据权利要求2所述的数控装置,其特征在于,

所述系数是基于在加工时取得的信息而设定的系数。

4.根据权利要求2所述的数控装置,其特征在于,具有:差分器,其对在所述加工电极和所述被加工物之间施加的极间电压的指令值和所述极间电压的测定值之间的差分进行计算;

位置指令值计算部,其基于所述速度指令值对用于使所述加工电极和所述被加工物的相对位置变化的位置指令值进行计算;以及系数计算部,其对所述系数进行计算,

所述系数计算部具有:

机器学习装置,其对用于得到可补偿所述移动速度的所述位置指令值的所述系数进行学习;以及意图决定部,其基于由所述机器学习装置学习的结果而决定所述系数,所述机器学习装置具有:状态观测部,其对所述放电的状态的检测结果、所述位置指令值和所述差分进行观测而作为状态变量;以及学习部,其按照基于所述状态变量而创建的训练数据集对所述系数进行学习。

5.根据权利要求1至4中任一项所述的数控装置,其特征在于,所述加工面移动速度推定部通过对所述放电发生的次数进行检测从而对所述放电的状态进行检测,基于所述次数的检测结果而对所述移动速度进行推定。

6.一种放电加工装置,其通过在加工电极和被加工物的间隙使放电发生,从而对所述被加工物进行加工,该放电加工装置的特征在于,具有:

加工面移动速度推定部,其对所述放电的状态进行检测,基于所述放电的状态的检测结果,对所述被加工物之中的与所述加工电极相对的面即加工面由于加工的进展而向从所述加工电极远离的方向移动的移动速度进行推定;以及速度指令值补偿部,其基于所述移动速度的推定值,计算指令值,该指令值是所述加工电极和所述被加工物的相对速度的指令值、且是对所述移动速度进行补偿的速度指令值。

7.一种放电加工方法,其通过在加工电极和被加工物的间隙使放电发生,从而对所述被加工物进行加工,该放电加工方法的特征在于,包含下述工序:

对所述放电的状态进行检测,基于所述放电的状态的检测结果,对所述被加工物之中的与所述加工电极相对的面即加工面由于加工的进展而向从所述加工电极远离的方向移动的移动速度进行推定;以及基于所述移动速度的推定值,计算指令值,该指令值是所述加工电极和所述被加工物的相对速度的指令值、且是对所述移动速度进行补偿的速度指令值。

说明书 :

数控装置、放电加工装置及放电加工方法

技术领域

[0001] 本发明涉及对放电加工装置进行控制的数控装置、放电加工装置及放电加工方法。

背景技术

[0002] 放电加工装置通过在被加工物和加工电极的间隙使放电发生而对被加工物进行加工。对放电加工装置进行控制的数控装置为了进行稳定的加工而对被加工物和加工电极的相对速度进行控制,以使得将被加工物和加工电极的距离即极间距离保持恒定。在专利文献1中公开了通过将加工中的放电状态的检测结果设为反馈信号而对用于被加工物和加工电极的相对移动的驱动轴进行控制的放电加工装置。专利文献1所涉及的放电加工装置,基于对在被加工物和加工电极之间施加的极间电压进行测定得到的结果而对放电状态进行检测。
[0003] 专利文献1:日本特开平9-11043号公报

发明内容

[0004] 在放电加工中,被加工物之中的与加工电极相对的面即加工面,由于加工的进展而向从加工电极远离的方向不断移动。极间电压和极间距离彼此具有相关性,因此如果与用于使高的频率的放电发生的最良好的极间距离相比实际的极间距离变长,则在表示最良好的极间距离时的极间电压的指令值和极间电压的测定结果会产生差别。如上述专利文献1所记载的现有技术那样,在仅通过反馈对被加工物和加工电极的相对速度进行控制的情况下,数控装置对指令值和极间电压的测定结果之间的差分进行检测,由此产生使被加工物和加工电极的相对速度变化的指令。在该情况下,数控装置只要实际的极间距离没有从最良好的极间距离变化,则不产生使相对速度变化的指令。在实际的极间距离与最良好的极间距离相同时,用于维持极间距离的控制输出成为零,因此发生加工面从加工电极后退这样的极间距离的变化。放电加工装置没有维持最良好的极间距离,由此难以维持高的频率的放电发生。如上所述,根据现有技术,数控装置存在下述课题,即,难以通过维持高的频率的放电发生而使放电加工装置进行快的加工速度的放电加工。
[0005] 本发明就是鉴于上述情况而提出的,其目的在于,得到能够通过维持高的频率的放电发生而使放电加工装置进行快的加工速度的放电加工的数控装置。
[0006] 为了解决上述的课题,达到目的,本发明所涉及的数控装置对放电加工装置中的加工电极和被加工物的相对速度进行控制,该放电加工装置通过在加工电极和被加工物的间隙使放电发生而对被加工物进行加工。本发明所涉及的数控装置具有:加工面移动速度推定部,其对放电的状态进行检测,基于放电的状态的检测结果,对被加工物之中的与加工电极相对的面即加工面由于加工的进展而向从加工电极远离的方向移动的移动速度进行推定;以及速度指令值补偿部,其基于移动速度的推定值,计算指令值,该指令值是相对速度的指令值且是对移动速度进行补偿的速度指令值。
[0007] 发明的效果
[0008] 本发明所涉及的数控装置具有下述效果,即,能够通过维持高的频率的放电发生而使放电加工装置进行快的加工速度的放电加工。

附图说明

[0009] 图1是表示具有本发明的实施方式1所涉及的数控装置的放电加工装置的概略结构的图。
[0010] 图2是表示图1所示的放电加工装置的功能结构的框图。
[0011] 图3是表示图2所示的数控装置的动作顺序的流程图。
[0012] 图4是关于图2所示的数控装置所具有的系数设定部中的系数的设定例的说明图。
[0013] 图5是表示实施方式1所涉及的数控装置的硬件结构的例子的第1图。
[0014] 图6是表示实施方式1所涉及的数控装置的硬件结构的例子的第2图。
[0015] 图7是表示本发明的实施方式2所涉及的NC装置所具有的加工面移动速度推定部的功能结构的框图。
[0016] 图8是表示图7所示的加工面移动速度推定部所具有的机器学习装置的功能结构的框图。
[0017] 图9是表示使用实施方式2所涉及的强化学习的机器学习装置的动作流程的流程图。

具体实施方式

[0018] 下面,基于附图对本发明的实施方式所涉及的数控装置、放电加工装置及放电加工方法详细地进行说明。此外,本发明不受本实施方式限定。在下面的说明中,有时将数控装置称为NC(Numerical Control)装置。
[0019] 实施方式1.
[0020] 图1是表示具有本发明的实施方式1所涉及的数控装置的放电加工装置的概略结构的图。图1所示的放电加工装置100为形雕放电加工装置。放电加工装置100通过使加工电极4和被加工物5的间隙发生放电而对被加工物5进行加工。NC装置1对放电加工装置100进行控制。
[0021] 加工部2是放电加工装置100之中的进行放电加工的部分,且具有用于使加工电极4和被加工物5进行相对移动的轴驱动部。在实施方式1中,轴驱动部使加工电极4相对于被加工物5进行移动。NC装置1通过向伺服放大器8输出位置指令,从而对伺服放大器8进行控制。伺服放大器8按照由NC装置1输出的位置指令而使轴驱动部进行动作。轴驱动部使加工电极4移动。在图1中,省略轴驱动部的图示。此外,加工部2也可以具有使被加工物5移动的轴驱动部。
[0022] 加工电源3按照由NC装置1输出的电源指令,对加工电极4和被加工物5之间施加脉冲电压。极间电压测定器6对施加于加工电极4和被加工物5之间的极间电压进行测定。电流计7对从加工电源3供给的电流进行测定。
[0023] 加工面5a是被加工物5之中的与加工电极4的前端相对的面,且是进行加工的面。加工面5a由于加工的进展而向从加工电极4远离的方向移动。在下面的说明中,有时将由于加工的进展而加工面5a从加工电极4远离的方向称为加工方向。加工面5a在与加工方向相反的方向与加工电极4相对。
[0024] 图2是表示图1所示的放电加工装置的功能结构的框图。在图2示出了放电加工装置100之中的用于对加工电极4和被加工物5的相对速度进行控制的结构。伺服放大器8按照从NC装置1输出的位置指令值23使上述轴驱动部进行动作。
[0025] 实施方式1所涉及的NC装置1的特征在于,在用于极间电压所涉及的反馈控制的反馈速度指令运算部12的基础上,还具有加工面移动速度推定部20。加工面移动速度推定部20对放电的状态进行检测,基于放电的状态的检测结果24对加工面5a向加工方向移动的移动速度进行推定。关于加工面移动速度推定部20的详细内容在后面记述。
[0026] 极间电压测定器6将极间电压的测定结果即测定值26向NC装置1输出。电流计7将电流的测定值30向NC装置1输出。用户通过参照加工条件表而向NC装置1输入极间电压指令值21。极间电压指令值21是施加于加工电极4和被加工物5之间的极间电压的指令值。极间电压和极间距离彼此具有相关性。极间电压指令值21是极间电压最良好的极间距离时的极间电压的值。测定值26与实际的极间电压相对应。差分器11对向NC装置1输入的极间电压指令值21和测定值26之间的差分29进行计算,将差分29向反馈速度指令运算部12输出。反馈速度指令运算部12基于差分29而生成反馈控制量22。反馈速度指令运算部12将生成的反馈控制量22向加法器13输出。加法器13作为速度指令值补偿部起作用,其基于加工面5a的移动速度的推定值27,计算指令值,该指令值是加工电极4和被加工物5的相对速度的指令值且是对加工面5a的移动速度进行补偿的速度指令值28。
[0027] 在这里,将通过放电加工从被加工物5去除的部分的体积设为去除体积,将每单位时间的去除体积设为去除体积速度。加工面5a的移动速度相当于将去除体积速度除以加工面5a的面积而得到的结果。去除体积速度能够通过将为了放电而投入的加工能量乘以放电脉冲频率而进行推定。加工面移动速度推定部20对放电的状态进行检测,向放电的状态的检测结果24乘以系数25,由此进行与去除体积速度的推定及加工面5a的移动速度的推定相当的处理。由此,加工面移动速度推定部20对加工面5a的移动速度进行推定。
[0028] 加工面移动速度推定部20具有:放电状态检测部15,其对放电的状态进行检测;系数设定部16,其对与放电的状态的检测结果24相乘的系数25进行设定;以及乘法器17,其将系数25与放电的状态的检测结果24相乘。
[0029] 放电状态检测部15基于从电流计7取得的测定值30的推移,对通过放电而流过电流的次数进行计数。放电状态检测部15通过对流过电流的次数进行计数,从而对放电发生的次数即放电脉冲频率进行检测。放电状态检测部15通过对放电脉冲频率进行检测,从而对放电的状态进行检测。放电状态检测部15将放电脉冲频率的检测结果24向乘法器17输出。
[0030] 放电脉冲频率是具有与加工面5a的移动速度之间的相关性的信息,因此加工面移动速度推定部20能够基于放电脉冲频率对移动速度进行推定,由此实现推定精度的提高。此外,放电状态检测部15也可以基于通过极间电压测定器6测定出的测定值26的推移,对放电脉冲频率进行检测。放电状态检测部15能够通过对在放电脉冲的施加中电压下降的次数进行计数而对放电脉冲频率进行检测。
[0031] 系数设定部16将预先设定的系数25进行输出。对系数25设定任意的值。如果进行举例,则在系数25中加进通过加工条件而设定的每1个放电的加工能量和加工电极4之中的与加工面5a相对的面的面积。通过将加工能量加进系数25,从而加工面移动速度推定部20通过系数25向放电脉冲频率的相乘,能够进行与去除体积速度的推定相当的处理。并且,通过将加工电极4之中的与加工面5a相对的面的面积加进系数25,从而加工面移动速度推定部20能够进行与根据去除体积速度的推定结果而推定加工面5a的移动速度相当的处理。系数设定部16向乘法器17输出系数25。
[0032] 乘法器17向检测结果24乘以系数25,由此对加工面5a的移动速度的推定值27进行计算。乘法器17将计算出的推定值27向加法器13输出。加法器13将从乘法器17输入的推定值27与反馈控制量22相加,由此对补偿有推定值27的速度指令值28进行计算。加法器13将计算出的速度指令值28向积分器14输出。积分器14通过对速度指令值28进行积分,从而生成用于使加工电极4和被加工物5的相对位置变化的位置指令值23。积分器14将生成的位置指令值23向伺服放大器8输出。积分器14作为基于速度指令值28对位置指令值23进行计算的位置指令值计算部起作用。
[0033] 在系数设定部16设定的系数25,并不限定于基于每1次放电的加工能量或者加工电极4之中的与加工面5a相对的面的面积进行设定。系数25能够基于下述信息进行设定,该信息是与放电加工相关的各种信息、且是可向加工面5a的移动速度造成影响的信息。系数25可以基于施加于加工电极4及被加工物5之间的放电脉冲的极性、放电脉冲的宽度这样的信息进行设定。系数25由NC装置1的用户进行设定。系数25可以基于通过放电加工装置100进行试加工而得到的加工模型进行设定。
[0034] 图3是表示图2所示的数控装置的动作顺序的流程图。在步骤S1中,放电状态检测部15对放电脉冲频率进行检测。放电状态检测部15将放电脉冲频率的检测结果24向乘法器17输出。系数设定部16将设定的系数25向乘法器17输出。在步骤S2中,乘法器17通过在放电脉冲频率的检测结果24乘以系数25而对推定值27进行计算。乘法器17将推定值27向加法器
13输出。通过步骤S1及步骤S2,加工面移动速度推定部20对加工面5a的移动速度进行推定。
[0035] 在步骤S3中,加法器13通过在反馈控制量22加上推定值27,从而生成对加工面5a的移动速度进行补偿的速度指令值28。加法器13将速度指令值28向积分器14输出。在步骤S4中,积分器14通过对速度指令值28进行积分,从而对位置指令值23进行计算。积分器14向伺服放大器8输出位置指令值23。由此,NC装置1将通过图3所示的顺序进行的动作结束。
[0036] 系数设定部16除了对预先设定的系数25进行保持以外,还可以基于在加工时取得的信息对系数25进行设定。图4是关于图2所示的数控装置所具有的系数设定部中的系数的设定例的说明图。在图4示出了在放电发生时,在加工电极4和被加工物5之间流过的电流的波形。系数设定部16能够取得通过电流计7测定出的测定值30。
[0037] 系数设定部16将测定值30通过时间进行积分而求出每1次放电的加工能量。在图4中带有阴影线的部分的面积表示每1次放电的加工能量。在每1次放电的加工能量乘以放电脉冲频率得到的结果成为全加工能量。全加工能量与去除体积具有高的相关性。如果计算出每单位时间的加工能量,则能够基于事先测定出的加工能量和去除体积之间的关系对去除体积速度进行推定。另外,能够基于去除体积速度和相对面积对加工面5a的移动速度进行推定。与放电的状态的检测结果24相乘的系数25是基于全加工能量而设定的,由此加工面移动速度推定部20能够对加工面5a的移动速度进行推定。系数25可以基于除了全加工能量以外在加工时取得的信息而设定。
[0038] 放电状态检测部15并不限定于通过对放电脉冲频率进行检测而对放电的状态进行检测。放电状态检测部15也可以通过对由放电发出的光或者由放电发出的声音进行检测而对放电的状态进行检测。放电状态检测部15通过对按照放电的大小而变化的光量或者音量这样的状态量进行检测,从而能够对放电的状态进行检测。放电加工装置100并不限定于形雕放电加工装置,也可以是线放电加工装置。
[0039] 接下来,对NC装置1所具有的硬件结构进行说明。NC装置1所具有的功能是使用处理电路而实现的。处理电路是搭载于NC装置1的专用的硬件。处理电路可以是执行在存储器中储存的程序的处理器。
[0040] 图5是表示实施方式1所涉及的数控装置的硬件结构的例子的第1图。在图5示出了将NC装置1的功能使用专用的硬件而实现的情况下的硬件结构。NC装置1具有执行各种处理的处理电路51和用于进行与NC装置1的外部设备的连接或者信息的输入输出的接口52。处理电路51和接口52经由总线而相互地连接。
[0041] 专用的硬件即处理电路51是单一电路、复合电路、被程序化的处理器、被并行程序化的处理器、ASIC(Application Specific Integrated Circuit)、FPGA(Field‑Programmable Gate Array)或它们的组合。图2所示的差分器11、反馈速度指令运算部12、加法器13、积分器14及加工面移动速度推定部20的各功能是使用处理电路51实现的。
[0042] 图6是表示实施方式1所涉及的数控装置的硬件结构的例子的第2图。在图6示出了将NC装置1的功能使用执行程序的硬件而实现的情况下的硬件结构。接口52、处理器53和存储器54经由总线而相互地连接。
[0043] 处理器53是CPU(Central Processing Unit)、处理装置、运算装置、微处理器、微型计算机或DSP(Digital Signal Processor)。图2所示的差分器11、反馈速度指令运算部12、加法器13、积分器14及加工面移动速度推定部20的各功能通过处理器53和软件、固件或者软件和固件的组合而实现。软件或者固件作为程序记述,储存于内置存储器即存储器54。
存储器54是非易失性或者易失性的半导体存储器,是RAM(Random Access Memory)、ROM(Read Only Memory)、闪存、EPROM(Erasable Programmable Read Only Memory)或者EEPROM(注册商标)(Electrically Erasable Programmable Read Only Memory)。
[0044] 根据实施方式1,NC装置1基于放电的状态的检测结果24对加工方向上的加工面5a的移动速度进行推定,基于移动速度的推定值27而计算对移动速度进行补偿的速度指令值28。由此,NC装置1能够得到可将加工面5a向加工方向的移动速度抵消的速度指令值28。NC装置1计算对加工面5a的移动速度进行补偿的速度指令值28,由此放电加工装置100能够维持最良好的极间距离,能够一边维持高的放电脉冲频率一边推进加工。由此,NC装置1具有下述效果,即,能够通过维持高的频率的放电发生而使放电加工装置100进行快的加工速度的放电加工。
[0045] 实施方式2.
[0046] 图7是表示本发明的实施方式2所涉及的NC装置所具有的加工面移动速度推定部的功能结构的框图。在实施方式2所涉及的NC装置1,取代实施方式1所涉及的系数设定部16而具有对系数25进行计算的系数计算部61。系数计算部61具有机器学习装置62和意图决定部63。在实施方式2中,对与上述的实施方式1相同的结构要素标注同一标号,主要对与实施方式1不同的结构进行说明。
[0047] 机器学习装置62对用于取得能够对加工面5a的移动速度进行补偿的位置指令值23的系数25进行学习。意图决定部63基于由机器学习装置62学习的结果而决定系数25。放电状态检测部15将放电脉冲频率的检测结果24向乘法器17和机器学习装置62输出。系数计算部61在意图决定部63中决定系数25,由此对系数25进行计算。系数计算部61将计算出的系数25向乘法器17输出。另外,图2所示的差分器11向反馈速度指令运算部12和机器学习装置62输出差分29。积分器14向伺服放大器8和机器学习装置62输出位置指令值23。
[0048] 图8是表示图7所示的加工面移动速度推定部所具有的机器学习装置的功能结构的框图。机器学习装置62具有状态观测部64和学习部65。状态观测部64对放电脉冲频率的检测结果24、位置指令值23和差分29进行观测而作为状态变量。学习部65按照基于状态变量创建出的训练数据集,对用于得到能够补偿移动速度的位置指令值23的系数25进行学习。
[0049] 学习部65所使用的学习算法可以使用任意算法。作为一个例子,对应用了强化学习(Reinforcement Learning)的情况进行说明。强化学习是某环境内的智能体即行动主体对当前的状态进行观测,决定应采取的行动。智能体对行动进行选择而从环境得到回报,通过一系列的行动而学习会得到最多回报的对策。作为强化学习的代表性的方法,已知Q学习(Q-learning)及TD学习(TD-learning)等。例如,在Q学习的情况下,行动价值函数Q(s,a)的通常的更新式即行动价值表通过下面的式(1)表示。行动价值函数Q(s,a)表示通过环境“s”对行动“a”进行选择的行动的价值即行动价值Q。
[0050] 【式1】
[0051] Q(st,at)←Q(st,at)+α(rt+1+γmaxaQ(st+1,at)‑Q(st,at))…(1)
[0052] 在上述的式(1)中,“st+1”表示时刻“t”的环境。“at”表示时刻“t”的行动。通过行动“at”,环境变为“st+1”。“rt+1”表示通过其环境的变化而赋予的回报。“γ”表示折扣率。“α”表示学习系数。在应用Q学习的情况下,位置指令值23成为行动“at”。
[0053] 通过上述的式(1)表示的更新式是如果时刻“t+1”的最良好的行动“a”的行动价值大于在时刻“t”执行的行动“a”的行动价值Q,则增大行动价值Q,在相反的情况下,减小行动价值Q。换言之,对行动价值函数Q(s,a)进行更新,以使得时刻“t”的行动“a”的行动价值Q与时刻“t+1”的最良好的行动价值接近。由此,某环境中的最良好的行动价值不断依次传播至以前的环境中的行动价值。
[0054] 学习部65具有回报计算部66和函数更新部67。回报计算部66基于状态变量对回报进行计算。函数更新部67按照由回报计算部66计算的回报,对用于决定系数25的函数进行更新。
[0055] 回报计算部66对差分29的绝对值进行检测。回报计算部66基于差分29的绝对值的变化对回报“r”进行计算。例如,在将位置指令值23变更后的结果,差分29的绝对值变小的情况下,回报计算部66使回报“r”增大。回报计算部66通过赋予回报的值即“1”而使回报“r”增大。此外,回报的值并不限定于“1”。另外,在将位置指令值23变更后的结果,差分29的绝对值变大的情况下,回报计算部66使回报“r”减小。回报计算部66通过赋予回报的值即“-1”而使回报“r”减小。此外,回报的值并不限定于“-1”。
[0056] 函数更新部67按照由回报计算部66计算的回报,对用于决定系数25的函数进行更新。函数的更新能够按照训练数据集,例如通过对行动价值表进行更新而进行。行动价值表是将任意的行动和其行动价值相关联以表的形式存储的数据集。例如在Q学习的情况下,将通过上述的式(1)表示的行动价值函数Q(st,at)作为用于系数25的计算的函数使用。
[0057] 图9是表示使用实施方式2所涉及的强化学习的机器学习装置的动作流程的流程图。参照图9的流程图,说明对行动价值函数Q(s,a)进行更新的强化学习方法。
[0058] 在步骤S11中,状态观测部64取得状态变量。状态变量是检测结果24即放电脉冲频率、位置指令值23和差分29。在步骤S12中,回报计算部66对通过使位置指令值23变更而产生的差分29的绝对值的变化进行检测。
[0059] 在步骤S13中,回报计算部66基于差分29的绝对值的变化而对回报“r”进行计算。在步骤S14中,函数更新部67基于在步骤S13中计算出的回报“r”而对行动价值函数Q(s,a)进行更新。函数更新部67按照上述的式(1)对行动价值函数Q(s,a)进行更新。
[0060] 在步骤S15中,函数更新部67对行动价值函数Q(s,a)是否收敛进行判定。函数更新部67根据不进行步骤S14中的行动价值函数Q(s,a)的更新而判定为行动价值函数Q(s,a)已收敛。
[0061] 在判定为行动价值函数Q(s,a)没有收敛的情况下(步骤S15,No),机器学习装置62使动作顺序向步骤S11返回。在判定为行动价值函数Q(s,a)已收敛的情况下(步骤S15,Yes),通过学习部65进行的学习结束。由此,机器学习装置62将通过图9所示的顺序进行的动作结束。此外,机器学习装置62也可以不进行步骤S15所涉及的判定,而是将动作顺序从步骤S14向步骤S11返回而继续学习。
[0062] 意图决定部63基于通过学习部65进行学习的结果,即更新后的行动价值函数Q(s,a),对回报得到最多的系数25进行选择。乘法器17将由意图决定部63决定的系数25向检测结果24相乘,由此对推定值27进行计算。加工面移动速度推定部20将计算出的推定值27向加法器13输出。NC装置1通过由机器学习装置62进行的系数25的学习,能够得到可对加工面5a的移动速度进行补偿的位置指令值23。由此,NC装置1能够得到可维持高的频率的放电发生的位置指令值23。
[0063] 此外,回报计算部66也可以基于放电脉冲频率的检测结果24而对回报“r”进行计算。如果实际的极间距离与最良好的极间距离接近,则放电脉冲频率变大。因此,回报计算部66可以在放电脉冲频率变大的情况下使回报“r”增大,在放电脉冲频率变小的情况下使回报“r”减小。
[0064] 在实施方式2中,对学习部65利用强化学习而执行机器学习的情况进行了说明。学习部65也可以按照其他公知的方法,例如神经网络、遗传编程、功能逻辑编程、支持向量机等执行机器学习。
[0065] 根据实施方式2,NC装置1具有机器学习装置62,其对用于得到能够对加工面5a的移动速度进行补偿的位置指令值23的系数25进行学习,由此能够求出可维持高的频率的放电发生的位置指令值23。由此,NC装置1具有下述效果,即,能够通过维持高的频率的放电发生而使放电加工装置100进行快的加工速度的放电加工。
[0066] 以上的实施方式所示的结构,表示本发明的内容的一个例子,也能够与其他公知技术进行组合,在不脱离本发明的主旨的范围,也能够对结构的一部分进行省略、变更。
[0067] 标号的说明
[0068] 1 NC装置,2加工部,3加工电源,4加工电极,5被加工物,5a加工面,6极间电压测定器,7电流计,8伺服放大器,11差分器,12反馈速度指令运算部,13加法器,14积分器,15放电状态检测部,16系数设定部,17乘法器,20加工面移动速度推定部,21极间电压指令值,22反馈控制量,23位置指令值,24检测结果,25系数,26、30测定值,27推定值,28速度指令值,29差分,51处理电路,52接口,53处理器,54存储器,61系数计算部,62机器学习装置,63意图决定部,64状态观测部,65学习部,66回报计算部,67函数更新部,100放电加工装置。