一种基于深度增强学习的家用扫地机器人的设计方法转让专利

申请号 : CN201710285895.1

文献号 : CN107092254B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王昊臣孔祥龙宋宇航张玉玺刘旭辉张子璇

申请人 : 北京航空航天大学

摘要 :

一种基于深度增强学习的家用扫地机器人的设计方法,步骤如下:1,通过激光雷达采集扫地机器人周围的房间水平剖面的原始图像,将原始数据通过无线串口回传给计算机;2,对原始数据进行SLAM,完成对扫地机器人的实时定位与对房间的地图构图,之后进行处理,生成168×168的二维数组;3,建立CNN+LSTM神经网络;4,对扫地机器人进行训练,根据其运动是否满足预期要求,对神经网络给出相应的回报,以此来更改神经网络参数;经过训练后便能够进行自主决策;通过以上步骤,扫地机器人能够在陌生场景中,在较短的时间内找到目标物体,同时能躲避障碍,自行规划路径,以该方法设计的扫地机器人具有一定的通用性和任务迁移性。

权利要求 :

1.一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:该方法具体步骤包括:

步骤1,扫地机器人通过激光雷达采集扫地机器人周围的房间水平剖面的原始图像,并对该原始图像进行解码,将解码后的原始数据通过无线串口回传给计算机即PC机;

步骤2,对步骤1中获得的原始数据进行SLAM,完成对扫地机器人的实时定位与对房间的地图构图,之后系统对房间的构图进行最大值池化即MAX POOLING处理,生成168×168的二维数组;

步骤3,建立CNN+LSTM神经网络,将步骤2中生成的二维数组作为神经网络的输入,CNN+LSTM神经网络输出控制扫地机器人运动的指令;

步骤4,通过A3C算法对扫地机器人进行训练,根据扫地机器人的运动是否满足设计预期要求,对神经网络给出相应的回报,以此来更改神经网络参数;经过一定时间的训练后,扫地机器人便能够进行自主决策;

通过以上步骤,扫地机器人能够在陌生场景中,在短的时间内找到目标物体,同时能躲避障碍,自行规划路径,以该方法设计的扫地机器人具有通用性和任务迁移性。

2.根据权利要求1所述的一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:在步骤1中所述的“解码”是指根据激光雷达通信协议将串口数据转换成角度和距离信息。

3.根据权利要求1所述的一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:在步骤2中所述的“对扫地机器人的实时定位与对房间的地图构图”,其构建过程如下:对原始数据进行特征提取,利用牛顿高斯方法计算变换矩阵,再进行滤波处理,完成建图。

4.根据权利要求1所述的一种基于深度增强学习的家用扫地机器人的设计方法,其特征在于:步骤4中“对扫地机器人进行训练”中的训练包括模拟训练和真实训练,比例为10:

1;模拟训练指的是:在PC端构建一个与真实环境高度一致的仿真环境,并在这个环境中训练神经网络;真实训练指的是:通过将扫地机器人放置在各种真实的场景中自主运动,对扫地机器人中的神经网络进行不断的训练,以使扫地机器人快速的适应周围的环境,及时完成清扫任务;经过预定时间的训练,扫地机器人便能够进行自主决策。

说明书 :

一种基于深度增强学习的家用扫地机器人的设计方法

技术领域

[0001] 本发明提供一种基于深度增强学习的家用扫地机器人的设计方法,属于智能家居领域。

背景技术

[0002] 目前,使用扫地机器人的家庭越来越多。现在市场上的扫地机器人进入一个新的环境工作时,首先要按照算法对整个房间进行遍历,完成建图和定位。然后构建语义地图,最后进行路径规划,然后再开始对房间的清洁。其中,遍历房间的方法往往是扫地机器人一直贴着一条墙壁走,形成一个闭合回路后,再逐渐填补中间空白位置,这种做法路程较长,会花费大量的时间。同样,路径规划算法不仅复杂、需要大量的计算和人力工程,而且不够完善,不能使扫地机器人以最优路径工作。
[0003] 近年来,深度增强学习发展迅速,在棋类博弈和一些模拟游戏中取得了很好的表现。本发明构建扫地机器人智能体,通过给予智能体奖励和惩罚信息,使其知道自身行为的正确与否。智能体通过我们给予的奖励和惩罚信息进行长时间的学习,最终具有自主决策的能力,能自如的躲避障碍、规划路径,并对房间进行高效的清扫。

发明内容

[0004] 1.目的:
[0005] 本发明的目的是提供一种基于深度增强学习的家用扫地机器人的设计方法。该方法以激光雷达为传感器,对扫地机器人进行实时定位以及对扫地机器人周围的二维水平平面空间进行地图构件(即SLAM),以SLAM图像作为卷积循环神经网络(即CNN+LSTM神经网络)的输入,该网络产生控制扫地机器人动作的指令。通过一种通用深度增强学习算法(A3C算法)对神经网络进行训练,最终可以使扫地机器人以较短路径遍历房间,并能够自主躲避障碍、规划路径和清理垃圾。通过该方法设计的扫地机器人具有学习能力、自主决策能力和任务迁移能力。
[0006] 2.技术方案:本发明是一种基于深度增强学习的家用扫地机器人的设计方法,该方法具体步骤包括:
[0007] 步骤1,扫地机器人通过激光雷达采集扫地机器人周围的房间水平剖面的原始图像,并对该数据进行解码,将原始数据通过无线串口回传给计算机(即PC机);
[0008] 步骤2,对步骤1中获得的原始数据进行SLAM,完成对扫地机器人的实时定位与对房间的地图构图,之后系统对房间的构图进行最大值池化(即MAX POOLING)处理,生成168×168的二维数组;
[0009] 步骤3,建立CNN+LSTM神经网络,将步骤2中生成的二维数组作为神经网络的输入,CNN+LSTM神经网络输出控制扫地机器人运动的指令;
[0010] 步骤4,通过A3C算法对扫地机器人进行训练,根据扫地机器人的运动是否满足设计预期要求,对神经网络给出相应的回报,以此来更改神经网络参数。经过一定时间的训练后,扫地机器人便能够进行自主决策;
[0011] 其中,在步骤1中所述的“解码”是指根据激光雷达通信协议将串口数据转换成角度和距离信息。
[0012] 其中,在步骤2中所述的“对扫地机器人的实时定位与对房间的地图构图”,构建过程如下:对原始数据进行特征提取,利用牛顿高斯方法计算变换矩阵,再进行滤波等处理,完成建图。
[0013] 其中,步骤4中“对扫地机器人进行训练”中的训练包括模拟训练和真实训练,比例为10:1。模拟训练指的是:在PC端构建一个与真实环境高度一致的仿真环境,并在这个环境中训练神经网络;真实训练指的是:通过将扫地机器人放置在各种真实的场景中自主运动,对扫地机器人中的神经网络进行不断的训练,以使扫地机器人快速的适应周围的环境,及时完成清扫任务。经过一定时间的训练,扫地机器人便能够进行自主决策。
[0014] 通过以上步骤,扫地机器人能够在陌生场景中,在较短的时间内找到目标物体,同时可以躲避障碍,自行规划路径,以该方法设计的扫地机器人具有一定的通用性和任务迁移性。
[0015] 3、优点及效果:本发明是一种基于深度增强学习的家用扫地机器人的设计方法,具有以下几个优点:
[0016] (1)本发明减少了设计扫地机器人过程中的工程量,在本发明中,只需要将雷达采集到的图像输入系统,就可以使扫地机器人进行正常的工作,降低了算法的难度,同时省去了一定的人力工程。
[0017] (2)本发明提供的设计方法可以使扫地机器人具有自主决策能力,扫地机器人的整个运动过程都是由自身的学习实现的,扫地机器人的行为方式与人类的行为方式相仿。
[0018] (3)本发明中,由于神经网络具有一般性,当扫地机器人面对不同的任务要求时,系统只需相应地改变回报值,扫地机器人就可以完成不同的任务。因此,该方法设计的扫地机器人具有很高的通用性和任务迁移性。
[0019] (4)本发明能够使扫地机器人在陌生场景中,在较短的时间内找到目标物体,同时可以躲避障碍,记忆周围空间地图。

附图说明

[0020] 图1是本发明所述方法工作流程框图。
[0021] 图中序号,符号,代号所代表的意义如下:
[0022] 1:家用扫地机器人
[0023] 2:CNN+LSTM神经网络
[0024] 3:原始数据
[0025] 4:空间模型

具体实施方式

[0026] 下面结合附图和实施例,对本发明的技术方案做进一步的说明。
[0027] 本发明是一种基于深度增强学习的家用扫地机器人的设计方法,扫地机器人工作流程如
[0028] 图1所示,具体包括如下步骤:
[0029] 步骤1,扫地机器人通过激光雷达采集原始图像数据,该数据指的是在以激光雷达为原点、以水平面为平面建立的极坐标系上,每一个坐标角度上激光雷达到障碍物的距离。扫地机器人对该数据进行解码后,将原始数据通过无线串口回传给PC机;
[0030] 步骤2,通过BREEZYSLAM算法库,系统对步骤1中的获得的原始数据进行特征提取,计算变换矩阵,滤波后,完成对扫地机器人的实时定位与对房间的构图。之后系统对构图进行max pooling,将房间的构图池化为168×168的二维数组;
[0031] 步骤3,使用谷歌研发的第二代人工智能学习系统(即TensorFlow)建立CNN+LSTM神经网络。该神经网络中,卷积层的个数为5,卷积核的大小为8×8×32,LSTM网络的大小为256。将步骤2中生成的二维数组作为该神经网络的输入,该神经网络输出控制扫地机器人运动的指令。该指令包括向前移动、向后移动、向左移动、向右移动、左转、右转和清理。扫地机器人产生移动后,会采集新的数据,并再次将采集到的新的数据输入CNN+LSTM神经网络,神经网络会再输出新的控制指令,使扫地机器人产生新的移动。
[0032] 步骤4,通过A3C算法对扫地机器人进行训练,根据扫地机器人的运动是否满足设计预期要求,对神经网络给出相应的回报,以此来修正神经网络参数。比如:当扫地机器人碰到了障碍物时,回报值为0;当其清理了一份垃圾时,回报值为1;当其运动到一块新的区域时,回报值为1。对扫地机器人的训练包括模拟训练和真实训练,比例为10:1。模拟训练指的是:在PC端构建一个与真实环境高度一致的仿真环境,并在这个环境中训练神经网络;真实训练指的是:通过将扫地机器人放置在各种真实的场景中自主运动,对扫地机器人中的神经网络进行不断的训练,以使扫地机器人快速的适应周围的环境,及时完成清扫任务。经过一定时间的训练,扫地机器人便能够进行自主决策。
[0033] 综上所述,本发明提供一种基于深度增强学习的家用扫地机器人设计方法。本发明以SLAM图像作为神经网络的输入,施加一定的回报并进行一定时间的训练,可以使扫地机器人以较短路径遍历房间,并能够自主躲避障碍、规划路径和清理垃圾。