一种基于触觉振动信号与视觉图像融合的抓取物识别方法转让专利

申请号 : CN202011400027.1

文献号 : CN112388655B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张鹏周茂辉单东日王晓芳于国奇

申请人 : 齐鲁工业大学

摘要 :

本发明涉及机器人抓取认知领域,特别涉及一种基于触觉振动信号与视觉图像融合的抓取物识别方法,首先通过相机获得被抓取物的视觉彩色图像,然后将抓取物体时得到的触觉振动信号按照数值大小转化为触觉彩色图像,最后将视觉彩色图像和触觉彩色图像进行尺寸变换得到统一尺寸,然后将视觉彩色图像的RGB三通道和触觉彩色图像的RGB三通道并起来形成六通道的输入。最后将六通道的图像输入卷积神经网络进行物体种类识别。本发明可以较好的识别物体的种类和物理属性,可以提高机器人的认知能力。

权利要求 :

1.一种基于触觉振动信号与视觉图像融合的抓取物识别方法,其特征在于,包括以下步骤:

S1,收集22种物体的视觉和触觉数据集;收集数据的设备包括kinova六自由度机械臂,在机械臂末端夹爪安装有NumaTac触觉传感器,触觉传感器可以采集压力信号和微振动信号;

S2,将S1中收集到的触觉数据绘制成彩色图片;

S3,将S1中获取的视觉图像和S2中获取的触觉图像进行尺寸变换;

S4,对尺寸变换完成的视觉图像和触觉图像进行通道拼接;

S5,输入卷积神经网络,卷积神经网络的全连接层进行分类输出,最终输出识别结果。

2.根据权利要求1所述的基于触觉振动信号与视觉图像融合的抓取物识别方法,其特征在于:

所述S2的将S1中收集到的触觉数据绘制成彩色图片的具体步骤为,将触觉数据导入matlab软件中,使用22维振动信号作为触觉数据,提取22维振动信号,使用matlab中resize()函数将其重新整形回一维6600个数据点,然后将一维数据点再次使用resize()函数,将其正形成66*100的矩阵,再使用matlab中的imagesc()函数将矩阵中的元素按数值大小转化成不同的颜色,形成彩色图片。

3.根据权利要求1所述的基于触觉振动信号与视觉图像融合的抓取物识别方法,其特征在于:

所述卷积神经网络使用Densnet169模型,并将该模型输入层卷积核的通道数改为6。

说明书 :

一种基于触觉振动信号与视觉图像融合的抓取物识别方法

技术领域

[0001] 本发明涉及机器人抓取认知、多模态数据融合技术领域,特别涉及一种基于触觉振动信号与视觉图像融合的抓取物识别方法。

背景技术

[0002] 目前绝大多数机器人对外界认知过程是通过相机所拍摄的图像信息来完成的,人在于外界交互的过程中70%以上的信息也是来源于视觉。但是触觉在人类抓取行为中同样
扮演者重要的角色,特别是在一些真假物体的辨别上,触觉有着视觉难以替代的优势。例如
仿真塑料水果和真是水果在视觉层面就很难分辨出真假,但是通过触觉就很容易得出结
论。但是目前的触觉技术还不够成熟,只能通过面积有限的触觉传感器感知物体的局部信
息,很难对物体有一个宏观的认识,这也就导致从触觉层面的认知识别是片面的。
[0003] 人类的触觉感知来源于接触过程中皮肤和物体之间相互作用产生的振动,目前能够像人一样感知微小振动的且能量产的触觉产品为syntouch公司生产的触觉传感器。也有
一些产品使用微距相机拍摄柔软接触面的表面形变,这种触觉传感器用来分辨物体的软硬
比较好用,在其他方面并没有优势;还有一些传感器由一些成矩阵型排列的小型压力传感
器组成,这种触觉传感器也是在感知物体软硬方面比较有优势。本申请所使用的NumaTac触
觉传感器可以感知接触过程中的微振动信号,对信号进行分析可以较好的分辨出接触物体
的纹理、软硬、光滑程度等信息。
[0004] 由于视觉和触觉在抓取认知方面的互补特性,能综合利用视觉触觉信息来识别被抓取物体是一项具有挑战性的工作。首先在数据类型方面:目前视觉信息以RGB图像为主,
也有些使用深度相机采集得到RGBD图像,相对于RGB图像多出一个深度图;触觉信息以具有
时间序列的压力信号或者振动信号为主。所以从根本上来说视觉信息和触觉信息属于两个
不同的领域,在视觉领域卷积神经网络图像分类、目标识别等领域具有广泛的应用,在触觉
所属的时序信号领域长短期记忆神经网络最具代表性,在语音识别、翻译等领域具有广泛
的应用。所以想要使视觉和触觉数据有效融合,首先要统一两者的数据类型,目前的一些做
法是先使用视觉和触觉各自领域的神经网络提取特征形成各自的特征向量,然后再将两个
特征向量首尾连接起来形成一个特征融合向量,然后再将该向量用于物体认知分类。但是
该方法存在以下不足:
[0005] 1、不同模态的信息使用了不同的神经网络提取特征,最后得到的是不同模态的独立特征,由于特征提取的过程是相互独立的导致不同模态数据之间的一些相关特性被忽
略,例如图像粗糙的表面和触觉上的微振动之间会存在某种关系,用之前方法在视觉和触
觉独立提取特征时,可能会因为特征不突出导致在各自的特征向量中,未提取到表面粗糙
的信息或者微小的振动,这会导致某些关键信息的丢失。
[0006] 2、不同模态使用不同的网络提取特征这样就导致整个方法网络参数量巨大。

发明内容

[0007] 本发明为了弥补现有技术中不足,提出了一种基于触觉振动信号与视觉图像融合的抓取物识别方法。
[0008] 本发明是通过如下技术方案实现的:
[0009] 一种基于触觉振动信号与视觉图像融合的抓取物识别方法,其特征在于,包括以下步骤:
[0010] S1,收集22种物体的视觉和触觉数据集;
[0011] S2,将S1中收集到的触觉数据绘制成彩色图片;
[0012] S3,将S1中获取的视觉图像和S2中获取的触觉图像进行尺寸变换;
[0013] S4,对尺寸变换完成的视觉图像和触觉图像进行通道拼接;
[0014] S5,输入卷积神经网络,卷积神经网络的全连接层进行分类输出,最终输出识别结果。
[0015] 进一步地,为了更好的实现本发明,所述S1中,收集数据的设备包括kinova六自由度机械臂,机械臂末端腕部安装有RealSense深度相机,相机可以采集深度图向和彩色图
像,在机械臂末端夹爪安装有NumaTac触觉传感器,触觉传感器可以采集压力信号和微振动
信号,机器人设备与计算机相连,该机器人基于ros系统运行,计算机运行的是ubuntu18.04
系统。
[0016] 进一步地,为了更好的实现本发明,所述S1中,视觉数据的收集为通过安装在kinova机械臂末端腕部的RealSense相机拍摄获得彩色图像,在视觉图像的采集过程中为
提高数据的可信度,对同一个物体从不同的方向和角度进行拍摄,拍摄过程中开启机械臂
的力控功能,用手拖动机械臂至不同位置进行拍摄,图像的获取方式是通过RealSense 
Viewer保存的,图像的分辨率是1280*720,每个物体从不同方向角度拍摄20张图片。
[0017] 进一步地,为了更好的实现本发明,所述S1中,触觉数据的收集为通过机械臂末端的触觉传感器获得,机械臂运动至被抓取物顶部,然后实施抓取,夹住保持1.5秒,然后松
开,对于每次抓取截取三秒触觉振动信号共6600个数据,对每个物体实施20次抓取操作。
[0018] 进一步地,为了更好的实现本发明,所述S2的将S1中收集到的触觉数据绘制成彩色图片的具体步骤为,将触觉数据导入matlab软件中,使用22维振动信号作为触觉数据,提
取22维振动信号,使用matlab中resize()函数将其重新整形回一维6600个数据点,然后将
一维数据点再次使用resize()函数,将其正形成66*100的矩阵,再使用matlab中的imagesc
()函数将矩阵中的元素按数值大小转化成不同的颜色,形成彩色图片。
[0019] 进一步地,为了更好的实现本发明,所述卷积神经网络使用Densnet169模型,并将该模型输入层卷积核的通道数改为6。
[0020] 进一步地,为了更好的实现本发明,所述S1中收集到的视觉和触觉数据集,以8:2的比例分为训练集和测试集,训练过程中使用训练集训练,测试过程中使用测试集测试,训
练集和测试集之间没有重复。
[0021] 本发明的有益效果是:
[0022] 本发明的方法可以使机器人综合利用视觉和触觉感知能力来认识世界,通过将视觉和触觉的原始数据进行融合,充分保留了触觉和视觉之间具有内在联系的特征,同时能
综合利用视觉和触觉两方面的优点达到最优的识别正确率,可以较好的识别物体的种类和
物理属性,可以提高机器人的认知能力。

附图说明

[0023] 图1为本发明的总体流程图;
[0024] 图2为本发明的相关设备结构示意图;
[0025] 图3为本发明的触觉数据处理流程图;
[0026] 图4为本发明的视觉图像获取流程图;
[0027] 图5为本发明的数据融合分类流程图;
[0028] 图6为只用触觉数据抓取物种类识别准确率;
[0029] 图7为只用视觉数据抓取物种类识别准确率;
[0030] 图8为本发明的视觉和触觉融合模型抓取物种类识别准确率;
[0031] 图9为本发明实验样品物理属性分布表格;
[0032] 图10为本发明应用在样品物理属性识别准确率。

具体实施方式

[0033] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通
常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0034] 因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人
员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0036] 在本发明的描述中,需要说明的是,术语“中”、“上”、“下”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆
放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装
置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限
制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0037] 此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完
全水平,而是可以稍微倾斜。
[0038] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可
以是机械连接,也可以是电性连接。可以是直接相连,也可以通过中间媒介间接相连,可以
是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在
本发明中的具体含义。
[0039] 下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0040] 图1‑图10为本发明的一种具体实施例,该实施例为一种机器人在抓取过程中基于视觉和触觉感知的抓取物精确识别方法,在信息融合的基础上使用卷积神经网络提取特
征。最后使用全连接分类输出。并在收集的视觉和触觉数据集上经过实验验证,基于触觉振
动信号和视觉图像的抓取物识别方法在抓取物识别方面平均正确率在97%左右,最高可达
到100%的识别正确率。需要注意的是本实施例在NumaTac触觉传感器上测试,该传感器输出
的触觉振动信号为一维数据。该类能检测以为振动信号的触觉触觉传感器都是用于本方
法。如果是点阵式的触觉传感器和使用微距相机的触觉传感器,该方法并不适用。
[0041] 本实施例中使用到的设备如图2所示:包括kinova六自由度机械臂,机械臂末端腕部安装有RealSense深度相机,相机可以采集深度图向和彩色图像,本发明涉及彩色图像的
使用,在机械臂末端夹爪安装有NumaTac触觉传感器,触觉传感器可以采集压力信号和微振
动信号,本发明涉及使用微振动信号。机器人设备与计算机相连,该机器人基于ros系统运
行,计算机运行的是ubuntu18.04系统。
[0042] 如图1所示,本实施例的具体实现过程为:
[0043] 抓取物识别方法是一种基于深度学习的物体识别方法,要想实现该算法需要事先收集该算法所需的数据集,为验证算法性能,本实施例收集了22种日常家用物体的视觉和
触觉数据集。其中视觉数据使用安装在kinova机械臂末端腕部的RealSense相机拍摄获得
彩色图像,值得注意的是本实施例为每种物体从不同位置不同角度拍摄了20张彩色图像,
这样做会使本方法能从各个角度对被抓取物有一个认知。触觉数据本实施例利用机械臂末
端的触觉传感器获得,对每个物体抓取20每个物体获得20个抓取数据,然后将触觉数据绘
制成彩色图片。然后将视觉图像和触觉图像分别存到不同的文件夹中,但是同一种物体的
视觉图像和触觉图像的文件名完全一样,这是为了后期数据融合时调用方面。最后将相对
应的视觉图像和触觉图像进行尺寸变换,并将两者的通道拼接,输入卷积神经网络,卷积神
经网络的全连接层起到分类输出的作用,最终输出识别结果。
[0044] 对于本实施例中的触觉数据处理如图3所示:
[0045] 触觉振动信号采集过程为机械臂运动至被抓取物顶部,然后实施抓取,夹住保持1.5秒,然后松开。对于每次抓取我们截取三秒触觉数据共6600个数据,对每个物体实施20
次抓取操作。
[0046] 触觉信息的获取需要在机器人ros系统中使用rosbag命令订阅触觉传感器发布的话题获得数据并保存,然后将数据导入matlab软件中,原始的触觉数据是由一维的压力值
和22维的振动值组成,本发明只使用22维振动信号作为触觉数据,故提取22维振动信号。通
过触觉传感器用户手册得知,22维触觉信号是由一维振动信号经采样得来,使用matlab中
resize()函数将其重新整形回一维6600个数据点。然后将一维数据点再次使用resize()函
数,将其正形成66*100的矩阵,再使用matlab中的imagesc()函数将矩阵中的元素按数值大
小转化成不同的颜色。
[0047] 对于本实施例中的触觉数据处理如图4所示:
[0048] 视觉图像是通过机械臂腕部的相机获得的,在视觉图像的采集过程中为提高数据的可信度,我们对同一个物体从不同的方向和角度进行拍摄,拍摄过程中开启机械臂的力
控功能,用手拖动机械臂至不同位置进行拍摄,图像的获取方式是通过RealSense Viewer
保存的,图像的分辨率是1280*720,每个物体从不同方向角度配设20张图片。
[0049] 如图5所示,为本实施例中的数据融合及抓取物种类识别流程:
[0050] 分别得到的视觉彩色图像和触觉彩色图像具有RGB三个通道,由于两个图像的尺寸不同,所以需要对两个图像进行尺寸变换,变换成尺寸相同大小的视觉彩色图像和触觉
彩色图像,然后将视觉彩色图像和触觉彩色图像进行拼接,因为现在有六个通道,所以需要
修改卷积神经网络种输入层卷积核的通道数为6,最后通过卷积神经网络提取特征后全连
接层对提取的特征进行分类识别抓取物的类别。
[0051] 要使该方法具有准确的识别能力,需要对使用数据及对网络进行训练,我们将我们收集的数据集以8:2的比例分为训练集和测试集,训练过程中使用训练集训练,测试过程
中使用测试集测试,训练集和测试集之间没有重复。卷积神经网络部分我们使用的是
Densnet169模型,并将该模型输入层卷积核的通道数改为6,经过300轮的训练,我们的方法
以抓取物的触觉振动信号和视觉图像为输入可以达到最高100%的抓取物种类识别正确率,
经过实验发现使用触觉和视觉融合的方法对抓取物的识别正确率要高于单视觉信息或者
单触觉信息对抓取物种类识别正确率。
[0052] 对本实施例的方法进行对比试验,在同样的神经网络模型参数下,分别使用触觉单输入、视觉单输入和视触融合后六通道输入的方法进行300轮的训练测试。图6、7、8中,纵
坐标表示测试是的准确率,横坐标表示测试次数,本实施例使用的是训练一轮测试一轮的
方法。可以看出不论使用那种输入,随着训练次数的增加,测试准确率越来越高。
[0053] 经验证,本实施例所提出的方法在收集的数据集上平均准确率在97%左右,最高可得最高100%的识别准确率,在同样的数据集下,只用视觉输入平均准确率在94%左右,只用
触觉输入平均准确率在90%左右。可以得出结论,本实施例提出的方法在抓取物种类识别方
面可以有效提高抓取物种类识别准确率。
[0054] 另外,如图9、图10所示,本实施例的方法也可以应用在物体物理属性识别上,我们制订了一下实验样品物理属性分布表格,对数据集中的每个物体用2‑4个属性形容词来描
述该物体,同样使用我们提出的数据融合方法训练神经网络,训练集和测试集的比例为8:
2,经过实验发现,本实施例的方法在物理属性识别上可以达到95%左右的正确率(图10),也
就是说本实施例的方法通过视觉触觉的融合不仅识别物体的种类而且可以识别出物体的
多种物理属性。
[0055] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案
的精神和范围,均应涵盖在本发明的权利要求范围当中。