一种图像识别方法、装置、设备以及存储介质转让专利
申请号 : CN202110805994.4
文献号 : CN113408530B
文献日 : 2022-05-13
发明人 : 刘朋
申请人 : 北京百度网讯科技有限公司
摘要 :
权利要求 :
1.一种图像识别方法,包括:
获取待识别信息;
通过多种识别方式对所述待识别信息进行识别,得到各种识别方式的识别结果;不同识别方式的识别能力不同;
基于各种识别方式的识别结果,确定所述待识别信息的最终识别结果;
所述通过多种识别方式对所述待识别信息进行识别,得到各种识别方式的识别结果,包括:
针对每种识别方式,当通过所述识别方式对所述待识别信息识别失败时,得到的识别结果为识别失败;
当通过所述识别方式对所述待识别信息识别成功时,得到的识别结果为所述待识别信息的关联内容;
所述基于各种识别方式的识别结果,确定所述待识别信息的最终识别结果,包括:当仅通过一种识别方式得到所述待识别信息的关联内容,则将所述关联内容作为所述待识别信息的最终识别结果;
当通过多于一种的识别方式均得到所述待识别信息的关联内容,则按照预设优先级策略,将优先级最高的识别方式的关联内容,作为所述待识别信息的最终识别结果,所述最终识别结果包括识别图片的关联内容、标签的关联内容或者全景数据地图的关联内容,所述识别图片的关联内容包括与所述待识别信息的相似度大于第一预设相似度阈值的识别图片的关联内容;所述标签的关联内容包括与所述待识别信息的相似度大于第二预设相似度阈值的标签的关联内容;所述全景数据地图的关联内容包括与待识别信息相似度大于第三预设相似度阈值的全景数据地图的关联内容。
2.根据权利要求1所述的方法,其中,所述通过多种识别方式对所述待识别信息进行识别,得到各种识别方式的识别结果,包括:并行地利用多种识别方式对所述待识别信息进行识别,得到各种识别方式分别的识别结果。
3.根据权利要求1所述的方法,其中,所述通过多种识别方式对所述待识别信息进行识别,得到各种识别方式的识别结果,包括:通过2d识别方式对所述待识别信息进行识别,得到第一识别结果;
通过3d识别方式对所述待识别信息进行识别,得到第二识别结果;
通过视觉定位识别方式对所述待识别信息进行识别,得到第三识别结果;
所述当通过多于一种的识别方式均得到所述待识别信息的关联内容,则按照预设优先级策略,将优先级最高的识别方式的关联内容,作为所述待识别信息的最终识别结果,包括:
当所述第一识别结果、第二识别结果和第三识别结果中至少两种均为所述待识别信息的关联内容,则按照预设优先级策略,将优先级最高的识别方式的关联内容,作为所述待识别信息的最终识别结果,其中,所述预设优先级策略包括:优先级从高到低的顺序:所述2d识别方式、3d识别方式和所述视觉定位识别方式。
4.根据权利要求3所述的方法,其中,所述通过2d识别方式对所述待识别信息进行识别,得到第一识别结果,包括:
利用所述待识别信息与多个识别图片进行比对;
基于比对结果,从各个识别图片的关联内容中检索所述待识别信息的关联内容。
5.根据权利要求3所述的方法,其中,所述通过3d识别方式对所述待识别信息进行识别,得到第二识别结果,包括:
利用所述待识别信息与多个标签进行比对;多个标签是针对处于多种环境因素下的物体采集图片,
基于比对结果,从各个标签的关联内容中检索所述待识别信息的关联内容。
6.根据权利要求5所述的方法,所述方法还包括:针对处于多种环境因素下的物体采集多张图片;
针对各个图片标注标签;
关联各个标签与各个标签的关联内容。
7.根据权利要求3所述的方法,其中,所述通过视觉定位识别方式对所述待识别信息进行识别,得到第三识别结果,包括:利用所述待识别信息与多个全景数据地图进行比对;所述全景数据地图是对基于全景相机采集的全景数据创建的地图;
基于比对结果,从各个全景数据地图的关联内容中搜索所述待识别信息的关联内容。
8.一种图像识别装置,包括:
获取模块,用于获取待识别信息;
识别模块,用于通过多种识别方式对所述待识别信息进行识别,得到各种识别方式的识别结果;不同识别方式的识别能力不同;
确定模块,用于基于各种识别方式的识别结果,确定所述待识别信息的最终识别结果;
所述识别模块,具体用于针对每种识别方式,当通过所述识别方式对所述待识别信息识别失败时,得到的识别结果为识别失败;当通过所述识别方式对所述待识别信息识别成功时,得到的识别结果为所述待识别信息的关联内容;
所述确定模块,具体用于当仅通过一种识别方式得到所述待识别信息的关联内容,则将所述关联内容作为所述待识别信息的最终识别结果;当通过多于一种的识别方式均得到所述待识别信息的关联内容,则按照预设优先级策略,将优先级最高的识别方式的关联内容,作为所述待识别信息的最终识别结果,所述最终识别结果包括识别图片的关联内容、标签的关联内容或者全景数据地图的关联内容,所述识别图片的关联内容包括与所述待识别信息的相似度大于第一预设相似度阈值的识别图片的关联内容;所述标签的关联内容包括与所述待识别信息的相似度大于第二预设相似度阈值的标签的关联内容;所述全景数据地图的关联内容包括与待识别信息相似度大于第三预设相似度阈值的全景数据地图的关联内容。
9.根据权利要求8所述的装置,其中,所述识别模块,具体用于并行地利用多种识别方式对所述待识别信息进行识别,得到各种识别方式的识别结果。
10.根据权利要求8所述的装置,其中,所述识别模块,具体用于通过2d识别方式对所述待识别信息进行识别,得到第一识别结果;通过3d识别方式对所述待识别信息进行识别,得到第二识别结果;通过视觉定位识别方式对所述待识别信息进行识别,得到第三识别结果;
所述确定模块,具体用于当所述第一识别结果、第二识别结果和第三识别结果中至少两种均为所述待识别信息的关联内容,则按照预设优先级策略,将优先级最高的识别方式的关联内容,作为所述待识别信息的最终识别结果,其中,所述预设优先级策略包括:优先级从高到低的顺序:所述2d识别方式、3d识别方式和所述视觉定位识别方式。
11.根据权利要求10所述的装置,其中,所述识别模块,具体用于利用所述待识别信息与多个识别图片进行比对;基于比对结果,从各个识别图片分别的关联内容中检索所述待识别信息的关联内容。
12.根据权利要求10所述的装置,其中,所述识别模块,具体用于利用所述待识别信息与多个标签进行比对;多个标签是针对处于多种环境因素下的物体采集图片,基于比对结果,从各个标签分别的关联内容中检索所述待识别信息的关联内容。
13.根据权利要求12所述的装置,所述装置还包括:采集模块,用于针对处于多种环境因素下的物体采集多张图片;
标注模块,用于针对各个图片标注标签;
关联模块,用于关联各个标签与各个标签的关联内容。
14.根据权利要求10所述的装置,其中,所述识别模块,具体用于利用所述待识别信息与多个全景数据地图进行比对;所述全景数据地图是对基于全景相机采集的全景数据创建的地图;基于比对结果,从各个全景数据地图的关联内容中搜索所述待识别信息的关联内容。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑7中任一项所述的方法。
说明书 :
一种图像识别方法、装置、设备以及存储介质
技术领域
背景技术
发明内容
识别方式进行识别,扩充识别范围。
附图说明
具体实施方式
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
识别方式进行识别,扩充识别范围。
特征信息作为待识别信息。其中,服务端可以接收多个客户端分别发送的图片。
图片进行识别。有些识别方式是对图片的特征信息进行识别,则服务端接收到客户端发送
的图片后,先提取图片的特征信息,通过识别方式对图片的特征信息进行识别。
关联内容。即针对一待识别信息,一识别方式对该待识别信息进行识别的结果有可能是识
别失败,也有可能是待识别信息的关联内容,得到待识别信息的关联内容则可以理解为识
别成功。
别,在通过一识别方式得到识别结果后再通过另一识别方式进行识别,直至各个识别方式
均得到识别结果。
进行识别,得到识别方式二的识别结果,然后,再将待识别信息通过识别方式三进行识别,
得到识别方式三的识别结果。
依次选择识别方式进行识别。
式进行识别,直至通过一识别方式成功识别,即得到关联内容;而当通过一识别方式直接可
以得到关联内容,即成功识别,则可以不进行通过另外的识别方式进行识别的过程,如此,
可以在服务端资源有限的情况下串行识别的过程中,提高识别效率。
行识别。
息的关联内容,也即识别成功,而有些识别方式无法对待识别信息进行成功识别,也即识别
失败。且即使多种识别方式均可以成功识别,得到的关联内容有可能也是不同的。
预设优先级策略选择优先级最高也即精度最高的识别方式的识别结果作为最终识别结果,
如此,可以在利用并行方式进行识别提高识别效率的基础上,进一步提高识别精度。
通过视觉定位识别方式对待识别信息进行识别。
别信息的关联内容。比对结果可以包括待识别信息分别与多个识别图片的相似度。
程:
内容作为该图片的识别结果,即利用该图片调起关联内容。具体地对图片进行图像识别的
过程参照上述图2所示实施例。
比对,是利用图片本身,即是利用图片所有的信息调起相关内容,如此,能够提高得到的关
联内容与图片的匹配度,也可以理解为提高识别的精度。
经过模型训练,得到多个标签,标签可以通过标识ID表示。同时,可以通过内容平台制作内
容,即创建各个标签的关联内容,建立各个标签分别与关联内容的对应关系。关联内容也可
以理解为case,即建立标签与case的对应关系。
光照、周边物体等都会对识别效果有一定的影响,因此对于3d识别的训练数据要求比较严
格,需要在各种场景、光照情况下采集训练数据。
可以尽可能地收集多个物体在不同环境因素下的图片并进行标注。
到该关联内容。
息均可以得到对应的标签,并检索到对应的内容,即成功识别。
比对结果,从各个标签的关联内容中检索待识别信息的关联内容。其中,比对结果可以是待
识别信息分别与多个标签的相似度。
息与多个标签进行比对。
即利用特征信息从3d识图系统中调起相关内容。
过3d识别方式利用图片的特征信息与多个标签比对,可以搜素到关联内容,简单理解,通过
3d识别方式调起相关内容。例如,2d识别方式只能识别图片,即只有预先训练得到图片以及
创建图片对应的关联内容后才可以进行识别,有局限性。3d识别方式只需要训练标签以及
对应的关联内容,利用2d识别方式与预先的图片无法成功识别时,可以利用3d识别方式与
预先训练的标签进行比对,进而得到关联内容,以成功识别。
全景数据地图对应的关联内容,即关联的是全景数据地图和关联内容,而2d识别方式关联
的是图片与关联内容,3d识别方式关联的是标签与关联内容。
的全景数据创建的地图;基于比对结果,从各个全景数据地图的关联内容中搜索待识别信
息的关联内容。其中,比对结果可以是待识别信息与多个全景数据地图的相似度。
多个全景数据地图进行比对。
败。
进行检索。
扩展识别范围。
先级最高的识别方式得到的关联内容,作为待识别信息的最终识别结果。
进行识别,故2d识别方式的识别精度高于3d识别方式和视觉定位识别方式。且3d识别方式
中用于比对的标签是考虑多种环境因素而得到的,即考虑了环境中更多地实际因素,相比
较于视觉定位识别方式,3d识别方式的精度更高。
和视觉定位识别方式。如此,可以在通过扩展识别范围的基础上,提高识别的精度。
识别信息的最终识别结果。即当通过2d识别方式、3d识别方式和视觉定位识别方式中至少
两种均得到待识别信息的关联内容,则按照2d识别方式、3d识别方式和视觉定位识别方式
优先级从高到低的顺序,选择能够得到待识别信息的关联内容中优先级较高的识别方式得
到的关联内容作为最终识别结果。例如,三种识别方式均得到关联内容,则将2d识别方式的
关联内容作为最终识别结果;若2d识别方式和3d识别方式均得到关联内容,则将2d识别方
式的关联内容作为最终识别结果;若3d识别方式和视觉定位识别方式均得到关联内容,则
将视觉定位识别方式的关联内容作为最终识别结果。若仅有视觉定位识别方式得到关联内
容,则直接将视觉定位识别方式的关联内容作为最终识别结果即可。
体以及大型景区场景均可以得到的关联内容,如此,能够扩充扫一扫的识别范围,提高图像
识别能力,提高用户体验。
至服务端中AR服务模块,AR服务模块并发访问2d识别方式、3d识别方式和视觉定位识别方
式,即并行地通过2d识别方式、3d识别方式和视觉定位识别方式对图片进行识别,具体地识
别方式在上述实施例中已进行了详述,参照上述实施例即可。2d识别方式是利用图片进行
检索,可以理解为2D相同图检索,这里所说的相同图可以是完全相同的图,也可以是相似度
满足要求的图,例如,与客户端上传的图片相似度大于上述第一预设相似度阈值的图片。3d
识别方式利用图片的特征信息与预先训练得到的标签进行比对,也即查找图片对应的标
签,而标签是利用考虑不同环境因素针对物体采集的图片进行标注得到的,标签可以理解
为表示物体,3d识别方式也可以理解为3D通用物体识别。视觉定位识别方式也可以理解为
VPAS(视觉定位与增强服务)识图。
到的识别结果为待识别信息的关联内容;
的关联内容,则按照预设优先级策略,将优先级最高的识别方式的关联内容,作为待识别信
息的最终识别结果。
别方式对待识别信息进行识别,得到第三识别结果;
内容,作为待识别信息的最终识别结果,其中,预设优先级策略包括:优先级从高到低的顺
序:2d识别方式、3d识别方式和视觉定位识别方式。
索待识别信息的关联内容。
数据地图的关联内容中搜索待识别信息的关联内容。
字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各
种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计
算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在
限制本文中描述的和/或者要求的本公开的实现。
序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序
和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接
口1105也连接至总线1104。
及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100
通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、
以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和
处理,例如图像识别方法。例如,在一些实施例中,图像识别方法可被实现为计算机软件程
序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的
部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当
计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的图像识别方法
的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式
(例如,借助于固件)而被配置为执行图像识别方法。
的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实
现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算
机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器
可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出
装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至
少一个输出装置。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的
服务器,或者是结合了区块链的服务器。
只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。