一种图像识别方法、装置、设备以及存储介质转让专利

申请号 : CN202110805994.4

文献号 : CN113408530B

文献日 : 2022-05-13

相似专利: 请登录后查看

本公开提供了一种图像识别方法、装置、设备以及存储介质，涉及计算机识别、深度学习等人工智能技术领域。具体实现方案为：获取待识别信息；分别通过多种识别方式对待识别信息进行识别，得到各种识别方式的识别结果；不同识别方式的识别能力不同；基于各种识别方式的识别结果，确定待识别信息的最终识别结果。能够整合多种识别方式进行识别，扩充识别范围。

1.一种图像识别方法，包括：

获取待识别信息；

通过多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果；不同识别方式的识别能力不同；

基于各种识别方式的识别结果，确定所述待识别信息的最终识别结果；

所述通过多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果，包括：

针对每种识别方式，当通过所述识别方式对所述待识别信息识别失败时，得到的识别结果为识别失败；

当通过所述识别方式对所述待识别信息识别成功时，得到的识别结果为所述待识别信息的关联内容；

所述基于各种识别方式的识别结果，确定所述待识别信息的最终识别结果，包括：当仅通过一种识别方式得到所述待识别信息的关联内容，则将所述关联内容作为所述待识别信息的最终识别结果；

当通过多于一种的识别方式均得到所述待识别信息的关联内容，则按照预设优先级策略，将优先级最高的识别方式的关联内容，作为所述待识别信息的最终识别结果，所述最终识别结果包括识别图片的关联内容、标签的关联内容或者全景数据地图的关联内容，所述识别图片的关联内容包括与所述待识别信息的相似度大于第一预设相似度阈值的识别图片的关联内容；所述标签的关联内容包括与所述待识别信息的相似度大于第二预设相似度阈值的标签的关联内容；所述全景数据地图的关联内容包括与待识别信息相似度大于第三预设相似度阈值的全景数据地图的关联内容。

2.根据权利要求1所述的方法，其中，所述通过多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果，包括：并行地利用多种识别方式对所述待识别信息进行识别，得到各种识别方式分别的识别结果。

3.根据权利要求1所述的方法，其中，所述通过多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果，包括：通过2d识别方式对所述待识别信息进行识别，得到第一识别结果；

通过3d识别方式对所述待识别信息进行识别，得到第二识别结果；

通过视觉定位识别方式对所述待识别信息进行识别，得到第三识别结果；

所述当通过多于一种的识别方式均得到所述待识别信息的关联内容，则按照预设优先级策略，将优先级最高的识别方式的关联内容，作为所述待识别信息的最终识别结果，包括：

当所述第一识别结果、第二识别结果和第三识别结果中至少两种均为所述待识别信息的关联内容，则按照预设优先级策略，将优先级最高的识别方式的关联内容，作为所述待识别信息的最终识别结果，其中，所述预设优先级策略包括：优先级从高到低的顺序：所述2d识别方式、3d识别方式和所述视觉定位识别方式。

4.根据权利要求3所述的方法，其中，所述通过2d识别方式对所述待识别信息进行识别，得到第一识别结果，包括：

利用所述待识别信息与多个识别图片进行比对；

基于比对结果，从各个识别图片的关联内容中检索所述待识别信息的关联内容。

5.根据权利要求3所述的方法，其中，所述通过3d识别方式对所述待识别信息进行识别，得到第二识别结果，包括：

利用所述待识别信息与多个标签进行比对；多个标签是针对处于多种环境因素下的物体采集图片，

基于比对结果，从各个标签的关联内容中检索所述待识别信息的关联内容。

6.根据权利要求5所述的方法，所述方法还包括：针对处于多种环境因素下的物体采集多张图片；

针对各个图片标注标签；

关联各个标签与各个标签的关联内容。

7.根据权利要求3所述的方法，其中，所述通过视觉定位识别方式对所述待识别信息进行识别，得到第三识别结果，包括：利用所述待识别信息与多个全景数据地图进行比对；所述全景数据地图是对基于全景相机采集的全景数据创建的地图；

基于比对结果，从各个全景数据地图的关联内容中搜索所述待识别信息的关联内容。

8.一种图像识别装置，包括：

获取模块，用于获取待识别信息；

识别模块，用于通过多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果；不同识别方式的识别能力不同；

确定模块，用于基于各种识别方式的识别结果，确定所述待识别信息的最终识别结果；

所述识别模块，具体用于针对每种识别方式，当通过所述识别方式对所述待识别信息识别失败时，得到的识别结果为识别失败；当通过所述识别方式对所述待识别信息识别成功时，得到的识别结果为所述待识别信息的关联内容；

所述确定模块，具体用于当仅通过一种识别方式得到所述待识别信息的关联内容，则将所述关联内容作为所述待识别信息的最终识别结果；当通过多于一种的识别方式均得到所述待识别信息的关联内容，则按照预设优先级策略，将优先级最高的识别方式的关联内容，作为所述待识别信息的最终识别结果，所述最终识别结果包括识别图片的关联内容、标签的关联内容或者全景数据地图的关联内容，所述识别图片的关联内容包括与所述待识别信息的相似度大于第一预设相似度阈值的识别图片的关联内容；所述标签的关联内容包括与所述待识别信息的相似度大于第二预设相似度阈值的标签的关联内容；所述全景数据地图的关联内容包括与待识别信息相似度大于第三预设相似度阈值的全景数据地图的关联内容。

9.根据权利要求8所述的装置，其中，所述识别模块，具体用于并行地利用多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果。

10.根据权利要求8所述的装置，其中，所述识别模块，具体用于通过2d识别方式对所述待识别信息进行识别，得到第一识别结果；通过3d识别方式对所述待识别信息进行识别，得到第二识别结果；通过视觉定位识别方式对所述待识别信息进行识别，得到第三识别结果；

所述确定模块，具体用于当所述第一识别结果、第二识别结果和第三识别结果中至少两种均为所述待识别信息的关联内容，则按照预设优先级策略，将优先级最高的识别方式的关联内容，作为所述待识别信息的最终识别结果，其中，所述预设优先级策略包括：优先级从高到低的顺序：所述2d识别方式、3d识别方式和所述视觉定位识别方式。

11.根据权利要求10所述的装置，其中，所述识别模块，具体用于利用所述待识别信息与多个识别图片进行比对；基于比对结果，从各个识别图片分别的关联内容中检索所述待识别信息的关联内容。

12.根据权利要求10所述的装置，其中，所述识别模块，具体用于利用所述待识别信息与多个标签进行比对；多个标签是针对处于多种环境因素下的物体采集图片，基于比对结果，从各个标签分别的关联内容中检索所述待识别信息的关联内容。

13.根据权利要求12所述的装置，所述装置还包括：采集模块，用于针对处于多种环境因素下的物体采集多张图片；

标注模块，用于针对各个图片标注标签；

关联模块，用于关联各个标签与各个标签的关联内容。

14.根据权利要求10所述的装置，其中，所述识别模块，具体用于利用所述待识别信息与多个全景数据地图进行比对；所述全景数据地图是对基于全景相机采集的全景数据创建的地图；基于比对结果，从各个全景数据地图的关联内容中搜索所述待识别信息的关联内容。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1‑7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1‑7中任一项所述的方法。

一种图像识别方法、装置、设备以及存储介质

技术领域

[0001] 本公开涉及人工智能技术领域，尤其涉及计算机识别、深度学习等技术领域。

背景技术

[0002] 识图是搜索引擎对搜索推出的一项新功能。识图能实现用户通过上传图片，从而搜索到互联网上与这张图片相关的信息。

发明内容

[0003] 本公开提供了一种图像识别方法、装置、设备以及存储介质。

[0004] 第一方面，提供了一种图像识别方法，包括：

[0005] 获取待识别信息；

[0006] 通过多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果；不同识别方式的识别能力不同；

[0007] 基于各种识别方式的识别结果，确定所述待识别信息的最终识别结果。

[0008] 第二方面，提供了一种图像识别装置，包括：

[0009] 获取模块，用于获取待识别信息；

[0010] 识别模块，用于通过多种识别方式对所述待识别信息进行识别，得到各种识别方式的识别结果；不同识别方式的识别能力不同；

[0011] 确定模块，用于基于各种识别方式的识别结果，确定所述待识别信息的最终识别结果。

[0012] 第三方面，提供了一种电子设备，包括：

[0013] 至少一个处理器；以及

[0014] 与所述至少一个处理器通信连接的存储器；其中，

[0015] 所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

[0016] 第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面所述的方法。

[0017] 第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。

[0018] 本公开实施例中，可以通过识别能力不同的多种识别方式对待识别信息进行识别，并基于各种识别方式的识别结果确定待识别信息的最终识别结果，如此，能够整合多种
识别方式进行识别，扩充识别范围。

[0019] 应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

[0020] 附图用于更好地理解本方案，不构成对本公开的限定。其中：

[0021] 图1是本公开实施例提供的图像识别方法的流程图；

[0022] 图2是本公开实施例提供的2d识别方式进行识别的流程图；

[0023] 图3是本公开实施例提供的预先绑定图片与内容的示意图；

[0024] 图4是本公开实施例提供的2d识别方式预先训练标签与绑定内容与标签的示意图；

[0025] 图5是本公开实施例提供的3d识别方式预先绑定标签与内容的流程图；

[0026] 图6是本公开实施例提供的3d识别方式进行识别的流程图；

[0027] 图7是本公开实施例提供的视觉定位识别方式进行识别的流程图；

[0028] 图8是本公开实施例提供的图像识别方法的应用示意图；

[0029] 图9是本公开实施例提供的图像识别装置的一种结构示意图；

[0030] 图10是本公开实施例提供的图像识别装置的另一种结构示意图；

[0031] 图11是用来实现本公开实施例的图像识别方法的电子设备的框图。

具体实施方式

[0032] 以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识
到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同
样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

[0033] 本公开实施例提供了一种图像识别方法，如图1所示，可以包括：

[0034] S101，获取待识别信息；

[0035] S102，通过多种识别方式对待识别信息进行识别，得到各种识别方式的识别结果；不同识别方式的识别能力不同；

[0036] S103，基于各种识别方式的识别结果，确定待识别信息的最终识别结果。

[0037] 本公开实施例中，可以通过识别能力不同的多种识别方式对待识别信息进行识别，并基于各种识别方式的识别结果确定待识别信息的最终识别结果，如此，能够整合多种
识别方式进行识别，扩充识别范围。

[0038] 本公开实施例提供的图像识别方法可以应用于服务端。

[0039] 参照图1，本公开实施例提供的图像识别方法可以包括：

[0040] S101，获取待识别信息。

[0041] 待识别信息可以包括图片，和/或提取的图片的特征信息，等等。

[0042] 一种可实现方式中，客户端采集图片，将图片发送给服务端，服务端可以将整个图片作为待识别信息，或者，服务端接收该图片后，可以先提取图片中的特征信息，并图片的
特征信息作为待识别信息。其中，服务端可以接收多个客户端分别发送的图片。

[0043] S102，通过多种识别方式对待识别信息进行识别，得到各种识别方式的识别结果。

[0044] 不同识别方式的识别能力不同。

[0045] 不同识别方式能够识别的信息形式有可能是不同的，例如，有些识别方式是直接对图片进行识别，则服务端接收到客户端发送的图片后，可以通过这种识别方式直接对该
图片进行识别。有些识别方式是对图片的特征信息进行识别，则服务端接收到客户端发送
的图片后，先提取图片的特征信息，通过识别方式对图片的特征信息进行识别。

[0046] 针对每种识别方式，当通过识别方式对待识别信息识别失败时，得到的识别结果为识别失败；当通过识别方式对待识别信息识别成功时，得到的识别结果为待识别信息的
关联内容。即针对一待识别信息，一识别方式对该待识别信息进行识别的结果有可能是识
别失败，也有可能是待识别信息的关联内容，得到待识别信息的关联内容则可以理解为识
别成功。

[0047] 一种可实现方式中，当服务端资源有限的情况下，可以通过串行的方式实现分别通过多种识别方式对待识别信息进行识别，即依次将待识别信息通过各种识别方式进行识
别，在通过一识别方式得到识别结果后再通过另一识别方式进行识别，直至各个识别方式
均得到识别结果。

[0048] 例如，包括3种识别方式：识别方式一、识别方式二和识别方式三，先将待识别信息通过识别方式一进行识别，得到识别方式一的识别结果，再将待识别信息通过识别方式二
进行识别，得到识别方式二的识别结果，然后，再将待识别信息通过识别方式三进行识别，
得到识别方式三的识别结果。

[0049] 串行方式进行识别的过程中，可以随机选择识别方式依次进行识别。或者，可以预先设置识别顺序，例如，按照识别精度从高到低的顺序或者按照识别效率从高到低的顺序，
依次选择识别方式进行识别。

[0050] 在通过串行的方式实现分别通过多种识别方式对待识别信息进行识别的过程中，可以在通过一识别方式得到的识别结果为识别失败时，再通过另一种识别方式进行识别方
式进行识别，直至通过一识别方式成功识别，即得到关联内容；而当通过一识别方式直接可
以得到关联内容，即成功识别，则可以不进行通过另外的识别方式进行识别的过程，如此，
可以在服务端资源有限的情况下串行识别的过程中，提高识别效率。

[0051] 另一种可实现方式中，可以并行地利用多种识别方式对待识别信息进行识别，得到各种识别方式的识别结果。例如，当服务资源比较充足的情况下，可以通过并行的方式进
行识别。

[0052] 可以通过多个线程分别执行各种识别方式识别的过程，各个线程之间互不影响，即各种识别方式识别过程相互独立，互不影响。

[0053] 如此，可以通过并行的方式同时通过多种识别方式进行识别，能够提高识别效率。

[0054] S103，基于各种识别方式的识别结果，确定待识别信息的最终识别结果。

[0055] 因为不同识别方式的识别能力是不同的，故不同识别方式对同一待识别信息进行识别得到的结果有可能是不同的，如针对一待识别信息，有些识别方式能够得到待识别信
息的关联内容，也即识别成功，而有些识别方式无法对待识别信息进行成功识别，也即识别
失败。且即使多种识别方式均可以成功识别，得到的关联内容有可能也是不同的。

[0056] 当仅通过一种识别方式得到待识别信息的关联内容，则将关联内容作为待识别信息的最终识别结果。

[0057] 当通过多于一种的识别方式均得到待识别信息的关联内容，则可以按照预设优先级策略，将优先级最高的识别方式得到的关联内容，作为待识别信息的最终识别结果。

[0058] 预设优先级策略可以基于识别方式的精度确定，如按照精度从高到低的顺序，即精度与优先级成正比，精度越高，则优先级越高。

[0059] 一种可实现方式中，当通过多于一种的识别方式均得到待识别信息的关联内容，如采用并行的方式利用多个识别方式进行识别均得到待识别信息的关联内容时，可以按照
预设优先级策略选择优先级最高也即精度最高的识别方式的识别结果作为最终识别结果，
如此，可以在利用并行方式进行识别提高识别效率的基础上，进一步提高识别精度。

[0060] 本公开实施例中，可以基于各种识别方式的识别结果确定待识别信息的最终识别结果，整合多种识别方式进行识别，扩充识别范围。且可以提高识别效率以及识别精度。

[0061] 一种可选的实施例中，S102：分别通过多种识别方式对待识别信息进行识别，得到各种识别方式分别的识别结果，可以包括：

[0062] 通过2d识别方式对待识别信息进行识别，得到第一识别结果；

[0063] 通过3d识别方式对待识别信息进行识别，得到第二识别结果；

[0064] 通过视觉定位识别方式对待识别信息进行识别，得到第三识别结果。

[0065] 2d识别方式、3d识别方式和视觉定位识别方式可以通过串行方式进行识别，也可以通过并行方式进行识别。

[0066] 当2d识别方式、3d识别方式和视觉定位识别方式通过并行方式进行识别，即同时利用通过2d识别方式对待识别信息进行识别、通过3d识别方式对待识别信息进行识别以及
通过视觉定位识别方式对待识别信息进行识别。

[0067] 通过2d识别方式对待识别信息进行识别，得到第一识别结果，可以包括利用待识别信息与多个识别图片进行比对；基于比对结果，从各个识别图片的关联内容中检索待识
别信息的关联内容。比对结果可以包括待识别信息分别与多个识别图片的相似度。

[0068] 具体地，如图2所示，可以包括：

[0069] S201，利用待识别信息与多个识别图片进行比对。

[0070] S202，确定与待识别信息相似度最高的识别图片。

[0071] S203，判断识别图片的相似度是否大于第一预设相似度阈值。

[0072] 如果识别图片的相似度大于第一预设相似度阈值，则执行S204；如果识别图片的相似度不大于第一预设相似度阈值，则认为识别失败，即第一识别结果为识别失败。

[0073] 其中，第一预设相似度阈值可以根据实际需求或者经验值等确定。

[0074] S204，检索识别图片的关联内容，并将识别图片的关联内容作为第一识别结果。

[0075] 2d识别方式预先训练多个识别图片以及绑定各个识别图片与关联内容。参照图3，2d识别方式预先训练多个识别图片以及绑定各个识别图片与关联内容，可以包括如下过
程：

[0076] 步骤一、图片入库。

[0077] 也可以理解为识别图片入库。

[0078] 可以实时采集多个图片，或者也可以从图片库中获取图片。例如，可以通过用户交互平台获取多个图片，用户交互平台可以为视觉定位服务平台Dumix平台。

[0079] 步骤二、内容制作。

[0080] 可以通过内容制作平台基于各个识别图片分别制作对应的内容，也可以称之为case，也即识别图片的关联内容，并将识别图片与关联内容进行关联。

[0081] 步骤三、内容上线。

[0082] 可以将关联内容上传至用户交互平台，如Dumix平台，以便于审核人员对关联内容进行审核，审核满足审核条件后上线。

[0083] 图像识别的过程目的是为了调起内容，Dumix平台完成了内容制作、图片的入库以及内容与图片的绑定过程，全部平台化操作，简单快捷。

[0084] 如此，在接收到客户端上传的图片后，可以对图片进行图像识别，即利用图片调起关联内容，即当图片与识别图片的相似度大于第一预设相似度阈值，则将识别图片的关联
内容作为该图片的识别结果，即利用该图片调起关联内容。具体地对图片进行图像识别的
过程参照上述图2所示实施例。

[0085] 2d识别方式绑定的是识别图片与关联内容，故，2d识别方式直接对图片进行识别，待识别信息为图片时，可以直接将待识别信息与多个识别图片进行比对。且直接图片进行
比对，是利用图片本身，即是利用图片所有的信息调起相关内容，如此，能够提高得到的关
联内容与图片的匹配度，也可以理解为提高识别的精度。

[0086] 不同于2d识别方式预先训练多个识别图片以及绑定各个识别图片与关联内容，本公开实施例中3d识别方式预先训练多个标签与以及绑定各个标签与关联内容。如图4所示，
经过模型训练，得到多个标签，标签可以通过标识ID表示。同时，可以通过内容平台制作内
容，即创建各个标签的关联内容，建立各个标签分别与关联内容的对应关系。关联内容也可
以理解为case，即建立标签与case的对应关系。

[0087] 一种可选的实施例中，如图5所示，可以包括：

[0088] S501，针对处于多种环境因素下的物体采集多张图片。

[0089] 3d识别方式可以理解为识别万物，比如苹果、橘子、电脑、打印机、饮料等等各种真实物体，由于要能够识别真实物体，这就对3d识别的算法有了更高的要求，环境的影响比如
光照、周边物体等都会对识别效果有一定的影响，因此对于3d识别的训练数据要求比较严
格，需要在各种场景、光照情况下采集训练数据。

[0090] 可以针对不同物体分别处于不同的环境因素下采集图片，如物体处于不同的光照、存在不同其他物体等情况下分别采集多个图片。为了提高识别范围以及识别的准确度，
可以尽可能地收集多个物体在不同环境因素下的图片并进行标注。

[0091] S502，针对各个图片标注标签。

[0092] 可以基于图片中的内容标注标签，如图片中有苹果，则针对该图片标注标签：苹果，等等。简单理解，标注标签即提取图片中的特征。

[0093] S503，关联各个标签与各个标签的关联内容。

[0094] 可以针对各个标签创建关联内容，例如，标签为苹果，则可以创建包括苹果的品种、产地等信息的关联内容。并将各个标签与关联内容绑定起来。即利用该标签则可以查找
到该关联内容。

[0095] 基于多种环境因素预先训练多个标签与以及绑定各个标签与关联内容，可以丰富3d识别方式中识别的内容，能够扩展识别范围。例如，多种环境因素采集的图片的待识别信
息均可以得到对应的标签，并检索到对应的内容，即成功识别。

[0096] 通过3d识别方式对待识别信息进行识别，得到第二识别结果，可以包括：利用待识别信息与多个标签进行比对；多个标签是针对处于多种环境因素下的物体采集图片，基于
比对结果，从各个标签的关联内容中检索待识别信息的关联内容。其中，比对结果可以是待
识别信息分别与多个标签的相似度。

[0097] 具体地，如图6所示，可以包括：

[0098] S601，利用待识别信息与多个标签进行比对。

[0099] 多个标签是针对处于多种环境因素下的物体采集图片。

[0100] 不同于2d识别方式，本公开实施例中3d识别方式绑定的是不同标签与关联内容，故，待识别信息为图片时，可以先将图片进行解析，如提取图片的特征信息，基于该特征信
息与多个标签进行比对。

[0101] S602，确定与待识别信息相似度最高的标签。

[0102] S603，判断标签的相似度是否大于第二预设相似度阈值。

[0103] 如果标签的相似度大于第二预设相似度阈值，则执行S404；如果标签的相似度不大于第二预设相似度阈值，则认为识别失败，即第二识别结果为识别失败。

[0104] 第二预设相似度阈值可以根据实际需求或者经验值等确定。第二预设相似度阈值与第一预设相似度阈值可以相同，也可以不同。

[0105] S604，检索标签的关联内容，并将标签的关联内容作为第二识别结果。

[0106] 可以将关联的各个标签与各个标签分别对应的关联内容保存在3d识图系统中，在得到图片的特征信息后，可以将特征信息输入3d识图系统，从3d识图系统搜索关联内容，也
即利用特征信息从3d识图系统中调起相关内容。

[0107] 3d识别方式中可以考虑多种环境因素预先训练多个标签，如此，相比较于2d识别方式，能够扩充识别范围，即通过2d识别方式利用图片有可能无法搜索到相关内容，但是通
过3d识别方式利用图片的特征信息与多个标签比对，可以搜素到关联内容，简单理解，通过
3d识别方式调起相关内容。例如，2d识别方式只能识别图片，即只有预先训练得到图片以及
创建图片对应的关联内容后才可以进行识别，有局限性。3d识别方式只需要训练标签以及
对应的关联内容，利用2d识别方式与预先的图片无法成功识别时，可以利用3d识别方式与
预先训练的标签进行比对，进而得到关联内容，以成功识别。

[0108] 本公开实施例中视觉定位识别方式预先训练多个全景数据地图以及绑定各个全景数据地图与关联内容。

[0109] 可以对实际场景进行物理空间的数字化，例如利用全景相机拍摄多个场景比如商场、景点的全景数据，将视频转换为3d地图，该3d地图可以理解为全景数据地图。

[0110] 可以针对各个全景数据地图创建关联内容，创建关联内容的过程与上述2d识别方式和3d识别方式创建关联内容的过程类似，不同之处在于，视觉定位识别方式创建的是与
全景数据地图对应的关联内容，即关联的是全景数据地图和关联内容，而2d识别方式关联
的是图片与关联内容，3d识别方式关联的是标签与关联内容。

[0111] 如此，通过视觉定位识别方式对待识别信息进行识别，得到第三识别结果可以包括：利用待识别信息与多个全景数据地图进行比对；全景数据地图是对基于全景相机采集
的全景数据创建的地图；基于比对结果，从各个全景数据地图的关联内容中搜索待识别信
息的关联内容。其中，比对结果可以是待识别信息与多个全景数据地图的相似度。

[0112] 具体地，如图7所示，可以包括：

[0113] S701，利用待识别信息与多个全景数据地图进行比对。

[0114] 全景数据地图是对基于全景相机采集的全景数据创建的地图。

[0115] 本公开实施例中视觉定位识别方式绑定的是不同全景数据地图与关联内容，故，待识别信息为图片时，可以先将图片进行解析，如提取图片的特征信息，基于该特征信息与
多个全景数据地图进行比对。

[0116] S702，确定与待识别信息相似度最高的全景数据地图。

[0117] S703，判断全景数据地图的相似度是否大于第三预设相似度阈值。

[0118] 如果全景数据地图的相似度大于第三预设相似度阈值，则执行S504；如果全景数据地图的相似度不大于第三预设相似度阈值，则认为识别失败，即第三识别结果为识别失
败。

[0119] 第三预设相似度阈值、第二预设相似度阈值和第一预设相似度阈值可以全部相同，或者可以仅有两者相同，或者，可以三者均不同。

[0120] S704，检索全景数据地图的关联内容，并将识别图片的关联内容作为第三识别结果。

[0121] 例如，客户端通过摄像头获取图像数据、位姿等信息，打包发向服务端，服务端可以解析接收到的内容，抽取图像数据的特征，如抽取位姿信息，并根据位姿信息在3d地图中
进行检索。

[0122] 视觉定位识别方式中预先训练了多个全景数据地图与关联内容，全景数据地图中包括的内容比较丰富，则可以支持依据种类较多的信息均可以搜索到关联内容。如此，能够
扩展识别范围。

[0123] 2d识别方式、3d识别方式和视觉定位识别方式的识别能力不同，可以支持的识别范围不同，当有两种或者三种方式均可以得到关联内容，则可以按照预设优先级策略，将优
先级最高的识别方式得到的关联内容，作为待识别信息的最终识别结果。

[0124] 2d识别方式是利用图片本身进行识别，即是利用图片所有的信息调起相关内容，而3d识别方式和视觉定位识别方式是提取图片的特征调起相关内容，利用图片的部分信息
进行识别，故2d识别方式的识别精度高于3d识别方式和视觉定位识别方式。且3d识别方式
中用于比对的标签是考虑多种环境因素而得到的，即考虑了环境中更多地实际因素，相比
较于视觉定位识别方式，3d识别方式的精度更高。

[0125] 一种可实现方式中，考虑2d识别方式、3d识别方式和视觉定位识别方式的识别精度逐次降低，预设优先级策略可以包括：优先级从高到低的顺序：2d识别方式、3d识别方式
和视觉定位识别方式。如此，可以在通过扩展识别范围的基础上，提高识别的精度。

[0126] 此时，当第一识别结果、第二识别结果和第三识别结果中至少两种均为待识别信息的关联内容，则按照预设优先级策略，将优先级最高的识别方式得到的关联内容，作为待
识别信息的最终识别结果。即当通过2d识别方式、3d识别方式和视觉定位识别方式中至少
两种均得到待识别信息的关联内容，则按照2d识别方式、3d识别方式和视觉定位识别方式
优先级从高到低的顺序，选择能够得到待识别信息的关联内容中优先级较高的识别方式得
到的关联内容作为最终识别结果。例如，三种识别方式均得到关联内容，则将2d识别方式的
关联内容作为最终识别结果；若2d识别方式和3d识别方式均得到关联内容，则将2d识别方
式的关联内容作为最终识别结果；若3d识别方式和视觉定位识别方式均得到关联内容，则
将视觉定位识别方式的关联内容作为最终识别结果。若仅有视觉定位识别方式得到关联内
容，则直接将视觉定位识别方式的关联内容作为最终识别结果即可。

[0127] 本公开实施例提供的图像识别方法可以应用于扫一扫应用中，可以在扫一扫应用中分别通过2d识别方式、3d识别方式和视觉定位识别方式进行识别，如对扫描的图片、3d物
体以及大型景区场景均可以得到的关联内容，如此，能够扩充扫一扫的识别范围，提高图像
识别能力，提高用户体验。

[0128] 可以应用于增强现实(Augmented Reality，AR)场景中，如图8所示，客户端通过接口，如AR软件开发工具包(Software Development Kit，sdk)采集图片，将扫描的图片上传
至服务端中AR服务模块，AR服务模块并发访问2d识别方式、3d识别方式和视觉定位识别方
式，即并行地通过2d识别方式、3d识别方式和视觉定位识别方式对图片进行识别，具体地识
别方式在上述实施例中已进行了详述，参照上述实施例即可。2d识别方式是利用图片进行
检索，可以理解为2D相同图检索，这里所说的相同图可以是完全相同的图，也可以是相似度
满足要求的图，例如，与客户端上传的图片相似度大于上述第一预设相似度阈值的图片。3d
识别方式利用图片的特征信息与预先训练得到的标签进行比对，也即查找图片对应的标
签，而标签是利用考虑不同环境因素针对物体采集的图片进行标注得到的，标签可以理解
为表示物体，3d识别方式也可以理解为3D通用物体识别。视觉定位识别方式也可以理解为
VPAS(视觉定位与增强服务)识图。

[0129] 对应于上述实施例提供的图像识别方法，本公开实施例还提供了一种图像识别装置，如图9所示，可以包括：

[0130] 获取模块901，用于获取待识别信息；

[0131] 识别模块902，用于通过多种识别方式对待识别信息进行识别，得到各种识别方式的识别结果；不同识别方式的识别能力不同；

[0132] 确定模块903，用于基于各种识别方式的识别结果，确定待识别信息的最终识别结果。

[0133] 可选的，识别模块902，具体用于并行地利用多种识别方式对待识别信息进行识别，得到各种识别方式的识别结果。

[0134] 可选的，识别模块902，具体用于针对每种识别方式，当通过识别方式对待识别信息识别失败时，得到的识别结果为识别失败；当通过识别方式对待识别信息识别成功时，得
到的识别结果为待识别信息的关联内容；

[0135] 确定模块903，具体用于当仅通过一种识别方式得到待识别信息的关联内容，则将关联内容作为待识别信息的最终识别结果；当通过多于一种的识别方式均得到待识别信息
的关联内容，则按照预设优先级策略，将优先级最高的识别方式的关联内容，作为待识别信
息的最终识别结果。

[0136] 可选的，识别模块902，具体用于通过2d识别方式对待识别信息进行识别，得到第一识别结果；通过3d识别方式对待识别信息进行识别，得到第二识别结果；通过视觉定位识
别方式对待识别信息进行识别，得到第三识别结果；

[0137] 确定模块903，具体用于当第一识别结果、第二识别结果和第三识别结果中至少两种均为待识别信息的关联内容，则按照预设优先级策略，将优先级最高的识别方式的关联
内容，作为待识别信息的最终识别结果，其中，预设优先级策略包括：优先级从高到低的顺
序：2d识别方式、3d识别方式和视觉定位识别方式。

[0138] 可选的，识别模块902，具体用于利用待识别信息与多个识别图片进行比对；基于比对结果，从各个识别图片分别的关联内容中检索待识别信息的关联内容。

[0139] 可选的，识别模块902，具体用于利用待识别信息与多个标签进行比对；多个标签是针对处于多种环境因素下的物体采集图片，基于比对结果，从各个标签的关联内容中检
索待识别信息的关联内容。

[0140] 可选的，如图10所示，装置还包括：

[0141] 采集模块1001，用于针对处于多种环境因素下的物体采集多张图片；

[0142] 标注模块1002，用于针对各个图片标注标签；

[0143] 关联模块1003，用于关联各个标签与各个标签的关联内容。

[0144] 可选的，识别模块902，具体用于利用待识别信息与多个全景数据地图进行比对；全景数据地图是对基于全景相机采集的全景数据创建的地图；基于比对结果，从各个全景
数据地图的关联内容中搜索待识别信息的关联内容。

[0145] 本实施例中，图像识别方法的执行主体可以通过各种公开、合法合规的方式获取图片，例如可以是从公开数据集处获取的，或者是经过了用户的授权从用户处获取的。

[0146] 本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

[0147] 根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

[0148] 图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数
字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各
种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计
算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在
限制本文中描述的和/或者要求的本公开的实现。

[0149] 如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程
序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序
和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接
口1105也连接至总线1104。

[0150] 设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以
及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100
通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

[0151] 计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的
人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、
以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和
处理，例如图像识别方法。例如，在一些实施例中，图像识别方法可被实现为计算机软件程
序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的
部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当
计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的图像识别方法
的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式
(例如，借助于固件)而被配置为执行图像识别方法。

[0152] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统
的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实
现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算
机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器
可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出
装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至
少一个输出装置。

[0153] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

[0154] 在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。

[0155] 为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视
器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

[0156] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算
系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网
(LAN)、广域网(WAN)和互联网。

[0157] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计
算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的
服务器，或者是结合了区块链的服务器。

[0158] 应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，
只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

[0159] 上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开
的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

一种图像识别方法、装置、设备以及存储介质转让专利

申请号 : CN202110805994.4

文献号 : CN113408530B

文献日 : 2022-05-13

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘朋

申请人 : 北京百度网讯科技有限公司

摘要 :

权利要求 :

说明书 :