用于根据地图图像进行位置推理的方法转让专利

申请号 : CN201910166459.1

文献号 : CN110858213A

文献日 : 2020-03-03

用于根据地图图像进行位置推理的方法。提供了一种将非电子地图与电子地图关联起来的计算机实现的方法。所述方法包括：针对获得的在线数据合集，通过应用卷积神经网络来生成样式不变且位置变化的地图表示的数据库。另外，针对与所述非电子地图相关联的不具有地理位置元数据的拍摄图像，所述方法包括应用最近邻启发法以将所述拍摄图像与所述地图表示进行比较并且生成所述拍摄图像与所述地图表示之间的匹配，以及执行与所述匹配相关联的显示动作。

1.一种将非电子地图与电子地图关联起来的计算机实现的方法，所述方法包括以下步骤：

针对所获得的在线数据合集，通过应用卷积神经网络来生成样式不变且位置变化的地图表示的数据库；

针对与所述非电子地图相关联的不具有地理位置元数据的拍摄图像，应用最近邻启发法以将所述拍摄图像与所述地图表示进行比较并且生成所述拍摄图像与所述地图表示之间的匹配；以及执行与所述匹配相关联的显示动作。

2.根据权利要求1所述的计算机实现的方法，其中，所述显示动作包括提供所述地图表示和所述拍摄图像的所述匹配的覆层。

3.根据权利要求1所述的计算机实现的方法，其中，所述卷积神经网络包括具有多个子网络的深度暹罗卷积神经网络，所述多个子网络各自具有相同的卷积和权重，对所述子网络中的每一个的最终层的输出进行对比损失比较，并且基于所述对比损失比较的结果更新所述权重，并且其中，所述子网络中的每一个接收所述地图表示中的各个地图表示作为输入，并且依次包括多个连续的卷积层，接着是向所述对比损失比较提供输出的一个或更多个全连接层。

4.根据权利要求1所述的计算机实现的方法，其中，所述方法还包括：在所述应用最近邻启发法的步骤之前，整合粗略地理信息，其中，所述粗略地理信息包括城市级别的最近地理信息。

5.根据权利要求1所述的计算机实现的方法，其中，所述最近邻启发法包括针对作为查询的所述拍摄图像，将所述最近邻启发法应用于通过局部优化积量化LOPQ索引的所述数据库，以获得规定数量的最近匹配，基于真实距离对所述最近匹配进行重新排序，并且为所述图像提供建议的GPS坐标。

6.根据权利要求1所述的计算机实现的方法，其中，样式不变的地图表示包括颜色选择和渲染样式中的至少一种，并且位置变化的表示与GPS坐标相关联。

7.根据权利要求1所述的计算机实现的方法，其中，所述非电子地图和/或所述电子地图包括来自视频的一个或更多个图像。

8.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质包括被配置为执行存储在存储器中的指令的处理器，所述指令包括：针对所获得的在线数据合集，通过应用卷积神经网络来生成样式不变且位置变化的地图表示的数据库；

针对与非电子地图相关联的不具有地理位置元数据的拍摄图像，应用最近邻启发法以将所述拍摄图像与所述地图表示进行比较并且生成所述拍摄图像与所述地图表示之间的匹配；以及执行与所述匹配相关联的显示动作。

9.根据权利要求8所述的非暂时性计算机可读介质，其中，所述显示动作包括提供所述地图表示和所述拍摄图像的所述匹配的覆层。

10.根据权利要求8所述的非暂时性计算机可读介质，其中，所述卷积神经网络包括具有多个子网络的深度暹罗卷积神经网络，所述多个子网络各自具有相同的卷积和权重，对所述子网络中的每一个的最终层的输出进行对比损失比较，并且基于所述对比损失比较的结果更新所述权重，并且其中，所述子网络中的每一个接收所述地图表示中的各个地图表示作为输入，并且依次包括多个连续的卷积层，接着是向所述对比损失比较提供输出的一个或更多个全连接层。

11.根据权利要求8所述的非暂时性计算机可读介质，其中，所述指令还包括：在所述应用最近邻启发法的步骤之前，整合粗略地理信息，其中，所述粗略地理信息包括城市级别的最近地理信息。

12.根据权利要求8所述的非暂时性计算机可读介质，其中，所述最近邻启发法包括针对作为查询的所述拍摄图像，将所述最近邻启发法应用于通过局部优化积量化LOPQ索引的所述数据库，以获得规定数量的最近匹配，基于真实距离对所述最近匹配进行重新排序，并且为所述图像提供建议的GPS坐标。

13.根据权利要求8所述的非暂时性计算机可读介质，其中，样式不变的地图表示包括颜色选择和渲染样式中的至少一种，并且位置变化的表示与GPS坐标相关联。

14.根据权利要求8所述的非暂时性计算机可读介质，其中，所述非电子地图和/或电子地图包括来自视频的一个或更多个图像。

15.一种图像拍摄装置，所述图像拍摄装置被配置为拍摄一个或更多个图像，并且生成媒体对象，所述图像拍摄装置包括处理器和存储器，所述处理器执行以下步骤：拍摄与非电子地图相关联的不具有地理位置元数据的图像，并且提供拍摄图像，以便：

应用最近邻启发法以针对所获得的在线数据合集将所述拍摄图像与通过应用卷积神经网络所获得的样式不变且位置变化的地图表示的数据库相比较，以生成所述拍摄图像与所述地图表示之间的匹配；

接收用于执行与所述匹配相关联的显示动作的指令。

16.根据权利要求15所述的图像拍摄装置，其中，所述显示动作包括提供所述地图表示和所述拍摄图像的所述匹配的覆层。

17.根据权利要求15所述的图像拍摄装置，其中，所述卷积神经网络包括具有多个子网络的深度暹罗卷积神经网络，所述多个子网络各自具有相同的卷积和权重，对所述子网络中的每一个的最终层的输出进行对比损失比较，并且基于所述对比损失比较的结果更新所述权重，其中，所述子网络中的每一个接收所述地图表示中的各个地图表示作为输入，并且依次包括多个连续的卷积层，接着是向所述对比损失比较提供输出的一个或更多个全连接层，并且在所述应用最近邻启发法的步骤之前，整合粗略地理信息以缩小所获得的在线数据合集，其中，所述粗略地理信息包括城市级别的最近地理信息。

18.根据权利要求15所述的图像拍摄装置，其中，所述最近邻启发法包括针对作为查询的所述拍摄图像，将所述最近邻启发法应用于通过局部优化积量化LOPQ索引的所述数据库，以获得规定数量的最近匹配，基于真实距离对所述最近匹配进行重新排序，并且为所述图像提供建议的GPS坐标。

19.根据权利要求15所述的图像拍摄装置，其中，样式不变的地图表示包括颜色选择和渲染样式中的至少一种，并且位置变化的表示与GPS坐标相关联。

20.根据权利要求15所述的图像拍摄装置，其中，所述非电子地图和/或电子地图包括来自视频的一个或更多个图像。

用于根据地图图像进行位置推理的方法

技术领域

[0001] 示例实现的各方面涉及用于拍摄物理地图的图像并且通过使用卷积神经网络和最近邻算法来提取该地图的地理位置信息的方法、系统和接口。

背景技术

[0002] 在现有技术中，一个或更多个用户可能遇到旨在传送真实世界信息的图像或其它视觉数据。此类图像或其它视觉数据可以包括但不限于时刻表、菜单、图和图表。作为具体示例，地图是一个或更多个用户可以经历的信息可视化。例如，但不作为限制，地图可以显示与在物理位置处的用户相关联的周围地理区域的表示，诸如在到达火车站的用户处提供的地图。类似地，地图可以作为由用户接收的附加信息被包括，例如在预订确认或收据内。

[0003] 虽然被以物理方式显示或者打印的地图可以帮助一个或更多个用户将他们自己定向到新位置，但是那些地图可以永久地或者另外仅以实物的形式贴到标牌上。结果，一个或更多个用户无法拍摄地图上的相关信息，然后当他们物理上远离地图时与他们一起获取该信息。例如，图1(a)例示了被打印(例如，来自公共显示器)的现有技术的地图100。在这种情况下，地图是具有反射涂层的物理标志上的旅游信息地图。因为地图是物理对象，所以它不包括诸如元数据的任何指示符。

[0004] 另一方面，一个或更多个用户通常将以物理方式使用地图和在电子通信装置(诸如个人移动智能装置)上交互地显示的方向来导航。例如，图1(b)例示了为在线移动应用本地的现有技术的地图101，诸如覆盖与图l(a)的物理地图100相似的区域的手机地图(例如，具有用当地语言标记“你在这里”的签到点(pin drop))。然而，地图100不具有任何元数据并且仅是物理地图。

[0005] 因此，地图100不与地图101电子相关联。此外，用于手动地获得并比较各种电子地图以以自动化实时方式确定最接近匹配的强力方法不可用。

[0006] 因此，在现有技术中，对于从静止或打印的物理地图中提取信息并且向在线移动应用报告回信息的方法存在未满足的需要。

发明内容

[0007] 示例实现的各方面包括一种将非电子地图与电子地图关联起来的计算机实现的方法，所述方法包括以下步骤：针对所获得的在线数据合集，通过应用卷积神经网络来生成样式不变且位置变化的地图表示的数据库；针对与所述非电子地图相关联的不具有地理位置元数据的拍摄图像，应用最近邻启发法以将所述拍摄图像与所述地图表示进行比较并且生成所述拍摄图像与所述地图表示之间的匹配；以及执行与所述匹配相关联的显示动作。

[0008] 示例实现的附加方面包括：所述显示动作包括提供所述地图表示和所述拍摄图像的所述匹配的覆层。

[0009] 示例实现的另外的方面包括：所述卷积神经网络包括具有多个子网络的深度暹罗(siamese)卷积神经网络，所述多个子网络各自具有相同的卷积和权重，对所述子网络中的每一个的最终层的输出进行对比损失比较，并且基于所述对比损失比较的结果更新所述权重。所述子网络中的每一个可以接收所述地图表示中的各个地图表示作为输入，并且依次包括多个连续的卷积层，接着是向所述对比损失比较提供输出的一个或更多个全连接层。

[0010] 示例实现的其它方面包括：所述最近邻启发法包括针对作为查询的所述拍摄图像，将所述最近邻启发法应用于通过局部优化积量化(LOPQ)索引的所述数据库，以获得规定数量的最近匹配，基于真实距离对所述最近匹配进行重新排序，并且为所述图像提供建议的GPS坐标。

[0011] 示例实现的方面还包括：样式不变的地图表示包括颜色选择和渲染样式中的至少一种，并且位置变化的表示与GPS坐标相关联。

[0012] 此外，示例实现的方面包括所述非电子地图和/或电子地图包括来自视频的一个或更多个图像。

[0013] 另外提供的是一种非暂时性计算机可读介质和一种图像拍摄装置，所述非暂时性计算机可读介质包括被配置为执行存储在存储器中的指令的处理器，所述图像拍摄装置被配置为拍摄一个或更多个图像，并且生成媒体对象，以及所述图像拍摄装置包括处理器和存储器。

附图说明

[0014] 本专利或申请文件包含至少一幅彩色附图。具有彩色附图的此专利或专利申请公开的副本将由主管局应请求并支付必要费用后提供。

[0015] 图1(a)和图1(b)分别例示了现有技术的物理地图和手机地图。

[0016] 图2例示了根据示例实现的用于位置推理的数据流。

[0017] 图3(a)、图3(b)、图3(c)和图3(d)例示了根据示例实现的训练数据集中的不同的渲染样式的地图图块的示例。

[0018] 图4例示了根据示例实现的用于学习基于位置的地图图像相似性的暹罗网络架构。

[0019] 图5例示了根据示例实现的方法。

[0020] 图6例示了具有适于在一些示例实现中使用的示例计算机装置的示例计算环境。

[0021] 图7示出了适于某些示例实现的示例环境。

具体实施方式

[0022] 以下具体实施方式提供本申请的图和示例实现的另外的细节。为清楚起见，省略了各图之间的冗余元件的附图标记和描述。在整个说明书中使用的术语作为示例被提供，并非旨在进行限制。例如，而不作为限制，如本文所使用的术语“地图图块”可以指代与地理位置指示符(诸如纬度/经度组合)相关联的地理图块。

[0023] 示例实现的各方面涉及一种用于提取与不具有元数据的物理显示的地图相关联的地理位置信息的方法，其图像已经由相机或其它数字结构拍摄。例如，但不作为限制，对于通过相机所拍摄的与真实世界地图相关联的地图图像，示例实现定位世界内的地图图像，并且已经确定了来自数据库的表示，返回全球定位系统(GPS)坐标。可选地，可以将来自从物理地图的图像中拍摄的工作的原始物理地图的注释添加到从数据库提供的最接近匹配。另外，可选地，粗略地理信息(例如，比坐标更广的规模(诸如城市或区域规模)的最近地理信息)也可以用于提供初始(例如，粗略)过滤器以提供搜索空间的初始缩小。GPS坐标然后可在智能装置内被用于映射和导航。

[0024] 为了实现示例方法，与该方法相关联的任务包括大规模的基于内容的图像检索。在操作中，收集具有已知地理坐标的地图图像的大合集。对于与物理地图相关联且不具有任何元数据的由用户提供的查询图像，从数据库中识别真实世界地图的图像与地图图像的合集之间的最接近匹配。例如，但不作为限制，数据库可以源自开源的、免费可用的数据库。
结果，响应于查询，返回匹配图像的地理坐标。如以上所指出的，基于最近地理信息(例如，最近城市级别地理信息)的更广级别过滤器也可以用于限制来自数据库的地图图像的合集。

[0025] 根据示例实现，在训练数据(例如，收集的训练数据)上训练深度暹罗卷积神经网络，以学习和嵌入，以跨越各种不同的渲染样式来拍摄地图影像的位置语义。

[0026] 例如，但不作为限制，可以应用所收集的训练数据来学习使描绘相同位置的地图图块在特征空间中保持接近的表示，而不管地图被渲染的样式如何。此外，可以通过使用算法(诸如近似最近邻)来执行跨越大合集的索引和检索。然而，其它启发法或搜索可以取代最近邻算法。

[0027] 所学习的嵌入作为用于跨越地图图像的合集进行相似性搜索的特征空间被应用。例如，但不作为限制，粗略地理信息(例如，在区域或城市级别下的最近地理信息)可以用于通过缩小要考虑的搜索空间来使搜索加速。

[0028] 与示例实现相关联的地理信息可以由用户应用于导航，本发明不限于此。例如，但不作为限制，可以采用地图的其它用途，如为本领域技术人员已知的那样。

[0029] 为了执行大规模基于内容的图像检索，可以根据若干关键组件来执行信息提取，以根据所获取的与不具有元数据的物理地图相关联的地图图像来递送自动定位。这些组件包括但不限于具有对地图图像的地理参考的大型数据库、用于创建对地图样式不变(例如，关于地图的样式不可知)的地图表示同时仍然能够拍摄位置语义的方法以及用于跨高维特征矢量的大合集进行最近邻搜索的方法。如以上所说明的，可以基于城市级别的最近地理信息约束或者限制搜索，以使搜索加速。

[0030] 图2例示了与位置推理的方法相关联的根据示例实现的数据流200。在该附图中，虚线箭头指示离线处理，并且实线箭头指示在测试时间(例如，用于大型数据库生成的操作时间)执行的处理。

[0031] 根据数据流，首先对输入图像201进行分段，以检测地图子区域。因此，在203处，执行对地图上的感兴趣区域(ROI)的检测。在205处，输入所检测到的子区域以用于特征提取。可以将子区域输入到暹罗网络中的任一个CNN子网络，以提取其特征表示。由于图像数据的高度可变性，可能有必要强调某些特征，同时对于其它特征具有不变性。通过在207处基于图像与位置之间的关联应用一组训练数据，特征提取205可以在209处生成具有嵌入信息与位置之间的关联的训练数据，作为离线(例如，非实时)过程的一部分。

[0032] 在205处完成特征提取时，在211处应用最近邻启发法或算法，以通过还使用训练数据209来识别数据库中最相似的训练实例，所述训练数据209包括使嵌入信息与位置相关联的信息。因此，在213返回所对应的位置作为最终估计。

[0033] 可选地，使用诸如LOPQ(局部优化积量化)的模型的最近邻算法211可以返回特征空间中的距离，该距离可被表征为已被阈值处理以在低置信度场景中禁止响应的置信度量度。类似地，数据库可以包括来自多个源的表示相同位置的地图图块。可以应用投票方法来协调在顶部-返回结果集中表示的不同位置。如以上所说明的，虚线箭头指示可以在网络训练之后离线提取的训练数据的特征，然而实心箭头指示在测试时间(诸如实时地，但不是限于此)执行的处理。

[0034] 根据示例限制，可以围绕在201处提供的输入图像的物理对象创建元数据。此外，可以向具有元数据的现有文件提供链接。

[0035] 如以上在205中所示，深度暹罗卷积神经网络致力于学习反映地图的语义的地图图像的特征空间嵌入，以及可用于跨越地图的多个渲染样式来比较地图的重要线索。在暹罗神经网络中，训练实例被作为对呈现。这些对根据地面实况标记被指定为不相似的或相似的。然后通过在结构和加权参数两者方面相同的成双子网络来传递每对中的每个图像。

[0036] 在每个网络的末端处输出的表示使用例如但不限于对比损失函数来比较。对比损失函数奖励地面实况相似对之间的欧几里德接近度，同时惩罚地面实况不相似样本的接近对(close pair)。比较的目的是为了让神经网络学习既拍摄图像之间的基于位置的相似性又对颜色选择、渲染样式或与所描绘的实际位置基本上无关的其它呈现方面不变的表示。

[0037] 在上述示例实现中，可以从多个源收集原始输入图像。例如，根据一个非限制性示例实现，原始输入图像是从具有大小为256×256个像素的OpenStreetMap和Stamen获得的。为了收集数据，针对与目标物理地理位置(诸如目标城市)相关联的边界框执行查询。然后，针对每个城市下载所有对应的地图图块图像。如以上所说明的，可以通过应用粗略地理信息(例如，城市级别最近地理信息)来缩小搜索空间，以缩小搜索空间。

[0038] 每个地图图块可以具有形式为/z/x/y.png的特定URL，其中z是当前缩放级别，lon＝x/z2·360-180，并且lat＝arctan(sinh(π-y/2z))·180/π。因此，对于给定图块URL，可计算出该图块的lon/lat边界框。此外，可以用位置的各种其它渲染(诸如例如可以由Stamen Design提供的那些)来增强数据集。上述渲染使用来自OpenStreetMap的相同的底层地理空间信息，但是它们渲染看起来完全不同的地图图像。

[0039] 例如，图3(a)、图3(b)、图3(c)和图3(d)例示了训练数据集中的不同的渲染样式的地图图块的示例。更具体地，图3(a)例示了OpenStreetMap渲染301，图3(b)例示了地形渲染303，图3(c)例示了调色剂渲染305，并且图3(d)例示了水彩渲染307。根据示例实现，不管与所描绘的实际位置无关的不同的渲染样式如何，所述表示和相似性分析致力于基于位置的相似性，并且对于不同的渲染样式是不变的。渲染可以被进一步降低采样到64×64个像素，并且转换为灰度。

[0040] 所获得的输出205被作为输入提供到在图4中描述的暹罗网络中。更具体地，网络400由成双子网络410和420组成。子网络410、420中的每一个分别包括多个全卷积层405a-
405d和407a-407d。在本示例中提供了用于全卷积层的实现。然而，如将由本领域技术人员所理解的，全卷积层的数量可以变化。

[0041] 层405a-405d和407a-407d中的每一个包括卷积，接着是最大池化和ReLU激活。每个子网络中的最终卷积层的输出然后被展平，并且通过一个或更多个全连接层来馈送。在本示例中提供了1024维全连接层409a、409b和411a、411b的实现。在此示例实现中，第一层409a、411a具有ReLU激活，并且第二层409b、411b具有S形激活。来自两个子网络410、420的最终层409b、411b的输出然后使用例如对比损失413来比较。基于此比较，两个网络上的权重被同样地更新。

[0042] 如上所述，子网络410、420具有相同数量的共享权重、卷积、连接层等。因此，输入401、403彼此相比较，并且构建包含地图信息的数据库。如果图像是相似的，则更精细层
409b、411b奖励相似性并惩罚不相似性。

[0043] 因此，通过随机地选择一组地图图块位置来定义“相似”图像对。对于每个位置，可以执行随机选择以获得可用的渲染样式中的两种，并且将那两个示例作为正训练示例馈送到网络中。此外，相等数量的“不相似”图像是通过随机地选择两个不同的图像图块位置，然后为每个位置随机地选择一种渲染样式并且将那些图像作为负训练示例进行馈送来从每个批次的合集中随机地选择的。

[0044] 一旦模型被训练，图像的整个数据库就通过成双子网络中的一个来馈送，并且最终层处的输出作为每个图像的特征空间表示被保留。在查询时间，新的且未见的图像也可以通过该网络来馈送，以提取它们的特征表示，并且可以被用于查询相似的图像。

[0045] 如以上所说明的，在211处，进行最近邻搜索。可以快速地且在超大规模下(诸如使用LOPQ)进行此搜索，以将高维矢量索引到粗略子空间中；如以上所说明的，可以通过使用粗略地理信息(例如，城市级别最近地理信息)来使搜索加速。因此，提供近似最近邻搜索，其在具有快速响应时间的单个机器上在数十亿项的规模上操作。更具体地说，数据库中的所有图像都被放置到LOPQ索引中。

[0046] 对于传入的查询图像，LOPQ用于找到规定数量的最近匹配，诸如1000个最近匹配。LOPQ提供最近邻的近似排名。因此，针对最近邻的所规定的(例如1000个)返回图像中的每一个检索特征矢量，并且基于真实距离对图像进行重新排序。然后返回最接近图像在重新排序之后的GPS坐标作为用于查询图像的建议的GPS坐标。基于此输入，可以确定地图图块。

[0047] 示例实现可以具有各种益处和优点。例如，示例实现可以将基于内容的图像检索应用于非真实感的地理定向图像(诸如地图)，以用从地图图像的数据库中提取的地理元数据增强所遇到的地图。相比之下，现有技术已集中于用用于进行基于内容的图像检索的附加元数据和与在大合集中找到的图像相关联的其它元数据来丰富图像，或者用于定位地标图像。

[0048] 现有技术的方法已挖掘了大量社交贡献的媒体合集，以基于对社交媒体站点上的用户的行为的聚合Geo来识别和定位地标，并且基于在社区贡献的合集中找到的共同观点对此类地标的视觉外观进行建模。然而，示例实现致力于诸如地图和其它可视化的图形表示，而不是如现有技术中所做的那样的位置的摄影图像。

[0049] 虽然上述示例实现致力于由相机所拍摄的物理地图的图像，但是本发明构思不限于此。例如，但不作为限制，可以诸如在逐帧基础上或在视频基础上采用上述方法，以例如根据视频中的地图图像来执行定位和推理。

[0050] 另外，虽然在移动装置中的地图应用的上下文中说明了示例实现，但是可以采用本发明构思的实现不限于此。例如，但不作为限制，输入信息可以来自小册子或指导书，而不是物理位置中的物理地图。此外，可以在模型中单独地采用或者混合多种语言中的一种或更多种。另外，输出可以被不仅导向地图应用，而且可以被集成到其它应用(诸如餐馆应用、酒店应用、旅游或旅行应用或可以与导航功能相结合地使用的任何其它在线应用)中。

[0051] 根据基于示例实现的方法，可以执行以下操作。用户可以拍摄物理地图的图像，并且示例实现可以从图像中提取地图。此外，示例实现可以向物理地图的图像添加其它特征，诸如签到点。使用CNN和神经网络以及最近邻算法，可以提供数据库中的最接近现有地图图块。可以向用户提供投票或者以其它方式提供关于所提供的最接近现有地图图块是否是匹配的输入的机会。此外，可以对训练数据中的信息执行计算，并且可以在装置本机导航工具中显示候选。此外，可以将来自数据库的图块作为透明或半透明覆层提供在物理地图上。

[0052] 图5例示了根据示例实现的示例过程500。在501处，获得数据合集。如以上所说明的，可以从具有一种或更多种格式的一个或更多个源获得数据合集。可以对所获得的数据执行操作以使不同格式的渲染标准化，或者转换格式以用于进一步的下游处理。

[0053] 在503处，生成数据库，该数据库包括相对于渲染、颜色等不变同时基于地理位置维持变化的地图表示，诸如地图图块。此外，深度暹罗卷积神经网络用于训练模型，并且进入图像的整个数据库。

[0054] 在505处，提供不具有元数据的物理地图的拍摄图像。例如，但不作为限制，拍摄图像可以由用户像以上所说明的那样拍摄火车站中的地图的照片等来拍摄。

[0055] 在507处，执行搜索以将505的拍摄图像与503的数据库进行比较。例如，可以使用最近邻算法来确定数据库与拍摄图像之间的最接近匹配。

[0056] 在509处，在显示动作中提供搜索的结果和拍摄图像。例如，但不作为限制，可以将搜索的结果作为覆层提供在拍摄图像上。

[0057] 图6例示了具有适于在一些示例实现中使用的示例计算机装置605的示例计算环境600。计算环境600中的计算装置605可包括一个或更多个处理单元、核或处理器610、储存器615(例如，RAM、ROM等)、内部存储器620(例如，磁、光、固态存储器和/或有机)和/或I/O接口625，其中的任一个可联接在用于传送信息的通信机制或总线630上或者嵌入在计算装置605中。

[0058] 计算装置605可通信地联接到输入/接口635和输出装置/接口640。输入/接口635和输出装置/接口640中的任何一个或两个可以是有线或无线接口并且可以是可拆卸的。输入/接口635可以包括物理或虚拟的任何装置、组件、传感器或接口，其可用于提供输入(例如，按钮、触摸屏界面、键盘、指向/光标控件、麦克风、相机、盲文、运动传感器、光学阅读器和/或类似物)。

[0059] 输出装置/接口640可以包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现中，输入/接口635(例如，用户接口)和输出装置/接口640可与计算装置605嵌入在一起或者以物理方式联接到计算装置605。在其它示例实现中，其它计算装置可以充当用于计算装置605的输入/接口635和输出装置/接口640，或者提供用于计算装置605的输入/接口635和输出装置/接口640的功能。这些元件可以包括但不限于公知的AR硬件输入以允许用户与AR环境交互。

[0060] 计算装置605的示例可以包括但不限于高度移动装置(例如，智能电话、车辆和其它机器中的装置、由人类和动物携带的装置等)、移动装置(例如，平板、笔记本、笔记本电脑、个人计算机、便携式电视、无线电装置等)以及不是为移动性而设计的装置(例如，台式计算机、服务器装置、其它计算机、信息自助服务终端(kiosk)、在其中嵌入有一个或更多个处理器和/或联接到其的电视、无线电装置等)。

[0061] 计算装置605可通信地联接(例如，经由I/O接口625)到外部存储器645和网络650以用于与任何数量的联网组件、装置和系统(包括相同或不同配置的一个或更多个计算装置)进行通信。计算装置605或任何连接的计算装置可以用作服务器、客户端、瘦服务器、通用机器、专用机器或其它标签，或者提供服务器、客户端、瘦服务器、通用机器、专用机器或其它标签的服务，或者被称为服务器、客户端、瘦服务器、通用机器、专用机器或其它标签。

[0062] I/O接口625可包括但不限于使用任何通信或I/O协议或标准(例如，以太网、802.11x、通用系统总线、WiMAX、调制解调器、蜂窝网络协议等)的有线和/或无线接口以用于向和/或从计算环境600中的至少所有连接的组件、装置和网络传送信息。网络650可以是任何网络或网络的组合(例如，因特网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

[0063] 计算装置605可使用计算机可用或计算机可读介质(包括暂时性介质和非暂时性介质)并且/或者利用这些计算机可用或计算机可读介质来通信。暂时性介质包括传输介质(例如，金属电缆、光纤)、信号、载波等。非暂时性介质包括磁介质(例如，磁盘和磁带)、光学介质(例如，CD ROM、数字视频盘、蓝光盘)、固态介质(例如，RAM、ROM、闪速储存器、固态存储器)和其它非易失性存储器或储存器。

[0064] 计算装置605可用于在一些示例计算环境中实现技术、方法、应用、过程或计算机可执行指令。可从暂时性介质中检索计算机可执行指令，并且可将计算机可执行指令存储在非暂时性介质上并从非暂时性介质中检索计算机可执行指令。可执行指令可源自任何编程、脚本和机器语言(例如，C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)中的一种或更多种。

[0065] 处理器610可在本机或虚拟环境中在任何操作系统(OS)(未示出)下执行。可部署一个或更多个应用，其包括逻辑单元655、应用编程接口(API)单元660、输入单元665、输出单元670、ROI检测单元675、特征提取单元680、搜索/匹配单元685以及用于不同的单元彼此通信、与OS进行通信并与其它应用(未示出)进行通信的单元间通信机制695。

[0066] 例如，ROI检测单元675、特征提取单元680和搜索/匹配单元685可以实现图2、图4和图5中所示的一个或更多个过程。所描述的单元和元件可在设计、功能、配置或实现方面变化并且不限于所提供的描述。

[0067] 在一些示例实现中，当信息或执行指令被API单元660接收到时，可以将它传送到一个或更多个其它单元(例如，逻辑单元655、输入单元665、ROI检测单元675、特征提取单元680和搜索/匹配单元685)。例如，ROI检测单元675可以识别来自与物理地图相关联的相机的输入，并且确定感兴趣区域。特征提取单元680可以使用深度暹罗CNN来执行特征提取。另外，搜索/匹配单元685可以执行搜索以确定物理地图图像与数据库之间的最佳匹配，并且提供输出。

[0068] 在一些实例中，逻辑单元655可以被配置为在上述的一些示例实现中控制单元之间的信息流并且引导由API单元660、输入单元665、ROI检测单元675、特征提取单元680和搜索/匹配单元685所提供的服务。例如，一个或更多个过程或实现的流程可以由逻辑单元655单独控制或者与API单元660相结合地控制。

[0069] 图7示出了适于一些示例实现的示例环境。环境700包括装置705-745，并且各自经由例如网络760(例如，通过有线和/或无线连接)通信地连接到至少一个其它装置。一些装置可以通信地连接到一个或更多个存储装置730和745。

[0070] 一个或更多个装置705-745的示例分别可以是图6中描述的计算装置605。装置705-745可以包括但不限于具有以上所说明的监视器和相关联的网络摄像头的计算机705(例如，膝上型计算装置)、移动装置710(例如，智能电话或平板)、电视715、与车辆相关联的装置720、服务器计算机725、计算装置735-740、存储装置730和745。这些装置可以通信地连接到包括但不限于本领域中公知的AR外围装置以允许用户在AR、VR、混合现实或其它环境中交互。此外，这些装置可以包括媒体对象拍摄硬件，如将由本领域技术人员所理解的。

[0071] 在一些实现，装置705-720可以被认为是与企业的用户相关联的用户装置。装置725-745可以是与服务提供商相关联的装置(例如，由外部主机使用以提供如在上面且关于各个附图所描述的服务，并且/或者存储数据(诸如网页、文本、文本部分、图像、图像部分、音频、音频片段、视频、视频片段和/或其周围的信息))。

[0072] 如以上所说明的，示例实现致力于在线移动应用，该在线移动应用拍摄物理地图的图像，并且使用该拍摄图像，提供被发送到远离移动计算装置的服务器的信号。服务器然后将所拍摄图像与来自使用人工智能技术来训练的大型数据库中的最接近在线信息相匹配，并且将该最接近匹配提供回移动应用。在示例实现中，在所拍摄图像之间可以存在覆层并且可以被提供给移动应用。然而，示例实现不限于此并且可以因此在不脱离本发明的范围的情况下取代其它实现。例如，但不作为限制，可以从卫星图像提供所拍摄图像。例如，但不作为限制，地图也可以是像将由本领域技术人员所理解的那样从飞机、拓扑地图或其它地图拍摄的航空照片，并且不具有元数据。

[0073] 此外，可以调整置信度，以以类似游戏的方式提供应用，使得只有一些但不是全部的信息可以在显示器上显示给移动设备。在一个示例实现中，可以仅示出某些属性，使得用户可以将应用用作了解定向和导航技能的教程。在又一示例实现中，所拍摄图像可以是搜索某些图像传感器或与导航路线相关联的其它标记。例如，而不作为限制，对于视力有困难的人们来说，当在移动设备中显示时，可以使用来自规则引擎的特殊指令来处理人行道上具有不同颜色的区域。这种方法能给用户提供更准确的旅行路径，其也可以是更安全的。

[0074] 另外，可以根据示例实现的应用来调整关于不变属性的确定。例如，在用于导航功能的示例实现中，可以为与机动车辆路线、自行车路线和步行路线相关联的在线应用呈现不同的视图。

[0075] 除了在线移动应用之外，还可以实现其它视觉显示方法。例如，但不作为限制，在增强现实方法中，用户可以在与要访问的城市相关联的增强现实空间中，四处走动，并且然后用户接收小册子或者用他们不读的语言接收。例如，小册子可以指示用户希望访问的餐馆。用户可以拍摄小册子的图片，并且示例实现可以在地图上进行定点(pin)增强现实，其基于他们的GPS向用户提供他们在何处的指示。因此，用户可浏览增强现实系统，并且获得关于在城市中导航到哪里的信息。

[0076] 根据另一示例实现，可以在自助服务终端处提供物理地图。例如，地图可以采用用户无法理解的语言。在示例实现中，可以给采用用户无法理解的语言的物理地图提供来自采用用户可理解的语言的大型数据库的覆层。因此，用户可以能够更容易地找到地标或其它感兴趣点，并且避免当本地自助服务终端仅以本地语言提供具有期望信息的地图以及本机地图应用不提供与自助服务终端中的地图最接近的匹配并且省略存在于自助服务终端的地图中的重要信息时发生的现有技术问题。通过使用示例实现来从大型数据库中找到与自助服务终端上的物理地图匹配的最接近地图，可以向用户提供不仅指示地标而且还指示可以在导航或诸如观光的其它活动中帮助用户的主观评论的附加信息。此外，如将由本领域技术人员所理解的，应用可以被集成到其它在线应用(诸如日历、电子邮件、社交网络服务或其它在线应用)中。

[0077] 根据又一示例实现，物理环境地图可以不限于地理或基于GPS的方法，并且在不脱离本发明的范围的情况下，可以包括其它规模的其它方法。例如，但不作为限制，在教科书中提供图像并且相机存在于与教科书中的图像相关联的物理环境中的实现中，本示例实现可以向用户提供完成任务的帮助。在一个示例实现中，医学教科书可以提供目标组织等的图像，并且诸如在人体内部的相机可以实际上对组织进行成像。可以提供最接近的匹配以提供关于由身体内部的相机正在成像的物理组织的状况的评估。此外，还可以以集成方式提供虚拟现实和/或增强现实以帮助用户评估目标组织状况，并且可选地，提供治疗选项。

[0078] 在另一示例实现中，可以在航空飞机、无人机等上提供相机。可以将由航空相机所拍摄的物理图像与用于匹配的大型数据库相比较。基于所获得的信息和最接近地图，可以做出关于正在拍摄图像的评估。这种应用可以用于诸如与农业活动、搜索和救援、安全或其它领域相关联的农业或资源管理的领域。

[0079] 此外，可以修改上述示例实现以向用户提供在设置中或者动态地建立偏好的能力。例如，对通过机动车辆旅行感兴趣的用户可以能够为显示道路的地图设置偏好。对通过自行车或徒步旅行感兴趣的用户可以为分别显示自行车道或步行路径的地图设置偏好。可以将这种主观偏好构建到上述模型中。

[0080] 尽管已经示出并描述了几个示例实现，然而这些示例实现被提供来将本文描述的主题传达给对此领域熟悉的人们。应该理解的是，可以以各种形式实现本文描述的主题，而不限于所描述的示例实现。可在没有那些具体地定义或者描述的事项的情况下或者在未描述其它或不同的元件或事项的情况下实践本文描述的主题。熟悉本领域的人员将理解，在不脱离如所附权利要求及其等同物中限定的本文描述的主题的情况下，可以在这些示例实现中进行改变。

用于根据地图图像进行位置推理的方法转让专利

申请号 : CN201910166459.1

文献号 : CN110858213A

文献日 : 2020-03-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : L·肯尼迪 , M·L·库珀 , D·A·沙马

申请人 : 富士施乐株式会社

摘要 :

权利要求 :

说明书 :