目标类别识别方法、装置及可读存储介质转让专利

申请号 : CN202210299739.1

文献号 : CN114399830B

文献日 : 2022-06-24

本发明实施例提出目标类别识别方法、装置及可读存储介质。方法包括：对输入图像进行针对每一目标类别的相关系数提取，将目标类别相关系数向量中的每个分量分别乘以对应的小数，将得到的第二相关系数向量中的每个分量分别减去最大分量，将得到的第三相关系数向量中的每个分量分别加上预设精度后再进行取整，将得到的第四相关系数向量中小于0的各分量更新为0，分别计算以2为底数，以每个分量为指数得到的幂，分别将第五相关系数向量中的每个分量对应的幂除以第五相关系数向量中的所有分量对应的幂之和，所得的各商值分别为输入图像中包含各类目标的概率。本发明实施例在保证目标类别识别精度的前提下，降低目标类别识别的计算复杂度。

1.一种目标类别识别方法，其特征在于，该方法包括：

对输入图像进行针对每一目标类别的相关系数提取，得到目标类别相关系数向量，该向量中的每一分量分别表示输入图像与一类目标的相关系数，该向量的维数与目标类别的总类别数相同；

将所述目标类别相关系数向量中的每个分量分别乘以对应的小数，得到第二相关系数向量；

在第二相关系数向量中寻找最大分量，将第二相关系数向量中的每个分量分别减去该最大分量，得到第三相关系数向量；

将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，得到第四相关系数向量；

将第四相关系数向量中小于0的各分量更新为0，得到第五相关系数向量；

对于第五相关系数向量中的每个分量，分别计算以2为底数，以该分量为指数得到的幂；

分别将第五相关系数向量中的每个分量对应的幂除以第五相关系数向量中的所有分量对应的幂之和，所得的各商值分别为输入图像中包含各类目标的概率；

所述对输入图像进行针对每一目标类别的相关系数提取，包括：

将输入图像输入预先训练好的目标类别相关系数提取神经网络模型，该模型的输出通道数与目标类别的总类别数相同，该模型的输出即为所述目标类别相关系数向量。

2.根据权利要求1所述的方法，其特征在于，所述预设精度大于或等于2。

3.根据权利要求1所述的方法，其特征在于，所述将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，包括：将第三相关系数向量中的每个分量分别加上预设精度再加上0.5后进行向下取整。

4.根据权利要求1所述的方法，其特征在于，所述目标类别识别为表情类别识别、年龄类别识别、性别类别识别、场景类别识别、或声音事件类别识别。

5.一种目标类别识别装置，其特征在于，该装置包括：

目标类别相关系数提取模块，用于对输入图像进行针对每一目标类别的相关系数提取，得到目标类别相关系数向量，该向量中的每一分量分别表示输入图像与一类目标的相关系数，该向量的维数与目标类别的总类别数相同；

相关系数向量处理模块，用于将所述目标类别相关系数向量中的每个分量分别乘以对应的小数，得到第二相关系数向量；在第二相关系数向量中寻找最大分量，将第二相关系数向量中的每个分量分别减去该最大分量，得到第三相关系数向量；将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，得到第四相关系数向量；将第四相关系数向量中小于0的各分量更新为0，得到第五相关系数向量；

类别概率计算模块，用于对于第五相关系数向量中的每个分量，分别计算以2为底数，以该分量为指数得到的幂；分别将第五相关系数向量中的每个分量对应的幂除以第五相关系数向量中的所有分量对应的幂之和，所得的各商值分别为输入图像中包含各类目标的概率；

所述目标类别相关系数提取模块对输入图像进行针对每一目标类别的相关系数提取，包括：将输入图像输入预先训练好的目标类别相关系数提取神经网络模型，该模型的输出通道数与目标类别的总类别数相同，该模型的输出即为所述目标类别相关系数向量。

6.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至4中任一项所述的目标类别识别方法的步骤。

目标类别识别方法、装置及可读存储介质

技术领域

[0001] 本发明涉及数据处理技术领域，尤其涉及目标类别识别方法、装置及可读存储介质。

背景技术

[0002] 随着深度学习技术的快速发展，深度学习算法在人工智能领域得到了极其广泛的应用。分类是最常见的一种应用场景，比如表情识别、年龄识别、性别识别、场景识别、声音事件分类等等。由于softmax非常好的分类效果和相对简单的计算过程，各种分类的任务中常常用到softmax分类器。

[0003] softmax的计算过程需要进行多次以自然数e为底的指数运算，该指数运算不易在NPU（Neural‑Network Processing Unit，神经网络处理单元）等硬件上实现，从而影响含有softmax分类器的算法模型在NPU等硬件上的使用。

发明内容

[0004] 本发明实施例提出目标类别识别方法、装置及可读存储介质和计算机程序产品，以在保证目标类别识别精度的前提下，降低目标类别识别的计算复杂度。

[0005] 本发明实施例的技术方案是这样实现的：

[0006] 一种目标类别识别方法，该方法包括：

[0007] 对输入图像进行针对每一目标类别的相关系数提取，得到目标类别相关系数向量，该向量中的每一分量分别表示输入图像与一类目标的相关系数，该向量的维数与目标类别的总类别数相同；

[0008] 将所述目标类别相关系数向量中的每个分量分别乘以对应的小数，得到第二相关系数向量；

[0009] 在第二相关系数向量中寻找最大分量，将第二相关系数向量中的每个分量分别减去该最大分量，得到第三相关系数向量；

[0010] 将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，得到第四相关系数向量；

[0011] 将第四相关系数向量中小于0的各分量更新为0，得到第五相关系数向量；

[0012] 对于第五相关系数向量中的每个分量，分别计算以2为底数，以该分量为指数得到的幂；

[0013] 分别将第五相关系数向量中的每个分量对应的幂除以第五相关系数向量中的所有分量对应的幂之和，所得的各商值分别为输入图像中包含各类目标的概率。

[0014] 所述对输入图像进行针对每一目标类别的相关系数提取，包括：

[0015] 将输入图像输入预先训练好的目标类别相关系数提取神经网络模型，该模型的输出通道数与目标类别的总类别数相同，该模型的输出即为所述目标类别相关系数向量。

[0016] 所述预设精度大于或等于2。

[0017] 所述将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，包括：

[0018] 将第三相关系数向量中的每个分量分别加上预设精度再加上0.5后进行向下取整。

[0019] 所述目标类别识别为表情类别识别、年龄类别识别、性别类别识别、场景类别识别、或声音事件类别识别。

[0020] 一种目标类别识别装置，该装置包括：

[0021] 目标类别相关系数提取模块，用于对输入图像进行针对每一目标类别的相关系数提取，得到目标类别相关系数向量，该向量中的每一分量分别表示输入图像与一类目标的相关系数，该向量的维数与目标类别的总类别数相同；

[0022] 相关系数向量处理模块，用于将所述目标类别相关系数向量中的每个分量分别乘以对应的小数，得到第二相关系数向量；在第二相关系数向量中寻找最大分量，将第二相关系数向量中的每个分量分别减去该最大分量，得到第三相关系数向量；将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，得到第四相关系数向量；将第四相关系数向量中小于0的各分量更新为0，得到第五相关系数向量；

[0023] 类别概率计算模块，用于对于第五相关系数向量中的每个分量，分别计算以2为底数，以该分量为指数得到的幂；分别将第五相关系数向量中的每个分量对应的幂除以第五相关系数向量中的所有分量对应的幂之和，所得的各商值分别为输入图像中包含各类目标的概率。

[0024] 一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的目标类别识别方法的步骤。

[0025] 本发明实施例中，通过将目标类别相关系数向量中的每个分量分别乘以对应的小数，再加上预设精度后取整，并将小于0的分量设置为0，使得在进行输入图像中包含各类目标的概率计算所需的以2为底的指数运算时，所有的指数都为非负整数，从而指数运算只需要通过简单的移位就可以实现，从而目标类别识别算法便于在NPU等硬件上定点实现，且，在保证目标类别识别精度的前提下，降低了目标类别识别的计算复杂度。

附图说明

[0026] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0027] 图1为本发明实施例提供的目标类别识别方法流程图；

[0028] 图2为本发明实施例提供的目标类别识别装置的结构示意图；

[0029] 图3为本发明实施例提供的一种电子设备的示例性结构示意图。

具体实施方式

[0030] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0031] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

[0032] 下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

[0033] 图1为本发明实施例提供的目标类别识别方法流程图，其具体步骤如下：

[0034] 步骤101：对输入图像进行针对每一目标类别的相关系数提取，得到目标类别相关系数向量，该向量中的每一分量分别表示输入图像与一类目标的相关系数，该向量的维数与目标类别的总类别数相同。

[0035] 本发明实施例不限制对输入图像进行针对每一目标类别的相关系数提取方式的限制，例如一种方式是，将输入图像输入预先训练好的目标类别相关系数提取神经网络模型，该模型的输出通道数与目标类别的总类别数相同，该模型的输出即为目标类别相关系数向量。

[0036] 目标类别的总类别数为N（N为整数且N>1），则目标类别相关系数向量的维数为N，该向量中的分量i（1≤i≤N）表示输入图像与类别i的目标的相关系数。

[0037] 步骤102：将目标类别相关系数向量中的每个分量分别乘以对应的小数，得到第二相关系数向量。

[0038] ≈1.442695，具体取到小数点后几位，可根据实际需要的精度确定。

[0039] 步骤103：在第二相关系数向量中寻找最大分量，将第二相关系数向量中的每个分量分别减去该最大分量，得到第三相关系数向量。

[0040] 步骤104：将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，得到第四相关系数向量。

[0041] 设预设精度为P，则2P决定了输入图像中包含各类目标的最大概率和最小概率的比值，因此P越大概率精度就越高，同时步骤106中的以2为底的指数运算对应的移位操作就更多。预设精度P的取值范围通常为：P≥2，较佳地，4≤P≤32。

[0042] 实际应用中，将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，可包括：将第三相关系数向量中的每个分量分别加上预设精度再加上0.5后进行向下取整。

[0043] 步骤105：将第四相关系数向量中小于0的各分量更新为0，得到第五相关系数向量。

[0044] 步骤106：对于第五相关系数向量中的每个分量，分别计算以2为底数，以该分量为指数得到的幂。

[0045] 步骤107：分别将第五相关系数向量中的每个分量对应的幂除以第五相关系数向量中的所有分量对应的幂之和，所得的各商值分别为输入图像中包含各类目标的概率。

[0046] 上述实施例中，通过将目标类别相关系数向量中的每个分量分别乘以对应的小数，再加上预设精度后取整，并将小于0的分量设置为0，从而使得在进行输入图像中包含各类目标的概率计算所需的以2为底的指数运算时，所有的指数都为非负整数，从而指数运算只需要通过简单的移位就可以实现，从而目标类别识别算法便于在NPU等硬件上定点实现，且，在保证目标类别识别精度的前提下，降低了目标类别识别的计算复杂度。

[0047] 本发明实施例的目标类别识别可以为表情类别识别、年龄类别识别、性别类别识别、场景类别识别、或声音事件类别识别。

[0048] 图2为本发明实施例提供的目标类别识别装置的结构示意图，该装置主要包括：

[0049] 目标类别相关系数提取模块21，用于对输入图像进行针对每一目标类别的相关系数提取，得到目标类别相关系数向量，该向量中的每一分量分别表示输入图像与一类目标的相关系数，该向量的维数与目标类别的总类别数相同。

[0050] 相关系数向量处理模块22，用于将目标类别相关系数提取模块21提取的目标类别相关系数向量中的每个分量分别乘以对应的小数，得到第二相关系数向量；在第二相关系数向量中寻找最大分量，将第二相关系数向量中的每个分量分别减去该最大分量，得到第三相关系数向量；将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，得到第四相关系数向量；将第四相关系数向量中小于0的各分量更新为0，得到第五相关系数向量。

[0051] 类别概率计算模块23，用于对于相关系数向量处理模块22得到的第五相关系数向量中的每个分量，分别计算以2为底数，以该分量为指数得到的幂；分别将第五相关系数向量中的每个分量对应的幂除以第五相关系数向量中的所有分量对应的幂之和，所得的各商值分别为输入图像中包含各类目标的概率。

[0052] 一可选实施例中，目标类别相关系数提取模块21对输入图像进行针对每一目标类别的相关系数提取，包括：将输入图像输入预先训练好的目标类别相关系数提取神经网络模型，该模型的输出通道数与目标类别的总类别数相同，该模型的输出即为所述目标类别相关系数向量。

[0053] 一可选实施例中，相关系数向量处理模块22将第三相关系数向量中的每个分量分别加上预设精度后再进行取整，包括：将第三相关系数向量中的每个分量分别加上预设精度再加上0.5后进行向下取整。

[0054] 本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上任一实施例所述的目标类别识别方法的步骤。

[0055] 本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述目标类别识别方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例各设备/装置/系统所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。其中，在计算机可读存储介质中存储指令，其存储的指令在由处理器执行时可执行如上目标类别识别方法中的步骤。

[0056] 根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD‑ROM）、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

[0057] 如图3所示，本发明实施例还提供一种电子设备。如图3所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

[0058] 该电子设备可以包括一个或一个以上处理核心的处理器31、一个或一个以上计算机可读存储介质的存储器32以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器32的程序时，可以实现上述目标类别识别方法。

[0059] 具体的，实际应用中，该电子设备还可以包括电源33、输入输出单元34等部件。本领域技术人员可以理解，图3中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

[0060] 处理器31是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器32内的软件程序和/或模块，以及调用存储在存储器32内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

[0061] 存储器32可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器31通过运行存储在存储器32的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器32还可以包括存储器控制器，以提供处理器31对存储器32的访问。

[0062] 该电子设备还包括给各个部件供电的电源33，可以通过电源管理系统与处理器31逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源33还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

[0063] 该电子设备还可包括输入输出单元34，该输入单元输出34可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出34还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

[0064] 本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0065] 本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

[0066] 本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

目标类别识别方法、装置及可读存储介质转让专利

申请号 : CN202210299739.1

文献号 : CN114399830B

文献日 : 2022-06-24

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 范晓 , 艾国 , 杨作兴 , 房汝明 , 向志宏

申请人 : 深圳比特微电子科技有限公司

摘要 :

权利要求 :

说明书 :