对讲方法、装置及系统转让专利

申请号 : CN201710768017.5

文献号 : CN107358958B

文献日 : 2018-09-18

本发明提供了一种对讲方法、装置及系统，涉及对讲的技术领域，该方法包括：获取当前时刻请求对讲连接的第一请求信息，其中，第一请求信息为音频请求信息；对音频请求信息进行声音分析，得到声音分析结果，其中，声音分析至少包括以下之一：语音分析、声纹分析、音量分析；根据声音分析结果，确定请求对讲连接的第一应答优先级，以便应答人员基于第一应答优先级对请求对讲连接进行应答。本发明缓解了传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题。

1.一种对讲方法，其特征在于，包括：

获取当前时刻请求对讲连接的第一请求信息，其中，所述第一请求信息为音频请求信息；

对所述音频请求信息进行声音分析，得到声音分析结果；

根据所述声音分析结果，确定所述请求对讲连接的第一应答优先级，以便应答人员基于所述第一应答优先级对所述请求对讲连接进行应答；

其中，所述声音分析包括声纹分析；

所述声音分析包括声纹分析的情况下，所述对所述音频请求信息进行声音分析，得到声音分析结果，包括：从所述音频请求信息中提取人声信号；

对所述人声信号进行处理，得到待验证矢量信号；

获取预先存储在声纹数据库里的声音特征信号，其中，所述声音特征信号为预先对目标发声者的声音进行处理而得到的矢量信号；

将所述待验证矢量信号和所述声音特征信号进行比对，得到所述待验证矢量信号与所述声音特征信号之间的匹配度，并将所述匹配度作为所述声音分析结果；

所述对所述人声信号进行处理，得到待验证矢量信号，包括：对所述人声信号进行语音识别，得到所述人声信号所表示的词语，并根据所述词语的语义从所述词语中抽取关键词，其中，所述关键词能够表示所述词语所表达的核心含义；

从所述人声信号中提取所述关键词所对应的目标人声信号；

将所述目标人声信号进行处理，得到所述待验证矢量信号；

所述获取预先存储在声纹数据库里的声音特征信号之前，所述方法还包括：获取参照音频信号，所述参照音频信号为所述目标发声者的声音所对应的音频信号；

对所述参照音频信号进行处理，得到所述声音特征信号；

将所述声音特征信号存储在所述声纹数据库里；

所述声音分析还可以包括：语音分析、音量分析中至少之一；

所述声音分析包括语音分析的情况下，所述对所述音频请求信息进行声音分析，得到声音分析结果，包括：从所述音频请求信息中提取人声信号；

对所述人声信号进行语音识别，得到所述人声信号所表示的词语；

从所述词语中查询是否包含待检测词语，并将查询结果作为所述声音分析结果；

所述声音分析包括音量分析的情况下，所述对所述音频请求信息进行声音分析，得到声音分析结果，包括：从所述音频请求信息中提取人声信号；

检测所述人声信号所表示的人声的音量分贝值；

将所述音量分贝值和音量阈值进行比较，得到所述音量分贝值与所述音量阈值的差值，并将所述差值作为所述声音分析结果。

2.根据权利要求1所述的方法，其特征在于，所述从所述音频请求信息中提取人声信号，包括：利用回声抵消算法将所述音频信号中的高频信号和低频信号进行虑除，得到中间信号，其中，所述高频信号为频率高于人声频带的信号，所述低频信号为频率低于人声频带的信号；

将所述中间信号中的背景噪声信号进行削减，得到所述人声信号，其中，所述背景噪声信号的频率处于人声频带中。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取当前时刻所述请求对讲连接的第二请求信息，其中，所述第二请求信息为图像请求信息；

从所述图像请求信息中提取待验证图像信息，将所述待验证图像信息和图像特征信息进行比较，得到图像比较结果，其中，所述图像特征信息为存储在图像数据库里的用于参照的图像信息；

根据所述图像比较结果，确定所述请求对讲连接的第二应答优先级，以便应答人员基于所述第一应答优先级和所述第二应答优先级对所述请求对讲连接进行应答。

4.一种对讲装置，其特征在于，包括：

获取模块，用于获取当前时刻请求对讲连接的第一请求信息，其中，所述第一请求信息为音频请求信息；

分析模块，用于对所述音频请求信息进行声音分析，得到声音分析结果；

确定模块，用于根据所述声音分析结果，确定所述请求对讲连接的第一应答优先级，以便应答人员基于所述第一应答优先级对所述请求对讲连接进行应答；

其中，所述声音分析包括声纹分析；

所述声音分析包括声纹分析的情况下，所述分析模块包括：第一提取单元，用于从所述音频请求信息中提取人声信号；

第一处理单元，用于对所述人声信号进行处理，得到待验证矢量信号；

第一获取单元，用于获取预先存储在声纹数据库里的声音特征信号，其中，所述声音特征信号为预先对目标发声者的声音进行处理而得到的矢量信号；

比对单元，用于将所述待验证矢量信号和所述声音特征信号进行比对，得到所述待验证矢量信号与所述声音特征信号之间的匹配度，并将所述匹配度作为所述声音分析结果；

所述第一处理单元包括：

识别子单元，用于对所述人声信号进行语音识别，得到所述人声信号所表示的词语，并根据所述词语的语义从所述词语中抽取关键词，其中，所述关键词能够表示所述词语所表达的核心含义；

提取子单元，用于从所述人声信号中提取所述关键词所对应的目标人声信号；

处理子单元，用于将所述目标人声信号进行处理，得到所述待验证矢量信号；

所述分析模块还包括：

第二获取单元，用于在获取预先存储在声纹数据库里的声音特征信号之前，获取参照音频信号，所述参照音频信号为所述目标发声者的声音所对应的音频信号；

第二处理单元，用于对所述参照音频信号进行处理，得到所述声音特征信号；

存储单元，用于将所述声音特征信号存储在所述声纹数据库里；

所述声音分析还可以包括：语音分析、音量分析中至少之一；

所述声音分析包括语音分析的情况下，所述分析模块还包括：第二提取单元，用于从所述音频请求信息中提取人声信号；

识别单元，用于对所述人声信号进行语音识别，得到所述人声信号所表示的词语；

查询单元，用于从所述词语中查询是否包含待检测词语，并将查询结果作为所述声音分析结果；

所述声音分析包括音量分析的情况下，所述分析模块还包括：第三提取单元，用于从所述音频请求信息中提取人声信号；

检测单元，用于检测所述人声信号所表示的人声的音量分贝值；

比较单元，用于将所述音量分贝值和音量阈值进行比较，得到所述音量分贝值与所述音量阈值的差值，并将所述差值作为所述声音分析结果。

5.一种对讲系统，其特征在于，包括：终端设备和调度台，其中，所述终端设备用于采集当前时刻请求对讲连接的第一请求信息，其中，所述第一请求信息为音频请求信息；所述调度台和所述终端设备连接，所述调度台用于执行所述权利要求1-3中任一项所述的对讲方法。

对讲方法、装置及系统

技术领域

[0001] 本发明涉及对讲技术领域，尤其是涉及一种对讲方法、装置及系统。

背景技术

[0002] 金融、司法监狱、公安交通等公共场合，常常通过对讲系统，使得处于调度台的工作人员与处于公共场合的被服务人员或被管理人员进行针对突发事件的通话，从而为待服务人员提供服务或保护待服务人员的安全，或者对待管理人员进行远程管理。例如，银行营业厅里，用户在自动取款机取款时遭遇吞卡，用户可通过对讲系统与银行工作人员进行通话，以便得到银行工作人员的相应处理。又如，监狱的牢房里，当犯人发生群体性对殴事件时，若有人触发报警装置，则狱警通过对讲系统与监狱里的犯人取得联系，以便向犯人进行威慑喊话来制止事件的进一步发酵。

[0003] 现有技术中的对讲系统都是通过人的主动触发来建立对讲联系，且在对讲联系请求较多的时候不一定能够得到应答，首先这种对讲系统对于事件的处理具有滞后性。此外，处于对讲系统调度台的工作人员往往会在短时间内接到大量呼叫请求，因而调度台需要抽出专门的工作人员来对这些呼叫请求的处理顺序进行合理安排，并指挥合适的工作人员来对呼叫请求做相应处理，这无疑会使工作人员承担较多的工作负荷。并且，大量的呼叫请求中，难免会有无效请求，例如，银行保卫中心每天会接听大量咨询事件，而咨询的内往往不属于银行保卫中心的管理范畴，但按照规定工作人员又不得不接听，从而使得工作人员浪费很多时间在不相关事件上，降低工作人员的工作效率，间接增大工作人员的工作负荷。

[0004] 针对上述传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题，目前缺乏有效的解决方法。

发明内容

[0005] 有鉴于此，本发明的目的在于提供一种对讲方法、装置及系统，以缓解传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题。

[0006] 第一方面，本发明实施例提供了一种对讲方法，包括：

[0007] 获取当前时刻请求对讲连接的第一请求信息，其中，所述第一请求信息为音频请求信息；

[0008] 对所述音频请求信息进行声音分析，得到声音分析结果，其中，所述声音分析至少包括以下之一：语音分析、声纹分析、音量分析；

[0009] 根据所述声音分析结果，确定所述请求对讲连接的第一应答优先级，以便应答人员基于所述第一应答优先级对所述请求对讲连接进行应答。

[0010] 结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述声音分析包括声纹分析的情况下，所述对所述音频请求信息进行声音分析，得到声音分析结果，包括：

[0011] 从所述音频请求信息中提取人声信号；

[0012] 对所述人声信号进行处理，得到待验证矢量信号；

[0013] 获取预先存储在声纹数据库里的声音特征信号，其中，所述声音特征信号为预先对目标发声者的声音进行处理而得到的矢量信号；

[0014] 将所述待验证矢量信号和所述声音特征信号进行比对，得到所述待验证矢量信号与所述声音特征信号之间的匹配度，并将所述匹配度作为所述声音分析结果。

[0015] 结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述从所述音频请求信息中提取人声信号，包括：

[0016] 利用回声抵消算法将所述音频信号中的高频信号和低频信号进行虑除，得到中间信号，其中，所述高频信号为频率高于人声频带的信号，所述低频信号为频率低于人声频带的信号；

[0017] 将所述中间信号中的背景噪声信号进行削减，得到所述人声信号，其中，所述背景噪声信号的频率处于人声频带中。

[0018] 结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述对所述人声信号进行处理，得到待验证矢量信号，包括：

[0019] 对所述人声信号进行语音识别，得到所述人声信号所表示的词语，并根据所述词语的语义从所述词语中抽取关键词，其中，所述关键词能够表示所述词语所表达的核心含义；

[0020] 从所述人声信号中提取所述关键词所对应的目标人声信号；

[0021] 将所述目标人声信号进行处理，得到所述待验证矢量信号。

[0022] 结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述获取预先存储在声纹数据库里的声音特征信号之前，所述方法还包括：

[0023] 获取参照音频信号，所述参照音频信号为所述目标发声者的声音所对应的音频信号；

[0024] 对所述参照音频信号进行处理，得到所述声音特征信号；

[0025] 将所述声音特征信号存储在所述声纹数据库里。

[0026] 结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述声音分析包括语音分析的情况下，所述对所述音频请求信息进行声音分析，得到声音分析结果，包括：

[0027] 从所述音频请求信息中提取人声信号；

[0028] 对所述人声信号进行语音识别，得到所述人声信号所表示的词语；

[0029] 从所述词语中查询是否包含待检测词语，并将查询结果作为所述声音分析结果。

[0030] 结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述声音分析包括音量分析的情况下，所述对所述音频请求信息进行声音分析，得到声音分析结果，包括：

[0031] 从所述音频请求信息中提取人声信号；

[0032] 检测所述人声信号所表示的人声的音量分贝值；

[0033] 将所述音量分贝值和音量阈值进行比较，得到所述音量分贝值与所述音量阈值的差值，并将所述差值作为所述声音分析结果。

[0034] 结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述对讲方法还包括：获取当前时刻所述请求对讲连接的第二请求信息，其中，所述第二请求信息为图像请求信息；

[0035] 从所述图像请求信息中提取待验证图像信息，将所述待验证图像信息和图像特征信息进行比较，得到图像比较结果，其中，所述图像特征信息为存储在图像数据库里的用于参照的图像信息；

[0036] 根据所述图像比较结果，确定所述请求对讲连接的第二应答优先级，以便应答人员基于所述第一应答优先级和所述第二应答优先级对所述请求对讲连接进行应答。

[0037] 第二方面，本发明实施例还提供一种对讲装置，包括：

[0038] 第一获取模块，用于获取当前时刻请求对讲连接的第一请求信息，其中，所述第一请求信息为音频请求信息；

[0039] 分析模块，用于对所述音频请求信息进行声音分析，得到声音分析结果，其中，所述声音分析至少包括以下之一：语音分析、声纹分析、音量分析；

[0040] 第一确定模块，用于根据所述声音分析结果，确定所述请求对讲连接的第一应答优先级，以便应答人员基于所述第一应答优先级对所述请求对讲连接进行应答。

[0041] 第三方面，本发明实施例还提供一种对讲系统，包括：终端设备和调度台，其中，[0042] 所述终端设备用于采集当前时刻请求对讲连接的第一请求信息，其中，所述第一请求信息为音频请求信息；所述调度台和所述终端设备连接，所述调度台用于执行第一方面所述的对讲方法。

[0043] 本发明实施例带来了以下有益效果：获取当前时刻请求对讲连接的第一请求信息，其中，第一请求信息为音频请求信息；对音频请求信息进行声音分析，得到声音分析结果，声音分析至少包括以下之一：语音分析、声纹分析、音量分析；然后，根据所述声音分析结果，确定请求对讲连接的第一应答优先级，从而应答人员能够基于第一应答优先级对请求对讲连接进行应答，减少了对请求对讲连接应答工作的调度环节，并且，在应答人员基于第一应答优先级对请求对讲连接进行应答的过程中，由于充分考虑到了请求对讲连接的应答优先级，对于一些优先级较大的对讲连接请求，应答人员会优先应答，从而缓解了传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题。

[0044] 本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

[0045] 为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

[0046] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0047] 图1为本发明实施例一提供的一种对讲方法的流程图；

[0048] 图2为本发明实施例一提供的一种对音频请求信息进行声音分析的方法流程图；

[0049] 图3为本发明实施例一提供的一种从音频请求信息中提取人声信号的方法流程图；

[0050] 图4为本发明实施例一提供的一种对人声信号进行处理，得到待验证矢量信号的方法流程图；

[0051] 图5为本发明实施例一提供的另一种对讲方法的流程图；

[0052] 图6为本发明实施例一提供的另一种对音频请求信息进行声音分析的方法流程图；

[0053] 图7为本发明实施例一提供的另一种对音频请求信息进行声音分析的方法流程图；

[0054] 图8为本发明实施例一提供的另一种对讲方法的流程图；

[0055] 图9为本发明实施例二提供的一种对讲装置的结构框图；

[0056] 图10为本发明实施例二提供的一种分析模块的结构框图；

[0057] 图11为本发明实施例二提供的一种第一提取单元的结构框图；

[0058] 图12为本发明实施例二提供的一种第一处理单元的结构框图；

[0059] 图13为本发明实施例二提供的另一种对讲装置的结构框图；

[0060] 图14为本发明实施例三提供的一种对讲系统的结构框图。

[0061] 图标：100-第一获取模块；200-分析模块；201-第一提取单元；2011-虑除子单元；2012-削减子单元；202-第一处理单元；2021-识别子单元；2022-提取子单元；2023-处理子单元；203-第一获取单元；204-比对单元；205-第二获取单元；206-第二处理单元；207-存储单元；208-第二提取单元；209-识别单元；210-查询单元；211-第三提取单元；212-检测单元；213-比较单元；300-第一确定模块；400-第二获取模块；500-提取模块；600-第二确定模块；700-终端设备；800-调度台。

具体实施方式

[0062] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0063] 目前，对讲系统都是通过人的主动触发来建立对讲联系，并且工作人员还需来承担应答对呼叫请求工作的调度，因而，处理事件具有滞后性，且给工作人员带来较大工作负荷。基于此，本发明实施例提供的一种对讲方法、装置以及系统，可以缓解传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题。

[0064] 实施例一

[0065] 本发明实施例提供的一种对讲方法，如图1所示，包括：

[0066] 步骤S102，获取当前时刻请求对讲连接的第一请求信息，其中，第一请求信息为音频请求信息；

[0067] 步骤S104，对音频请求信息进行声音分析，得到声音分析结果，其中，声音分析至少包括以下之一：语音分析、声纹分析、音量分析；

[0068] 步骤S106，根据声音分析结果，确定请求对讲连接的第一应答优先级，以便应答人员基于第一应答优先级对请求对讲连接进行应答。

[0069] 需要说明的是，该对讲方法应用于调度台，调度台和终端设备连接，终端设备采集当前时刻请求对讲连接的第一请求信息，调度台根据当前时刻请求对讲连接的第一请求信息，确定请求对讲连接的第一应答优先级，调度台的应答人员根据第一应答优先级对请求对讲连接进行应答。

[0070] 需要说明的是，这里的第一请求信息可以是终端设备在预设间隔时长内主动采集自身所处环境的音频信息。

[0071] 本发明实施例提供的对讲方法，由于根据当前时刻请求对讲连接的第一请求信息确定了请求对讲连接的第一应答优先级，从而应答人员能够基于第一应答优先级对请求对讲连接进行应答，减少了对请求对讲连接应答工作的调度环节，并且，在应答人员基于第一应答优先级对请求对讲连接进行应答的过程中，由于充分考虑到了请求对讲连接的应答优先级，对于一些优先级较大的对讲连接请求，应答人员会优先应答，从而缓解了传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题。

[0072] 具体地，可以是在第一应答优先级达到预设优先级后，主动呼叫应答人员，无需人工主动呼叫应答人员来及时应答，从而有利于缓解传统的对讲系统处理事件滞后的技术问题；而在第一应答优先级低于预设优先级时，应答人员能够根据第一应答优先级来对请求对讲连接进行应答，无需再人工对应答任务进行分配，降低了工作人员的工作负荷，缓解了传统的对讲系统给工作人员带来较大工作负荷的技术问题。

[0073] 本发明实施例的一个可选实施方式中，如图2所示，声音分析包括声纹分析的情况下，对音频请求信息进行声音分析，得到声音分析结果，包括如下步骤：

[0074] 步骤S201，从音频请求信息中提取人声信号；

[0075] 步骤S202，对人声信号进行处理，得到待验证矢量信号；

[0076] 步骤S203，获取预先存储在声纹数据库里的声音特征信号，其中，声音特征信号为预先对目标发声者的声音进行处理而得到的矢量信号；

[0077] 步骤S204，将待验证矢量信号和声音特征信号进行比对，得到待验证矢量信号与声音特征信号之间的匹配度，并将匹配度作为声音分析结果。

[0078] 具体地，矢量信号包括声纹的振幅和相位，矢量信号的特征更容易被存储，且更易被调用来进行比较。一个人声信号处理后可能包括多个待验证矢量信号，将每个待验证矢量信号和声音特征信号进行对比，然后将各个对比得到的匹配度综合作为声音分析结果。

[0079] 本发明实施例采用声纹分析对音频请求信息进行声音分析，首先，声纹识别技术与说话语言无关，与方言腔调无关，声纹识别技术所提供的可靠性能与其他生物识别技术(例如，指纹、掌形和虹膜)相媲美；此外，声音采集方式为非接触式，声音采集装置造价低廉，能接入对讲系统的终端设备上带有拾音器即可采集声音，声音信号便于远程传输和获取，声音采集过程便捷；且声纹分析不涉及隐私问题，适应人群范围比较广泛。因而，本发明实施例提供的对讲方法的适用范围更广，应用性更强。

[0080] 本发明实施例的另一个可选实施方式中，如图3所示，从音频请求信息中提取人声信号，包括如下步骤：

[0081] 步骤S301，利用回声抵消算法将音频信号中的高频信号和低频信号进行虑除，得到中间信号，其中，高频信号为频率高于人声频带的信号，低频信号为频率低于人声频带的信号；

[0082] 步骤S302，对中间信号进行增益运算，并将中间信号中的背景噪声信号进行削减，得到人声信号，其中，背景噪声信号的频率处于人声频带中。

[0083] 具体地，人发出的声音的频率处于人声频带范围内，在本发明实施例中，人声频带的下限可以设为20Hz，上限可以设为20KHz。

[0084] 此外，利用回声抵消算法将音频信号中的高频信号和低频信号进行虑除，即：利用DSP芯片的嵌入式软件对音频信号进行运算得到音频信号的频率值，然后对音频信号中超出人声频带的信号直接滤除，这里的DSP芯片的嵌入式软件为基于回声抵消算法虑除信号原理而编译的软件，关于回声抵消算法虑除信号原理可以采用现有技术中已有的一些回声抵消算法，这里不再赘述。

[0085] 而且，鉴于此时的中间信号是混有背景噪声信号的，背景噪声信号的声纹特征会与人声的声纹特征部分重叠，因而需要将中间信号中的背景噪声信号进行削减，得到人声信号。具体地，可以采用离散傅里叶变换对中间信号进行变换，然后从变换得到的信号中，将在时间上连续时长小于预设时长的信号确定为上述背景噪声信号，并将其虑除，得到人声信号。

[0086] 本发明实施例的另一个可选实施方式中，如图4所示，对人声信号进行处理，得到待验证矢量信号，包括如下步骤：

[0087] 步骤S401，对人声信号进行语音识别，得到人声信号所表示的词语，并根据词语的语义从词语中抽取关键词，其中，关键词能够表示词语所表达的核心含义。例如，银行营业厅里采集到的第一请求信息里的关键词“抢劫”，表达了第一请求信息请求帮助。

[0088] 步骤S402，从人声信号中提取关键词所对应的目标人声信号。

[0089] 步骤S403，将目标人声信号进行处理，得到待验证矢量信号。

[0090] 本发明实施例，关键词能够表示词语所表达的核心含义，通过关键词所对应的目标人声信号来确定第一应答优先级，能更加准确地确定请求对讲连接的优先级。

[0091] 本发明实施例的另一个可选实施方式中，如图5所示，获取预先存储在声纹数据库里的声音特征信号之前，对讲方法还包括如下步骤：

[0092] 步骤S501，获取参照音频信号，参照音频信号为目标发声者的声音所对应的音频信号；

[0093] 步骤S502，对参照音频信号进行处理，得到声音特征信号；

[0094] 步骤S503，将声音特征信号存储在声纹数据库里。

[0095] 本发明实施例中，先将目标发声者的声音进行处理，得到声音特征信号，然后将待验证矢量信号和声音特征信号进行比对，采用深度学习的方法完成对第一请求信息中的音频信号的识别，实现了机器的自动辨别功能，智能化程度比较高。并且通过采集更多的目标发声者所对应的声音特征信号，使得声纹数据库里的声音特征更多，从而对第一请求信息中的音频信号的识别更加精确。

[0096] 系统会不断的自动优化采集到的音视频信号数据，填充声纹库与行为识别库的数据量，越使用次数多，判别越精准。

[0097] 本发明实施例的另一个可选实施方式中，如图6所示，声音分析包括语音分析的情况下，对音频请求信息进行声音分析，得到声音分析结果，包括如下步骤：

[0098] 步骤S601，从音频请求信息中提取人声信号；

[0099] 步骤S602，对人声信号进行语音识别，得到人声信号所表示的词语；

[0100] 步骤S603，从词语中查询是否包含待检测词语，并将查询结果作为声音分析结果。

[0101] 在本发明实施例中，通过语音识别出来的词语的语义来确定第一应答优先级，例如，在银行营业厅这样的环境里如果从词语中查询到“抢劫”、“救命”等待检测词语，则可以将请求对讲连接的应答优先级确定为较高的优先级。

[0102] 本发明实施例的另一个可选实施方式中，如图7所示，声音分析包括音量分析的情况下，对音频请求信息进行声音分析，得到声音分析结果，包括如下步骤：

[0103] 步骤S701，从音频请求信息中提取人声信号；

[0104] 步骤S702，检测人声信号所表示的人声的音量分贝值；

[0105] 步骤S703，将音量分贝值和音量阈值进行比较，得到音量分贝值与音量阈值的差值，并将差值作为声音分析结果。

[0106] 本发明实施例中，通过人声的音量分贝值来确定请求对讲连接的应答优先级，例如，如果牢房里的人声的分贝值大于音量阈值，则可以确定为牢房里的犯人发生了群殴事件，将接收到的这样的请求对讲应答的应答优先级确定为较大的优先级。

[0107] 本发明实施例的另一个可选实施方式中，如图8所示，对讲方法还包括如下步骤：

[0108] 步骤S801，获取当前时刻请求对讲连接的第二请求信息，其中，第二请求信息为图像请求信息；

[0109] 步骤S802，从图像请求信息中提取待验证图像信息，将待验证图像信息和图像特征信息进行比较，得到图像比较结果，其中，图像特征信息为存储在图像数据库里的用于参照的图像信息；

[0110] 步骤S803，根据图像比较结果，确定请求对讲连接的第二应答优先级，以便应答人员基于第一应答优先级和第二应答优先级对请求对讲连接进行应答。

[0111] 本发明实施例中，应答人员结合音频请求信息确定的第一应答优先级和图像请求信息确定的第二应答优先级，来对请求对讲连接进行应答，能够更及时且合理地应答对讲连接请求。

[0112] 实施例二

[0113] 本发明实施例提供的一种对讲装置，如图9所示，包括：

[0114] 第一获取模块100，用于获取当前时刻请求对讲连接的第一请求信息，其中，第一请求信息为音频请求信息；

[0115] 分析模块200，用于对音频请求信息进行声音分析，得到声音分析结果，其中，声音分析至少包括以下之一：语音分析、声纹分析、音量分析；

[0116] 第一确定模块300，用于根据声音分析结果，确定请求对讲连接的第一应答优先级，以便应答人员基于第一应答优先级对请求对讲连接进行应答。

[0117] 在本发明实施例中，第一获取模块100获取当前时刻请求对讲连接的第一请求信息，其中，第一请求信息为音频请求信息；分析模块200对音频请求信息进行声音分析，得到声音分析结果；然后第一确定模块300，根据声音分析结果，确定请求对讲连接的第一应答优先级。从而，应答人员能够基于第一应答优先级对请求对讲连接进行应答，减少了对请求对讲连接应答工作的调度环节，并且，在应答人员基于第一应答优先级对请求对讲连接进行应答的过程中，由于充分考虑到了请求对讲连接的应答优先级，对于一些优先级较大的对讲连接请求，应答人员会优先应答，从而缓解了传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题。

[0118] 本发明实施例的一个可选实施方式中，如图10所示，分析模块200包括：

[0119] 第一提取单元201，用于在声音分析包括声纹分析的情况下，从音频请求信息中提取人声信号；

[0120] 第一处理单元202，用于对人声信号进行处理，得到待验证矢量信号；

[0121] 第一获取单元203，用于获取预先存储在声纹数据库里的声音特征信号，其中，声音特征信号为预先对目标发声者的声音进行处理而得到的矢量信号；

[0122] 比对单元204，用于将待验证矢量信号和声音特征信号进行比对，得到待验证矢量信号与声音特征信号之间的匹配度，并将匹配度作为声音分析结果。

[0123] 本发明实施例的一个可选实施方式中，如图11所示，第一提取单元201包括：

[0124] 虑除子单元2011，用于利用回声抵消算法将音频信号中的高频信号和低频信号进行虑除，得到中间信号，其中，高频信号为频率高于人声频带的信号，低频信号为频率低于人声频带的信号；

[0125] 削减子单元2012，用于将中间信号中的背景噪声信号进行削减，得到人声信号，其中，背景噪声信号的频率处于人声频带中。

[0126] 本发明实施例的一个可选实施方式中，如图12所示，第一处理单元202包括：

[0127] 识别子单元2021，用于对人声信号进行语音识别，得到人声信号所表示的词语，并根据词语的语义从词语中抽取关键词，其中，关键词能够表示词语所表达的核心含义；

[0128] 提取子单元2022，用于从人声信号中提取关键词所对应的目标人声信号；

[0129] 处理子单元2023，用于将目标人声信号进行处理，得到待验证矢量信号。

[0130] 本发明实施例的另一个可选实施方式中，如图10所示，分析模块200还包括：

[0131] 第二获取单元205，用于在获取预先存储在声纹数据库里的声音特征信号之前，获取参照音频信号，参照音频信号为目标发声者的声音所对应的音频信号；

[0132] 第二处理单元206，用于对参照音频信号进行处理，得到声音特征信号；

[0133] 存储单元207，用于将声音特征信号存储在声纹数据库里。

[0134] 本发明实施例的另一个可选实施方式中，如图10所示，分析模块200还包括：

[0135] 第二提取单元208，用于在声音分析包括语音分析的情况下，从音频请求信息中提取人声信号；

[0136] 识别单元209，对人声信号进行语音识别，得到人声信号所表示的词语；

[0137] 查询单元210，用于从词语中查询是否包含待检测词语，并将查询结果作为声音分析结果。

[0138] 本发明实施例的另一个可选实施方式中，如图10所示，分析模块200包括：

[0139] 第三提取单元211，用于在声音分析包括音量分析的情况下，从音频请求信息中提取人声信号；

[0140] 检测单元212，用于检测人声信号所表示的人声的音量分贝值；

[0141] 比较单元213，用于将音量分贝值和音量阈值进行比较，得到音量分贝值与音量阈值的差值，并将差值作为声音分析结果。

[0142] 需要说明的是，上述第一提取单元201、第二提取单元208以及第三提取单元211可以是同一个单元，来执行从音频请求信息中提取人声信号的步骤。

[0143] 本发明实施例的另一个可选实施方式中，如图13所示，对讲装置还包括：

[0144] 第二获取模块400，用于获取当前时刻请求对讲连接的第二请求信息，其中，第二请求信息为图像请求信息；

[0145] 提取模块500，用于从图像请求信息中提取待验证图像信息，将待验证图像信息和图像特征信息进行比较，得到图像比较结果，其中，图像特征信息为存储在图像数据库里的用于参照的图像信息；

[0146] 第二确定模块600，用于根据图像比较结果，确定请求对讲连接的第二应答优先级，以便应答人员基于第一应答优先级和第二应答优先级对请求对讲连接进行应答。

[0147] 具体地，图像特征信息为存储在图像数据库里的用于参照的图像信息，图像特征信息是预先通过深度学习的方法从一些关注的图像中抽取出来的图像特征信息。本发明实施例中，通过深度学习的方法来实现将待验证图像信息和图像特征信息进行比较，有利于机器确定第二应答优先级的自动性和智能化。

[0148] 实施例三

[0149] 本发明实施例提供的一种对讲系统，如图14所示，包括：终端设备700和调度台800，其中，

[0150] 终端设备700用于采集当前时刻请求对讲连接的第一请求信息，其中，第一请求信息为音频请求信息；

[0151] 调度台800和终端设备700连接，调度台800用于执行实施例一中的对讲方法。

[0152] 具体地，对讲系统还可以包括云服务器，云服务器和调度台800连接，声音特征信号、图像特征信息可以存储在云服务器中，调度台800从云服务其中读取声音特征信号，来将待验证矢量信号和声音特征信号进行比对，或者，调度台800从云服务其中读取图像特征信息，来将待验证图像信息和图像特征信息进行比较。

[0153] 此外，终端设备700可以设置多台，调度台800和多台终端设备700之间利用现有分布式网络架构进行连接，调度台800和每台终端设备700连接。

[0154] 本发明实施例中，通过调度台800执行实施例一中对讲方法，缓解了传统的对讲系统处理事件滞后和给工作人员带来较大工作负荷的技术问题。

[0155] 本发明实施例中的对讲系统能够在安防行业得到很好的应用，可以很大程度上提升安防行业的安全性、可靠性、及时性和互动性，对促进整体安防行业的长期良性发展能够起到很好的推进作用。

[0156] 本发明实施例所提供的对讲方法、装置以及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

[0157] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0158] 另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

[0159] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0160] 在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

[0161] 此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

[0162] 最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

对讲方法、装置及系统转让专利

申请号 : CN201710768017.5

文献号 : CN107358958B

文献日 : 2018-09-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 仇波

申请人 : 长沙世邦通信技术有限公司

摘要 :

权利要求 :

说明书 :