一种基于弥漫式语音交互的拾音方法和装置转让专利

申请号 : CN201710102702.4

文献号 : CN106847298B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 苗春杨香斌陆成

申请人 : 海信集团有限公司

摘要 :

本发明公开了一种基于弥漫式语音交互的拾音方法和装置,属于计算机技术领域。所述方法包括:根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差;根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息;根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件处于所述目标拾音角度时,所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;根据所述目标拾音角度对所述目标语音接收部件进行旋转处理,以使所述目标语音接收部件基于所述目标拾音角度对所述声源进行拾音。采用本发明,可以提高语音识别的准确度。

权利要求 :

1.一种基于弥漫式语音交互的拾音方法,其特征在于,所述方法包括:

根据位于不同智能家居设备的至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,所述语音接收部件为长条形,所述语音接收部件的至少两个麦克风位于所述长条形的两端;

根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息;

根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件是语音接收部件中,检测到的语音信号的信号强度大于预设阈值的语音接收部件,所述目标语音接收部件被配置为处于所述目标拾音角度时,使所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;

根据所述目标拾音角度控制所述目标语音接收部件进行旋转处理,以使得所述目标语音接收部件处于所述目标拾音角度,所述目标语音接收部件被配置为基于所述目标拾音角度对所述声源进行拾音。

2.根据权利要求1所述的方法,其特征在于,所述根据所述目标拾音角度控制所述目标语音接收部件进行旋转处理,具体为:将所述目标拾音角度发送给所述目标语音接收部件,以控制所述目标语音接收部件进行旋转处理。

3.根据权利要求1所述的方法,其特征在于,所述根据所述目标拾音角度控制所述目标语音接收部件进行旋转处理,具体为:根据所述目标语音接收部件对应的目标拾音角度和所述目标语音接收部件的初始角度,确定所述目标语音接收部件的旋转角度;

将所述目标语音接收部件的旋转角度发送给所述目标语音接收部件,以控制所述目标语音接收部件进行旋转处理。

4.根据权利要求1所述的方法,其特征在于,所述根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,具体为:根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述声源与所述目标语音接收部件间连接线段的斜率;

根据所述线段的斜率,确定所述目标语音接收部件对应的目标拾音角度。

5.一种基于弥漫式语音交互的拾音方法,其特征在于,所述方法包括:

当检测到声源的语音信号时,目标语音接收部件将检测到的语音信号发送给服务器,所述服务器被配置为接收包含所述目标语音接收部件在内的多个语音接收部件发送的语音信号,根据接收到的多个语音接收部件发送的语音信号,确定旋转角度或目标拾音角度,并将所述旋转角度或目标拾音角度发送给所述目标语音接收部件,其中,所述目标语音接收部件是语音接收部件中,检测到的语音信号的信号强度大于预设阈值的语音接收部件,不同的语音部件位于不同的智能家居设备中,所述语音接收部件为长条形,所述语音接收部件的至少两个麦克风位于所述长条形的两端;

所述目标语音接收部件接收所述服务器发送的旋转角度;或者,所述目标语音接收部件接收所述服务器发送的目标拾音角度,根据预设的初始角度和所述目标拾音角度,确定旋转角度;

所述目标语音接收部件根据所述旋转角度在水平方向上进行旋转处理,以使所述目标语音接收部件处于所述目标拾音角度,所述目标语音接收部件被配置为处于所述目标拾音角度时,使所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;

所述目标语音接收部件基于旋转处理后的语音接收部件对所述声源进行拾音。

6.一种基于弥漫式语音交互的拾音装置,其特征在于,所述装置包括:

第一确定模块,用于根据位于不同智能家居设备的至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,所述语音接收部件为长条形,所述语音接收部件的至少两个麦克风位于所述长条形的两端;

第二确定模块,用于根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息;

第三确定模块,用于根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件是语音接收部件中,检测到的语音信号的信号强度大于预设阈值的语音接收部件,所述目标语音接收部件被配置为处于所述目标拾音角度时,使所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;

处理模块,用于根据所述目标拾音角度控制所述目标语音接收部件进行旋转处理,以使得所述目标语音接收部件处于所述目标拾音角度,所述目标语音接收部件被配置为基于所述目标拾音角度对所述声源进行拾音。

7.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:

将所述目标拾音角度发送给所述目标语音接收部件,以控制所述目标语音接收部件进行旋转处理。

8.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:

根据所述目标语音接收部件对应的目标拾音角度和所述目标语音接收部件的初始角度,确定所述目标语音接收部件的旋转角度;

将所述目标语音接收部件的旋转角度发送给所述目标语音接收部件。

9.根据权利要求6所述的装置,其特征在于,所述第三确定模块,具体包括:

第一确定子模块,用于根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述声源与所述目标语音接收部件间连接线段的斜率;

第二确定子模块,用于根据所述线段的斜率,确定所述目标语音接收部件对应的目标拾音角度。

10.一种基于弥漫式语音交互的拾音装置,其特征在于,用于目标语音接收部件,所述装置包括:发送模块,用于当检测到声源的语音信号时,将检测到的语音信号发送给服务器,接收包含所述目标语音接收部件在内的多个语音接收部件发送的语音信号,根据接收到的多个语音接收部件发送的语音信号,确定旋转角度或目标拾音角度,并将所述旋转角度或目标拾音角度发送给所述语音接收部件,其中,所述目标语音接收部件是语音接收部件中,检测到的语音信号的信号强度大于预设阈值的语音接收部件,不同的语音部件位于不同的智能家居设备中,所述语音接收部件为长条形,所述语音接收部件的至少两个麦克风位于所述长条形的两端;

接收模块,用于接收所述服务器发送的旋转角度;或者,用于接收所述服务器发送的目标拾音角度,并根据预设的初始角度和所述目标拾音角度,确定旋转角度;

处理模块,用于根据所述旋转角度在水平方向上进行旋转处理,以使所述目标语音接收部件处于所述目标拾音角度,所述目标语音接收部件被配置为处于所述目标拾音角度时,使所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;

拾音模块,用于基于旋转处理后的语音接收部件对所述声源进行拾音。

11.一种基于弥漫式语音交互的拾音系统,其特征在于,所述系统包括服务器和终端,所述终端为多个智能家居设备中的一个智能家居设备,其中:所述服务器,用于根据接收到的位于不同智能家居设备的至少三个语音接收部件分别发送的检测同一声源得到的语音信号,确定至少两对语音信号的时间差,并根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息,根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件是所述终端中的语音接收部件,不同的语音接收部件位于不同的智能设备中,所述目标语音接收部件是语音接收部件中,检测到的语音信号的信号强度大于预设阈值的语音接收部件,将所述目标拾音角度发送给所述目标语音接收部件,所述语音接收部件为长条形,所述语音接收部件的至少两个麦克风位于所述长条形的两端;或者,根据所述目标语音接收部件对应的目标拾音角度和所述目标语音接收部件的初始角度,确定所述目标语音接收部件的旋转角度;将所述目标语音接收部件的旋转角度发送给所述目标语音接收部件;

所述终端,包括所述目标语音接收部件,用于当检测到声源的语音信号时,将检测到的语音信号发送给服务器,还用于接收所述服务器发送的旋转角度;或者,接收所述服务器发送的目标拾音角度,并根据预设的初始角度和所述目标拾音角度确定旋转角度;还用于根据所述旋转角度在水平方向上进行旋转处理,以使所述目标语音接收部件处于所述目标拾音角度,所述目标语音接收部件被配置为处于所述目标拾音角度时,使所述目标语音接收部件的至少两个麦克风与所述声源的距离相等,所述目标语音接收部件基于旋转处理后的语音接收部件对所述声源进行拾音。

说明书 :

一种基于弥漫式语音交互的拾音方法和装置

技术领域

[0001] 本发明涉及计算机技术领域,特别涉及一种基于弥漫式语音交互的拾音方法和装置。

背景技术

[0002] 智能家居是以住宅为平台,利用综合布线技术、网络通信技术、安全防范技术等技术将家居生活有关的设施集成,构建高效的住宅设施与家庭日程事务的管理系统。随着智能家居的快速发展,各种各样的智能家居设备进入千家万户,比如,智能照明设备、智能电视、智能冰箱以及智能空调等等。在使用该类智能家居设备的过程中,为了操作方便,用户可以通过语音来控制该类智能家居设备。比如,用户可以通过语音“打开冰箱”来控制智能冰箱的打开。
[0003] 在现有技术中,用户通过语音来控制智能家居设备的方法主要为:当智能家居设备上的语音接收部件接收到语音信息时,将语音信息转发给智能家居设备上的语音识别装置。该语音识别装置对该语音信息进行识别,并生成控制指令,该控制指令用于指示该智能家居设备执行相应的操作。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 在现有技术中,如果用户欲通过语音来控制智能家居设备,每个智能家居设备必须配备有语音接收部件和语音识别装置,导致语音控制智能家居设备的成本过高。同时为使该智能家居设备上的语音接收部件可以顺利接收到用户发送的语音信息,用户在发送语音信息时,用户的位置必须保持在该智能家居设备附近,降低了语音控制智能家居设备的灵活性。
[0006] 为了降低语音控制智能家居设备的成本以及增加控制的灵活性,现有技术还提供了另一种通过语音来控制智能家居设备的方法:将智能家居设备以有线或无线方式连接到控制设备,控制设备上的语音识别装置与弥漫式设置的语音接收部件连接,当弥漫式设置的语音接收部件接收到语音信息时,将语音信息转发给控制设备上的语音识别装置,该语音识别装置对接收到的语音进行识别,并且根据识别的结果确定被控智能家居设备以及生成控制指令,该控制指令用于指示确定出的被控智能家居设备执行相应的操作。
[0007] 在实现本发明的过程中,发明人发现:通过控制设备对智能家居设备进行控制的场景中,各个智能家居设备无需为了语音识别额外配置语音接收部件和语音识别装置,能够降低语音控制智能家居设备的成本,而且由于控制设备以无线或有线方式与智能家居设备连接,用户在对智能家居设备控制时,不再要求用户必须保持在该智能家居设备附近,用户可以通过弥漫式设置的语音接收部件实现随时随地的输入语音控制指令,增加了语音控制智能家居设备的灵活性。
[0008] 需要说明的是,尽管上述通过控制设备对智能家居设备进行控制的方案有诸多优点,但发明人在实现本发明的过程中还发现:当用户欲通过弥漫式设置的语音接收部件输入语音控制指令时,由于语音接收部件内设置有两个麦克风两个麦克风接收到的语音信号的强度和时延不同,这样会导致增强处理后的语音信号中的噪声较大,使得语音识别的准确度下降。

发明内容

[0009] 为了解决现有技术的问题,本发明实施例提供了一种基于弥漫式语音交互的拾音方法和装置。所述技术方案如下:
[0010] 第一方面,提供了一种基于弥漫式语音交互的拾音方法,所述方法包括:
[0011] 根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差;
[0012] 根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息;
[0013] 根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件处于所述目标拾音角度时,所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;
[0014] 根据所述目标拾音角度对所述目标语音接收部件进行旋转处理,以使所述目标语音接收部件基于所述目标拾音角度对所述声源进行拾音。
[0015] 可选的,所述方法还包括:
[0016] 在所述至少三个语音接收部件中,确定检测到的语音信号的信号强度最大的语音接收部件为目标语音接收部件。
[0017] 这样,可以通过检测到的语音信号的信号强度最大的目标语音接收部件来检测后续的语音信号,可以得到清晰度较好的语音信号,提高语音识别的准确度。
[0018] 可选的,所述根据所述目标拾音角度对所述目标语音接收部件进行旋转处理,具体为:
[0019] 将所述目标拾音角度发送给所述目标语音接收部件;或者,
[0020] 根据所述目标语音接收部件对应的目标拾音角度和所述目标语音接收部件的初始角度,确定所述目标语音接收部件的旋转角度;
[0021] 将所述目标语音接收部件的旋转角度发送给所述目标语音接收部件。
[0022] 可选的,所述根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,具体为:
[0023] 根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述声源与所述目标语音接收部件间连接线段的斜率;
[0024] 根据所述线段的斜率,确定所述目标语音接收部件对应的目标拾音角度。
[0025] 第二方面,提供了一种基于弥漫式语音交互的拾音方法,所述方法包括:
[0026] 当检测到声源的语音信号时,将检测到的语音信号发送给服务器;
[0027] 接收所述服务器发送的旋转角度;或者,接收所述服务器发送的目标拾音角度,根据预设的初始角度和所述目标拾音角度,确定旋转角度;
[0028] 根据所述旋转角度在水平方向上进行旋转处理,以使本地的至少两个麦克风与所述声源的距离相等;
[0029] 基于旋转处理后的语音接收部件对所述声源进行拾音。
[0030] 第三方面,提供了一种基于弥漫式语音交互的拾音装置,所述装置包括:
[0031] 第一确定模块,用于根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差;
[0032] 第二确定模块,用于根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息;
[0033] 第三确定模块,用于根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件处于所述目标拾音角度时,所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;
[0034] 处理模块,用于根据所述目标拾音角度对所述目标语音接收部件进行旋转处理,以使所述目标语音接收部件基于所述目标拾音角度对所述声源进行拾音。
[0035] 可选的,所述装置还包括:
[0036] 第四确定模块,用于在所述至少三个语音接收部件中,确定检测到的语音信号的信号强度最大的语音接收部件为目标语音接收部件。
[0037] 可选的,所述处理模块具体用于:
[0038] 将所述目标拾音角度发送给所述目标语音接收部件;或者,
[0039] 根据所述目标语音接收部件对应的目标拾音角度和所述目标语音接收部件的初始角度,确定所述目标语音接收部件的旋转角度;
[0040] 将所述目标语音接收部件的旋转角度发送给所述目标语音接收部件。
[0041] 可选的,所述第三确定模块,具体包括:
[0042] 第一确定子模块,用于根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述声源与所述目标语音接收部件间连接线段的斜率;
[0043] 第二确定子模块,用于根据所述线段的斜率,确定所述目标语音接收部件对应的目标拾音角度。
[0044] 第四方面,提供了一种基于弥漫式语音交互的拾音装置,所述装置包括:
[0045] 发送模块,用于当检测到声源的语音信号时,将检测到的语音信号发送给服务器;
[0046] 接收模块,用于接收所述服务器发送的旋转角度;或者,接收所述服务器发送的目标拾音角度,根据预设的初始角度和所述目标拾音角度,确定旋转角度;
[0047] 处理模块,用于根据所述旋转角度在水平方向上进行旋转处理,以使本地的至少两个麦克风与所述声源的距离相等;
[0048] 拾音模块,用于基于旋转处理后的语音接收部件对所述声源进行拾音。
[0049] 第五方面,提供了一种基于弥漫式语音交互的拾音系统,所述系统包括服务器和终端,其中:
[0050] 所述服务器,用于根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,并根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息,根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件处于所述目标拾音角度时,所述目标语音接收部件的至少两个麦克风与所述声源的距离相等,根据所述目标拾音角度对所述目标语音接收部件进行旋转处理,以使所述目标语音接收部件基于所述目标拾音角度对所述声源进行拾音;
[0051] 所述终端,用于当检测到声源的语音信号时,将检测到的语音信号发送给服务器,接收所述服务器发送的旋转角度;或者,接收所述服务器发送的目标拾音角度,根据预设的初始角度和所述目标拾音角度,确定旋转角度,根据所述旋转角度在水平方向上进行旋转处理,以使本地的至少两个麦克风与所述声源的距离相等,基于旋转处理后的语音接收部件对所述声源进行拾音。
[0052] 本发明实施例中,根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,根据时间差和语音接收部件的位置信息,确定声源的位置信息,根据声源的位置信息和目标语音接收部件的位置信息,确定目标语音接收部件对应的目标拾音角度,目标语音接收部件处于目标拾音角度时,目标语音接收部件的至少两个麦克风与声源的距离相等,根据目标拾音角度对目标语音接收部件进行旋转处理,以使目标语音接收部件基于目标拾音角度对声源进行拾音,这样,当用户不是正对着语音接收部件说话时,目标语音接收部件可以通过转动使得目标语音接收部件中的每个麦克风与声源的距离相等,可以避免增强处理后的语音信号中的噪声较大的情况,提高语音识别的准确度。

附图说明

[0053] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0054] 图1是本发明实施例提供的一种系统框架图;
[0055] 图2是本发明实施例提供的一种基于弥漫式语音交互的拾音方法流程图;
[0056] 图3是本发明实施例提供的一种语音接收部件的示意图;
[0057] 图4是本发明实施例提供的一种语音信号的示意图;
[0058] 图5是本发明实施例提供的一种计算目标拾音角度的示意图;
[0059] 图6是本发明实施例提供的一种进行旋转处理的示意图;
[0060] 图7是本发明实施例提供的一种基于弥漫式语音交互的拾音装置结构示意图;
[0061] 图8是本发明实施例提供的一种基于弥漫式语音交互的拾音装置结构示意图;
[0062] 图9是本发明实施例提供的一种基于弥漫式语音交互的拾音装置结构示意图;
[0063] 图10是本发明实施例提供的一种基于弥漫式语音交互的拾音装置结构示意图;
[0064] 图11是本发明实施例提供的一种服务器的结构示意图;
[0065] 图12是本发明实施例提供的一种终端的结构示意图。

具体实施方式

[0066] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0067] 发明人在实现本发明的过程中,发现现有技术中,通过弥漫式语音交互方式对智能家居设备进行控制时,虽然,各个智能家居设备无需为了语音识别额外配置语音接收部件和语音识别装置,能够降低语音控制智能家居设备的成本,而且由于弥漫式设置的语音交互设备以无线或有线方式与智能家居设备连接,用户在对智能家居设备控制时,不再要求用户必须保持在该智能家居设备附近,用户可以通过弥漫式设置的语音接收部件实现随时随地的输入语音控制指令,增加了语音控制智能家居设备的灵活性。
[0068] 但是,发明人发现,当用户欲通过弥漫式设置的语音接收部件输入语音控制指令时,由于语音接收部件内设置有两个麦克风两个麦克风接收到的语音信号的强度和时延不同,这样会导致增强处理后的语音信号中的噪声较大,使得语音识别的准确度下降。
[0069] 基于现有技术中的上述问题,发明人经过大量的实验后发现,由于语音接收部件内设置有两个麦克风,当语音接收部件不是正对用户时,导致用户相对该两个麦克风的距离不同,进而,由于该用户与语音接收部件的两个麦克风的距离不同,导致两个麦克风接收到的语音信号的强度和时延也不同,最终导致增强处理后的语音信号中的噪声较大,使得语音识别的准确度下降。
[0070] 为解决现有技术中的上述问题,本发明实施例提供了一种基于弥漫式语音交互的拾音方法,该方法可以由终端和服务器共同实现。其中,服务器可以是智能家居的后台服务器;该终端可以是语音接收部件,也可以是安装有语音接收部件的智能家居设备。如图1所示,为本实施例提供的系统框架图,其中包括服务器和智能家居设备,智能家居设备中安装有语音接收部件。
[0071] 该服务器可以包括收发器、处理器和存储器,收发器可以用于接收语音接收部件发送的语音信号,以及向目标语音接收部件发送目标拾音角度或旋转角度;处理器,可以为CPU(Central Processing Unit,中央处理单元)等,可以用于根据接收到的语音信号,确定至少两对语音信号的时间差,得到至少两个时间差,然后根据确定的时间差和每个语音接收部件的位置信息,确定声源的位置信息,进而根据声源的位置信息和目标语音接收部件的位置信息,确定目标语音接收部件对应的目标拾音角度,根据目标拾音角度对目标语音接收部件进行旋转处理,处理器还可以用于对接收到的语音信号进行语音识别处理;存储器,可以为RAM(Random Access Memory,随机存取存储器)、Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如每个语音接收部件的位置信息和目标拾音角度算法等。另外,该服务器还可以包括输入部件和电源等。
[0072] 该终端可以包括收发器、语音接收部件、处理器和存储器,语音接收部件可以用于检测某声源的声波,得到语音信号;收发器可以用于将检测到的语音信号发送给服务器,还可以用于接收所述服务器发送的旋转角度或目标拾音角度;处理器,可以为CPU(Central Processing Unit,中央处理单元)等,可以用于对进行旋转处理,或者根据目标拾音角度计算旋转角度,然后再进行旋转处理;存储器,可以为RAM(Random Access Memory,随机存取存储器)、Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如预设的语音检测算法和初始角度等。另外,该终端还可以包括输入部件和电源等。
[0073] 下面将结合具体实施方式,以终端为语音接收部件为例,参考图2所示,对本发明实施例提供的基于弥漫式语音交互的拾音的处理流程进行详细的说明,内容可以如下:
[0074] 步骤201,服务器根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差。
[0075] 在实施中,用户可以在某房间中设置多个智能家居设备,例如,用户可以在客厅中设置智能灯、智能电视和智能空调灯。其中,每个智能家居设备中都可以安装有语音接收部件,或者,语音接收部件也可以在房间中单独设置,即弥漫式设置语音接收部件。语音接收部件可以包括多个麦克风。如图3所示,语音接收部件可以为长条形,且长条形的两端处可以分别设置有麦克风。语音接收部件可以检测声源的语音信号,并可以在检测到声源的语音信号时,将检测到的语音信号发送给服务器。
[0076] 当用户在该房间中说话时(该用户相当于声源),该房间中的每个语音接收部件都会检测到该用户发出的声波,得到语音信号,然后,每个语音接收部件可以将检测到的语音信号发送给服务器。为了减少误检测的情况,用户需要先说出预设的唤醒词(如海信管家),然后再说出控制指令。语音接收部件可以监听检测到的语音信号,并可以对语音信号进行存储。当检测到预设的唤醒词时,则可以将该唤醒词对应的语音信号,以及在该唤醒词之后检测到的语音信号发送给服务器,以便服务器进行后续处理。
[0077] 服务器接收到每个语音接收部件发送的语音信号后,可以确定其中任意两个语音信号之间的时间差。服务器获取时间差的方式可以是多种多样的。服务器可以存储接收到的语音信号的波形图,如图4所示,服务器可以确定同一特征的语音(比如用户说的某一个字的语音)在不同波形图中对应的接收时间,然后可以分别计算每两个接收时间的差值,作为这两个语音信号之间的时间差。例如,服务器接收到语音接收部件A、B、C、D发送的语音信号后,可以计算A的语音信号和B的语音信号的时间差,即t1-t2、A的语音信号和C的语音信号的时间差,即t1-t3、A的语音信号和C的语音信号的时间差,即t1-t3,以及A的语音信号和D的语音信号的时间差,即t1-t4。或者,每个语音接收部件可以将检测到唤醒词的起始时间发送给服务器,以便服务器计算每两个语音信号之间的时间差。需要说明的是,服务器需要确定至少两对语音信号的时间差。
[0078] 步骤202,服务器根据该时间差和该语音接收部件的位置信息,确定声源的位置信息。
[0079] 其中,语音接收部件的位置信息可以是语音接收部件在预设坐标系中的坐标信息。
[0080] 在实施中,对于任意时间差,服务器可以用该时间差乘以预设的声音传播速度,得到该声源与该时间差对应的两个语音接收部件的距离差。例如,A的语音信号和B的语音信号的时间差为t1,声音传播速度为s,则dA-dB=s*t1,其中,dA为该声源距A的距离,dB为该声源距B的距离。这样,服务器可以根据至少两对语音信号的时间差,得到声源与至少三个语音接收部件的位置关系,然后可以确定满足该位置关系的位置信息,从而得到声源的位置信息。具体的计算过程可以如下:
[0081] 假设声源在预设坐标系中的坐标为(x,y),语音接收部件A的坐标为(a1,a2),语音接收部件B的坐标为(b1,b2),语音接收部件C的坐标为(c1,c2),A与B的时间差为T1,A与C的时间差为T2,则
[0082]
[0083]
[0084]
[0085] dA-dB=s*T1
[0086] dA-dC=s*T2
[0087] 其中,如图5所示,dA为该声源距A的距离,dB为该声源距B的距离,dC为该声源距C的距离s为预设的声音传播速度。
[0088] 在实际中,用户通常是在至少三个语音接收部件所形成的几何区域中,进行语音控制,服务器可以根据上述两个等式,来求解声源的坐标值,从而得到声源的位置信息。在一些特殊场景下,用户可能会在上述几何区域之外,进行语音控制,服务器可以确定三对语音信号的时间差,根据三个时间差和每个语音接收部件的位置信息(相当于三个等式),确定满足三个等式的声源的坐标值,从而可以精确的确定出声源的坐标。
[0089] 步骤203,服务器根据声源的位置信息和目标语音接收部件的位置信息,确定目标语音接收部件对应的目标拾音角度。
[0090] 在实施中,服务器可以在语音接收部件中确定目标语音接收部件,目标语音接收部件可以是任一语音接收部件;可以是语音接收部件中,检测到的语音信号的信号强度大于预设阈值的语音接收部件;也可以是与声源距离最近的语音接收部件。服务器确定声源的坐标后,可以根据声源的坐标和目标语音接收部件的坐标,计算目标语音接收部件对应的目标拾音角度(也可称为目标拾音方向),当目标语音接收部件基于该目标拾音角度检测语音信号时,目标语音接收部件中的每个麦克风与声源的距离相等,如图6所示。
[0091] 可选的,计算目标拾音角度的具体处理过程可以为:根据声源的位置信息和语音接收部件中的目标语音接收部件的位置信息,确定声源与语音接收部件所连线段的斜率,根据线段的斜率,确定目标语音接收部件对应的目标拾音角度。
[0092] 在实施中,服务器确定声源的坐标后,可以根据声源的坐标和目标语音接收部件的坐标,确定声源目标语音接收部件所连线段的斜率,例如,声源的坐标为(x,y),目标语音接收部件A的坐标为(a1,a2),斜率k=(a2-y)/(a1-x)。然后可以根据该线段的斜率,确定目标语音接收部件对应的目标拾音角度。例如,该线段的斜率为1,则目标拾音角度为45°,如图6所示。
[0093] 可选的,服务器可以将信号强度最大的语音接收部件,作为目标语音接收部件,相应的处理过程可以如下:在至少三个语音接收部件中,确定检测到的语音信号的信号强度最大的语音接收部件为目标语音接收部件。
[0094] 在实施中,服务器接收到每个语音接收部件发送的语音信号后,可以先确定每个语音信号的信号强度,然后可以确定信号强度最大的语音信号,进而可以将该语音信号对应的语音接收部件,作为目标语音接收部件。
[0095] 步骤204,服务器根据目标拾音角度对目标语音接收部件进行旋转处理,以使目标语音接收部件基于目标拾音角度对声源进行拾音。
[0096] 在实施中,服务器根据目标拾音角度对目标语音接收部件进行旋转处理的方式可以是多种多样的,本实施例提供了两种可行的处理方式,具体如下:
[0097] 方式一、服务器可以根据目标拾音角度,计算出目标语音接收部件需要旋转的角度,然后根据计算出的旋转角度,对目标语音接收部件进行旋转处理,该处理过程可以包括以下步骤:
[0098] 步骤一,服务器根据目标语音接收部件对应的目标拾音角度和目标语音接收部件的初始角度,确定目标语音接收部件的旋转角度。
[0099] 在实施中,服务器中可以存储目标语音接收部件的初始角度,初始角度可以是技术人员设定的语音接收部件的初始角度,该角度可以是指语音接收部件两个麦克风所连直线在预设坐标系中的角度,也可以是指与该直线垂直的直线的角度。服务器可以根据目标拾音角度和初始角度,计算目标语音接收部件的旋转角度。例如,语音接收部件两个麦克风所连直线与预设坐标系的横轴平行,初始角度为与该直线垂直的直线的角度,即90°,目标角度为45°,则旋转角度为90°-45°=45°,即顺时针旋转45°,如图6所示。
[0100] 步骤二,服务器将目标语音接收部件的旋转角度发送给目标语音接收部件。
[0101] 步骤三,目标语音接收部件接收服务器发送的旋转角度。
[0102] 步骤四,目标语音接收部件根据旋转角度在水平方向上进行旋转处理。
[0103] 在实施中,目标语音接收部件可以根据接收到的旋转角度,在水平方向上进行旋转,旋转后的目标语音接收部件的角度为目标拾音角度。这样,可以使目标语音接收部件中的至少两个麦克风与声源的距离是相等的。
[0104] 步骤五,目标语音接收部件基于旋转处理后的语音接收部件对声源进行拾音。
[0105] 在实施中,目标语音接收部件旋转后,可以将旋转处理后检测到的语音信号发送给服务器。由于用户先说出唤醒词,再说出控制指令,而上述处理过程所需要的时间是非常短的,因此,旋转处理后检测到的语音信号可以近似认为是用户所说出的控制指令。
[0106] 方式二,服务器可以将目标拾音角度发送给目标语音接收部件,由目标语音接收部件计算旋转角度,相应的处理过程可以包括以下步骤:
[0107] 步骤一,服务器将目标拾音角度发送给目标语音接收部件。
[0108] 步骤二,目标语音接收部件接收服务器发送的目标拾音角度。
[0109] 步骤三,目标语音接收部件根据当前的初始角度和目标拾音角度,确定旋转角度。
[0110] 该步骤的具体处理过程可以参见上述方式一中的步骤一的具体说明。
[0111] 步骤四,目标语音接收部件根据旋转角度在水平方向上进行旋转处理。
[0112] 该步骤的具体处理过程可以参见上述方式一中的步骤四的具体说明。
[0113] 步骤五,目标语音接收部件基于旋转处理后的语音接收部件对声源进行拾音。
[0114] 该步骤的具体处理过程可以参见上述方式一中的步骤五的具体说明。
[0115] 目标语音接收部件基于旋转处理后的语音接收部件对声源进行拾音后,可可以将检测到的语音信号发送给服务器,服务器可以接收该语音信号,然后可以根据预先存的语音识别算法,对接收到的语音信号进行识别,从而确定被控智能家居设备和控制信息,进而可以向该被控智能家居设备发生该控制信息,以使被控智能家居设备进行相应的处理,从而实现对智能家居设备的语音控制。
[0116] 本发明实施例中,根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,根据时间差和语音接收部件的位置信息,确定声源的位置信息,根据声源的位置信息和目标语音接收部件的位置信息,确定目标语音接收部件对应的目标拾音角度,目标语音接收部件处于目标拾音角度时,目标语音接收部件的至少两个麦克风与声源的距离相等,根据目标拾音角度对目标语音接收部件进行旋转处理,以使目标语音接收部件基于目标拾音角度对声源进行拾音,这样,当用户不是正对着语音接收部件说话时,目标语音接收部件可以通过转动使得目标语音接收部件中的每个麦克风与声源的距离相等,可以避免增强处理后的语音信号中的噪声较大的情况,提高语音识别的准确度。
[0117] 基于相同的技术构思,本发明实施例还提供了一种基于弥漫式语音交互的拾音装置,如图7所示,该装置包括:
[0118] 第一确定模块710,用于根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差;
[0119] 第二确定模块720,用于根据所述时间差和所述语音接收部件的位置信息,确定所述声源的位置信息;
[0120] 第三确定模块730,用于根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述目标语音接收部件对应的目标拾音角度,所述目标语音接收部件处于所述目标拾音角度时,所述目标语音接收部件的至少两个麦克风与所述声源的距离相等;
[0121] 处理模块740,用于根据所述目标拾音角度对所述目标语音接收部件进行旋转处理,以使所述目标语音接收部件基于所述目标拾音角度对所述声源进行拾音。
[0122] 可选的,如图8所示,所述装置还包括:
[0123] 第四确定模块750,用于在所述至少三个语音接收部件中,确定检测到的语音信号的信号强度最大的语音接收部件为目标语音接收部件。
[0124] 可选的,所述处理模块740具体用于:
[0125] 将所述目标拾音角度发送给所述目标语音接收部件;或者,
[0126] 根据所述目标语音接收部件对应的目标拾音角度和所述目标语音接收部件的初始角度,确定所述目标语音接收部件的旋转角度;
[0127] 将所述目标语音接收部件的旋转角度发送给所述目标语音接收部件。
[0128] 可选的,如图9所示,所述第三确定模块730,具体包括:
[0129] 第一确定子模块731,用于根据所述声源的位置信息和目标语音接收部件的位置信息,确定所述声源与所述目标语音接收部件间连接线段的斜率;
[0130] 第二确定子模块732,用于根据所述线段的斜率,确定所述目标语音接收部件对应的目标拾音角度。
[0131] 基于相同的技术构思,本发明实施例还提供了一种基于弥漫式语音交互的拾音装置,如图10所示,该装置包括:
[0132] 发送模块1010,用于当检测到声源的语音信号时,将检测到的语音信号发送给服务器;
[0133] 接收模块1020,用于接收所述服务器发送的旋转角度;或者,接收所述服务器发送的目标拾音角度,根据预设的初始角度和所述目标拾音角度,确定旋转角度;
[0134] 处理模块1030,用于根据所述旋转角度在水平方向上进行旋转处理,以使本地的至少两个麦克风与所述声源的距离相等;
[0135] 拾音模块1040,用于基于旋转处理后的语音接收部件对所述声源进行拾音。
[0136] 本发明实施例中,根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,根据时间差和语音接收部件的位置信息,确定声源的位置信息,根据声源的位置信息和目标语音接收部件的位置信息,确定目标语音接收部件对应的目标拾音角度,目标语音接收部件处于目标拾音角度时,目标语音接收部件的至少两个麦克风与声源的距离相等,根据目标拾音角度对目标语音接收部件进行旋转处理,以使目标语音接收部件基于目标拾音角度对声源进行拾音,这样,当用户不是正对着语音接收部件说话时,目标语音接收部件可以通过转动使得目标语音接收部件中的每个麦克风与声源的距离相等,可以避免增强处理后的语音信号中的噪声较大的情况,提高语音识别的准确度。
[0137] 需要说明的是:上述实施例提供的基于弥漫式语音交互的拾音装置在基于弥漫式语音交互进行拾音时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于弥漫式语音交互的拾音装置与基于弥漫式语音交互的拾音方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0138] 请参考图11,其示出了本发明实施例所涉及的终端的结构示意图,该终端可以用于实施上述实施例中提供的基于弥漫式语音交互的拾音方法。具体来讲:
[0139] 终端900可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图11中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0140] RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
[0141] 存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端900的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器
120的访问。
[0142] 输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0143] 显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端900的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板
141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图11中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
[0144] 终端900还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端900移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端900还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0145] 音频电路160、扬声器161,传声器162可提供用户与终端900之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端900的通信。
[0146] WiFi属于短距离无线传输技术,终端900通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块170,但是可以理解的是,其并不属于终端900的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0147] 处理器180是终端900的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端900的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
[0148] 终端900还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0149] 尽管未示出,终端900还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端900的显示单元是触摸屏显示器,终端900还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含终端用于执行上述基于弥漫式语音交互的拾音方法的指令。
[0150] 本发明实施例中,根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,根据时间差和语音接收部件的位置信息,确定声源的位置信息,根据声源的位置信息和目标语音接收部件的位置信息,确定目标语音接收部件对应的目标拾音角度,目标语音接收部件处于目标拾音角度时,目标语音接收部件的至少两个麦克风与声源的距离相等,根据目标拾音角度对目标语音接收部件进行旋转处理,以使目标语音接收部件基于目标拾音角度对声源进行拾音,这样,当用户不是正对着语音接收部件说话时,目标语音接收部件可以通过转动使得目标语音接收部件中的每个麦克风与声源的距离相等,可以避免增强处理后的语音信号中的噪声较大的情况,提高语音识别的准确度。
[0151] 图12是本发明实施例提供的服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
[0152] 服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
[0153] 服务器600可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含服务器用于执行上述基于弥漫式语音交互的拾音方法的指令。
[0154] 本发明实施例中,根据至少三个语音接收部件分别检测同一声源得到的语音信号,确定至少两对语音信号的时间差,根据时间差和语音接收部件的位置信息,确定声源的位置信息,根据声源的位置信息和目标语音接收部件的位置信息,确定目标语音接收部件对应的目标拾音角度,目标语音接收部件处于目标拾音角度时,目标语音接收部件的至少两个麦克风与声源的距离相等,根据目标拾音角度对目标语音接收部件进行旋转处理,以使目标语音接收部件基于目标拾音角度对声源进行拾音,这样,当用户不是正对着语音接收部件说话时,目标语音接收部件可以通过转动使得目标语音接收部件中的每个麦克风与声源的距离相等,可以避免增强处理后的语音信号中的噪声较大的情况,提高语音识别的准确度。
[0155] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0156] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。