一种语音信号识别方法和装置专利检索-指向性物理专利检索查询-专利查询网

积极推动地理标志专门立法

2022-03-10 地理标志，立法，知识产权
保护知识产权是对创新最大的激励

2022-03-10 保护知识产权，创新，激励
谢商华：加快制定知识产权基本法

2022-03-10 知识产权基本法
擦亮“双奥之城”品牌

2022-03-10 双奥，知识产权
让冰雪运动“热”力全开

2022-03-10 冰雪运动，知识产权
携手共奋进　走好强国路

2022-03-10 强国，知识产权
坚持创新引领　方能稳中求进

2022-03-10 创新，稳中求进，知识产权
答好“两张卷” 奋进新征程

2022-03-10 知识产权
专家解读政府工作报告中的创新和知识产权相关部署

2022-03-10 政府工作报告，创新，知识产权
今年政府工作报告指出：加强知识产权保护和运用

2022-03-10 政府工作报告，知识产权保护

一种语音信号识别方法和装置

阅读：656发布：2021-02-25

IPRDB可以提供一种语音信号识别方法和装置专利检索，专利查询，专利分析的服务。并且本申请实施例提供了一种语音信号识别方法和装置，所述方法包括：获取指定空间内的空间音频信号；根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。在本申请实施例中，由于声源方向的语音激活检测信号，由该声源方向的连续语音信号和指向性标志信号组合得到，使得语音激活检测信号具有指向性，从而可以减少其他声源方向的连续语音信号对该声源方向的语音激活检测信号的干扰。，下面是一种语音信号识别方法和装置专利的具体信息内容。

权利要求

1.一种语音信号识别方法，其特征在于，包括：

获取指定空间内的空间音频信号；

根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

2.根据权利要求1所述的方法，其特征在于，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括：根据所述多路原始音频信号，估计信号到达方向；

根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

3.根据权利要求2所述的方法，其特征在于，所述对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号的步骤包括：确定所述多路原始音频信号中两两信号之间的时延差；

根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

4.根据权利要求1所述的方法，其特征在于，所述针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号的步骤包括：确定每一帧连续语音信号对应的指向性标志信号；

逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

5.根据权利要求4所述的方法，其特征在于，在根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，还包括：确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

6.根据权利要求4所述的方法，其特征在于，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号的步骤包括：若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

7.根据权利要求4所述的方法，其特征在于，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号的步骤包括：若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

8.根据权利要求4所述的方法，其特征在于，所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括：将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

9.根据权利要求4所述的方法，其特征在于，在确定每一帧连续语音信号对应的指向性标志信号之前，还包括：确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

10.一种语音信号识别方法，其特征在于，包括：

获取车内的空间音频信号；

根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

11.根据权利要求10所述的方法，其特征在于，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括：根据所述多路原始音频信号，估计信号到达方向；

根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

12.根据权利要求11所述的方法，其特征在于，所述对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号的步骤包括：确定所述多路原始音频信号中两两信号之间的时延差；

根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

13.根据权利要求10所述的方法，其特征在于，所述针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号的步骤包括：确定每一帧连续语音信号对应的指向性标志信号；

逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

14.根据权利要求13所述的方法，其特征在于，在根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，还包括：确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

15.根据权利要求13所述的方法，其特征在于，所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括：将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

16.根据权利要求13所述的方法，其特征在于，在确定每一帧连续语音信号对应的指向性标志信号之前，还包括：确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

17.一种语音信号识别方法，其特征在于，包括：

接收车载终端发送的车内的空间音频信号；

根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号；

将所述针对该声源方向的语音激活检测信号发送至所述车载终端。

18.根据权利要求17所述的方法，其特征在于，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括：根据所述多路原始音频信号，估计信号到达方向；

根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

19.根据权利要求18所述的方法，其特征在于，所述对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号的步骤包括：确定所述多路原始音频信号中两两信号之间的时延差；

根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

20.根据权利要求17所述的方法，其特征在于，所述针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号的步骤包括：确定每一帧连续语音信号对应的指向性标志信号；

逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

21.根据权利要求20所述的方法，其特征在于，在根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，还包括：确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

22.根据权利要求20所述的方法，其特征在于，所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括：将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

23.根据权利要求20所述的方法，其特征在于，在确定每一帧连续语音信号对应的指向性标志信号之前，还包括：确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

24.一种语音信号识别装置，其特征在于，包括：

空间音频信号获取模块，用于获取指定空间内的空间音频信号；

第一信号生成模块，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

第二信号生成模块，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

25.一种语音信号识别装置，其特征在于，包括：

空间音频信号获取模块，用于获取车内的空间音频信号；

第一信号生成模块，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

第二信号生成模块，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

26.一种语音信号识别装置，其特征在于，包括：

空间音频信号接收模块，用于接收车载终端发送的车内的空间音频信号；

第一信号生成模块，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

第二信号生成模块，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号；

语音激活检测信号发送模块，用于将所述该相应声源方向的语音激活检测信号发送至所述车载终端。

27.一种装置，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如权利要求1-9或10-16或17-23所述的一个或多个的方法。

28.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1-9或10-16或17-23所述的一个或多个的方法。

说明书全文

一种语音信号识别方法和装置

技术领域

[0001] 本申请涉及信号处理技术领域，特别是涉及一种语音信号识别方法和一种语音信号识别装置。

背景技术

[0002] 在多人的语音交互场景中，通常采用语音激活检测VAD(Voice Activity Detection)监听各个人的语音。例如，在会议中，可以通过语音激活检测监听各个发言人员的语音，然后对语音进行识别并记录，从而得到针对各个发言人员的会议记录。又例如，在汽车驾驶中，车载终端可以识别通过语音激活检测监听驾驶员的语音，然后识别驾驶员发出的语音，并根据驾驶员的语音执行用户所需要的操作。例如，唤醒车载终端，播放音乐，接听电话等。

[0003] 但是，目前语音激活检测存在的主要问题时，无法在多人同时发言的情况下，准确监听各个人的语音。

发明内容

[0004] 鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音信号识别方法和相应的一种语音信号识别装置。

[0005] 为了解决上述问题，本申请实施例公开了一种语音信号识别方法，包括：

[0006] 获取指定空间内的空间音频信号；

[0007] 根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0008] 针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0009] 优选的，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括：

[0010] 根据所述多路原始音频信号，估计信号到达方向；

[0011] 根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0012] 对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0013] 优选的，所述对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号的步骤包括：

[0014] 确定所述多路原始音频信号中两两信号之间的时延差；

[0015] 根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

[0016] 对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0017] 优选的，所述针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号的步骤包括：

[0018] 确定每一帧连续语音信号对应的指向性标志信号；

[0019] 逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0020] 根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

[0021] 将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0022] 优选的，在根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，还包括：

[0023] 确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0024] 将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

[0025] 优选的，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号的步骤包括：

[0026] 若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0027] 优选的，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号的步骤包括：

[0028] 若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0029] 优选的，所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括：

[0030] 将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0031] 优选的，在确定每一帧连续语音信号对应的指向性标志信号之前，还包括：

[0032] 确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

[0033] 将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0034] 本申请实施例还公开了一种语音信号识别方法，包括：

[0035] 获取车内的空间音频信号；

[0036] 根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0037] 针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0038] 优选的，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括：

[0039] 根据所述多路原始音频信号，估计信号到达方向；

[0040] 根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0041] 对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0042] 优选的，所述对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号的步骤包括：

[0043] 确定所述多路原始音频信号中两两信号之间的时延差；

[0044] 根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

[0045] 对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0046] 优选的，所述针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号的步骤包括：

[0047] 确定每一帧连续语音信号对应的指向性标志信号；

[0048] 逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0049] 根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

[0050] 将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0051] 优选的，在根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，还包括：确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0052] 将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

[0053] 优选的，所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括：

[0054] 将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0055] 优选的，在确定每一帧连续语音信号对应的指向性标志信号之前，还包括：

[0056] 确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

[0057] 将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0058] 本申请实施例还公开了一种语音信号识别方法，包括：

[0059] 接收车载终端发送的车内的空间音频信号；

[0060] 根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0061] 针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号；

[0062] 将所述针对该声源方向的语音激活检测信号发送至所述车载终端。

[0063] 优选的，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括：

[0064] 根据所述多路原始音频信号，估计信号到达方向；

[0065] 根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0066] 对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0067] 优选的，所述对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号的步骤包括：

[0068] 确定所述多路原始音频信号中两两信号之间的时延差；

[0069] 根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

[0070] 对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0071] 优选的，所述针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号的步骤包括：

[0072] 确定每一帧连续语音信号对应的指向性标志信号；

[0073] 逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0074] 根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

[0075] 将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0076] 优选的，在根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，还包括：

[0077] 确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0078] 将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

[0079] 优选的，所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括：

[0080] 将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0081] 优选的，在确定每一帧连续语音信号对应的指向性标志信号之前，还包括：

[0082] 确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

[0083] 将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0084] 本申请实施例还公开了一种语音信号识别装置，包括：

[0085] 空间音频信号获取模块，用于获取指定空间内的空间音频信号；

[0086] 第一信号生成模块，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0087] 第二信号生成模块，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0088] 本申请实施例还公开了一种语音信号识别装置，包括：

[0089] 空间音频信号获取模块，用于获取车内的空间音频信号；

[0090] 第一信号生成模块，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0091] 第二信号生成模块，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0092] 本申请实施例还公开了一种语音信号识别装置，包括：

[0093] 空间音频信号接收模块，用于接收车载终端发送的车内的空间音频信号；

[0094] 第一信号生成模块，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0095] 第二信号生成模块，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号；

[0096] 语音激活检测信号发送模块，用于将所述该相应声源方向的语音激活检测信号发送至所述车载终端。

[0097] 本申请实施例还公开了一种装置，包括：

[0098] 一个或多个处理器；和

[0099] 其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如上所述的一个或多个的方法。

[0100] 本申请实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如上所述的一个或多个的方法。

[0101] 本申请实施例包括以下优点：

[0102] 在本申请实施例中，由于声源方向的语音激活检测信号，由该声源方向的连续语音信号和指向性标志信号组合得到，使得语音激活检测信号具有指向性，从而可以减少其他声源方向的连续语音信号对该声源方向的语音激活检测信号的干扰。在多人发言的场景下，能减少其他人员的语音对当前人员的语音影响，从而清楚的监听各个人员的语音。

附图说明

[0103] 图1是本申请的一种语音信号识别方法实施例1的步骤流程图；

[0104] 图2是本申请的一种语音信号识别方法实施例2的步骤流程图；

[0105] 图3是本申请实施例中的一种针对声源方向生成连续语音信号以及相应的指向性标志信号的示意图；

[0106] 图4是本申请的一种语音信号识别方法实施例3的步骤流程图；

[0107] 图5是本申请实施例中神经网络模型的示意图；

[0108] 图6是实施例中识别主驾驶位和副驾驶位的语音的示意图；

[0109] 图7是本申请的一种语音信号识别方法实施例4的步骤流程图；

[0110] 图8是本申请的一种语音信号识别方法实施例5的步骤流程图；

[0111] 图9是本申请实施例中通过云服务器识别车内语音的示意图；

[0112] 图10是本申请的一种语音信号识别方法实施例6的步骤流程图；

[0113] 图11是本申请的一种语音信号识别装置实施例1的结构框图；

[0114] 图12是本申请的一种语音信号识别装置实施例2的结构框图；

[0115] 图13是本申请的一种语音信号识别装置实施例3的结构框图。

具体实施方式

[0116] 为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

[0117] 参照图1，示出了本申请的一种语音信号识别方法实施例1的步骤流程图，具体可以包括如下步骤：

[0118] 步骤101，获取指定空间内的空间音频信号；

[0119] 在本申请实施例中，指定空间可以为车辆内部的空间。在车辆内部设置有音频采集设备(例如麦克风)来采集车辆内部的空间音频信号。

[0120] 车辆内部的空间音频信号可以包括：车内人员的语音信号和车辆音频播放设备(例如音响)播放的音频信号。

[0121] 步骤102，根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0122] 声源方向是声音来源的方向。例如，声源方向可以是来自主驾驶位的方向，也可以是来自副驾驶位的方向，以及来自车内其他的位置的方向。

[0123] 可以对车内的空间音频信号进行分析，确定车内发出声音的声源方向，并且输出针对声源方向的连续语音信号和相应的指向性标志信号。

[0124] 针对声源方向的连续语音信号，是对车内的空间音频信号进行分析得到的来自声源方向的语音信号。连续语音信号中会包括有语音信号和非语音信号，语音信号是指由人发出的声音的信号，非语音信号则是非人发出的声音的信号。

[0125] 如果确定了多个声源方向，则可以从空间音频信号，分离出针对各个声源方向的连续语音信号。例如，可以从车内的空间音频信号分离得到来自主驾驶位的连续语音信号，和来自副驾驶位的连续语音信号。

[0126] 指向性标志信号表示了在各个时间点声源方向是否有语音信号。例如，针对主驾驶位的指向性标志信号，表示了在各个时间点主驾驶位是否有语音。针对副驾驶位的指向性标志信号，表示了在各个时间点副驾驶位是否有语音。

[0127] 步骤103，针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0128] 将连续语音信号以及相应的指向性标志信号进行组合，生成针对相应声源方向的语音激活检测信号。

[0129] 例如，将来自主驾驶位的连续语音信号和相应的指向性标志信号进行组合，生成针对主驾驶位的语音激活检测信号。将来自副驾驶位的连续语音信号和相应的指向性标志信号进行组合，生成针对副驾驶位的语音激活检测信号。

[0130] 在本申请实施例中，由于声源方向的语音激活检测信号，由该声源方向的连续语音信号和指向性标志信号组合得到，使得语音激活检测信号具有指向性，从而可以减少其他声源方向的连续语音信号对该声源方向的语音激活检测信号的干扰。在多人发言的场景下，能减少其他人员的语音对当前人员的语音影响，从而清楚的监听各个人员的语音。

[0131] 例如，主驾驶位的语音激活由来自主驾驶位的连续语音信号和相应的指向性标志信号进行组合得到，而来自副驾驶位的连续语音信号不会与主驾驶位的指向性标志信号进行组合，因而可以减少副驾驶位的连续语音信号对该主驾驶位的语音激活检测信号的干扰。

[0132] 在本申请实施例中，车载终端可以根据车辆内的空间音频信号，确定发出声音的声源方向，以及来自声源方向的连续语音信号和表示在各个时间点声源方向是否有语音信号的指向性标志信号。然后将连续语音信号和相应的指向性标志信号进行组合，得到针对声源方向的语音激活检测信号。因此，本申请实施例可以实现同时监听各个声源方向的语音，并且区分各个语音的指向性，确定各个语音是来自哪个方位的。例如，主驾驶位和副驾驶位同时说的话，都可以被车载终端同时监听。最后由车载终端输出主驾驶位的语音激活检测信号和副驾驶位的语音激活检测信号。

[0133] 语音激活检测信号作为最终确定的针对声源方向的音频信号。车载终端可以对语音激活检测信号进行语音识别，最后根据识别结果进行后续的处理。例如，播放音乐，接听电话等。

[0134] 参照图2，示出了本申请的一种语音信号识别方法实施例2的步骤流程图，具体可以包括如下步骤：

[0135] 步骤201，获取指定空间内的空间音频信号；所述空间音频信号包括：多个麦克风采集的多路原始音频信号；

[0136] 在本申请实施例中，指定空间可以为车辆内部的空间。在车辆内部设置有音频采集设备来采集车辆内部的空间音频信号。

[0137] 优选的，在本申请实施例中，在车辆中可以设置麦克风阵列来采集车辆内部的空间音频信号。例如，在靠近主驾驶位的地方设置一个麦克风采集主驾的语音信号；在靠近副驾驶位的地方设置一个麦克风采集副驾的语音信号；还可以在后排座位设置麦克风采集后排乘客的语音信号。

[0138] 每个麦克风都可以采集到车内人员的语音信号和车辆音频播放设备播放的音频信号。

[0139] 步骤202，根据所述多路原始音频信号，估计信号到达方向；

[0140] 信号到达方向(DOA，Direction of Arrival)是指声源相对麦克风阵列的方向。信号到达方向的估计也称为声源定向。目前，使用麦克风阵列来对声源进行定位的方法总体来说可以分为两类:时延估计和定向波束形成。

[0141] 定向波束形成是基于最大输出功率可控波束方法的一种形式，该方法对麦克风阵列接收到的语音信号进行滤波延迟并加权求和形成特定指向的波束，然后计算各个指向上的波束能量，其中搜索空间中功率最大的方向就是对声源位置的一个最大近似。

[0142] 基于时延估计的方法，由于声源发出的信号到达各个麦克风存在时间差分，它根据各个通道信号间的相关关系对这个时间延迟进行估计，从而来对声源位置进行估计。这种方法计算很快，能达到实时的要求。

[0143] 在本申请实施例的一种示例中，可以采用基于时延差的到达时延差估计方法(TDOA:Time Difference of Arrival)来计算信号到达方向。

[0144] 步骤203，根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0145] 预设声源方向是相对麦克风阵列的期望声源的方向，若需要监听的是主驾驶位和副驾驶位，则期望声源的方向可以是主驾驶位的方向和副驾驶位的方向。例如，针对主驾驶位的声源方向可以预设为30度，针对副驾驶位的声源方向可以预设为-30度。

[0146] 如果某一时间点的信号到达方向与预设声源方向相同，则可以认为在该时间点具有语音信号。因此根据各个时间点的信号到达方向与预设声源方向是否相同，则可以生成表示在各个时间点预设声源方向是否有语音信号的指向性标志信号。

[0147] 在本申请实施例中，指向性标志信号表示了在各个时间点声源方向是否有语音信号。

[0148] 例如，指向性标志信号只包括0和1两个值，0表示该时间点这一声源方向不具有语音信号，1表示该时间点这一声源方向具有语音信号。

[0149] 步骤204，对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0150] 波束形成(BeamForming)指的是增强期望语音信号，抑制干扰声源和噪声。基于单麦克风的语音增强并不理想，很难获得较大的性能提升，在此情况下，通过构造麦克风阵列来抑制混响和噪声，可以获取更高质量的语音。麦克风阵列在期望方向形成波束，拾取波束内信号，消除波束外噪声，达到语音增强的目的。

[0151] 在本申请实施例中，所述步骤204可以包括如下子步骤：

[0152] 子步骤S11，确定所述多路原始音频信号中两两信号之间的时延差；

[0153] 在本申请实施例中，时延差的计算可以采用基于相位变换的广义互相关GCC-PHAT(Generalized Cross Correlation-Phase Transform)算法。GCC-PHAT算法利用信号在时域的互相关函数与信号在频域的互功率谱函数的对应关系，先计算两路原始音频信号之间的互功率谱密度，然后加权和相位变换，最后傅里叶逆变换，得到广义互相关函数。广义互相关函数的峰值对应的时刻就是两路原始音频信号之间的时延差。

[0154] 子步骤S12，根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

[0155] 子步骤S13，对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0156] 在计算到时延差后，可以采用延迟-累加波束形成(DSB，Delay-Sum Beamforming)生成针对声源方向的连续语音信号。

[0157] 具体的，首先根据两两信号之间的时延差，对多路原始音频信号进行时延补偿，使得各路原始音频信号同步。

[0158] 然后对同步后的各路原始音频信号进行加权(如均匀加权)，将加权后的各路原始音频信号相加，即得到针对各个声源方向的连续语音信号。

[0159] 步骤205，针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0160] 组合将连续语音信号以及相应的指向性标志信号进行组合，生成针对相应声源方向的语音激活检测信号。

[0161] 为了使本领域技术人员能够更好地理解本申请实施例，下面通过一个例子对本申请实施例加以说明：

[0162] 参照图3所示，为本申请实施例中的一种针对声源方向生成连续语音信号以及相应的指向性标志信号的示意图。

[0163] 在该示例中，在靠近主驾驶位的地方设置第一麦克风，在靠近副驾驶位的地方设置第二麦克风。

[0164] 第一麦克风可以采集到来自主驾驶位的连续语音信号和车载设备播放的音频信号，第二麦克风可以采集到来自副驾驶位的连续语音信号和车载设备播放的音频信号，即总共采集了四路信号。将这四路信号输入到信号处理模块。

[0165] 信号处理模块可以采用基于相位变换的广义互相关GCC-PHAT算法，计算两路信号之间的时延差。GCC-PHAT算法利用信号在时域的互相关函数与信号在频域的互功率谱函数的对应关系，先计算两路信号之间的互功率谱密度，然后加权和相位变换，最后傅里叶逆变换，得到广义互相关函数。广义互相关函数的峰值对应的时刻就是两路信号之间的时延差。

[0166] 在计算到时延差后，一方面信号处理模块可以采用基于时延差的到达时延差估计方法TDOA算法，根据四路信号的时延差，估计信号到达方向。

[0167] 然后判断每一时间的信号到达方向是否与主驾驶位方向或副驾驶位方向相同；如果信号到达方向与主驾驶位方向相同，则认为在该时间点主驾驶位方向具有语音；如果信号到达方向与主驾驶位方向不相同，则认为在该时间点主驾驶位方向不具有语音。

[0168] 如果信号到达方向与副驾驶位方向相同，则认为在该时间点副驾驶位方向具有语音；如果信号到达方向与副驾驶位方向不相同，则认为在该时间点副驾驶位方向不具有语音。

[0169] 根据各个时间点主驾驶位方向是否具有语音，可以得到针对主驾驶位的指向性标志信号；根据各个时间点副驾驶位方向是否具有语音，可以得到针对副驾驶位的指向性标志信号。

[0170] 另一方面，可以采用延迟-累加波束形成(DSB，Delay-Sum Beamforming)生成针对声源方向的连续语音信号。

[0171] 具体的，首先根据两两信号之间的时延差，对四路信号进行时延补偿，使得四路信号同步。

[0172] 然后对同步后的四路信号进行加权(如均匀加权)，将加权后的四路信号相加，即得到针对各个声源方向的连续语音信号。

[0173] 参照图4，示出了本申请的一种语音信号识别方法实施例3的步骤流程图，具体可以包括如下步骤：

[0174] 步骤301，获取指定空间内的空间音频信号；

[0175] 步骤302，根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0176] 根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的方式，可以参见前述中的相关描述，此处不再一一赘述。

[0177] 步骤303，确定每一帧连续语音信号对应的指向性标志信号；

[0178] 在本申请实施例中，连续语音信号和指向性标志信号都为连续信号。首先对连续语音信号和指向性标志信号进行分帧处理，切分为一帧一帧的连续语音信号和指向性标志信号。然后确定每一帧连续语音信号对应的指向性标志信号。

[0179] 在本申请实施例中，在步骤303之前，所述的方法还可以包括，

[0180] 确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0181] 例如，在针对主驾驶位的指向性标志信号中，0s-4s是表示具有语音信号，4s-4.2s是表示具有非语音信号，4.2s-8s是表示具有语音信号。

[0182] 那么其中4s-4.2s就是非语音指示片段。如果第二阈值为0.3s，则将这一段非语音指示片段，设置为表示这一段时间主驾驶位具有语音信号。

[0183] 步骤304，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0184] 在本申请实施例中，可以通过将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0185] 神经网络模型可以根据已有的语音信号和非语音信号训练得到。对于输入到模型的连续语音信号，会在这个模型上计算该连续语音信号与训练数据里面的语音信号和非语音信号相似的概率，最后根据与语音信号相似的概率以及与非语音信号相似的概率判断每一帧连续语音信号是否为语音。

[0186] 参照图5所示为本申请实施例中神经网络模型的示意图。神经网络模型包含一个输入层Input，一个或者多个隐层Hidden，一个输出层Output。

[0187] 输入层节点对应的是根据领域抽取的特征，通常是浮点型数据；输出层每个节点对应需要进行分类的类别(比如我们要做数字串识别，那么输出节点就是0-9这是个类别)。

[0188] 如图所示，每个节点之间的箭头的连接都对应的一个权重。神经网络模型的训练过程就是为了得到这些权重的值。

[0189] 假设神经网络模型的输入为一个向量x，输出为一个向量y。

[0190] x对应的就是我们根据领域知识抽取的特征，y就是一个分类的类别。训练的过程中，y里面只有正确的那个类别是1，其它的都是0。一组(x,y)称为一个样本，训练的过程需要利用成千上万个样本，使用反向传播算法(一个非常通用的算法)来更新这些权重，直到最后训练完成所有样本。

[0191] 模型训练完成之后，对于未知的输入数据，利用输入数据抽取出来的特征，然后在已经训练好的权重上计算输出节点的概率(所有输出节点的概率值想加等于1)，这个概率就是对应的这组未知输入数据在这个类别上的概率(可以理解为这个输入数据与这个类别相似的程度)。

[0192] 在本申请实施例中，在判断某一帧连续语音信号是否是语音还是非语音时。首先利用预先准备好的大量语音信号以及非语音信号，训练一个神经网络模型。这个模型输出节点只有两个，分别是语音和非语音。对于每一帧连续语音信号，这个模型会计算出来两个节点的输出概率。

[0193] 最后根据与语音信号相似的概率以及与非语音信号相似的概率判断每一帧连续语音信号是否为语音。例如，如果与语音信号相似的概率比非语音信号相似的概率高，则认为当前帧是语音信号；否则认为是非语音信号。又例如，如果与语音信号相似的概率大于预设阈值，则认为是语音信号；否则认为是非语音信号。

[0194] 连续语音信号是流式输入的，对于每一帧都需要计算节点的输出概率，语音输入完成，就可以知道每一帧连续语音信号是语音还是非语音。

[0195] 在实际中，可以根据实验结果决定选择什么样的神经网络模型。例如，全连接网络模型(也可以称之为深度置信网络模型)，或递归神经网络。

[0196] 步骤305，根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号。

[0197] 在本申请实施例中，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号。

[0198] 在一种示例中，所述步骤305可以为：若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0199] 也就是说，当同时满足判断当前帧的连续语音信号为语音信号，以及相应的指向性标志信号为表示当前帧的时间具有语音信号时，才将当前帧的连续语音信号设置为语音信号。

[0200] 比如，某一段时长4s的连续的连续语音信号，1s-2s，3s-4s都被判断语音信号，其它时间都是非语音信号。而指向性标志信号只有3s-4s时间段表示具有语音信号，那么只会将3s-4s的连续语音信号设置为语音信号。

[0201] 在另一种示例中，所述步骤305可以为：若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0202] 也就是说，只要满足判断当前帧的连续语音信号为语音信号，或相应的指向性标志信号为表示当前帧的时间具有语音信号时，就将当前帧的连续语音信号设置为语音信号。

[0203] 步骤306，确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0204] 例如，如果在连续的0.5s的各帧连续语音信号都是被设置为非语音信号，则这0.5s内的连续语音信号就是非语音片段。

[0205] 步骤307，将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号；

[0206] 例如，如果第一预设阈值为0.6s，非语音片段的时长为0.5s，则将该非语音片段中的每一帧连续语音信号都设置为语音信号。第一预设阈值可以根据实际情况进行调整。

[0207] 其中，步骤306和步骤307为一种平滑处理方式，用于将时长较短的非语音片段设置为语音。其目的是将人说话时的比较小的停顿忽略，作为语音信号来处理。在本申请实施例中，步骤306和步骤307为非必须的步骤。

[0208] 步骤308，将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0209] 将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0210] 语音激活检测信号作为最终确定的针对声源方向的音频信号。可以对语音激活检测信号进行语音识别，最后根据识别结果进行相应的操作。例如，播放音乐，接听电话等。

[0211] 为了使本领域技术人员能够更好地理解本申请实施例，下面通过一个例子对本申请实施例加以说明：

[0212] 参照图6所示，为本申请实施例中识别主驾驶位和副驾驶位的语音的示意图。

[0213] 前端算法模块接收车机输入语音信号。车机输入语音信号包括两个麦克风采集的四路信号，分别为第一麦克风采集到的来自主驾驶位的连续语音信号和车载设备播放的音频信号，第二麦克风采集到的来自副驾驶位的连续语音信号和车载设备播放的音频信号。

[0214] 前端算法模块对四路信号进行信号处理，同时分离出针对主驾驶位的主驾连续语音信号以及指向性标志信号，以及针对副驾驶位的副驾连续语音信号以及指向性标志信号。

[0215] 针对主驾驶位的指向性标志信号表示的是该时间点主驾驶位的方向是否有语音，该标志信号只有0和1两个值，0表示该时间点主驾驶位不具有语音，1表示该时间点主驾驶位具有语音。

[0216] 针对副驾驶位的指向性标志信号表示的是该时间点副驾驶位的方向是否有语音，该标志信号只有0和1两个值，0表示该时间点副驾驶位不具有语音，1表示该时间点副驾驶位具有语音。

[0217] 然后由神经网络语音激活检测与指向性标志信号组合模块，通过神经网络模型判断连续语音信号的某一帧是否是语音。然后将判断结果与该时间点的指向性标志信号进行“与”运算，

[0218] 也就是说，只有神经网络模型判断是语音，同时该时间点指向性信号是1的时候，才会判断这一帧信号是语音。否则都会认为这一帧是非语音。逐帧判断完成之后。然后该模块会做一个平滑处理，将中间时间较短(时长小于预先设置的阈值，比如0.5s)的非语音片段强制设置成语音。

[0219] 该模块最后输出主驾驶位方向上的语音激活检测信号和副驾驶位方向上的语音激活检测信号。比如，某一段时长4s的连续输入信号，1s到2s，3s到4s都是语音片段，其它时间都是静音，而指向性信号只有3s到4s时间段是1，那么经过这个模块处理之后，会直接输出3s到4s的信号作为语音激活检测的结果。

[0220] 参照图7，示出了本申请的一种语音信号识别方法实施例4的步骤流程图，具体可以包括如下步骤：

[0221] 步骤401，获取车内的空间音频信号；

[0222] 在申请实施例中，车载终端可以通过设置在车内的麦克风阵列采集车辆内部的空间音频信号，由车载终端对车内的空间音频信号进行语音信号识别。

[0223] 步骤402，根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0224] 车载终端可以从空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号。

[0225] 在本申请实施例中，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述步骤402可以包括如下子步骤：

[0226] 子步骤S21，根据所述多路原始音频信号，估计信号到达方向；

[0227] 子步骤S22，根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0228] 子步骤S23，对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0229] 在本申请实施例中，所述子步骤S23可以包括：

[0230] 确定所述多路原始音频信号中两两信号之间的时延差；根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0231] 步骤403，针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0232] 车载终端可以将连续语音信号以及相应的指向性标志信号进行组合，生成针对相应声源方向的语音激活检测信号。

[0233] 在本申请实施例中，所述步骤403可以包括如下子步骤：

[0234] 子步骤S31，确定每一帧连续语音信号对应的指向性标志信号；

[0235] 在本申请实施例中，在所述子步骤S31之前还可以包括：

[0236] 确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0237] 子步骤S32，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0238] 在本申请实施例中，所述子步骤S32可以进一步包括：

[0239] 将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0240] 子步骤S33，根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号。

[0241] 所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；

[0242] 在本申请实施例中的一种示例中，所述子步骤S33可以包括：若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0243] 在本申请实施例中的另一种示例中，所述子步骤S33可以包括：

[0244] 若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0245] 子步骤S34，确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0246] 子步骤S35，将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号；

[0247] 子步骤S36，将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0248] 参照图8，示出了本申请的一种语音信号识别方法实施例5的步骤流程图，具体可以包括如下步骤：

[0249] 步骤501，接收车载终端发送的车内的空间音频信号；

[0250] 在本申请实施例中，在车辆内部设置有音频采集设备(例如麦克风)来采集车辆内部的空间音频信号。

[0251] 车载终端与云服务器通信，车载终端将车内的空间音频信号发送至云服务器，由云服务器进行语音信号识别。

[0252] 步骤502，根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0253] 云服务器从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号。

[0254] 在本申请实施例中，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述步骤502可以包括如下子步骤：

[0255] 子步骤S41，根据所述多路原始音频信号，估计信号到达方向；

[0256] 子步骤S42，根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0257] 子步骤S43，对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0258] 在本申请实施例中，所述子步骤S43可以包括：

[0259] 确定所述多路原始音频信号中两两信号之间的时延差；根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0260] 步骤503，针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号；

[0261] 云服务器根据连续语音信号以及相应的指向性标志信号，生成针对相应声源方向的语音激活检测信号。

[0262] 在本申请实施例中，所述步骤503可以包括如下子步骤：

[0263] 子步骤S51，确定每一帧连续语音信号对应的指向性标志信号；

[0264] 在本申请实施例中，在所述子步骤S51之前还可以包括：

[0265] 确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0266] 子步骤S52，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0267] 在本申请实施例中，所述子步骤S52可以进一步包括：

[0268] 将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0269] 子步骤S53，根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号。

[0270] 所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；

[0271] 在本申请实施例中的一种示例中，所述子步骤S53可以包括：若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0272] 在本申请实施例中的另一种示例中，所述子步骤S53可以包括：

[0273] 若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0274] 子步骤S54，确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0275] 子步骤S55，将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号；

[0276] 子步骤S56，将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0277] 步骤504，将所述针对该声源方向的语音激活检测信号发送至所述车载终端。

[0278] 云服务器将识别得到的针对相应声源方向的语音激活检测信号，发送至车载终端。车载终端可以根据语音激活检测信号进行语音识别，最后根据识别结果进行相应的操作。例如，播放音乐，接听电话等。

[0279] 为了使本领域技术人员能够更好地理解本申请实施例，下面通过一个例子对本申请实施例加以说明：

[0280] 参照图9所示，为本申请实施例中通过云服务器识别车内语音的示意图。

[0281] 车辆中设置有第一麦克风701，第二麦克风702，第三麦克风703，第四麦克风704，第五麦克风705，第六麦克风706。

[0282] 第一喇叭711，第二喇叭712，第三喇叭713，第四喇叭714，第五喇叭715，第六喇叭716。

[0283] 车辆中具有第一乘客721，第二乘客722，第三乘客723，第四乘客724，第五乘客725，第六乘客736。

[0284] 第一麦克风701用于采集第一喇叭711播放的音频和第一乘客721的语音；第二麦克风702用于采集第二喇叭712播放的音频和第二乘客722的语音；第三麦克风703用于采集第三喇叭713播放的音频和第三乘客723的语音；第四麦克风704用于采集第四喇叭714播放的音频和第四乘客724的语音；第五麦克风705用于采集第五喇叭715播放的音频和第五乘客725的语音；第六麦克风706用于采集第六喇叭716播放的音频和第六乘客726的语音。

[0285] 各个麦克风采集的音频可以通过网络730上传到云服务器740。

[0286] 云服务器740可以从各个麦克风采集的乘客的语音和喇叭播放的音频中，分离出来自各个乘客的连续语音信号以及相应的指向性标志信号，并根据各个乘客的连续语音信号以及相应的指向性标志信号，生成针对相应乘客的语音激活检测信号。

[0287] 参照图10，示出了本申请的一种语音信号识别方法实施例6的步骤流程图，具体可以包括如下步骤：

[0288] 步骤801，获取会议室的空间音频信号；

[0289] 在申请实施例中，可以在会议室的每个座位上设置麦克风，由麦克风采集会议室内部的空间音频信号，然后由会议室的识别终端对会议室内的空间音频信号进行语音信号识别。

[0290] 步骤802，根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0291] 会议室的识别终端可以从空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号。

[0292] 在本申请实施例中，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述步骤802可以包括如下子步骤：

[0293] 子步骤S61，根据所述多路原始音频信号，估计信号到达方向；

[0294] 子步骤S62，根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0295] 子步骤S63，对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0296] 在本申请实施例中，所述子步骤S63可以包括：

[0297] 确定所述多路原始音频信号中两两信号之间的时延差；根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0298] 步骤803，针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0299] 会议室的识别终端可以将连续语音信号以及相应的指向性标志信号进行组合，生成针对相应声源方向的语音激活检测信号。

[0300] 在本申请实施例中，所述步骤803可以包括如下子步骤：

[0301] 子步骤S71，确定每一帧连续语音信号对应的指向性标志信号；

[0302] 在本申请实施例中，在所述子步骤S71之前还可以包括：

[0303] 确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0304] 子步骤S72，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0305] 在本申请实施例中，所述子步骤S72可以进一步包括：

[0306] 将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0307] 子步骤S73，根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号。

[0308] 所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；

[0309] 在本申请实施例中的一种示例中，所述子步骤S73可以包括：若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0310] 在本申请实施例中的另一种示例中，所述子步骤S73可以包括：

[0311] 若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0312] 子步骤S74，确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0313] 子步骤S75，将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号；

[0314] 子步骤S76，将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0315] 需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

[0316] 参照图11，示出了本申请的一种语音信号识别装置实施例1的结构框图，具体可以包括如下模块：

[0317] 空间音频信号获取模块1001，用于获取指定空间内的空间音频信号；

[0318] 第一信号生成模块1002，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0319] 第二信号生成模块1003，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0320] 在本申请实施例中，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述第一信号生成模块1002可以包括：

[0321] 信号到达方向估计子模块，用于根据所述多路原始音频信号，估计信号到达方向；

[0322] 指向性标志信号生成子模块，用于根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0323] 连续语音信号生成子模块，用于对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0324] 在本申请实施例中，所述连续语音信号生成子模块包括：

[0325] 时延差确定单元，用于确定所述多路原始音频信号中两两信号之间的时延差；

[0326] 时延补偿单元，用于根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

[0327] 加权求和单元，用于对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0328] 在本申请实施例中，所述第二信号生成模块1003可以包括：

[0329] 指向性标志信号确定子模块，用于确定每一帧连续语音信号对应的指向性标志信号；

[0330] 语音信号判断子模块，用于逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0331] 语音信号设置子模块，用于根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

[0332] 语音激活检测信号确定子模块，用于将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0333] 在本申请实施例中，所述的装置还可以包括：

[0334] 非语音片段时长确定模块，用于语音信号设置子模块根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0335] 语音信号设置模块，用于将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

[0336] 在本申请实施例的一种示例中，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述语音信号设置子模块可以包括：

[0337] 第一语音信号设置单元，用于若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0338] 在本申请实施例的另一种示例中，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述语音信号设置子模块可以包括：

[0339] 第二语音信号设置单元，用于若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0340] 在本申请实施例中，所述语音信号判断子模块可以包括：

[0341] 语音信号判断单元，用于将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0342] 在本申请实施例中，所述装置还可以包括：

[0343] 非语音指示片段时长确定模块，用于在所述指向性标志信号确定子模块确定每一帧连续语音信号对应的指向性标志信号之前，确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

[0344] 指向性标志信号设置模块，用于将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0345] 参照图12，示出了本申请的一种语音信号识别装置实施例2的结构框图，具体可以包括如下模块：

[0346] 空间音频信号获取模块1101，用于获取车内的空间音频信号；

[0347] 第一信号生成模块1102，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0348] 第二信号生成模块1103，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号。

[0349] 在本申请实施例中，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述第一信号生成模块1102可以包括：

[0350] 信号到达方向估计子模块，用于根据所述多路原始音频信号，估计信号到达方向；

[0351] 指向性标志信号生成子模块，用于根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0352] 连续语音信号生成子模块，用于对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0353] 在本申请实施例中，所述连续语音信号生成子模块可以包括：

[0354] 时延差确定单元，用于确定所述多路原始音频信号中两两信号之间的时延差；

[0355] 时延补偿单元，用于根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

[0356] 加权求和单元，用于对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0357] 在本申请实施例中，所述第二信号生成模块1103可以包括：

[0358] 指向性标志信号确定子模块，用于确定每一帧连续语音信号对应的指向性标志信号；

[0359] 语音信号判断子模块，用于逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0360] 语音信号设置子模块，用于根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

[0361] 语音激活检测信号确定子模块，用于将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0362] 在本申请实施例中，所述的装置还可以包括：

[0363] 非语音片段时长确定模块，用于语音信号设置子模块根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0364] 语音信号设置模块，用于将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

[0365] 在本申请实施例的一种示例中，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述语音信号设置子模块可以包括：

[0366] 第一语音信号设置单元，用于若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0367] 在本申请实施例的另一种示例中，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述语音信号设置子模块可以包括：

[0368] 第二语音信号设置单元，用于若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0369] 在本申请实施例中，所述语音信号判断子模块可以包括：

[0370] 语音信号判断单元，用于将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0371] 在本申请实施例中，所述的装置还可以包括：

[0372] 非语音指示片段时长确定模块，用于在所述指向性标志信号确定子模块确定每一帧连续语音信号对应的指向性标志信号之前，确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

[0373] 指向性标志信号设置模块，用于将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0374] 参照图13，示出了本申请的一种语音信号识别装置实施例3的结构框图，具体可以包括如下模块：

[0375] 空间音频信号接收模块1201，用于接收车载终端发送的车内的空间音频信号；

[0376] 第一信号生成模块1202，用于根据所述空间音频信号，从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号；

[0377] 第二信号生成模块1203，用于针对多个声源方向中的一个声源方向，将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合，生成针对该声源方向的语音激活检测信号；

[0378] 语音激活检测信号发送模块1204，用于将所述该相应声源方向的语音激活检测信号发送至所述车载终端。

[0379] 在本申请实施例中，所述空间音频信号包括：多个麦克风采集的多路原始音频信号；所述第一信号生成模块1202可以包括：

[0380] 信号到达方向估计子模块，用于根据所述多路原始音频信号，估计信号到达方向；

[0381] 指向性标志信号生成子模块，用于根据所述信号到达方向以及预设声源方向，生成针对预设声源方向的指向性标志信号；

[0382] 连续语音信号生成子模块，用于对所述多路原始音频信号进行波束形成处理，生成针对声源方向的连续语音信号。

[0383] 在本申请实施例中，所述连续语音信号生成子模块可以包括：

[0384] 时延差确定单元，用于确定所述多路原始音频信号中两两信号之间的时延差；

[0385] 时延补偿单元，用于根据所述两两信号之间的时延差，对所述多路原始音频信号进行时延补偿；

[0386] 加权求和单元，用于对时延补偿后的所述多路原始音频信号进行加权求和，生成针对声源方向的连续语音信号。

[0387] 在本申请实施例中，所述第二信号生成模块1203包括：

[0388] 指向性标志信号确定子模块，用于确定每一帧连续语音信号对应的指向性标志信号；

[0389] 语音信号判断子模块，用于逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号；

[0390] 语音信号设置子模块，用于根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号；

[0391] 语音激活检测信号确定子模块，用于将每一帧连续语音信号中被设置为语音信号的信号，确定为语音激活检测信号。

[0392] 在本申请实施例中，所述装置还可以包括：

[0393] 非语音片段时长确定模块，用于语音信号设置子模块根据对每一帧连续语音信号的判断结果，以及对应的指向性标志信号，设置每一帧连续语音信号为语音信号或非语音信号之后，确定非语音片段的时长，所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段；

[0394] 语音信号设置模块，用于将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号，设置为语音信号。

[0395] 在本申请实施例的一种示例中，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述语音信号设置子模块可以包括：

[0396] 第一语音信号设置单元，用于若对当前帧的连续语音信号的判断结果为语音信号，并且，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0397] 在本申请实施例的另一种示例中，所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号；所述语音信号设置子模块可以包括：

[0398] 第二语音信号设置单元，用于若对当前帧的连续语音信号的判断结果为语音信号，或，相应的指向性标志信号为表示当前帧的时间具有语音信号，则设置当前帧的连续语音信号为语音信号。

[0399] 在本申请实施例中，所述语音信号判断子模块可以包括：

[0400] 语音信号判断单元，用于将所述连续语音信号输入预置的神经网络模型，逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。

[0401] 在本申请实施例中，所述的装置还可以包括：

[0402] 非语音指示片段时长确定模块，用于在所述指向性标志信号确定子模块确定每一帧连续语音信号对应的指向性标志信号之前，确定非语音指示片段的时长，所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成；

[0403] 指向性标志信号设置模块，用于将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号，设置为表示当前帧的时间具有语音信号。

[0404] 对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0405] 本申请实施例还提供了一种装置，包括：

[0406] 一个或多个处理器；和

[0407] 其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行本申请实施例所述的方法。

[0408] 本申请实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行本申请实施例所述的方法。

[0409] 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0410] 本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0411] 本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0412] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0413] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0414] 尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

[0415] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0416] 以上对本申请所提供的一种语音信号识别方法和一种语音信号识别装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

标题	发布/更新时间	阅读量
指向性显示器-专利编号CN101303456B	2020-05-13	825
一种指向性号筒-专利编号CN108668195A	2020-05-12	413
双频指向性天线-专利编号CN101752654B	2020-05-13	760
指向性麦克风-专利编号CN110868669A	2020-05-11	440
高指向性天线-专利编号CN110783694A	2020-05-12	854
指向性天线-专利编号CN103779652B	2020-05-11	562
指向性MEMSMIC-专利编号CN105491493A	2020-05-11	219
指向性天线-专利编号CN103779652A	2020-05-11	1020
指向性可变天线-专利编号CN101341630B	2020-05-12	486
指向性录音模组-专利编号CN107302734A	2020-05-13	525

一种语音信号识别方法和装置

一种语音信号识别方法和装置

技术领域

背景技术

发明内容

附图说明

具体实施方式

IPRDB

热门服务

关于我们

友情链接

联系方式