一种语音识别处理方法及装置转让专利

申请号 : CN201610200392.5

文献号 : CN107293294B

文献日 : 2019-07-16

本发明实施例公开了一种语音识别处理方法及装置，其中方法包括：获取当前时刻的目标语音内容，并获取预先存储的基于所述当前时刻的至少一个历史语音内容；所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；识别所述目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。采用本发明，可提高对用户的声音内容的识别准确度。

1.一种语音识别处理方法，其特征在于，包括：

获取当前时刻的目标语音内容，并获取至少一个历史语音内容；所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；

对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型；

在预设的场景关系链表中查找与至少一个所述历史车载场景类型对应的历史关系链；

所述历史关系链包括至少一个所述历史车载场景类型之间的映射关系；

在所述场景关系链表中获取与所述历史关系链的末端相连接的至少一个候选车载场景类型；所述至少一个候选车载场景类型均与所述历史关系链的末端的历史车载场景类型具有映射关系；

当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

2.如权利要求1所述的方法，其特征在于，所述获取至少一个历史语音内容，包括：获取预先存储的基于所述当前时刻的至少一个历史语音内容；其中，当存在多个历史语音内容时，所述多个历史语音内容中每相邻时刻的两个历史语音内容所对应的历史车载场景类型之间具有映射关系。

3.如权利要求1所述的方法，其特征在于，所述当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作，包括：当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容；

生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

4.如权利要求1所述的方法，其特征在于，还包括：

在预设的多个车载场景类型之间设置多个不同的映射关系，以形成多条不同的关系链，并将所有关系链存储于场景关系链表中；

其中，每个所述关系链均由至少一个车载场景类型之间的映射关系构成。

5.如权利要求1所述的方法，其特征在于，还包括：

当所述至少一个候选车载场景类型中不包含所述目标车载场景类型时，删除所述至少一个历史语音内容，并生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

6.一种语音识别处理装置，其特征在于，包括：

内容获取模块，用于获取当前时刻的目标语音内容，并获取至少一个历史语音内容；所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；

类型识别获取模块，用于识别所述目标语音内容对应的目标车载场景类型，并获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；

生成执行模块，用于当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作；

其中，所述类型识别获取模块包括：

识别确定单元，用于对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型；

查找单元，用于在预设的场景关系链表中查找与至少一个所述历史车载场景类型对应的历史关系链；所述历史关系链包括至少一个所述历史车载场景类型之间的映射关系；

获取单元，用于在所述场景关系链表中获取与所述历史关系链的末端相连接的至少一个候选车载场景类型；所述至少一个候选车载场景类型均与所述历史关系链的末端的历史车载场景类型具有映射关系。

7.如权利要求6所述的装置，其特征在于，

所述内容获取模块，具体用于获取当前时刻的目标语音内容，获取预先存储的基于所述当前时刻的至少一个历史语音内容；其中，当存在多个历史语音内容时，所述多个历史语音内容中每相邻时刻的两个历史语音内容所对应的历史车载场景类型之间具有映射关系。

8.如权利要求6所述的装置，其特征在于，所述生成执行模块包括：分析单元，用于当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容；

生成执行单元，用于生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

9.如权利要求6所述的装置，其特征在于，还包括：

设置存储模块，用于在预设的多个车载场景类型之间设置多个不同的映射关系，以形成多条不同的关系链，并将所有关系链存储于场景关系链表中；

其中，每个所述关系链均由至少一个车载场景类型之间的映射关系构成。

10.如权利要求6所述的装置，其特征在于，

所述生成执行模块，还用于当所述至少一个候选车载场景类型中不包含所述目标车载场景类型时，删除所述至少一个历史语音内容，并生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

一种语音识别处理方法及装置

技术领域

[0001] 本发明涉及车载技术领域，尤其涉及一种语音识别处理方法及装置。

背景技术

[0002] 随着车载智能系统的发展，如今大多数的车载智能系统都可以实现如DVD(Digital Versatile Disc，数字通用光盘)播放、音乐播放、收音、导航、SD(Secure Digital Memory Card，安全数字存储卡)卡读取、USB(Universal Serial Bus，通用串行总线)读取、倒车后视、蓝牙连接、Wi-Fi(WIreless-Fidelity，无线网)连接、2G/3G(second generation/3rd-Generation，第二代移动通讯技术/第三代移动通讯技术)无线上网等功能，目前的车载智能系统可以给到用户许多便捷的服务。

[0003] 为了进一步方便用户对车载系统的控制，还可以在车载系统中设置声控系统，例如，通过用户声音控制车辆启动或熄火。但现有的车载声控系统都是只能基于用户当前的声音内容进行识别控制，即现有的车载声控系统是无法根据多方面因素进行识别的，从而降低了对用户的声音内容的识别准确度。

发明内容

[0004] 本发明实施例提供一种语音识别处理方法及装置，可提高对用户的声音内容的识别准确度。

[0005] 本发明第一方面提供了一种语音识别处理方法，包括：

[0006] 获取当前时刻的目标语音内容，并获取预先存储的基于所述当前时刻的至少一个历史语音内容；所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；

[0007] 识别所述目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；

[0008] 当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

[0009] 本发明第二方面提供了一种语音识别处理装置，包括：

[0010] 内容获取模块，用于获取当前时刻的目标语音内容，并获取预先存储的基于所述当前时刻的至少一个历史语音内容；所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；

[0011] 类型识别获取模块，用于识别所述目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；

[0012] 生成执行模块，用于当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

[0013] 本发明实施例通过获取当前时刻的目标语音内容，并获取预先存储的基于当前时刻的至少一个历史语音内容，其中，至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；再识别目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个历史车载场景类型具有映射关系的至少一个候选车载场景类型，并当至少一个候选车载场景类型中包含目标车载场景类型时，根据至少一个历史语音内容生成目标语音内容对应的业务执行指令，并根据业务执行指令执行对应业务操作，由此可见，本发明实施例不仅仅可以对当前的目标语音内容进行识别，还可以结合至少一个历史语音内容对目标语音内容进行分析，从而可以提高对用户的声音内容的识别准确度。

附图说明

[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0015] 图1是本发明实施例提供的一种语音识别处理方法的流程示意图；

[0016] 图2是本发明实施例提供的另一种语音识别处理方法的流程示意图；

[0017] 图3是本发明实施例提供的一种语音识别处理装置的结构示意图；

[0018] 图4是本发明实施例提供的一种类型识别获取模块的结构示意图；

[0019] 图5是本发明实施例提供的一种生成执行模块的结构示意图；

[0020] 图6是本发明实施例提供的另一种语音识别处理装置的结构示意图。

具体实施方式

[0021] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0022] 请参见图1，是本发明实施例提供的一种语音识别处理方法的流程示意图，所述方法可以包括：

[0023] S101，获取当前时刻的目标语音内容，并获取预先存储的基于所述当前时刻的至少一个历史语音内容；

[0024] 具体的，车载系统中的语音识别处理装置可以通过麦克风等收音器获取当前时刻的目标语音内容，此时，所述语音识别处理装置还可以进一步获取预先存储的基于所述当前时刻的至少一个历史语音内容；其中，所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系，即所述至少一个历史语音内容中每相邻时刻的两个历史语音内容所对应的历史车载场景类型之间具有映射关系。例如，若已存储有3个时间相邻的历史语音内容A、B、C(获取到A的历史时刻<获取到B的历史时刻<获取到C的历史时刻，C为基于所述当前时刻的上一时刻的语音内容)，且A对应的历史车载场景类型与B对应的历史车载场景类型之间具有映射关系，同时B对应的历史车载场景类型与C对应的历史车载场景类型之间具有映射关系，则所述语音识别处理装置可以获取历史语音内容A、B、C，并将历史语音内容A、B、C作为基于所述当前时刻的至少一个历史语音内容。

[0025] 其中，各种所述映射关系是在预设的多个车载场景类型之间预先设置的，所述语音识别处理装置可以根据预先设置的各种所述映射关系形成多条不同的关系链，并将所有关系链存储于场景关系链表中；其中，每个所述关系链均由至少一个车载场景类型之间的映射关系构成。两个车载场景类型之间的映射关系可以表示这两个车载场景类型对应的语音内容之间具备关联性。例如，若预设的多个车载场景类型包括音乐、社交、导航、视频等等，则可以设置音乐与社交之间有映射关系，音乐与音乐之间有映射关系，导航与社交之间有映射关系等等，并根据这些映射关系形成多条不同的关系链，如可以形成关系链：音乐-音乐-社交-导航。因此，通过查找所述场景关系链表即可知道所述至少一个历史语音内容分别对应的历史车载场景类型之间是否具有映射关系。

[0026] S102，识别所述目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；

[0027] 具体的，所述语音识别处理装置可以进一步识别所述目标语音内容对应的目标车载场景类型，识别目标车载场景类型的具体过程可以为：对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型。例如，若所述目标语音内容为“收听XX的歌”，则在语音识别后可以获取到对应的场景关键词“收听”和“歌”，根据“收听”和“歌”可以确定所述目标语音内容对应的目标车载场景类型为音乐。其中，每种车载场景类型都对应有多个预设的场景关键词，因此，通过匹配所述场景关键词即可确定出其对应的车载场景类型。

[0028] 所述语音识别处理装置还可以进一步从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；例如，若至少一个所述历史车载场景类型为：音乐-音乐(即两个历史语音内容对应的历史车载场景类型均为音乐，且音乐和音乐之间具有映射关系)，且在所述场景关系链表中存在多种映射关系分别为：音乐-音乐-音乐、音乐-音乐-社交、音乐-音乐-视频，则可以从所述场景关系链表中获取到与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型包括音乐、社交、视频。

[0029] S103，当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作；

[0030] 具体的，当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，说明所述目标车载场景类型与至少一个所述历史车载场景类型具有映射关系，即所述目标语音内容与所述至少一个历史语音内容之间具有关联性，此时，所述语音识别处理装置可以将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容，并生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。例如，若有一个历史语音内容为“收听歌曲XX”，当前的所述目标语音内容为“分享给A朋友”，则所述语音识别处理装置可以将所述历史语音内容与所述目标语音内容进行结合分析，得到合并语音内容为“将歌曲XX分享给A朋友”，并生成所述合并语音内容对应的业务执行指令，所述业务执行指令为基于社交应用的音频数据发送指令，并根据所述业务执行指令执行对应业务操作，即通过调用社交应用以将歌曲XX分享给社交应用中的A朋友。由此可见，通过结合所述至少一个历史语音内容对所述目标语音内容进行分析，可以更加准确的识别出用户的真正意图，避免车载声控系统仅对所述目标语音内容“分享给A朋友”进行识别和分析而导致识别错误。在执行对应的业务操作后，所述语音识别处理装置还可以进一步将所述目标语音内容作为新的历史语音内容，以便于在下一刻进行语音识别和分析时可以一并结合分析该新的历史语音内容，以保证语音识别的准确性。

[0031] 本发明实施例通过获取当前时刻的目标语音内容，并获取预先存储的基于当前时刻的至少一个历史语音内容，其中，至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；再识别目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个历史车载场景类型具有映射关系的至少一个候选车载场景类型，并当至少一个候选车载场景类型中包含目标车载场景类型时，根据至少一个历史语音内容生成目标语音内容对应的业务执行指令，并根据业务执行指令执行对应业务操作，由此可见，本发明实施例不仅仅可以对当前的目标语音内容进行识别，还可以结合至少一个历史语音内容对目标语音内容进行分析，从而可以提高对用户的声音内容的识别准确度。

[0032] 请参见图2，是本发明实施例提供的另一种语音识别处理方法的流程示意图，所述方法可以包括：

[0033] S201，在预设的多个车载场景类型之间设置多个不同的映射关系，以形成多条不同的关系链，并将所有关系链存储于场景关系链表中；

[0034] 具体的，车载系统中的语音识别处理装置可以在预设的多个车载场景类型之间设置多个不同的映射关系，以形成多条不同的关系链，并将所有关系链存储于场景关系链表中；其中，每个所述关系链均由至少一个车载场景类型之间的映射关系构成。两个车载场景类型之间的映射关系可以表示这两个车载场景类型对应的语音内容之间具备关联性。例如，若预设的多个车载场景类型包括音乐、社交、导航、视频等等，则可以设置音乐与社交之间有映射关系，音乐与音乐之间有映射关系，导航与社交之间有映射关系等等，并根据这些映射关系形成多条不同的关系链，如可以形成关系链：音乐-社交-导航，该关系链表示音乐与社交之间有映射关系，同时社交与导航之间有映射关系。

[0035] S202，获取当前时刻的目标语音内容，并获取预先存储的基于所述当前时刻的至少一个历史语音内容；

[0036] 具体的，所述语音识别处理装置可以通过麦克风等收音器获取当前时刻的目标语音内容，此时，所述语音识别处理装置还可以进一步获取预先存储的基于所述当前时刻的至少一个历史语音内容；其中，所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系，即所述至少一个历史语音内容中每相邻时刻的两个历史语音内容所对应的历史车载场景类型之间具有映射关系。例如，若已存储有3个时间相邻的历史语音内容A、B、C(获取到A的历史时刻<获取到B的历史时刻<获取到C的历史时刻，C为基于所述当前时刻的上一时刻的语音内容)，且A对应的历史车载场景类型与B对应的历史车载场景类型之间具有映射关系，同时B对应的历史车载场景类型与C对应的历史车载场景类型之间具有映射关系，则所述语音识别处理装置可以获取历史语音内容A、B、C，并将历史语音内容A、B、C作为基于所述当前时刻的至少一个历史语音内容。

[0037] S203，对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型；

[0038] 具体的，所述语音识别处理装置可以对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型。例如，若所述目标语音内容为“收听XX的歌”，则在语音识别后可以获取到对应的场景关键词“收听”和“歌”，根据“收听”和“歌”可以确定所述目标语音内容对应的目标车载场景类型为音乐。其中，每种车载场景类型都对应有多个预设的场景关键词，因此，通过匹配所述场景关键词即可确定出其对应的车载场景类型，如可以预设为音乐的车载场景类型所对应的场景关键词包括“收听”、“歌”、“歌手”等等。

[0039] S204，在预设的场景关系链表中查找与至少一个所述历史车载场景类型对应的历史关系链；

[0040] 具体的，所述语音识别处理装置进一步在预设的场景关系链表中查找与至少一个所述历史车载场景类型对应的历史关系链，所述历史关系链是指至少一个所述历史车载场景类型之间具有一定顺序的映射关系链。例如，至少一个所述历史车载场景类型包括音乐、社交、导航，其中，识别出音乐的时刻<识别出社交的时刻<识别出导航的时刻，则所述语音识别处理装置可以在所述场景关系链表中获取到对应的历史关系链为：音乐-社交-导航，即音乐与社交具有映射关系，同时社交与导航具有映射关系。

[0041] S205，在所述场景关系链表中获取与所述历史关系链的末端相连接的至少一个候选车载场景类型；

[0042] 具体的，所述语音识别处理装置还可以进一步在所述场景关系链表中获取与所述历史关系链的末端相连接的至少一个候选车载场景类型，所述至少一个候选车载场景类型均与所述历史关系链的末端的历史车载场景类型具有映射关系。例如，若所述历史关系链为：音乐-音乐(即两个历史语音内容对应的历史车载场景类型均为音乐，且音乐和音乐之间具有映射关系)，且在所述场景关系链表中存在多种关系链分别为：音乐-音乐-音乐、音乐-音乐-社交、音乐-音乐-视频，则可以从所述场景关系链表中获取与所述历史关系链的末端的历史车载场景类型相连接的至少一个候选车载场景类型包括音乐、社交、视频。

[0043] S206，当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容；

[0044] 具体的，当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，说明所述目标车载场景类型与至少一个所述历史车载场景类型具有映射关系，即所述目标语音内容与所述至少一个历史语音内容之间具有关联性，此时，所述语音识别处理装置可以将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容。例如，若有一个历史语音内容为“收听歌曲XX”，当前的所述目标语音内容为“分享给A朋友”，则所述语音识别处理装置可以将所述历史语音内容与所述目标语音内容进行结合分析，得到合并语音内容为“将歌曲XX分享给A朋友”。

[0045] S207，生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作；

[0046] 具体的，得到所述合并语音内容后，所述语音识别处理装置可以生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。例如，若有一个历史语音内容为“收听歌曲XX”，当前的所述目标语音内容为“分享给A朋友”，则所述语音识别处理装置可以将所述历史语音内容与所述目标语音内容进行结合分析，得到合并语音内容为“将歌曲XX分享给A朋友”，并生成所述合并语音内容对应的业务执行指令，所述业务执行指令为基于社交应用的音频数据发送指令，并根据所述业务执行指令执行对应业务操作，即通过调用社交应用以将歌曲XX分享给社交应用中的A朋友。由此可见，通过结合所述至少一个历史语音内容对所述目标语音内容进行分析，可以更加准确的识别出用户的真正意图，避免车载声控系统仅对所述目标语音内容“分享给A朋友”进行识别和分析而导致识别错误。在执行对应的业务操作后，所述语音识别处理装置还可以进一步将所述目标语音内容作为新的历史语音内容，以便于在下一刻进行语音识别和分析时可以一并结合分析该新的历史语音内容，以保证语音识别的准确性。

[0047] 可选的，当所述至少一个候选车载场景类型中不包含所述目标车载场景类型时，所述语音识别处理装置可以删除所述至少一个历史语音内容，并生成所述目标语音信息对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。例如，若所述历史关系链为：音乐-音乐(即两个历史语音内容对应的历史车载场景类型均为音乐，且音乐和音乐之间具有映射关系)，且在所述场景关系链表中存在多种关系链分别为：音乐-音乐-音乐、音乐-音乐-社交、音乐-音乐-视频，则可以从所述场景关系链表中获取与所述历史关系链的末端的历史车载场景类型相连接的至少一个候选车载场景类型包括音乐、社交、视频，而当前的所述目标语音内容对应的目标车载场景类型为导航，则说明所述至少一个候选车载场景类型中不包含所述目标车载场景类型，此时，可以将两个历史语音内容删除，并仅根据所述目标语音内容执行对应的导航业务操作，并且所述语音识别处理装置也可以进一步将所述目标语音内容作为新的历史语音内容。又例如，存有一个历史语音内容为“收听XX歌曲”，而当前的目标语音内容为“导航到地点A”，其中，历史语音内容对应的历史车载场景类型为音乐，且与音乐相连接的至少一个候选车载场景类型包括音乐、社交、视频，而目标语音内容对应的目标车载场景类型为导航，说明所述至少一个候选车载场景类型中不包含所述目标车载场景类型，此时，可以删除历史语音内容为“收听XX歌曲”，并仅对所述目标语音内容为“导航到地点A”进行识别和分析，以调用车载导航应用并对地点A进行导航操作。

[0048] 本发明实施例通过获取当前时刻的目标语音内容，并获取预先存储的基于当前时刻的至少一个历史语音内容，其中，至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；再识别目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个历史车载场景类型具有映射关系的至少一个候选车载场景类型，并当至少一个候选车载场景类型中包含目标车载场景类型时，根据至少一个历史语音内容生成目标语音内容对应的业务执行指令，并根据业务执行指令执行对应业务操作，由此可见，本发明实施例不仅仅可以对当前的目标语音内容进行识别，还可以结合至少一个历史语音内容对目标语音内容进行分析，从而可以提高对用户的声音内容的识别准确度。

[0049] 请参见图3，是本发明实施例提供的一种语音识别处理装置的结构示意图，所述语音识别处理装置1可以包括：内容获取模块10、类型识别获取模块20、生成执行模块30；

[0050] 所述内容获取模块10，用于获取当前时刻的目标语音内容，并获取预先存储的基于所述当前时刻的至少一个历史语音内容；所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；

[0051] 具体的，所述内容获取模块10可以通过麦克风等收音器获取当前时刻的目标语音内容，此时，所述内容获取模块10还可以进一步获取预先存储的基于所述当前时刻的至少一个历史语音内容；其中，所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系，即所述至少一个历史语音内容中每相邻时刻的两个历史语音内容所对应的历史车载场景类型之间具有映射关系。例如，若已存储有3个时间相邻的历史语音内容A、B、C(获取到A的历史时刻<获取到B的历史时刻<获取到C的历史时刻，C为基于所述当前时刻的上一时刻的语音内容)，且A对应的历史车载场景类型与B对应的历史车载场景类型之间具有映射关系，同时B对应的历史车载场景类型与C对应的历史车载场景类型之间具有映射关系，则所述内容获取模块10可以获取历史语音内容A、B、C，并将历史语音内容A、B、C作为基于所述当前时刻的至少一个历史语音内容。

[0052] 所述类型识别获取模块20，用于识别所述目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；

[0053] 具体的，所述类型识别获取模块20可以进一步识别所述目标语音内容对应的目标车载场景类型，识别目标车载场景类型的具体过程可以为：对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型。例如，若所述目标语音内容为“收听XX的歌”，则所述类型识别获取模块20在语音识别后可以获取到对应的场景关键词“收听”和“歌”，根据“收听”和“歌”可以确定所述目标语音内容对应的目标车载场景类型为音乐。其中，每种车载场景类型都对应有多个预设的场景关键词，因此，通过匹配所述场景关键词即可确定出其对应的车载场景类型。

[0054] 所述类型识别获取模块20还可以进一步从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；例如，若至少一个所述历史车载场景类型为：音乐-音乐(即两个历史语音内容对应的历史车载场景类型均为音乐，且音乐和音乐之间具有映射关系)，且在所述场景关系链表中存在多种映射关系分别为：音乐-音乐-音乐、音乐-音乐-社交、音乐-音乐-视频，则所述类型识别获取模块20可以从所述场景关系链表中获取到与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型包括音乐、社交、视频。

[0055] 所述生成执行模块30，用于当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作；

[0056] 具体的，当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，说明所述目标车载场景类型与至少一个所述历史车载场景类型具有映射关系，即所述目标语音内容与所述至少一个历史语音内容之间具有关联性，此时，所述生成执行模块30可以将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容，并生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。例如，若有一个历史语音内容为“收听歌曲XX”，当前的所述目标语音内容为“分享给A朋友”，则所述生成执行模块30可以将所述历史语音内容与所述目标语音内容进行结合分析，得到合并语音内容为“将歌曲XX分享给A朋友”，并生成所述合并语音内容对应的业务执行指令，所述业务执行指令为基于社交应用的音频数据发送指令，并根据所述业务执行指令执行对应业务操作，即通过调用社交应用以将歌曲XX分享给社交应用中的A朋友。由此可见，通过结合所述至少一个历史语音内容对所述目标语音内容进行分析，可以更加准确的识别出用户的真正意图，避免车载声控系统仅对所述目标语音内容“分享给A朋友”进行识别和分析而导致识别错误。在执行对应的业务操作后，所述语音识别处理装置1还可以进一步将所述目标语音内容作为新的历史语音内容，以便于在下一刻进行语音识别和分析时可以一并结合分析该新的历史语音内容，以保证语音识别的准确性。

[0057] 进一步的，如图3所示，所述语音识别处理装置1还可以包括：设置存储模块40；

[0058] 所述设置存储模块40，用于在预设的多个车载场景类型之间设置多个不同的映射关系，以形成多条不同的关系链，并将所有关系链存储于场景关系链表中；

[0059] 具体的，所述设置存储模块40可以在预设的多个车载场景类型之间设置多个不同的映射关系，以形成多条不同的关系链，并将所有关系链存储于场景关系链表中；其中，每个所述关系链均由至少一个车载场景类型之间的映射关系构成。两个车载场景类型之间的映射关系可以表示这两个车载场景类型对应的语音内容之间具备关联性。例如，若预设的多个车载场景类型包括音乐、社交、导航、视频等等，则所述设置存储模块40可以设置音乐与社交之间有映射关系，音乐与音乐之间有映射关系，导航与社交之间有映射关系等等，并根据这些映射关系形成多条不同的关系链，如可以形成关系链：音乐-社交-导航，该关系链表示音乐与社交之间有映射关系，同时社交与导航之间有映射关系。

[0060] 可选的，所述生成执行模块30，还用于当所述至少一个候选车载场景类型中不包含所述目标车载场景类型时，删除所述至少一个历史语音内容，并生成所述目标语音信息对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。例如，若所述历史关系链为：音乐-音乐(即两个历史语音内容对应的历史车载场景类型均为音乐，且音乐和音乐之间具有映射关系)，且在所述场景关系链表中存在多种关系链分别为：音乐-音乐-音乐、音乐-音乐-社交、音乐-音乐-视频，则可以从所述场景关系链表中获取与所述历史关系链的末端的历史车载场景类型相连接的至少一个候选车载场景类型包括音乐、社交、视频，而当前的所述目标语音内容对应的目标车载场景类型为导航，则说明所述至少一个候选车载场景类型中不包含所述目标车载场景类型，此时，所述生成执行模块30可以将两个历史语音内容删除，并仅根据所述目标语音内容执行对应的导航业务操作，并且所述语音识别处理装置1也可以进一步将所述目标语音内容作为新的历史语音内容。又例如，存有一个历史语音内容为“收听XX歌曲”，而当前的目标语音内容为“导航到地点A”，其中，历史语音内容对应的历史车载场景类型为音乐，且与音乐相连接的至少一个候选车载场景类型包括音乐、社交、视频，而目标语音内容对应的目标车载场景类型为导航，说明所述至少一个候选车载场景类型中不包含所述目标车载场景类型，此时，所述生成执行模块30可以删除历史语音内容为“收听XX歌曲”，并仅对所述目标语音内容为“导航到地点A”进行识别和分析，以调用车载导航应用并对地点A进行导航操作。

[0061] 进一步的，再请参见图4，是本发明实施例提供的一种类型识别获取模块20的结构示意图，所述类型识别获取模块20可以包括：识别确定单元201、查找单元202、获取单元203；

[0062] 所述识别确定单元201，用于对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型；

[0063] 具体的，所述识别确定单元201可以对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型。例如，若所述目标语音内容为“收听XX的歌”，则所述识别确定单元201在语音识别后可以获取到对应的场景关键词“收听”和“歌”，根据“收听”和“歌”可以确定所述目标语音内容对应的目标车载场景类型为音乐。其中，每种车载场景类型都对应有多个预设的场景关键词，因此，通过匹配所述场景关键词即可确定出其对应的车载场景类型，如可以预设为音乐的车载场景类型所对应的场景关键词包括“收听”、“歌”、“歌手”等等。

[0064] 所述查找单元202，用于在预设的场景关系链表中查找与至少一个所述历史车载场景类型对应的历史关系链；所述历史关系链包括至少一个所述历史车载场景类型之间的映射关系；

[0065] 具体的，所述查找单元202进一步在预设的场景关系链表中查找与至少一个所述历史车载场景类型对应的历史关系链，所述历史关系链是指至少一个所述历史车载场景类型之间具有一定顺序的映射关系链。例如，至少一个所述历史车载场景类型包括音乐、社交、导航，其中，识别出音乐的时刻<识别出社交的时刻<识别出导航的时刻，则所述查找单元202可以在所述场景关系链表中获取到对应的历史关系链为：音乐-社交-导航，即音乐与社交具有映射关系，同时社交与导航具有映射关系。

[0066] 所述获取单元203，用于在所述场景关系链表中获取与所述历史关系链的末端相连接的至少一个候选车载场景类型；所述至少一个候选车载场景类型均与所述历史关系链的末端的历史车载场景类型具有映射关系；

[0067] 具体的，所述获取单元203可以进一步在所述场景关系链表中获取与所述历史关系链的末端相连接的至少一个候选车载场景类型，所述至少一个候选车载场景类型均与所述历史关系链的末端的历史车载场景类型具有映射关系。例如，若所述历史关系链为：音乐-音乐(即两个历史语音内容对应的历史车载场景类型均为音乐，且音乐和音乐之间具有映射关系)，且在所述场景关系链表中存在多种关系链分别为：音乐-音乐-音乐、音乐-音乐-社交、音乐-音乐-视频，则所述获取单元203可以从所述场景关系链表中获取与所述历史关系链的末端的历史车载场景类型相连接的至少一个候选车载场景类型包括音乐、社交、视频。

[0068] 进一步的，再请参见图5，是本发明实施例提供的一种生成执行模块30的结构示意图，所述生成执行模块30可以包括：分析单元301、生成执行单元302；

[0069] 所述分析单元301，用于当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容；

[0070] 具体的，当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，说明所述目标车载场景类型与至少一个所述历史车载场景类型具有映射关系，即所述目标语音内容与所述至少一个历史语音内容之间具有关联性，此时，所述分析单元301可以将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容。例如，若有一个历史语音内容为“收听歌曲XX”，当前的所述目标语音内容为“分享给A朋友”，则所述分析单元301可以将所述历史语音内容与所述目标语音内容进行结合分析，得到合并语音内容为“将歌曲XX分享给A朋友”。

[0071] 所述生成执行单元302，用于生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作；

[0072] 具体的，得到所述合并语音内容后，所述生成执行单元302可以生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。例如，若有一个历史语音内容为“收听歌曲XX”，当前的所述目标语音内容为“分享给A朋友”，则所述分析单元301可以将所述历史语音内容与所述目标语音内容进行结合分析，得到合并语音内容为“将歌曲XX分享给A朋友”，并由所述生成执行单元302生成所述合并语音内容对应的业务执行指令，所述业务执行指令为基于社交应用的音频数据发送指令，并根据所述业务执行指令执行对应业务操作，即通过调用社交应用以将歌曲XX分享给社交应用中的A朋友。

[0073] 本发明实施例通过获取当前时刻的目标语音内容，并获取预先存储的基于当前时刻的至少一个历史语音内容，其中，至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；再识别目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个历史车载场景类型具有映射关系的至少一个候选车载场景类型，并当至少一个候选车载场景类型中包含目标车载场景类型时，根据至少一个历史语音内容生成目标语音内容对应的业务执行指令，并根据业务执行指令执行对应业务操作，由此可见，本发明实施例不仅仅可以对当前的目标语音内容进行识别，还可以结合至少一个历史语音内容对目标语音内容进行分析，从而可以提高对用户的声音内容的识别准确度。

[0074] 请参见图6，是本发明实施例提供的另一种语音识别处理装置的结构示意图。如图6所示，所述语音识别处理装置1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器
1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

[0075] 在图6所示的语音识别处理装置1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输出的音频数据；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，并具体执行以下步骤：

[0076] 获取当前时刻的目标语音内容，并获取预先存储的基于所述当前时刻的至少一个历史语音内容；所述至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；

[0077] 识别所述目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型；

[0078] 当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

[0079] 在一个实施例中，所述处理器1001在执行识别所述目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个所述历史车载场景类型具有映射关系的至少一个候选车载场景类型时，具体执行以下步骤：

[0080] 对所述目标语音内容进行语音识别，以获取对应的场景关键词，并根据所述场景关键词确定所述目标语音内容对应的目标车载场景类型；

[0081] 在预设的场景关系链表中查找与至少一个所述历史车载场景类型对应的历史关系链；所述历史关系链包括至少一个所述历史车载场景类型之间的映射关系；

[0082] 在所述场景关系链表中获取与所述历史关系链的末端相连接的至少一个候选车载场景类型；所述至少一个候选车载场景类型均与所述历史关系链的末端的历史车载场景类型具有映射关系。

[0083] 在一个实施例中，所述处理器1001在执行当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，根据所述至少一个历史语音内容生成所述目标语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作时，具体执行以下步骤：

[0084] 当所述至少一个候选车载场景类型中包含所述目标车载场景类型时，将所述至少一个历史语音内容与所述目标语音内容进行结合分析，以得到合并语音内容；

[0085] 生成所述合并语音内容对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

[0086] 在一个实施例中，所述处理器1001还执行以下步骤：

[0087] 在预设的多个车载场景类型之间设置多个不同的映射关系，以形成多条不同的关系链，并将所有关系链存储于场景关系链表中；

[0088] 其中，每个所述关系链均由至少一个车载场景类型之间的映射关系构成。

[0089] 在一个实施例中，所述处理器1001还执行以下步骤：

[0090] 当所述至少一个候选车载场景类型中不包含所述目标车载场景类型时，删除所述至少一个历史语音内容，并生成所述目标语音信息对应的业务执行指令，并根据所述业务执行指令执行对应业务操作。

[0091] 本发明实施例通过获取当前时刻的目标语音内容，并获取预先存储的基于当前时刻的至少一个历史语音内容，其中，至少一个历史语音内容分别对应的历史车载场景类型之间具有映射关系；再识别目标语音内容对应的目标车载场景类型，并从预设的场景关系链表中获取与至少一个历史车载场景类型具有映射关系的至少一个候选车载场景类型，并当至少一个候选车载场景类型中包含目标车载场景类型时，根据至少一个历史语音内容生成目标语音内容对应的业务执行指令，并根据业务执行指令执行对应业务操作，由此可见，本发明实施例不仅仅可以对当前的目标语音内容进行识别，还可以结合至少一个历史语音内容对目标语音内容进行分析，从而可以提高对用户的声音内容的识别准确度。

[0092] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

[0093] 以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

一种语音识别处理方法及装置转让专利

申请号 : CN201610200392.5

文献号 : CN107293294B

文献日 : 2019-07-16

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 杨柳 , 何朝阳

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :