智能识别语音的方法及装置转让专利

申请号 : CN201510982051.3

文献号 : CN106920546B

文献日 : 2020-03-20

本公开提供一种智能识别语音的方法及装置，其中，所述方法包括：采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型。本公开提供的智能识别语音的方法可以实现智能设备自主学习用户语言，建立符合用户个性化需求的语音识别库，从而为用户提供智能化的语应控制服务，增强设备的智能化程度，提升用户体验。

1.一种智能识别语音的方法，其特征在于，所述方法包括：采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型；

采集用户个性化的语音样本，包括：

采集用户发出的原始语音信号；

根据视频播放时间，从所述原始语音信号中确定有效语音特征值集合；

将所述有效语音特征值集合与对应的视频播放时间，确定为所述语音样本。

2.根据权利要求1所述的方法，其特征在于，根据视频播放时间，从所述原始语音信号中确定有效语音特征值集合，包括：根据视频播放时间，从所述原始语音信号中截取预置时间对应的第一语音信号；

提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合。

3.根据权利要求2所述的方法，其特征在于，所述提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合，包括：对所述第一语音信号进行特征值提取，获得第一语音特征值集合；

将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值，获得所述第一有效语音特征值集合。

4.根据权利要求1所述的方法，其特征在于，根据视频播放时间，从所述原始语音信号中确定有效语音特征值集合，包括：提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合；

根据视频播放时间，从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合；

将所述第一有效语音特征值集合与对应的视频播放时间确定为所述语音样本。

5.根据权利要求4所述的方法，其特征在于，所述提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合，包括：对所述原始语音信号进行特征值提取，获得第二语音特征值集合；

从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值，构成所述第二有效语音特征值集合。

6.根据权利要求1所述的方法，其特征在于，所述建立所述语音样本与视频信息的对应关系，构建目标语言特征数据库，包括：将一个语音样本与对应的视频信息相关联，确定为一组目标语言特征数据；

存储每一组目标语言特征数据，构建目标语言特征数据库。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标语言特征数据库中有效语音特征值与视频信息的相关性，确定语音识别模型，包括：分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性；

将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型，存储到目标语音识别库。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：统计所述目标语音识别库中所述语音识别模型的数量；

当所述语音识别模型的数量达到预置模型阈值时，提醒用户可以使用目标语言进行语音搜索。

9.一种智能识别语音的装置，其特征在于，所述装置包括：语音采集模块，被配置为采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

存储模块，被配置为建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

语音识别模块，被配置为根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型；

所述语音采集模块，具体被配置为：

采集用户发出的原始语音信号；

根据视频播放时间，从所述原始语音信号中确定有效语音特征值集合；

将所述有效语音特征值集合与对应的视频播放时间，确定为所述语音样本。

10.根据权利要求9所述的装置，其特征在于，所述语音采集模块，包括：第一样本语音获取子模块，被配置为根据视频播放时间，从所述原始语音信号中截取预置时间对应的第一语音信号；

第一特征提取子模块，被配置为提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合。

11.根据权利要求10所述的装置，其特征在于，所述第一特征提取子模块包括：第一特征提取单元，被配置为对所述第一语音信号进行特征值提取，获得第一语音特征值集合；

第一有效语音特征值确定单元，被配置为将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值，获得所述第一有效语音特征值集合。

12.根据权利要求9所述的装置，其特征在于，所述语音采集模块包括：第二特征提取子模块，被配置为提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合；

第一特征确定子模块，被配置为根据视频播放时间，从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合。

13.根据权利要求12所述的装置，其特征在于，所述第二特征提取子模块，包括：第二特征提取单元，被配置为对所述原始语音信号进行特征值提取，获得第二语音特征值集合；

第二有效语音特征值确定单元，被配置为从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值，构成所述第二有效语音特征值集合。

14.根据权利要求9所述的装置，其特征在于，所述存储模块包括：关联子模块，被配置为将一个语音样本与对应的视频信息相关联，确定为一组目标语言特征数据；

存储子模块，被配置为存储每一组目标语言特征数据，构建目标语言特征数据库。

15.根据权利要求9所述的装置，其特征在于，所述语音识别模块包括：分析子模块，被配置为分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性；

语音识别子模块，被配置为将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型，存储到目标语音识别库。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：统计模块，被配置为统计所述目标语音识别库中所述语音识别模型的数量；

提醒模块，被配置为在所述语音识别模型的数量达到预置模型阈值的情况下，提醒用户可以使用目标语言进行语音搜索。

17.一种智能识别语音的设备，其特征在于，包括：处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型；

采集用户个性化的语音样本，包括：

采集用户发出的原始语音信号；

根据视频播放时间，从所述原始语音信号中确定有效语音特征值集合；

将所述有效语音特征值集合与对应的视频播放时间，确定为所述语音样本。

智能识别语音的方法及装置

技术领域

[0001] 本公开涉及人工智能的语音识别技术领域，尤其涉及一种智能识别语音的方法及装置。

背景技术

[0002] 语音识别技术是将人类语音中的词汇内容转换为机器可读的输入，即与机器进行语言交流，让机器明白人类在说什么。语音识别的应用非常广泛，以语音控制系统应用于电视节目的语音搜索为例，电视遥控器或安装在用户终端上的遥控器APP接收用户发出的搜索电视节目的语音信息，对用户的语音信号进行特征值提取，将提取的语音特征值与预设的语音识别数据库进行模式匹配，获得识别结果即文字信息，根据识别结果搜索用户想看的电视节目，将相关节目列表推送到电视屏幕。

[0003] 目前人工智能中的语音识别大部分应用都依赖于人工预先训练好的语音识别数据库的内容。当上述预先训练好的语音识别数据库中不包括用户的语音特征信息时，比如预设的语音识别库是人工使用普通话录入的语音信息而建立的，若用户使用外语或某地的方言语音搜索电视节目时，电视便无法准确为用户搜索想看的电视节目，使得电视的语音搜索功能受限，导致电视还不能真正满足用户的个性化需求，智能化程度低。

发明内容

[0004] 有鉴于此，本公开提供一种智能识别语音的方法及装置，实现智能设备自主学习用户语言，从而为用户提供智能化的语应控制服务。

[0005] 根据本公开实施例的第一方面，提供了一种智能识别语音的方法，所述方法包括：

[0006] 采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

[0007] 建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

[0008] 根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型。

[0009] 可选地，所述采集用户个性化的语音样本，包括：

[0010] 采集用户发出的原始语音信号；

[0011] 根据视频播放时间，从所述原始语音信号中截取预置时间对应的第一语音信号；

[0012] 提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合；

[0013] 将所述第一有效语音特征值集合与对应的视频播放时间，确定为所述语音样本。

[0014] 可选地，所述提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合，包括：

[0015] 对所述第一语音信号进行特征值提取，获得第一语音特征值集合；

[0016] 将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值，获得所述第一有效语音特征值集合。

[0017] 可选地，所述采集用户个性化的语音样本，包括：

[0018] 采集用户发出的原始语音信号；

[0019] 提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合；

[0020] 根据视频播放时间，从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合；

[0021] 将所述第一有效语音特征值集合与对应的视频播放时间确定为所述语音样本。

[0022] 可选地，所述提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合，包括：

[0023] 对所述原始语音信号进行特征值提取，获得第二语音特征值集合；

[0024] 从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值，构成所述第二有效语音特征值集合。

[0025] 可选地，所述建立所述语音样本与视频信息的对应关系，构建目标语言特征数据库，包括：

[0026] 将一个语音样本与对应的视频信息相关联，确定为一组目标语言特征数据；

[0027] 存储每一组目标语言特征数据，构建目标语言特征数据库。

[0028] 可选地，所述根据所述目标语言特征数据库中有效语音特征值与视频信息的相关性，确定语音识别模型，包括：

[0029] 分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性；

[0030] 将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型，存储到目标语音识别库。

[0031] 可选地，所述智能识别语音的方法还包括：

[0032] 统计所述目标语音识别库中所述语音识别模型的数量；

[0033] 当所述语音识别模型的数量达到预置模型阈值时，提醒用户可以使用目标语言进行语音搜索。

[0034] 根据本公开实施例的第二方面，提供了一种智能识别语音的装置，所述装置包括：

[0035] 语音采集模块，被配置为采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

[0036] 存储模块，被配置为建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

[0037] 语音识别模块，被配置为根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型。

[0038] 可选的，所述语音采集模块，包括：

[0039] 第一语音采集子模块，被配置为采集用户发出的原始语音信号；

[0040] 第一样本语音获取子模块，被配置为根据视频播放时间，从所述原始语音信号中截取预置时间对应的第一语音信号；

[0041] 第一特征提取子模块，被配置为提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合；

[0042] 第一样本确定子模块，被配置为将所述第一有效语音特征值集合与对应的视频播放时间，确定为所述语音样本。

[0043] 可选的，所述第一特征提取子模块包括：

[0044] 第一特征提取单元，被配置为对所述第一语音信号进行特征值提取，获得第一语音特征值集合；

[0045] 第一有效语音特征值确定单元，被配置为将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值，获得所述第一有效语音特征值集合。

[0046] 可选的，所述语音采集模块包括：

[0047] 第二语音采集子模块，被配置为采集用户发出的原始语音信号；

[0048] 第二特征提取子模块，被配置为提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合；

[0049] 第一特征确定子模块，被配置为根据视频播放时间，从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合；

[0050] 第二样本确定子模块，被配置为将所述第一有效语音特征值集合与对应的视频播放时间确定为语音样本。

[0051] 可选的，所述第二特征提取子模块，包括：

[0052] 第二特征提取单元，被配置为对所述原始语音信号进行特征值提取，获得第二语音特征值集合；

[0053] 第二有效语音特征值确定单元，被配置为从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值，构成所述第二有效语音特征值集合。

[0054] 可选的，所述存储模块包括：

[0055] 关联子模块，被配置为将一个语音样本与对应的视频信息相关联，确定为一组目标语言特征数据；

[0056] 存储子模块，被配置为存储每一组目标语言特征数据，构建目标语言特征数据库。

[0057] 可选的，所述语音识别模块包括：

[0058] 分析子模块，被配置为分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性；

[0059] 语音识别子模块，被配置为将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型，存储到目标语音识别库。

[0060] 可选的，所述智能语音识别的装置还包括：

[0061] 统计模块，被配置为统计所述目标语音识别库中所述语音识别模型的数量；

[0062] 提醒模块，被配置为在所述语音识别模型的数量达到预置模型阈值的情况下，提醒用户可以使用目标语言进行语音搜索。

[0063] 根据本公开的第三方面，还提供了一种智能识别语音的设备，包括：

[0064] 处理器；

[0065] 用于存储处理器可执行指令的存储器；

[0066] 其中，所述处理器被配置为：

[0067] 采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

[0068] 建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

[0069] 根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型。

[0070] 本公开的实施例提供的技术方案可以包括以下有益效果：

[0071] 本公开中，智能设备如智能电视可以主动采集用户活动场所内的语音信息作为语音样本，经过语音识别处理，建立用户个性化语言的语音识别模型。也就是说智能设备可以主动学习用户的个性化语言比如方言、特殊语言等，建立满足用户个性化需求的语音识别库。使得用户使用该个性化的语音识别库可以实现使用用户常用语言控制智能设备，满足了用户使用个性化语言控制智能设备的个性化需求，提高了智能设备的智能化程度，提升了智能设备的用户体验。

[0072] 在本公开中，智能设备在确定一个语音样本时，可以根据某一段视频的播放时间，从原始语音信号中获取一个预置时间对应的第一语音信号，然后对第一语音信号进行语音特征值提取并筛选有效语音特征值，将有效语音特征值集合与对应的视频信息的播放时间的对应关系确定为语音样本，提升对语音样本的采集效率。

[0073] 在本公开中，可以首先获取第一语音信号对应的第一语音特征值集合，然后将上述第一语音特征值集合中出现频率高于第一预设频率阈值的语音特征值确定为有效语音特征值，提高了语音样本采集的准确性。

[0074] 在本公开中，智能设备在确定一个语音样本时，也可以首先对原始与语音信号进行特征提取，获取原始语音信号对应的第二有效语音特征值集合，然后再根据某一段视频的播放时间，从上述第二有效语音特征值集合中确定第一有效语音特征值集合，提高语音样本中有效语音特征值确定的准确性。

[0075] 本公开中，在获取原始语音信号对应的第二有效语音特征值集合时，可以首先获取原始语音信号对应的第二语音特征值集合，然后按照第二频率阈值从中选择有效的语音特征值，从而可以提高有效语音特征值的准确性。

[0076] 本公开中，将语音样本与对应的视频信息相关联，构建目标语言特征数据库，以便获取语音特征值与视频信息对应的语音识别模型，可以为用户提供更丰富的语音搜索视频的智能化服务，提升用户体验。

[0077] 本公开中，每增加一个语音样本就可以触发一次多元统计分析，在预置条件下，如目标语言特征数据库中语音样本的数量满足预设条件，并且一个有效语音特征值与一个视频信息的关联程度达到预设关联程度的情况下，确定一个语音识别模型，提高语音识别模型的准确性。

[0078] 本公开中，该可以统计语音识别库中的语音识别模型的数量，当语音识别模型的数量达到预设数量阈值后，确定该语音识别库可以应用于目标语言环境的语音搜索服务，从而提醒用户可以使用目标语言进行语音搜索，使用户可以及时使用习惯语言的语音搜索服务，提升智能设备的用户体验。

[0079] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

[0080] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

[0081] 图1是本公开根据一示例性实施例示出的一种智能识别语音的方法的流程图；

[0082] 图2是本公开根据一示例性实施例示出的另一种智能识别语音的方法的流程图；

[0083] 图3是本公开根据一示例性实施例示出的另一种智能识别语音的方法的流程图；

[0084] 图4是本公开根据一示例性实施例示出的另一种智能识别语音的方法的流程图；

[0085] 图5是本公开根据一示例性实施例示出的另一种智能识别语音的方法的流程图；

[0086] 图6是本公开根据一示例性实施例示出的另一种智能识别语音的方法的流程图；

[0087] 图7是本公开根据一示例性实施例示出的另一种智能识别语音的方法流程图；

[0088] 图8是本公开根据一示例性实施例示出的另一种智能识别语音的方法流程图；

[0089] 图9是本公开根据一示例性实施例示出的智能识别语音的场景示意图；

[0090] 图10是本公开根据一示例性实施例示出的一种智能识别语音的装置框图；

[0091] 图11是本公开根据一示例性实施例示出的另一种智能识别语音的装置框图；

[0092] 图12是本公开根据一示例性实施例示出的另一种智能识别语音的装置框图；

[0093] 图13是本公开根据一示例性实施例示出的另一种智能识别语音的装置框图；

[0094] 图14是本公开根据一示例性实施例示出的另一种智能识别语音的装置框图；

[0095] 图15是本公开根据一示例性实施例示出的另一种智能识别语音的装置框图；

[0096] 图16是本公开根据一示例性实施例示出的另一种智能识别语音的装置框图；

[0097] 图17是本公开根据一示例性实施例示出的另一种智能识别语音的装置框图；

[0098] 图18是根据一示例性实施例示出的另一种智能识别语音装置1800的一结构示意图。

具体实施方式

[0099] 这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

[0100] 在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

[0101] 应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在…...时”或“当…...时”或“响应于确定”。

[0102] 本公开提供了一种智能识别语音的方法，可以应用于语音控制系统实现的对电视节目的语音搜索中。主要涉及根据用户的发音特点智能化建立用户的目标语音识别库，之后将该目标语音数据库应用于用户语音搜索电视节目中。本公开中，实施上述智能识别语音的方法的智能设备可以是智能电视、与智能电视连接的云端服务器或者具备大量数据处理能力的智能遥控器等设备。本公开实施例以智能电视为例进行详细说明。

[0103] 参照图1根据一示例性实施例示出的一种智能识别语音的方法流程图，所述方法包括以下步骤：

[0104] 在步骤11中，采集用户个性化的语音样本；

[0105] 本公开实施例中，每一个语音样本包括：视频播放时间与语音特征值集合的对应关系。本公开实施例中，上述用户个性化的语音样本，是智能电视采集到的用户的日常用语，尤其是指非国家标准语言，比如地方方言、民族语言如藏语、蒙古语等、还可以是外语比如法语、德语等。

[0106] 图2根据一示例性实施例示出了另一种智能识别语音的方法流程图，在图1所示实施例的基础上，步骤11可以包括：

[0107] 在步骤111中，采集用户发出的原始语音信号；

[0108] 本公开一实施例中，可以假设智能电视处于开启状态即开启语音采集功能，或者在用户的控制下开启智能电视中的语音采集功能。使智能电视具备语音采集功能是相关技术的常规设计，此处不再赘述。通过智能电视的语音采集系统，在智能电视播放视频信息的同时，可以采集外界环境中用户发出的任何语音信号。假设当前家庭环境中，用户的日常交流语言为藏语，则智能电视采集的原始语音信号为符合藏语发音特点的音频信号。

[0109] 在步骤112中，根据视频播放时间，从所述原始语音信号中截取预置时间对应的第一语音信号；

[0110] 本公开实施例中，考虑到用户在观看某一电视节目前，很有可能会用藏语表达想看该电视节目的意愿；在观看节目时以及观看节目前后，可能会用藏语交流该节目的相关信息，此处，将上述电视节目对应的视频信息称为第一视频信息，因此，根据第一视频的播放时间，可以获取与该视频相关的用户语言信息。

[0111] 假设上述第一视频为《芈月传》第二集，播放时间为8：00～8：45，可以按照以下方式获取第一语音信号：

[0112] 第一种方式，获取第一视频播放之前的一段时间的语音信号作为第一语音信号。比如，智能电视可以根据上述《芈月传》第二集的上述播放时间，获取7：55～8：00之间采集的语音信号作为上述第一语音信号。

[0113] 第二种方式，可以将从第一视频播放之前一段时间开始至第一视频播放完成这段时间内采集的语音信号作为第一语音信号。比如，智能电视可以根据上述《芈月传》第二集的上述播放时间，获取7：55～8：45之间采集的语音信号作为上述第一语音信号。

[0114] 第三种方式，考虑到用户的观看节目之后，很有可能对节目内容进行评论，因此获取第一视频播放期间及播放后一段时间采集的语音信号线作为第一语音信号，比如，智能电视可以根据上述《芈月传》第二集的上述播放时间，获取8：00～8：50之间采集的语音信号作为上述第一语音信号。

[0115] 第四种方式，考虑到获取用户更多用藏语表达的视频相关信息，还可以获取从第一开始播放前一段时间至第一视频结束播放后一段时间的语音信号作为第一语音信号，比如，智能电视可以根据上述《芈月传》第二集的上述播放时间，获取7：55～8：50之间采集的语音信号作为上述第一语音信号。

[0116] 综上，步骤112中的所述预置时间可以包括所述第一视频的播放时间，也可以是第一视频的播放时间前后的一段时间。

[0117] 在步骤113中，提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合；

[0118] 图3根据一示例性实施例示出了另一种智能识别语音的方法流程图，在图2所示实施例的基础上，步骤113可以包括：

[0119] 在步骤1131中，对所述第一语音信号进行特征值提取，获得第一语音特征值集合；

[0120] 本公开实施例中，可以采用相关技术中任意的语音特征值提取方法，比如使用隐形马尔可夫模型(Hidden Markov Model，HMM)对所述第一语音信号进行语音特征值提取，得到第一语音特征值集合。

[0121] 在步骤1132中，将出现频率超过预设频率阈值的语音特征值确定为有效语音特征值，获得所述第一有效语音特征值集合。

[0122] 仍以上述时间段7：55～8：00对应的第一语音信号为例，假设经过语音特征值提取后获得的第一语音特征值集合中包括十种不同的语音特征值：P1、P2、P3......P10，统计每种语音特征值在第一语音特征值集合中出现的频率。将出现频率超过预设频率阈值的语音特征值确定为有效语音特征值，假设上述预设频率阈值为2，即将第一语音特征值集合中出现频率高于2的语音特征值确定为有效语音特征值。将所有的有效语音特征值组成的集合确定为所述第一有效语音特征值集合。结合上述实施例，假设得到的第一有效语音特征值集合为A1：{P1、P3、P5、P6、P8}。

[0123] 在步骤114中，将所述第一有效语音特征值集合与对应的视频播放时间，确定为语音样本。

[0124] 本公开实施例中，上述语音样本可以采用表一中一个表项的形式表示：

[0125]

[0126]

[0127] 表一

[0128] 从表一可知，第一有效语音特征值集合A1对应的视频播放时间为《芈月传》第二集的播放时间：8：00～8：45。

[0129] 图4根据一示例性实施例示出了另一种智能识别语音的方法流程图，在图1所示实施例的基础上，步骤11可以包括：

[0130] 在步骤11-1中，采集用户发出的原始语音信号；

[0131] 该步骤与图2所示实施例中的步骤111相似，具体实施方式可以参考上述步骤111。

[0132] 在步骤11-2中，提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合；

[0133] 本公开实施例与图2所示实施例不同的是，可以首先对原始语音信号进行语音特征值提取。

[0134] 图5根据一示例性实施例示出了另一种智能识别语音的方法流程图，在图4所示实施例的基础上，步骤11-2可以包括以下步骤：

[0135] 在步骤11-21中，对所述原始语音信号进行特征值提取，获得第二语音特征值集合；

[0136] 假设原始语音信号为智能电视在7：30～21：00之间获取的用户藏语语音信号，采用相关技术中的语音特征提取方法，对上述7：30～21：00采集的原始语音信号进行语音特征提取，获得第二语音特征值集合。

[0137] 在步骤11-22中，从所述第二语音特征值中选取出现频率超过第二预设频率阈值的有效语音特征值，构成第二有效语音特征值集合。

[0138] 假设上述第二语音特征值集合中包括100种语音特征值：P1、P2、P3......P100，统计每种语音特征值出现的频率，将出现频率超过第二预设频率阈值的语音特征值确定为有效语音特征值，假设上述第二预设频率阈值为4，则将上述第二语音特征值集合中出现频率超过4次的语音特征值筛选出，构成第二有效语音特征值集合，假设第二有效语音特征值集合为A2:{P1、P3、P5、P6、P8......P99}。

[0139] 在步骤11-3中，根据视频播放时间，从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合；

[0140] 假设第二有效特征值集合A2中元素的排列顺序是按照语音信号的采集时间顺序排列的，则根据视频播放时间获取预置时间对应的第一有效语音特征值集合。如上述实施例，上述预置时间可以是视频播放时间之前或之后的一段时间，可以包括视频播放时间及之前一段时间，也可以包括视频播放时间及之后的一段时间，还可以包括视频播放时间及前后一段时间。仍以视频《芈月传》第二集播放之前的5分钟时间为例，获取7：55～8：00对应的第一有效语音特征值集合，假设仍为A1：{P1、P3、P5、P6、P8}。当然，因为语音特征值提取方法以及有效语音特征值的获取方法不同，本公开实施例获得的第一有效语音特征值也可能与上述A1不完全相同。

[0141] 在步骤11-4中，将所述第一有效语音特征值集合与对应的视频播放时间确定为语音样本。

[0142] 相应的，因第一有效语音特征值集合的获取方法的不同，采用图2和图4所示实施例获取的语音样本可能相同，也可能不同。

[0143] 在步骤12中，建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

[0144] 图6根据一示例性实施例示出了另一种智能识别语音的方法流程图，在图1所示实施例的基础上，步骤12可以包括：

[0145] 在步骤121中，将一个语音样本与对应的视频信息相关联，确定为一组目标语言特征数据；

[0146] 在步骤122中，存储每一组目标语言特征数据，构建目标语言特征数据库。

[0147] 本公开实施例中，因语音样本中包括了视频信息的播放时间，因此智能电视可以根据上述时间信息获得该段时间播放视频的视频信息。上述视频信息可以包括：视频名称、主演姓名、导演姓名、视频类型、拍摄国家、获得奖项等信息。

[0148] 将一个语音样本与对应的视频信息进行关联，获取一组目标语言特征数据，存储在目标语言特征数据库中。依次类推，每获取一个语音样本，就建立一组目标语音特征数据，存储在特定存储位置，形成目标语言特征数据库。示例性地，目标语言特征数据库可以采用以下表二的形式存储信息：

[0149]语音样本视频信息
语音样本1 视频信息一
语音样本2 视频信息二
语音样本3 视频信息三
…… ……
语音样本35 视频信息三十五

[0150] 表二

[0151] 在步骤13中，根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型。

[0152] 图7根据一示例性实施例示出了另一种智能识别语音的方法流程图，在图1所示实施例的基础上，步骤13可以包括：

[0153] 在步骤131中，分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性；

[0154] 本公开实施例中，目标语言特征数据库中每增加一个语音样本，都会对当前数据库中所有的有效语音特征值和视频信息进行多元统计分析，确定一个有效语音特征值与视频信息中的文字信息相关性。

[0155] 在本公开一实施例中，一个有效语音特征值与一个视频信息的相关性可以用相关程度表示。假设一个有效语音特征值为P1，视频信息中包括三组文字信息，分别表示为：信息1、信息2、信息3，经多元统计分析后发现：P1与信息1之间的相关程度为0，表示二者不相关；P1与信息2之间的相关程度为15％，表示二者有可能相关；P1与信息3之间的相关程度为90％，则表示二者相关的可能性较大。依次类推，统计分析每个有效语音特征值与视频信息的相关性。

[0156] 在步骤132中，将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型，存储到目标语音识别库。

[0157] 本公开实施例中，上述预置条件可以是：目标语言特征数据库中的语音样本不少于预设数量阈值，且有效语音特征值与目标视频信息的相关程度不小于预设关联阈值。假设，上述预设数量阈值为30、上述预设关联阈值为90％，则在目标语言特征数据库中的语音样本数量不少于30个的情况下，经过多元统计分析后发现，一个有效语音特征值P2与一个视频信息如“孙俪”的相关性为92％，则可以确定有效语音特征值P2对应的目标视频信息为“孙俪”，将二者的对应关系确定为语音识别模型，存储在语音识别库中。以此类推，建立目标语音识别库。示例性地，可以采用以下表三表示目标语音识别库：

[0158]有效语音特征值目标视频信息
P1 芈月传
P2 孙俪
P3 郑晓龙
…… ……
Pn 辣妈正传

[0159] 表三

[0160] 表三所示的目标语音识别库中包括n个表项，每一个表项即表示一个语音识别模型。

[0161] 可见，采用本公开提供的智能识别语音的方法，智能设备可以自己采用用户的语言信息样本，对语言信息样本进行统计分析，自动获得用户个性化的语音识别数据库。将符合用户个性的语音识别数据库应用于语音控制系统中，使智能设备的语音控制功能更加强大，提升智能设备的智能化，进而提升智能设备的用户体验。

[0162] 参照图8根据一示例性实施例示出的另一种智能识别语音的方法流程图，在图7所示实施例的基础上，还可以包括：

[0163] 在步骤14中，统计所述目标语音识别库中所述语音识别模型的数量；

[0164] 在步骤15中，判断所述目标语音识别库中的语音模型的数量是否达到预置模型阈值；若是，执行步骤16；若否继续采集语音样本，并建立语音模型。

[0165] 在步骤16中，当所述语音识别模型的数量达到预置模型阈值时，提醒用户可以使用目标语言进行语音搜索。

[0166] 仍以用户的日常使用藏语交流为例，假设藏语词汇为3000个，常用藏语词汇为1000个，也就是说当上述目标语音识别库中的语音识别模型的数量达到1000个时，说明智能设备已初步具有藏语语音识别能力，则可以向用户发出可以使用藏语对电视节目进行语音搜索的提示信息。

[0167] 本公开提供的智能识别语音的方法，当目标语音识别库中的语音模型数量达到预设数量阈值时，还具备自动提醒用户使用个性化语言进行语音控制，进一步提升了智能设备的用户体验。

[0168] 参照图9根据一示例性实施例示出的智能识别语音的场景示意图。用户终端200上安装有一款名称为遥控器助手的应用程序APP，在该遥控器助手的应用界面上提供有语音输入入口，当用户通过该入口输入藏语，用户终端将藏语语音信号发送给智能电视100。智能电视根据从用户终端接收的藏语语音信号匹配目标语音识别库，输出对应的视频信息，将与该视频信息相关的电视节目推送到电视屏幕进行显示，从而实现使用藏语语音搜索电视节目的目的。

[0169] 对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

[0170] 其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

[0171] 对应上述实施例提供的智能识别语音的方法，本公开还提供了一种智能识别语音的装置。

[0172] 参照图10根据一示例性实施例示出的一种智能识别语音的装置框图，所述装置可以包括：

[0173] 语音采集模块21，被配置为采集用户个性化的语音样本；其中，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

[0174] 存储模块22，被配置为建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

[0175] 语音识别模块23，被配置为根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型。

[0176] 参照图11根据一示例性实施例示出的一种智能识别语音的装置框图，在图10所示实施例的基础上，语音采集模块21可以包括：

[0177] 第一语音采集子模块211，被配置为采集用户发出的原始语音信号；

[0178] 第一样本语音获取子模块212，被配置为根据视频播放时间，从所述原始语音信号中截取预置时间对应的第一语音信号；

[0179] 第一特征提取子模块213，被配置为提取所述第一语音信号的语音特征值，获得第一有效语音特征值集合；

[0180] 第一样本确定子模块214，被配置为将所述第一有效语音特征值集合与对应的视频播放时间，确定为所述语音样本。

[0181] 参照图12根据一示例性实施例示出的一种智能识别语音的装置框图，在图11所示实施例的基础上，第一特征提取子模块213可以包括：

[0182] 第一特征提取单元2131，被配置为对所述第一语音信号进行特征值提取，获得第一语音特征值集合；

[0183] 第一有效语音特征值确定单元2132，被配置为将所述第一语音特征值集合中出现频率超过第一预设频率阈值的语音特征值确定为有效语音特征值，获得所述第一有效语音特征值集合。

[0184] 参照图13根据一示例性实施例示出的一种智能识别语音的装置框图，在图10所示实施例的基础上，语音采集模块21可以包括：

[0185] 第二语音采集子模块21-1，被配置为采集用户发出的原始语音信号；

[0186] 第二特征提取子模块21-2，被配置为提取所述原始语音信号的语音特征值，获得第二有效语音特征值集合；

[0187] 第一特征确定子模块21-3，被配置为根据视频播放时间，从所述第二有效语音特征值集合中获取预置时间对应的第一有效语音特征值集合；

[0188] 第二样本确定子模块21-4，被配置为将所述第一有效语音特征值集合与对应的视频播放时间确定为所述语音样本。

[0189] 参照图14根据一示例性实施例示出的一种智能识别语音的装置框图，在图13所示实施例的基础上，第二特征提取子模块21-2可以包括：

[0190] 第二特征提取单元21-21，被配置为对所述原始语音信号进行特征值提取，获得第二语音特征值集合；

[0191] 第二有效语音特征值确定单元21-22，被配置为从所述第二语音特征值集合中选取出现频率超过第二预设频率阈值的有效语音特征值，构成所述第二有效语音特征值集合。

[0192] 参照图15根据一示例性实施例示出的一种智能识别语音的装置框图，在图10所示实施例的基础上，所述存储模块22可以包括：

[0193] 关联子模块221，被配置为将一个语音样本与对应的视频信息相关联，确定为一组目标语言特征数据；

[0194] 存储子模块222，被配置为存储每一组目标语言特征数据，构建目标语言特征数据库。

[0195] 参照图16根据一示例性实施例示出的一种智能识别语音的装置框图，在图10所示实施例的基础上，所述语音识别模块23可以包括：

[0196] 分析子模块231，被配置为分析当前目标语言特征数据库中有效语音特征值与视频信息的相关性；

[0197] 语音识别子模块232，被配置为将满足预置条件的有效语音特征值和对应的目标视频信息确定为语音识别模型，存储到目标语音识别库。

[0198] 参照图17根据一示例性实施例示出的一种智能识别语音的装置框图，在图16所示实施例的基础上，所述装置还可以包括：

[0199] 统计模块24，被配置为统计所述目标语音识别库中所述语音识别模型的数量；

[0200] 提醒模块25，被配置为在所述语音识别模型的数量达到预置模型阈值的情况下，提醒用户可以使用目标语言进行语音搜索。

[0201] 对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

[0202] 另外，本公开还提供了一种智能识别语音的装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

[0203] 采集用户个性化的语音样本，每一个语音样本包括：视频播放时间与有效语音特征值集合的对应关系；

[0204] 建立所述语音样本与所述视频播放时间内播放视频的视频信息之间的对应关系，构建目标语言特征数据库；

[0205] 根据所述目标语言特征数据库中的有效语音特征值与所述视频信息的相关性，确定语音识别模型。

[0206] 如图18所示，图18是根据一示例性实施例示出的一种智能识别语音的装置1800的一结构示意图。例如，装置1800可以被提供为一款智能设备，比如智能电视等。参照图18，装置1800包括通信组件1816，被配置为便于装置1800和其它设备之间无线方式的通信。在一个示例性实施例中，通信部件1816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其它技术来实现。

[0207] 装置1800包括还可以包括处理组件1822，其进一步包括一个或多个处理器，以及由存储器1832所代表的存储器资源，用于存储可由处理部件1822的执行的指令，例如应用程序。存储器1832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1822被配置为执行指令，以执行上述智能识别语音的方法。

[0208] 装置1800还可以包括一个电源组件1826被配置为执行装置1800的电源管理，一个有线或无线网络接口1850被配置为将装置1800连接到网络，和一个输入输出(I/O)接口1858。装置1800可以操作基于存储在存储器1832的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

[0209] 在示例性实施例中，装置1800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其它电子元件实现，用于执行上述方法。

[0210] 在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1832，上述指令可由装置1800的处理组件1822执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

[0211] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

[0212] 以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

智能识别语音的方法及装置转让专利

申请号 : CN201510982051.3

文献号 : CN106920546B

文献日 : 2020-03-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘卫星 , 季虹 , 常洋

申请人 : 小米科技有限责任公司

摘要 :

权利要求 :

说明书 :

智能识别语音的方法及装置

技术领域

背景技术

发明内容

附图说明

具体实施方式