一种婴儿发音分析方法及服务器转让专利

申请号 : CN201811480184.0

文献号 : CN111276159A

文献日 : 2020-06-12

相似专利: 请登录后查看

本申请公开了一种婴儿发音分析方法及服务器，该方法包括：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。从而可以准确分析出婴儿发出声音所对应的生理状态。

1.一种婴儿发音的分析方法，其特征在于，包括：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；

使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

2.如权利要求1所述的方法，其特征在于，所述婴儿发出声音的音频数据为婴儿发出哭声的音频数据。

3.如权利要求1所述的方法，其特征在于，所述对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值，包括：对所述音频数据中一个或多个音频帧进行傅里叶变换，得到所述音频数据一个或多个音频帧的振幅值；

将所述音频数据一个或多个音频帧的振幅值进行分贝转化和归一化处理，得到所述音频数据一个或多个音频帧的频谱值。

4.如权利要求1所述的方法，其特征在于，所述机器学习组件的模型为神经网络模型。

5.如权利要求4所述的方法，其特征在于，还包括：根据所述生理状态判断结果匹配应对策略，发出生理状态判断结果及应对策略。

6.如权利要求5所述的方法，其特征在于，还包括：接收根据生理状态判断结果及应对策略反馈的修正信息；

根据所述修正信息修正生理状态判断结果；

发出修正结果，用以根据修正结果修正神经网络模型。

7.如权利要求4所述的方法，其特征在于，所述神经网络模型基于如下步骤进行训练：获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；

对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图；

提取所述音频数据的语谱图特征；

根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

8.一种婴儿发音分析方法，其特征在于，包括：向服务器发送婴儿发出声音的音频数据；

接收服务器反馈的所述音频数据相对应的生理状态判断结果；其中，所述音频数据相对应的生理状态判断结果是所述服务器按如下方式获得的：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

9.如权利要求8所述的方法，其特征在于，还包括：接收所述服务器反馈的根据生理状态判断结果及匹配的应对策略。

10.如权利要求9所述的方法，其特征在于，还包括：根据生理状态判断结果及匹配的应对策略向所述服务器反馈修正信息，以使所述服务器根据修正信息修正生理状态判断结果。

11.一种婴儿发音分析方法，其特征在于，包括：接收服务器发来的婴儿发出声音的音频数据的语谱图，所述音频数据的语谱图是所述服务器对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值，根据所述一个或多个音频帧的频谱值生成的；

根据所述音频数据的语谱图，使用机器学习组件得到所述音频数据相对应的生理状态判断结果；

将所述音频数据相对应的生理状态判断结果返回给服务器。

12.如权利要求11所述的方法，其特征在于，所述机器学习组件为神经网络模型组件。

13.如权利要求12所述的方法，其特征在于，还包括：基于如下步骤训练神经网络模型：

获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；

对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图；

提取所述音频数据的语谱图特征；

根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

14.一种服务器，其特征在于，包括：

预处理模块，用于对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

语谱图确定模块，用于根据所述一个或多个音频帧的频谱值生成所述音频数据的语谱图；

结果获得模块，用于使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

15.如权利要求14所述的服务器，其特征在于，所述婴儿发出声音的音频数据为婴儿发出哭声的音频数据。

16.如权利要求14所述的服务器，其特征在于，所述预处理模块，具体用于：对所述音频数据中一个或多个音频帧进行傅里叶变换，得到所述音频数据一个或多个音频帧的振幅值；

将所述音频数据一个或多个音频帧的振幅值进行分贝转化和归一化处理，得到所述音频数据一个或多个音频帧的频谱值。

17.如权利要求14所述的服务器，其特征在于，所述机器学习组件的模型为神经网络模型。

18.如权利要求17所述的服务器，其特征在于，还包括：策略匹配模块，用于根据所述生理状态判断结果匹配应对策略，发出生理状态判断结果及应对策略。

19.如权利要求18所述的服务器，其特征在于，还包括：修正模块，用于接收根据生理状态判断结果及应对策略反馈的修正信息；根据修正信息修正生理状态判断结果；发出修正结果，用以根据修正结果修正神经网络模型。

20.如权利要求17所述的服务器，其特征在于，所述神经网络模型基于如下步骤进行训练：获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；

对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图；

提取所述音频数据的语谱图特征；

根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

21.一种用户设备，其特征在于，包括：

发送模块，用于向服务器发送婴儿发出声音的音频数据；

接收模块，用于接收服务器反馈的所述音频数据相对应的生理状态判断结果；其中，所述音频数据相对应的生理状态判断结果是所述服务器按如下方式获得的：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

22.如权利要求21所述的用户设备，其特征在于，所述接收模块还用于：接收服务器反馈的根据生理状态判断结果及匹配的应对策略。

23.如权利要求22所述的用户设备，其特征在于，所述发送模块还用于：根据生理状态判断结果及匹配的应对策略向服务器反馈修正信息，以使服务器根据修正信息修正生理状态判断结果。

24.一种机器学习组件，其特征在于，包括：接收模块，用于接收服务器发来的婴儿发出声音的音频数据的语谱图，所述音频数据的语谱图是服务器对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值，根据所述一个或多个音频帧的频谱值生成的；

生理状态判断模块，用于根据所述音频数据的语谱图，使用机器学习组件得到所述音频数据相对应的生理状态判断结果；

反馈模块，用于将所述音频数据相对应的生理状态判断结果返回给服务器。

25.如权利要求24所述的机器学习组件，其特征在于，所述机器学习组件为神经网络模型组件。

26.如权利要求25所述的机器学习组件，其特征在于，还包括：训练模块，用于基于如下步骤训练神经网络模型：获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；

对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图；

提取所述音频数据的语谱图特征；

根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

27.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13任一所述方法。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至13任一所述方法的计算机程序。

一种婴儿发音分析方法及服务器

技术领域

[0001] 本说明书实施例涉及语音技术领域，尤其涉及一种婴儿发音分析方法及服务器。

背景技术

[0002] 本部分旨在为权利要求书中陈述的本说明书实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

[0003] 语音数据中包含非常多的信息，例如当婴儿出现生理需求或生病征兆时，往往是通过哭来表达。医学研究表明，婴儿哭声信号具有潜力巨大的医学价值，暗藏多种疾患线索。若能正确区分各种婴儿哭声的含义，对提前发现疾病、照顾婴儿能起到很好的辅助作用。

[0004] 因此，业内亟需一种可以准确分析出婴儿哭声数据中所包含信息的解决方案。

发明内容

[0005] 本说明书实施例目的在于提供一种哭声分析方法及服务器，用于准确分析出婴儿发出声音所对应的生理状态。

[0006] 本说明书实施例提供的一种婴儿发音分析方法及服务器是包括以下方式实现的：

[0007] 第一方面，提供一种婴儿发音分析方法，应用于服务器，所述方法包括：

[0008] 对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0009] 第二方面，提供一种服务器，包括：

[0010] 预处理模块，用于对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

[0011] 语谱图确定模块，用于根据所述一个或多个音频帧的频谱值生成所述音频数据的语谱图；

[0012] 结果获得模块，用于使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0013] 第三方面，提供一种婴儿发音分析方法，应用于用户设备，所述方法包括：

[0014] 向服务器发送婴儿发出声音的音频数据；接收服务器反馈的所述音频数据相对应的生理状态判断结果；其中，所述音频数据相对应的生理状态判断结果是所述服务器按如下方式获得的：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0015] 第四方面，提供一种用户设备，包括：

[0016] 发送模块，用于向服务器发送婴儿发出声音的音频数据；

[0017] 接收模块，用于接收服务器反馈的所述音频数据相对应的生理状态判断结果；其中，所述音频数据相对应的生理状态判断结果是所述服务器按如下方式获得的：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0018] 第五方面，提供一种婴儿发音分析方法，应用于机器学习组件，所述方法包括：

[0019] 接收服务器发来的婴儿发出声音的音频数据的语谱图，所述音频数据的语谱图是所述服务器对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值，根据所述一个或多个音频帧的频谱值生成的；根据所述音频数据的语谱图，使用机器学习组件得到所述音频数据相对应的生理状态判断结果；将所述音频数据相对应的生理状态判断结果返回给服务器。

[0020] 第六方面，提供一种机器学习组件，包括：

[0021] 接收模块，用于接收服务器发来的婴儿发出声音的音频数据的语谱图，所述音频数据的语谱图是服务器对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值，根据所述一个或多个音频帧的频谱值生成的；

[0022] 生理状态判断模块，用于根据所述音频数据的语谱图，使用机器学习组件得到所述音频数据相对应的生理状态判断结果；

[0023] 反馈模块，用于将所述音频数据相对应的生理状态判断结果返回给服务器。

[0024] 第七方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面、第三方面和第五方面中的任一所述方法。

[0025] 第八方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述第一方面、第三方面和第五方面中的任一所述方法的计算机程序。

[0026] 由以上技术方案可见，本申请通过对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。从而可以准确分析出婴儿发出声音所对应的生理状态。

[0027] 为让本申请的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

[0028] 为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

[0029] 图1为本说明书实施例中提供的一种适用场景示意图；

[0030] 图2为本说明书实施例中提供的一种婴儿发音分析方法交互流程示意图；

[0031] 图3为本说明书实施例中提供的语谱图示意图；

[0032] 图4为本说明书实施例中提供的传统的卷积神经网络模型示意图；

[0033] 图5为本说明书实施例中提供的一种服务器的示意图；

[0034] 图6为本说明书实施例中提供的一种用户设备的示意图；

[0035] 图7为本说明书实施例中提供的一种机器学习组件的示意图；

[0036] 图8为本说明书实施例中提供的一种婴儿发音分析方法流程示意图；

[0037] 图9为本说明书实施例中提供的另一种婴儿发音分析方法流程示意图；

[0038] 图10为本说明书实施例中提供的另一种婴儿发音分析方法流程示意图；

[0039] 图11为本说明书实施例中提供的一种婴儿发音分析方法交互流程示意图。

具体实施方式

[0040] 为使本说明书实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本说明书实施例做进一步详细说明。在此，本说明书实施例的示意性实施例及其说明用于解释本说明书实施例，但并不作为对本说明书实施例的限定。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

[0041] 下面参考本说明书实施例的若干代表性实施方式，详细阐释本说明书实施例的原理和精神。

[0042] 虽然本说明书实施例提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行。

[0043] 深度学习的概念源于人工神经网络的研究，深度学习是机器学习中一种基于对数据进行表征学习的方法，观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。其动机在于建立、模拟人脑进行分析学习的神经网络，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示的方式达到模仿人脑机制解释数据的目的。

[0044] 本说明书实施例提供一种语音数据分析方法及服务器，可以准确分析出语音数据中所包含的信息，例如可应用于对婴儿的哭声进行分析，获取婴儿哭声对应的生理状态和预判策略。本说明书实施例提供的一种实施方案可以应用到包含客户端、服务器、机器学习组件的系统构架中。

[0045] 图1示出了该实施例适用的场景，参阅图1，当婴儿啼哭时，用户启动用户设备(至少具有包括录音功能)上的生理状态预判软件或功能，用户设备对环境音进行录制，得到婴儿啼哭的语音。所述用户设备如智能手机、平板电脑、智能穿戴设备等。客户端可以具有通信模块，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式系统的服务器结构。服务器根据该语音进行预处理，再将预处理的结果传输至深度学习模型组件，最终得到语音信息相对应生理状态判断结果及匹配的应对策略，进一步返回到客户端上显示给用户。用户按照得到的生理状态判断结果及匹配的应对策略进行处理，并在客户端上给予反馈。

[0046] 需要说明的是，本说明书实施例可应用于包括但不限于以上场景中。

[0047] 下面介绍本申请的具体技术方案。图2示出了本说明书实施例提供的一种婴儿发音分析方法交互示意图，将婴儿发音分析方法应用于分析婴儿发出的语音，从而得到婴儿发出语音的生理状态判断结果及匹配的应对策略。如图2所示，该流程包括：

[0048] 步骤201：用户设备向服务器传输采集到的婴儿发出的声音的语音数据。

[0049] 步骤202：服务器对语音数据进行预处理，得到该语音数据的语谱图。

[0050] 步骤203：服务器将语谱图传输至机器学习组件。

[0051] 步骤204：机器学习组件对该语音数据的语谱图进行处理，得到语谱图对应的生理状态判断结果信息。

[0052] 步骤205：机器学习组件将该生理状态判断结果信息返回给所述服务器。

[0053] 步骤206：服务器根据该生理状态判断结果信息，匹配应对策略。

[0054] 步骤207：服务器将生理状态判断结果及其匹配的应对策略返回给用户设备。

[0055] 在本说明书的一个或多个实施例中，在步骤202中，服务器对接收到的婴儿发出的语音的语音数据所包括的一个或多个语音帧进行傅里叶变换再将得到的振幅值进行分贝转化，以及归一化处理，得到所述音频数据一个或多个音频帧的频谱值。进一步，根据一个或多个音频帧的频谱值，生成语音数据的语谱图。

[0056] 在本说明书的一个或多个实施例中，在步骤204中，可以将语谱图输入到机器学习组件，提取深度学习特征；其中，可以利用分类器根据深度学习特征对语谱图进行分类，得到与语谱图相对应的生理状态判断结果。

[0057] 在本说明书的一个或多个实施例中，机器学习组件可以基于如下步骤进行机器学习组件中的神经网络模型的训练：首先，获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；再对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；进一步根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图，提取所述音频数据的语谱图特征；最后，根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。在进行婴儿语音数据的采集时，可以采集婴儿哭声的原始数据样本，通过与儿科医院、月子中心、儿童福利院等的合作获取样本数据，也可以在家长使用移动设备或可穿戴设备的过程中，持续收集婴儿哭声样本；另外，还可以与诊所、医院合作，在婴儿就诊过程中完成哭声数据和医生诊断结果的匹配。预先利用所得语音数据进行预处理得到语谱图，进一步进行深度学习，得到神经网络模型。

[0058] 在本说明书的一个或多个实施例中，在步骤206中，服务器根据生理状态判断结果信息，匹配与生理状态判断结果对应的生理状态判断策略。关于生理状态判断策略可以结合现在医学研究结论给出，例如，平坦而断续的哭声常表示：“妈妈，我饿了，我渴了。”这种哭声在给乳喂水后哭声即停止。例如，暴发性高而尖的哭声常表示：“妈妈，我痛！我不舒服。”这种疼痛常因突发的打击、针刺或烧灼而引起。例如，阵发性哭闹，往往是因各种肠道急性感染或消化不良致肠痉挛而引起。急腹症如肠套叠时常表现为突然嚎叫不安，伴有脸色苍白、出汗症状等等。进一步地，将生理状态判断结果和生理状态判断策略发送给用户设备，而生理状态包括疾病状态，从上述举例可以看出，利用本说明书实施例提供的婴儿发音分析方法可以对婴儿疾病防治起到辅助作用。用户通过用户设备获取信息，从而达到辅助照料婴儿的作用。进一步地，还可根据用户的反馈对机器学习模型进行不断调整，以使得机器学习组件有更准确的分类效果。

[0059] 在本说明书的一个或多个实施例中，在步骤207之后，还可以由服务器接收用户设备传输的生理状态判断结果及应对策略反馈的修正信息；若反馈的修正信息显示所述生理状态判断结果和所述生理状态判断策略不准确，则服务器根据所述修正信息修正机器学习组件。

[0060] 下面对本说明书实施例提到的部分方法进行详细阐述。

[0061] 如图3所示，在本说明书的一个或多个实施例中可以使用语谱图来进行语音识别，相比传统的语音识别方法，语谱图能够同时展现时域与频域的信息，能够更好的表达语音信息。语音信号的傅里叶分析的显示图形称为语谱图(sonogram或者spectrogram)。语谱图是三维频谱，表示语音频谱随时间变化的图形，纵轴为频率，横轴为时间。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。用语谱图分析语音也称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息，综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。

[0062] 举例来说，对于一段语音信号x(t)，首先分帧，变为x(m，n)；其中，n为帧长，m为帧的个数。其次，做FFT变换，得到X(m，n)，生成周期图Y(m，n)，其中Y(m，n)＝X(m，n)*(m，n)’。然后取10*log10(Y(m，n))，把m根据时间变换刻度M，n根据频率变化刻度N。最后将(M，N，10*log10(Y(m，n)画成二维图得到语谱图(也可画成三维图)。

[0063] 如图3所示，语谱图示出了不同语音频段的信号强度随时间变化的情况。显示为条纹的地方实际是颜色深的点聚集的地方，随时间延续，就延长成条纹，也就是表示语音中频率值为该点横坐标值的能量较强，在整个语音中所占比重大，相应影响人感知的效果要更强烈。而一般语音中数据是周期性的，所以，能量强点的频率分布是频率周期的，即存在300Hz强点，则一般在n*300Hz点也会出现强点，所以看到的语谱图都是条纹状的。

[0064] 因此，本说明书实施例中，可以通过对语音数据所包括的一个或多个语音帧进行傅里叶变换，得到所述一个或多个语音帧的频谱值；再根据所述一个或多个语音帧的频谱值，生成音频数据的语谱图；其中，语谱图的横坐标为语音帧所对应的时间，语谱图的纵坐标为语音帧所含的频率分量，语谱图的坐标点值为频谱值。

[0065] 需要说明的是，在实际应用中本说明书的一个或多个实施例的语音特征提取方法也可以是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)等，本说明书实施例在此不作限定。

[0066] 下面进一步对机器学习组件中构建神经网络模型进行说明。本说明书的一个或多个实施例的神经网络模型中，优选地基于卷积神经网络(Convolutional Neural Network，CNN)模型，但在实际应用中，该方法实施的机器学习组件也可以基于循环神经网络模型等，本说明书实施例在此不作限定。

[0067] 针对卷积神经网络模型，将卷积神经网络的模型信息以及作为卷积神经网络输入数据的语谱图样本，从主机端(比如主机的内存、硬盘等外置存储器)传输到存储器中。在卷积神经网络训练过程中，语谱图样本被分配到组流处理器中，该组流处理器利用并行计算技术进行卷积、通道选取、反向误差计算等操作，最后得到的结果(比如训练时生成的模型数据)再被传回存储器。在对象识别过程中，作为待识别的语谱图样本被分配到该组流处理器中，该组流处理器利用并行计算技术进行卷积、通道选取等操作，最后，得到的语谱图样本对应的预判结果再被传回存储器。

[0068] 在本说明书的一个或多个实施例中，卷积神经网络模型为预先训练好的模型，图4示出了传统的卷积神经网络模型的一个典型示例，该卷积神经网络用于多通道图像的识别。应用于本说明书实施例中，将语谱图输入到卷积神经网络后，经过若干个处理过程(如图中的阶段)最终输出识别结果。一个阶段的处理过程可包括：卷积、归一化处理以及下采样。一个局部感受域(比如5×5像素)的语谱图输入到输入层的每个神经元后，各神经元对语谱图进行卷积等处理以得到不同的特征信息。通过池化层对输入的特征图进行压缩，一方面使得特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征。再通过全连接层连接所有的特征，将学到的特征表示映射到样本的标记空间，将输出值送给分类器。分类器可直接输出结果。

[0069] 在本说明书的一个或多个实施例中，在卷积神经网络的数据处理之后，将目标特征图输入Softmax分类器以分离数据，在Softmax分类器中进行识别，识别出特征对应的生理状态信息。在具体实施时，本说明书实施例采用Softmax分类器，同时也支持向量机(Support vector machine，SVM)分类器。

[0070] 本说明书实施例还提供一种服务器，如图5所示，该服务器包括：

[0071] 预处理模块501，用于对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值。

[0072] 语谱图确定模块502，用于根据所述一个或多个音频帧的频谱值生成所述音频数据的语谱图。

[0073] 结果获得模块503，用于使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0074] 在本说明书的一个或多个实施例中，所述婴儿发出声音的音频数据为婴儿发出哭声的音频数据。

[0075] 在本说明书的一个或多个实施例中，预处理模块501具体用于：对所述音频数据中一个或多个音频帧进行傅里叶变换，得到所述音频数据一个或多个音频帧的振幅值；将所述音频数据一个或多个音频帧的振幅值进行分贝转化和归一化处理，得到所述音频数据一个或多个音频帧的频谱值。

[0076] 在本说明书的一个或多个实施例中，结果获得模块503具体用于：将所述音频数据的语谱图输入神经网络模型，获得所述音频数据相对应的生理状态判断结果。

[0077] 在本说明书的一个或多个实施例中，还包括策略匹配模块，用于根据所述生理状态判断结果匹配应对策略，发出生理状态判断结果及应对策略。

[0078] 在本说明书的一个或多个实施例中，还包括修正模块，用于接收根据生理状态判断结果及应对策略反馈的修正信息；根据修正信息修正生理状态判断结果；发出修正结果，用以根据修正结果修正神经网络模型。

[0079] 在本说明书的一个或多个实施例中，神经网络模型基于如下步骤进行训练：获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图；提取所述音频数据的语谱图特征；根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

[0080] 本说明书实施例还提供一种用户设备，如图6所示，该用户设备包括：

[0081] 发送模块601，用于向服务器发送婴儿发出声音的音频数据。

[0082] 接收模块602，用于接收服务器反馈的所述音频数据相对应的生理状态判断结果；其中，所述音频数据相对应的生理状态判断结果是所述服务器按如下方式获得的：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0083] 在本说明书的一个或多个实施例中，所述接收模块602还用于：接收服务器反馈的根据生理状态判断结果及匹配的应对策略。

[0084] 在本说明书的一个或多个实施例中，所述发送模块601还用于：根据生理状态判断结果及匹配的应对策略向服务器反馈修正信息，以使服务器根据修正信息修正生理状态判断结果。

[0085] 本说明书实施例还提供一种机器学习组件，如图7所示，该机器学习组件包括：

[0086] 接收模块701，用于接收服务器发来的婴儿发出声音的音频数据的语谱图，所述音频数据的语谱图是服务器对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值，根据所述一个或多个音频帧的频谱值生成的。

[0087] 生理状态判断模块702，用于根据所述音频数据的语谱图，使用机器学习组件得到所述音频数据相对应的生理状态判断结果。

[0088] 反馈模块703，用于将所述音频数据相对应的生理状态判断结果返回给服务器。

[0089] 在本说明书的一个或多个实施例中，生理状态判断模块702具体用于：将所述音频数据的语谱图输入神经网络模型，获得所述音频数据相对应的生理状态判断结果。

[0090] 在本说明书的一个或多个实施例中，还包括训练模块，用于基于如下步骤训练神经网络模型：

[0091] 获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图；提取所述音频数据的语谱图特征；根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

[0092] 图8示出了本说明书实施例提供的一种婴儿发音分析方法，可应用于服务器，如图8所示，该方法包括以下步骤：

[0093] 步骤801：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值。

[0094] 步骤802：根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图。

[0095] 步骤803：使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0096] 在本说明书的一个或多个实施例中，所述婴儿发出声音的音频数据可以为婴儿发出哭声的音频数据。

[0097] 在本说明书的一个或多个实施例中，在步骤801中，可以对所述音频数据中一个或多个音频帧进行傅里叶变换，得到所述音频数据一个或多个音频帧的振幅值；将所述音频数据一个或多个音频帧的振幅值进行分贝转化和归一化处理，得到所述音频数据一个或多个音频帧的频谱值。

[0098] 在本说明书的一个或多个实施例中，在步骤803中，可以将所述音频数据的语谱图输入神经网络模型，获得所述音频数据相对应的生理状态判断结果。

[0099] 在本说明书的一个或多个实施例中，还可以根据所述生理状态判断结果匹配应对策略，然后发出生理状态判断结果及应对策略。

[0100] 在本说明书的一个或多个实施例中，还可以接收根据生理状态判断结果及应对策略反馈的修正信息；并根据所述修正信息修正生理状态判断结果；进一步发出修正结果，用以根据修正结果修正神经网络模型。

[0101] 在本说明书的一个或多个实施例中，机器学习组件可以基于如下步骤进行机器学习组件中的神经网络模型的训练：首先，获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；再对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；进一步根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图，提取所述音频数据的语谱图特征；最后，根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

[0102] 图9示出了本说明书另一实施例提供的一种婴儿发音分析方法，可应用于用户设备，如图9所示，该方法包括以下步骤：

[0103] 步骤901：向服务器发送婴儿发出声音的音频数据。

[0104] 步骤902：接收服务器反馈的所述音频数据相对应的生理状态判断结果；其中，所述音频数据相对应的生理状态判断结果是所述服务器按如下方式获得的：对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。

[0105] 在本说明书的一个或多个实施例中，在上述步骤901和步骤902之后，还可以接收所述服务器反馈的根据生理状态判断结果及匹配的应对策略。

[0106] 在本说明书的一个或多个实施例中，在接收服务器反馈的根据生理状态判断结果及匹配的应对策略之后，根据生理状态判断结果及匹配的应对策略向所述服务器反馈修正信息，以使所述服务器根据修正信息修正生理状态判断结果。在本实施例中，所述服务器根据修正信息修正生理状态判断结果实现的具体步骤以及功能可以参见本说明书其它实施例进行对照解释，在此不再赘述。

[0107] 图10示出了本说明书另一实施例提供的一种婴儿发音分析方法，可应用于机器学习组件，如图10所示，该方法包括如下步骤：

[0108] 步骤1001：接收服务器发来的婴儿发出的声音的音频数据的语谱图，所述音频数据的语谱图是所述服务器对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值，根据所述一个或多个音频帧的频谱值生成的。

[0109] 步骤1002：根据所述音频数据的语谱图，使用机器学习组件得到所述音频数据相对应的生理状态判断结果。

[0110] 步骤1003：将所述音频数据相对应的生理状态判断结果返回给服务器。

[0111] 在本说明书的一个或多个实施例中，在步骤1002中，可以将所述音频数据的语谱图输入神经网络模型，获得所述音频数据相对应的生理状态判断结果。

[0112] 在本说明书的一个或多个实施例中，可以基于如下步骤训练神经网络模型：

[0113] a、获取婴儿发出声音的音频数据及音频数据的生理状态判断结果；

[0114] b、对所述音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；

[0115] c、根据所述音频数据中一个或多个音频帧的频谱值生成所述音频数据的语谱图；

[0116] d、提取所述音频数据的语谱图特征；

[0117] e、根据所述音频数据的语谱图特征及生理状态判断结果对神经网络模型进行训练。

[0118] 为了更好的理解本说明书实施例中所述的婴儿发音分析方法，现举例对该方法流程进行说明，如图11所示，对婴儿发音的分析方法可以有以下步骤：

[0119] 步骤1101：婴儿啼哭时，家长启动移动设备或者可穿戴设备上的软件或功能。

[0120] 步骤1102：用户设备录制婴儿哭声，并对录制的哭声语音进行压缩处理。

[0121] 步骤1103：将处理后的语音数据上传服务器。

[0122] 步骤1104：服务器对音频数据进行预处理，整理分类、打标等，并生成语谱图。

[0123] 步骤1105：服务器将音频数据的语谱图传输至机器学习组件。

[0124] 步骤1106：机器学习组件对语谱图进行处理，得到音频数据对应的生理状态判断结果。

[0125] 步骤1107：机器学习组件将音频数据对应的生理状态判断结果返回给服务器。

[0126] 步骤1108：服务器根据生理状态判断结果，匹配与生理状态判断结果对应的生理状态判断策略。

[0127] 步骤1109：服务器将生理状态判断结果及其生理状态判断策略发送给用户设备。

[0128] 步骤1110：用户设备获取步骤1109发送的信息后，将生理状态判断结果及其生理状态判断策略在所述软件或功能上显示出来。

[0129] 步骤1111：用户获取生理状态判断结果及其生理状态判断策略。

[0130] 步骤1112：用户根据生理状态判断结果及其生理状态判断策略进行实践，判断生理状态判断结果及其生理状态判断策略是否准确。

[0131] 步骤1113：用户将判断结果反馈给用户设备。

[0132] 步骤1114：用户设备将判断结果反馈结果上传服务器。

[0133] 步骤1115：接收用户设备的反馈结果，若所述反馈结果显示所述生理状态判断结果及其生理状态判断策略不准确，则将所述用户设备反馈结果中的用户判定结果更新为所述语谱图对应的生理状态信息。

[0134] 步骤1116：将更新后的生理状态信息传输至所述机器学习组件。

[0135] 步骤1117：机器学习组件根据更新后的生理状态信息修正机器学习模型。

[0136] 虽然婴儿无法通过言语或手势来表达自己的需求，但通过本说明书的一个或多个实施例提供的方法可以对婴儿哭声进行有效分析，例如在步骤1104中，通过借助语谱图对语音特征进行提取，进一步可以在步骤1105中服务器将语谱图传输至机器学习组件，例如将128*n维语谱图输入卷积神经网络模型中，卷积神经网络网络模型包含若干个卷积层、池化层，卷积层提取图像的特征，由卷积核在上一级输入层上通过逐一滑动窗口计算而得，池化层对原始特征信号进行抽象，从而大幅度减少训练参数，减轻模型过拟合的程度。进一步由全连接层将“学到”的特征表示映射到样本的标记空间，在整个卷积神经网络中起到“分类器”的作用。最后将全连接层传入的数据使用Softmax分类器分类处理。因此在步骤1106中，机器学习组件对语谱图进行处理，就可以得到语谱图对应的生理状态信息。

[0137] 在步骤1108中，服务器根据生理状态判断结果，匹配与生理状态判断结果对应的生理状态判断策略。关于生理状态判断策略可以结合现在医学研究结论给出，例如，平坦而断续的哭声常表示：“妈妈，我饿了，我渴了。”这种哭声在给乳喂水后哭声即停止。例如，暴发性高而尖的哭声常表示：“妈妈，我痛！我不舒服。”这种疼痛常因突发的打击、针刺或烧灼而引起。例如，阵发性哭闹，往往是因各种肠道急性感染或消化不良致肠痉挛而引起。急腹症如肠套叠时常表现为突然嚎叫不安，伴有脸色苍白、出汗症状等等。进一步地，将生理状态判断结果和生理状态判断策略发送给用户设备，用户通过用户设备获取信息，从而达到辅助照料婴儿的作用。进一步地，还可根据用户的反馈对机器学习模型进行不断调整，以使得机器学习组件有更准确的分类效果。

[0138] 本说明书实施例还提出了一种计算设备，包括：适于实现各指令的处理器以及存储设备，所述存储设备存储有多条指令，所述指令适于由处理器加载并执行上述婴儿发音分析方法。

[0139] 本说明书实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述婴儿发音分析方法。

[0140] 综上所述，本说明书的一个或多个实施例提供的方法，本申请通过对婴儿发出声音的音频数据进行分帧，确定所述音频数据中一个或多个音频帧的频谱值；根据所述一个或多个音频帧的频谱值，生成所述音频数据的语谱图；使用机器学习组件，从所述语谱图确定所述音频数据相对应的生理状态判断结果。从而可以准确分析出婴儿发出声音所对应的生理状态，也可以给用户提供基于用户提供的语音数据得到的生理状态信息和生理状态策略，辅助用户进行生理状态的防治。例如可以用于对婴儿的哭声进行分析，获取生理状态信息和生理状态判断的策略，使用可穿戴设备或移动设备与云端人工智能的结合，使得使用更加方便，达到辅助用户照料婴儿的目的。

[0141] 本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

[0142] 需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

[0143] 虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

[0144] 上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0145] 本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

[0146] 本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

[0147] 通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

[0148] 本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

[0149] 以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

一种婴儿发音分析方法及服务器转让专利

申请号 : CN201811480184.0

文献号 : CN111276159A

文献日 : 2020-06-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵志英

申请人 : 阿里健康信息技术有限公司

摘要 :

权利要求 :

说明书 :

一种婴儿发音分析方法及服务器

技术领域

背景技术

发明内容

附图说明

具体实施方式