一种智能音箱应用控制方法及智能音箱转让专利

申请号 : CN202010219629.0

文献号 : CN111385683B

文献日 : 2022-01-28

本发明实施例涉及智能音箱技术领域，公开了一种智能音箱应用控制方法及智能音箱，该方法包括：通过智能音箱的第一拍摄装置对用户人脸进行拍摄，获得人脸图像；识别所述人脸图像获得当前用户表情；判断所述当前用户表情与预设表情是否相匹配；若是，确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面；其中，所述目标拍摄装置不同于所述第一拍摄装置；执行与所述书写页面的书写内容相适配的操作；能够准确地识别用户的真正意图，提升智能音箱的智能化，有利于提高用户的使用体验感。

1.一种智能音箱应用控制方法，其特征在于，应用于智能音箱，所述智能音箱包括主体箱体、顶部摄像头和底部摄像头，所述顶部摄像头可拆卸设置于所述主体箱体的上顶面且可升降旋转，所述底部摄像头固定在所述主体箱体，所述主体箱体的正表面可拆卸设置有显示屏，所述方法包括：

通过智能音箱的第一拍摄装置对用户人脸进行拍摄，获得人脸图像；

识别所述人脸图像获得当前用户表情；

判断所述当前用户表情与预设表情是否相匹配；

若是，确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面；其中，所述目标拍摄装置不同于所述第一拍摄装置；

执行与所述书写页面的书写内容相适配的操作。

2.根据权利要求1所述的方法，其特征在于，所述确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面，包括：将所述智能音箱的第二拍摄装置确定为目标拍摄装置，以及，控制所述目标拍摄装置升降和/或旋转至目标位置，基于所述目标位置通过所述目标拍摄装置拍摄用户的书写页面，获得第一书写页面图像；

所述执行与所述书写页面的书写内容相适配的操作，包括：识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显示屏上输出所述搜索结果。

3.根据权利要求1所述的方法，其特征在于，所述确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面，包括：将与所述智能音箱连接的可穿戴设备的第二拍摄装置确定为目标拍摄装置，向所述目标拍摄装置发送拍摄指令，以使所述目标拍摄装置拍摄用户的书写页面，获得第二书写页面图像；

所述执行与所述书写页面的书写内容相适配的操作，包括：接收所述可穿戴设备返回的第二书写页面图像；

判断所述第二书写页面图像的书写内容是否与当前听写内容相适配；

若否，播放用于询问是否需要重新报读所述当前听写内容的询问消息；

在接收到针对所述询问消息反馈的用于确定需要重新报读所述当前听写内容的回复消息时，播放所述当前听写内容。

4.根据权利要求2所述的方法，其特征在于，若所述书写内容包括计量值数据，所述方法还包括：

接收用户输入的语音消息，所述语音消息用于指示对所述书写内容中的计量值数据进行单位换算；

在所述智能音箱的显示屏上输出所述计量值数值的单位换算结果。

5.根据权利要求2所述的方法，其特征在于，所述识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显示屏上输出所述搜索结果之后，所述方法还包括：

搜索与所述书写内容相适配的若干电子书；

在所述智能音箱的显示屏上推送所述若干电子书的相关信息，所述相关信息包括电子书图标及电子书简介信息；

检测是否接收到用户针对目标电子书的查看指令；

在接收到所述查看指令时，输出针对所述目标电子书的购买界面，所述购买界面上显示有所述相关信息及购买按钮；

接收用户对所述购买按钮的点击操作以将付款信息发送给与所述智能音箱连接的用户终端；所述付款信息至少包括付款金额及所述目标电子书的电子书简介信息；

在接收到所述用户终端反馈的付款成功消息时，获取所述目标电子书并添加至用户书籍列表中。

6.一种智能音箱，其特征在于，所述智能音箱包括主体箱体、顶部摄像头和底部摄像头，所述顶部摄像头可拆卸设置于所述主体箱体的上顶面且可升降旋转，所述底部摄像头固定在所述主体箱体，所述主体箱体的正表面可拆卸设置有显示屏，所述智能音箱还包括：拍摄模块，用于通过智能音箱的第一拍摄装置对用户人脸进行拍摄，获得人脸图像；

图像处理模块，用于识别所述人脸图像获得当前用户表情；

表情处理模块，用于判断所述当前用户表情与预设表情是否相匹配；

所述拍摄模块，还用于在所述表情处理模块的判断结果为是时，确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面；其中，所述目标拍摄装置不同于所述第一拍摄装置；

操作控制模块，用于执行与所述书写页面的书写内容相适配的操作。

7.根据权利要求6所述的智能音箱，其特征在于，所述拍摄模块用于确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面的方式具体为：所述拍摄模块，用于将所述智能音箱的第二拍摄装置确定为目标拍摄装置，以及，控制所述目标拍摄装置升降和/或旋转至目标位置，基于所述目标位置通过所述目标拍摄装置拍摄用户的书写页面，获得第一书写页面图像；

所述操作控制模块用于执行与所述书写页面的书写内容相适配的操作的方式具体为：所述操作控制模块，用于识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显示屏上输出所述搜索结果。

8.根据权利要求6所述的智能音箱，其特征在于，所述拍摄模块用于确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面的方式具体为：所述拍摄模块，用于将与所述智能音箱连接的可穿戴设备的第二拍摄装置确定为目标拍摄装置，向所述目标拍摄装置发送拍摄指令，以使所述目标拍摄装置拍摄用户的书写页面，获得第二书写页面图像；

所述操作控制模块用于执行与所述书写页面的书写内容相适配的操作的方式具体为：所述操作控制模块，用于接收所述可穿戴设备返回的第二书写页面图像；以及，判断所述第二书写页面图像的书写内容是否与当前听写内容相适配；若否，播放用于询问是否需要重新报读所述当前听写内容的询问消息；以及，在接收到针对所述询问消息反馈的用于确定需要重新报读所述当前听写内容的回复消息时，播放所述当前听写内容。

9.根据权利要求7所述的智能音箱，其特征在于，若所述书写内容包括计量值数据，所述智能音箱还包括：

语音处理模块，用于接收用户输入的语音消息，所述语音消息用于指示对所述书写内容中的计量值数据进行单位换算；

转换模块，用于在所述智能音箱的显示屏上输出所述计量值数值的单位换算结果。

10.根据权利要求7所述的智能音箱，其特征在于，所述智能音箱还包括：推送模块，用于在所述操作控制模块识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显示屏上输出所述搜索结果之后，搜索与所述书写内容相适配的若干电子书；以及，在所述智能音箱的显示屏上推送所述若干电子书的相关信息，所述相关信息包括电子书图标及电子书简介信息；

购置处理模块，用于检测是否接收到用户针对目标电子书的查看指令；以及，在接收到所述查看指令时，输出针对所述目标电子书的购买界面，所述购买界面上显示有所述相关信息及购买按钮；以及，接收用户对所述购买按钮的点击操作以将付款信息发送给与所述智能音箱连接的用户终端；所述付款信息至少包括付款金额及所述目标电子书的电子书简介信息；以及，在接收到所述用户终端反馈的付款成功消息时，获取所述目标电子书并添加至用户书籍列表中。

一种智能音箱应用控制方法及智能音箱

技术领域

[0001] 本发明涉及智能音箱技术领域，具体涉及一种智能音箱应用控制方法及智能音箱。

背景技术

[0002] 目前，市面上的智能音箱大部分可以通过语音进行智能控制，但是部分低龄用户由于语言能力限制，给到的语音控制指令不是很准确，导致智能音箱无法识别出用户的真
正意图，从而执行错误操作。可见，现有智能音箱的智能化还相对欠缺，影响用户使用体验
感，不利于智能音箱在低龄用户群的推广使用，从而不利于提高用户的使用粘稠度。

发明内容

[0003] 本发明实施例公开了一种智能音箱应用控制方法及智能音箱，用于解决现有智能音箱的智能化欠缺而影响用户使用体验感的问题。

[0004] 本发明实施例第一方面公开了一种智能音箱应用控制方法，可包括：

[0005] 通过智能音箱的第一拍摄装置对用户人脸进行拍摄，获得人脸图像；

[0006] 识别所述人脸图像获得当前用户表情；

[0007] 判断所述当前用户表情与预设表情是否相匹配；

[0008] 若是，确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面；其中，所述目标拍摄装置不同于所述第一拍摄装置；

[0009] 执行与所述书写页面的书写内容相适配的操作。

[0010] 作为一种可选的实施方式，在本发明实施例第一方面中，所述确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面，包括：

[0011] 将所述智能音箱的第二拍摄装置确定为目标拍摄装置，以及，控制所述目标拍摄装置升降和/或旋转至目标位置，基于所述目标位置通过所述目标拍摄装置拍摄用户的书
写页面，获得第一书写页面图像；

[0012] 所述执行与所述书写页面的书写内容相适配的操作，包括：

[0013] 识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显示屏上输出所述搜索结果。

[0014] 作为一种可选的实施方式，在本发明实施例第一方面中，所述确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面，包括：

[0015] 将与所述智能音箱连接的可穿戴设备的第二拍摄装置确定为目标拍摄装置，向所述目标拍摄装置发送拍摄指令，以使所述目标拍摄装置拍摄用户的书写页面，获得第二书
写页面图像；

[0016] 所述执行与所述书写页面的书写内容相适配的操作，包括：

[0017] 接收所述可穿戴设备返回的第二书写页面图像；

[0018] 判断所述第二书写页面图像的书写内容是否与当前听写内容相适配；

[0019] 若否，播放用于询问是否需要重新报读所述当前听写内容的询问消息；

[0020] 在接收到针对所述询问消息反馈的用于确定需要重新报读所述当前听写内容的回复消息时，播放所述当前听写内容。

[0021] 作为一种可选的实施方式，在本发明实施例第一方面中，若所述书写内容包括计量值数据，所述方法还包括：

[0022] 接收用户输入的语音消息，所述语音消息用于指示对所述书写内容中的计量值数据进行单位换算；

[0023] 在所述智能音箱的显示屏上输出所述计量值数值的单位换算结果。

[0024] 作为一种可选的实施方式，在本发明实施例第一方面中，所述识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显
示屏上输出所述搜索结果之后，所述方法还包括：

[0025] 搜索与所述书写内容相适配的若干电子书；

[0026] 在所述智能音箱的显示屏上推送所述若干电子书的相关信息，所述相关信息包括电子书图标及电子书简介信息；

[0027] 检测是否接收到用户针对目标电子书的查看指令；

[0028] 在接收到所述查看指令时，输出针对所述目标电子书的购买界面，所述购买界面上显示有所述相关信息及购买按钮；

[0029] 接收用户对所述购买按钮的点击操作以将付款信息发送给与所述智能音箱连接的用户终端；所述付款信息至少包括付款金额及所述目标电子书的电子书简介信息；

[0030] 在接收到所述用户终端反馈的付款成功消息时，获取所述目标电子书并添加至用户书籍列表中。

[0031] 本发明实施例第二方面公开了一种智能音箱，可包括：

[0032] 拍摄模块，用于通过智能音箱的第一拍摄装置对用户人脸进行拍摄，获得人脸图像；

[0033] 图像处理模块，用于识别所述人脸图像获得当前用户表情；

[0034] 表情处理模块，用于判断所述当前用户表情与预设表情是否相匹配；

[0035] 所述拍摄模块，还用于在所述表情处理模块的判断结果为是时，确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面；其中，所述目标拍摄装置不同于所述第
一拍摄装置；

[0036] 操作控制模块，用于执行与所述书写页面的书写内容相适配的操作。

[0037] 作为一种可选的实施方式，在本发明实施例第二方面中，所述拍摄模块用于确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面的方式具体为：

[0038] 所述拍摄模块，用于将所述智能音箱的第二拍摄装置确定为目标拍摄装置，以及，控制所述目标拍摄装置升降和/或旋转至目标位置，基于所述目标位置通过所述目标拍摄
装置拍摄用户的书写页面，获得第一书写页面图像；

[0039] 所述操作控制模块用于执行与所述书写页面的书写内容相适配的操作的方式具体为：

[0040] 所述操作控制模块，用于识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显示屏上输出所述搜索结果。

[0041] 作为一种可选的实施方式，在本发明实施例第二方面中，所述拍摄模块用于确定目标拍摄装置并控制所述目标拍摄装置拍摄用户的书写页面的方式具体为：

[0042] 所述拍摄模块，用于将与所述智能音箱连接的可穿戴设备的第二拍摄装置确定为目标拍摄装置，向所述目标拍摄装置发送拍摄指令，以使所述目标拍摄装置拍摄用户的书
写页面，获得第二书写页面图像；

[0043] 所述操作控制模块用于执行与所述书写页面的书写内容相适配的操作的方式具体为：

[0044] 所述操作控制模块，用于接收所述可穿戴设备返回的第二书写页面图像；以及，判断所述第二书写页面图像的书写内容是否与当前听写内容相适配；若否，播放用于询问是
否需要重新报读所述当前听写内容的询问消息；以及，在接收到针对所述询问消息反馈的
用于确定需要重新报读所述当前听写内容的回复消息时，播放所述当前听写内容。

[0045] 作为一种可选的实施方式，在本发明实施例第二方面中，若所述书写内容包括计量值数据，所述智能音箱还包括：

[0046] 语音处理模块，用于接收用户输入的语音消息，所述语音消息用于指示对所述书写内容中的计量值数据进行单位换算；

[0047] 转换模块，用于在所述智能音箱的显示屏上输出所述计量值数值的单位换算结果。

[0048] 作为一种可选的实施方式，在本发明实施例第二方面中，所述智能音箱还包括：

[0049] 推送模块，用于在所述操作控制模块识别所述第一书写页面图像获得书写内容，搜索与所述书写内容相匹配的搜索结果，并在所述智能音箱的显示屏上输出所述搜索结果
之后，搜索与所述书写内容相适配的若干电子书；以及，在所述智能音箱的显示屏上推送所
述若干电子书的相关信息，所述相关信息包括电子书图标及电子书简介信息；

[0050] 购置处理模块，用于检测是否接收到用户针对目标电子书的查看指令；以及，在接收到所述查看指令时，输出针对所述目标电子书的购买界面，所述购买界面上显示有所述
相关信息及购买按钮；以及，接收用户对所述购买按钮的点击操作以将付款信息发送给与
所述智能音箱连接的用户终端；所述付款信息至少包括付款金额及所述目标电子书的电子
书简介信息；以及，在接收到所述用户终端反馈的付款成功消息时，获取所述目标电子书并
添加至用户书籍列表中。

[0051] 本发明实施例第三方面公开了一种智能音箱，可包括：

[0052] 存储有可执行程序代码的存储器；

[0053] 与所述存储器耦合的处理器；

[0054] 所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的智能音箱应用控制方法。

[0055] 本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种智能音箱应用控制方
法。

[0056] 本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

[0057] 本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方
面的任意一种方法的部分或全部步骤。

[0058] 与现有技术相比，本发明实施例具有以下有益效果：

[0059] 在本发明实施例中，智能音箱在应用于学习时，可以通过第一拍摄装置对用户人脸进行拍摄，以获得人脸图像，进一步识别该人脸图像获得当前用户表情，在当前用户表情
与预设表情匹配时，确定目标拍摄装置并控制目标拍摄装置拍摄用户的书写页面，然后会
根据书写页面的书写内容进行相应操作。可以看出，实施本发明实施例，用户在利用智能音
箱进行学习时，尤其在用户书写有书写内容的学习过程中，通过拍摄装置检测用户表情，根
据用户表情来触发智能音箱执行相应的操作，有利于提高智能音箱的智能化，提高操作的
准确率，提升用户的使用体验感及使用粘稠度，有利于在低龄用户群中推广智能音箱。

附图说明

[0060] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领
域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附
图。

[0061] 图1为本发明一实施例公开的智能音箱的结构示意图；

[0062] 图2为本发明一实施例公开的智能音箱应用控制方法的流程示意图；

[0063] 图3为本发明另一实施例公开的智能音箱应用控制方法的流程示意图；

[0064] 图4为本发明又一实施例公开的智能音箱应用控制方法的流程示意图；

[0065] 图5为本发明一实施例公开的智能音箱的结构示意图；

[0066] 图6为本发明另一实施例公开的智能音箱的结构示意图；

[0067] 图7为本发明又一实施例公开的智能音箱的结构示意图。

具体实施方式

[0068] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本
发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实
施例，都属于本发明保护的范围。

[0069] 需要说明的是，本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不
必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方
法、产品或设备固有的其它步骤或单元。

[0070] 本发明实施例公开了一种智能音箱应用控制方法及智能音箱，能够准确地识别用户的真正意图，智能性较高，有利于提高用户的使用体验感。

[0071] 本发明实施例公开的智能音箱是一体成型的立式设备，可以是放置于桌面上较小体积的小型智能设备，也可以是放置于地面的竖立式智能设备，其中，该智能音箱包括主机
箱体，主机箱体上设置有显示屏。在一种可选的应用场景中，智能音箱还包括摄像头，显示
屏和摄像头可拆卸设置于主机箱体上，在使用时，将显示屏和/或摄像头安装到主机箱体上
预留的位置，在不使用时，可以将显示屏和/或摄像头拆下，便于移动智能音箱、保护显示屏
和摄像头。在另一种可选的应用场景中，智能音箱不设置摄像头，但配置额外的摄像头，在
用户使用时，可以将摄像头安装在用户佩戴的眼镜上。或者，智能音箱还包括摄像头，同时
配置额外的摄像头，在用户使用时，可以将配置的额外摄像头安装在用户佩戴的眼镜上。在
又一种可选的应用场景中，智能音箱还包括摄像头，该摄像头可通过拉绳与主机箱体连接，
该摄像头可以拉出并固定在主机箱体上的任意位置。在又一种可选的应用场景中，智能音
箱可采用双摄像头设计，包括顶部摄像头和底部摄像头，其中，顶部摄像头可升降旋转，用
于拍摄桌面，底部摄像头固定在主机箱体，可以用于识别手势。在又一种可选的应用场景
中，主机箱体的底部还设置有轮子，可以推动移动。进一步可选地，主机箱体内部还设置有
控制电路，该控制电路与轮子电连接，主机箱体给出行走路径，可以通过控制电路控制智能
音箱按照行走路径行走，实现智能音箱的自动移动。在又一种可选的应用场景中，智能音箱
的显示屏可以采用折叠屏幕，以解决横屏、竖屏切换的问题。在又一种可选的应用场景中，
智能音箱还设置有补光光源，可包括灯泡、灯带，或者灯带+外置部件 (如百叶窗)等等。

[0072] 如图1所示，图1中仅示出主机箱体、显示屏、顶部摄像头和底部摄像头，其它部件并未在图1中示出。可以理解，图1仅为本发明一些实施例对应的智能音箱，其它在图1智能
音箱基础上进行优化或者变形，并能够实现本发明技术方案的智能音箱均属于本发明技术
方案的保护范围，在此不再一一列举。

[0073] 下面将从智能音箱角度出发，通过具体实施例对本发明技术方案进行详细介绍。

[0074] 实施例一

[0075] 请参阅图2，图2为本发明一实施例公开的智能音箱应用控制方法的流程示意图；如图2所示，该智能音箱应用控制方法可包括：

[0076] 201、智能音箱通过第一拍摄装置对用户人脸进行拍摄，获得人脸图像。

[0077] 其中，第一拍摄装置可以是智能音箱的顶部摄像头，也可以是智能音箱的底部摄像头。在一些实施方式中，可以优选智能音箱的底部摄像头用于用户人脸拍摄。

[0078] 可以理解，在本发明实施例中，用户采用智能音箱进行学习，如作业练习、听写练习等。在学习过程中，为了获知用户的操作意图，通过拍摄装置进行用户表情检测。

[0079] 作为一种可选的实施方式，智能音箱还用于检测当前环境光线强度；如果检测到的当前环境光线强度值与学习所需要的环境光线强度值不匹配，且当前环境光线强度值小
于学习所需要的环境光线强度值时，在第一拍摄装置空闲期间控制该第一拍摄装置进行当
前环境空间扫描，以对智能音箱进行空间定位，确定出智能音箱的当前空间位置；查找当前
空间位置的照明设备，向照明设备控制系统发送打开请求以使得照明设备控制系统打开该
照明设备，从而确保当前环境光线强度值满足学习所需要的环境光线强度值。可以理解，在
该实施方式中，智能音箱存储有空间实景模拟图，进行当前环境空间扫描时，可以进行空间
上所放置物体的比对进行空间定位(即将当前环境空间的物体与空间实景模拟图中的参照
物进行比对)，从而确定出智能音箱所在的空间位置(只是智能音箱存储的空间位置三维图
中指示的部分空间)，定位准确，例如，用户在自己房间中，智能音箱中存储有整个房子的空
间实景模拟图，通过将房间中的物体与空间实景模拟图中的参照物进行对比，从而确定出
是哪个房间，再根据房间确定出具体的照明设备。进一步能够确保足够的光线，保护用户的
眼睛。

[0080] 202、智能音箱识别上述人脸图像获得当前用户表情。

[0081] 203、智能音箱判断当前用户表情与预设表情是否相匹配。其中，若是匹配，转向步骤204；若是不匹配，结束本流程。

[0082] 当然，若当前用户表情与预设表情不匹配，还可以转向步骤201。

[0083] 204、智能音箱确定目标拍摄装置并控制目标拍摄装置拍摄用户的书写页面；其中，该目标拍摄装置不同于上述第一拍摄装置。

[0084] 其中，目标拍摄装置可以是智能音箱上的另一个拍摄装置，或者是用户身上所佩戴的其它设备上的拍摄装置，在本发明实施例中不做具体限定，并在后续实施例中进行相
应介绍。

[0085] 205、智能音箱执行与书写页面的书写内容相适配的操作。

[0086] 可见，实施上述实施例，智能音箱在应用于学习时，可以通过第一拍摄装置对用户人脸进行拍摄，以获得人脸图像，进一步识别该人脸图像获得当前用户表情，在当前用户表
情与预设表情匹配时，确定目标拍摄装置并控制目标拍摄装置拍摄用户的书写页面，然后
会根据书写页面的书写内容进行相应操作。可以看出，实施本发明实施例，用户在利用智能
音箱进行学习时，尤其在用户书写有书写内容的学习过程中，通过拍摄装置检测用户表情，
根据用户表情来触发智能音箱执行相应的操作，有利于提高智能音箱的智能化，提高操作
的准确率，提升用户的使用体验感及使用粘稠度，有利于在低龄用户群中推广智能音箱。

[0087] 实施例二

[0088] 请参阅图3，图3为本发明另一实施例公开的智能音箱应用控制方法的流程示意图；如图3所示，该智能音箱应用控制方法可包括：

[0089] 301、智能音箱通过第一拍摄装置对用户人脸进行拍摄，获得人脸图像。

[0090] 其中，用户在学习过程中(如书写作业或者练习时)，开启智能音箱的搜索功能，那么在开启搜索功能的过程中，智能音箱将通过拍摄装置拍摄用户人脸。

[0091] 302、智能音箱识别上述人脸图像获得当前用户表情。

[0092] 303、智能音箱判断当前用户表情与预设表情是否相匹配。其中，若是匹配，转向步骤304；若是不匹配，结束本流程。

[0093] 304、智能音箱将第二拍摄装置确定为目标拍摄装置，以及，控制该目标拍摄装置升降和/或旋转至目标位置，基于该目标位置拍摄用户的书写页面，获得第一书写页面图
像。

[0094] 具体地，在上述304中智能音箱控制第二拍摄装置从回收位置通过滑动和/或升降和/或旋转至目标位置，然后在第二拍摄装置位于目标位置时，控制第二拍摄装置拍摄用户
的书写页面。其中，回收位置是指在不使用第二拍摄装置时，用于回收放置第二拍摄装置的
位置，在需要拍摄时，从回收位置滑动且伸出智能音箱外面，然后可以进一步通过升降和/
或旋转以到达目标位置，以获得拍摄用户的书写页面的最佳角度，以提高书写页面图像的
清晰度和辨识度。

[0095] 可选地，第一拍摄装置可以为智能音箱的底部摄像头，第二拍摄装置可以为智能音箱的顶部摄像头。

[0096] 305、智能音箱识别第一书写页面图像获得书写内容，搜索与书写内容相匹配的搜索结果，并在显示屏上输出该搜索结果。

[0097] 作为一种可选的实施方式，若上述书写内容包括计量值数据，智能音箱还可以执行以下步骤：

[0098] 接收用户输入的语音消息，该语音消息用于指示对书写内容中的计量值数据进行单位换算；以及，在智能音箱的显示屏上输出该计量值数值的单位换算结果。

[0099] 可以理解，用户在书写作业时，如数学或者物理等作业时，可能涉及到计量值数据，如长度、面积、体积、质量等或者温度、压力、能量等，可以通过语音消息的输入，对该计
量值数据进行单位换算(如果存在可以换算的情况)，有利于帮助用户扩大知识面。

[0100] 作为一种可选的实施方式，智能音箱在执行完步骤305之后，还可以执行以下步骤：

[0101] 搜索与书写内容相适配的若干电子书；

[0102] 在智能音箱的显示屏上推送若干电子书的相关信息，该相关信息包括电子书图标及电子书简介信息；

[0103] 检测是否接收到用户针对目标电子书的查看指令；

[0104] 在接收到上述查看指令时，输出针对目标电子书的购买界面，该购买界面上显示有相关信息及购买按钮；

[0105] 接收用户对购买按钮的点击操作以将付款信息发送给与智能音箱连接的用户终端；该付款信息至少包括付款金额及目标电子书的电子书简介信息；

[0106] 在接收到用户终端反馈的付款成功消息时，获取目标电子书并添加至用户书籍列表中。

[0107] 其中，电子书具体可以是内容与书写内容匹配的电子教材(如电子版课本)、试题资料等。

[0108] 在上述实施方式中，在用户启动搜索功能后，除了将搜索到的搜索结果反馈给用户之外，还可以进一步向用户推送相应的电子书，有利于用户进一步加强对书写内容的扩
展学习。但是部分电子书是收费的，而对于低龄段用户而言，在电子书的识别能力和支付安
全性的识别能力上比较欠缺，因此，在上述实施方式中，如用户有购买推荐的电子书的需求
时，需要由用户终端的用户(如家长)来确认及支付，除了能够帮助低龄用户提升对电子书
质量的把控，还有利于提高支付安全，防止低龄用户上当受骗。

[0109] 作为另一种可选的实施方式，智能音箱在执行完步骤305之后，还可以执行以下步骤：

[0110] 搜索与书写内容相适配的教学视频；以及，将搜索到的教学视频推送给用户。在该实施方式中，可以将可以直观的教学视频推送给用户，有助于提高学习效率。

[0111] 进一步可选地，智能音箱在执行完步骤305之后，还可以执行以下步骤：

[0112] 获取用户的基本信息，该基本信息包括用户所在地区位置、学校校名、年级信息及班级信息；以及，根据该基本信息，将书写内容发送给相应的教学平台，教学平台可以为用
户所在学校的教学系统；以及，接收该教学平台返回的教学视频，其中，教学平台会在本地
搜索与书写内容相匹配的教学视频，然后返回给用户；将教学视频推送给用户。

[0113] 在上述实施方式中，智能音箱与教学平台连接，从教学平台中为用户搜索相匹配的教学视频，为用户提供其学校的教学视频，更加贴合用户所在学校的学习进度和学习要
求，提高学习效率。

[0114] 可见，实施上述实施例，在用户学习过程中，通过拍摄装置实时检测用户表情，通过用户表情来触发相应的操作，如困惑不解时触发搜索功能，为用户搜索书写内容相匹配
的搜索结果。同时，由于智能音箱只有在检测到用户表情与预设表情相匹配时，才启动搜索
功能，而非一直开启搜索功能，能够降低智能音箱的功耗，延长智能音箱的使用时长。

[0115] 实施例三

[0116] 请参阅图4，图4为本发明又一实施例公开的智能音箱应用控制方法的流程示意图；如图4所示，该智能音箱应用控制方法可包括：

[0117] 401、智能音箱通过第一拍摄装置对用户人脸进行拍摄，获得人脸图像。

[0118] 可以理解，用户在利用智能音箱进行听写时(即在听写状态下时)，通过拍摄装置检测用户表情。

[0119] 402、智能音箱识别上述人脸图像获得当前用户表情。

[0120] 403、智能音箱判断当前用户表情与预设表情是否相匹配。其中，若是匹配，转向步骤404；若是不匹配，结束本流程。

[0121] 404、智能音箱将与其连接的可穿戴设备的第二拍摄装置确定为目标拍摄装置，向目标拍摄装置发送拍摄指令，以使该目标拍摄装置拍摄用户的书写页面，获得第二书写页
面图像。

[0122] 需要说明的是，可穿戴设备可以佩戴在用户身上(如手臂或者头部或眼镜等)或者放置上桌面上，提前调整可穿戴设备的拍摄角度以对着书写位置或者在接收到拍摄指令
后，将其拍摄角度调整以对着书写位置。

[0123] 405、智能音箱接收可穿戴设备返回的第二书写页面图像。

[0124] 406、智能音箱判断第二书写页面图像的书写内容是否与当前听写内容相适配。若否，转向步骤407，若是，转向步骤409。

[0125] 407、智能音箱播放用于询问是否需要重新报读当前听写内容的询问消息。

[0126] 408、智能音箱在接收到针对该询问消息反馈的用于确定需要重新报读当前听写内容的回复消息时，播放当前听写内容。

[0127] 409、智能音箱获取下一个听写内容并报读。

[0128] 作为一种可选的实施方式，智能音箱还可以用于在检测到用户输入的用于指示烧水的语音命令时，向智能家居控制系统发送烧水指令，以使智能家居控制系统控制相应的
烧水设备执行烧水操作；接收智能家居控制系统返回的完成烧水提示，并语音播放该完成
烧水提示以通知用户。在该实施方式中，智能音箱作为智能家居设备一种，用户在学习时，
如果需要喝水，可以通过语音触发智能音箱与智能家居控制系统进行交互完成烧水流程，
在开水烧好之后，再起身去接水，减少走动次数，提高学习效率。

[0129] 在上述实施例中，智能音箱在听写过程中，可以通过检测用户表情，在用户表情匹配预设表情时，进一步检测书写内容是否正确，在书写内容正确时，报读下一个听写内容，
在书写内容不正确时，在获得用户需要重新报读的指示后，重新报读当前听写内容，即可提
升智能音箱在听写上的智能化，通过拍摄装置检测用户表情，根据用户表情来触发智能音
箱执行相应的操作，有利于提高智能音箱的智能化，提高操作的准确率，提升用户的使用体
验感及使用粘稠度，有利于在低龄用户群中推广智能音箱。

[0130] 实施例四

[0131] 请参阅图5，图5为本发明一实施例公开的智能音箱的结构示意图；如图5 所示，该智能音箱可包括：

[0132] 拍摄模块510，用于通过智能音箱的第一拍摄装置对用户人脸进行拍摄，获得人脸图像；

[0133] 图像处理模块520，用于识别上述人脸图像获得当前用户表情；

[0134] 表情处理模块530，用于判断当前用户表情与预设表情是否相匹配；

[0135] 上述拍摄模块510，还用于在表情处理模块530的判断结果为是时，确定目标拍摄装置并控制目标拍摄装置拍摄用户的书写页面；其中，该目标拍摄装置不同于第一拍摄装
置；

[0136] 操作控制模块540，用于执行与书写页面的书写内容相适配的操作。

[0137] 作为一种可选的实施方式，智能音箱还可以包括环境检测模块(附图中并未标示)，用于检测当前环境光线强度；如果检测到的当前环境光线强度值与学习所需要的环境
光线强度值不匹配，且当前环境光线强度值小于学习所需要的环境光线强度值时，在第一
拍摄装置空闲期间控制该第一拍摄装置进行当前环境空间扫描，以对智能音箱进行空间定
位，确定出智能音箱的当前空间位置；查找当前空间位置的照明设备，向照明设备控制系统
发送打开请求以使得照明设备控制系统打开该照明设备，从而确保当前环境光线强度值满
足学习所需要的环境光线强度值。可以理解，在该实施方式中，智能音箱存储有空间实景模
拟图，进行当前环境空间扫描时，可以进行空间上所放置物体的比对进行空间定位(即将当
前环境空间的物体与空间实景模拟图中的参照物进行比对)，从而确定出智能音箱所在的
空间位置(只是智能音箱存储的空间位置三维图中指示的部分空间)，定位准确，例如，用户
在自己房间中，智能音箱中存储有整个房子的空间实景模拟图，通过将房间中的物体与空
间实景模拟图中的参照物进行对比，从而确定出是哪个房间，再根据房间确定出具体的照
明设备。进一步能够确保足够的光线，保护用户的眼睛。

[0138] 实施上述智能音箱，在学习过程中，可以通过第一拍摄装置对用户人脸进行拍摄，以获得人脸图像，进一步识别该人脸图像获得当前用户表情，在当前用户表情与预设表情
匹配时，确定目标拍摄装置并控制目标拍摄装置拍摄用户的书写页面，然后会根据书写页
面的书写内容进行相应操作。可以看出，实施本发明实施例，用户在利用智能音箱进行学习
时，尤其在用户书写有书写内容的学习过程中，通过拍摄装置检测用户表情，根据用户表情
来触发智能音箱执行相应的操作，有利于提高智能音箱的智能化，提高操作的准确率，提升
用户的使用体验感及使用粘稠度，有利于在低龄用户群中推广智能音箱。

[0139] 实施例五

[0140] 请参阅图6，图6所示的智能音箱是在图5所示的智能音箱的基础上进行优化得到的，其中，图6所示的智能音箱中还包括：语音处理模块610、转换模块620、推送模块630和购
置处理模块640。

[0141] 在一些可选的实施方式中，上述拍摄模块510用于确定目标拍摄装置并控制目标拍摄装置拍摄用户的书写页面的方式具体为：

[0142] 上述拍摄模块510，用于将智能音箱的第二拍摄装置确定为目标拍摄装置，以及，控制目标拍摄装置升降和/或旋转至目标位置，基于目标位置通过目标拍摄装置拍摄用户
的书写页面，获得第一书写页面图像；

[0143] 进而，上述操作控制模块540用于执行与书写页面的书写内容相适配的操作的方式具体为：

[0144] 上述操作控制模块540，用于识别第一书写页面图像获得书写内容，搜索与书写内容相匹配的搜索结果，并在智能音箱的显示屏上输出该搜索结果。

[0145] 其中，拍摄模块510控制第二拍摄装置从回收位置通过滑动和/或升降和/ 或旋转至目标位置，然后在第二拍摄装置位于目标位置时，控制第二拍摄装置拍摄用户的书写页
面。其中，回收位置是指在不使用第二拍摄装置时，用于回收放置第二拍摄装置的位置，在
需要拍摄时，从回收位置滑动且伸出智能音箱外面，然后可以进一步通过升降和/或旋转以
到达目标位置，以获得拍摄用户的书写页面的最佳角度，以提高书写页面图像的清晰度和
辨识度。

[0146] 进一步地，若上述书写内容包括计量值数据，则语音处理模块610，用于接收用户输入的语音消息，该语音消息用于指示对书写内容中的计量值数据进行单位换算；

[0147] 转换模块620，用于在智能音箱的显示屏上输出该计量值数值的单位换算结果。

[0148] 可以理解，用户在书写作业时，如数学或者物理等作业时，可能涉及到计量值数据，如长度、面积、体积、质量等或者温度、压力、能量等，可以通过语音消息的输入，对该计
量值数据进行单位换算(如果存在可以换算的情况)，有利于帮助用户扩大知识面。

[0149] 另外可选地，上述推送模块630，用于在操作控制模块540识别第一书写页面图像获得书写内容，搜索与书写内容相匹配的搜索结果，并在智能音箱的显示屏上输出搜索结
果之后，搜索与书写内容相适配的若干电子书；以及，在智能音箱的显示屏上推送若干电子
书的相关信息，该相关信息包括电子书图标及电子书简介信息；

[0150] 购置处理模块640，用于检测是否接收到用户针对目标电子书的查看指令；以及，在接收到该查看指令时，输出针对目标电子书的购买界面，该购买界面上显示有相关信息
及购买按钮；以及，接收用户对购买按钮的点击操作以将付款信息发送给与智能音箱连接
的用户终端；该付款信息至少包括付款金额及目标电子书的电子书简介信息；以及，在接收
到用户终端反馈的付款成功消息时，获取目标电子书并添加至用户书籍列表中。

[0151] 在上述实施方式中，在用户启动搜索功能后，除了将搜索到的搜索结果反馈给用户之外，还可以进一步向用户推送相应的电子书，有利于用户进一步加强对书写内容的扩
展学习。但是部分电子书是收费的，而对于低龄段用户而言，在电子书的识别能力和支付安
全性的识别能力上比较欠缺，因此，在上述实施方式中，如用户有购买推荐的电子书的需求
时，需要由用户终端的用户(如家长)来确认及支付，除了能够帮助低龄用户提升对电子书
质量的把控，还有利于提高支付安全，防止低龄用户上当受骗。

[0152] 作为另一种可选的实施方式，推送模块630还可以执行以下步骤：

[0153] 搜索与书写内容相适配的教学视频；以及，将搜索到的教学视频推送给用户。在该实施方式中，可以将可以直观的教学视频推送给用户，有助于提高学习效率。

[0154] 进一步可选地，推送模块630还可以执行以下步骤：

[0155] 获取用户的基本信息，该基本信息包括用户所在地区位置、学校校名、年级信息及班级信息；以及，根据该基本信息，将书写内容发送给相应的教学平台，教学平台可以为用
户所在学校的教学系统；以及，接收该教学平台返回的教学视频，其中，教学平台会在本地
搜索与书写内容相匹配的教学视频，然后返回给用户；将教学视频推送给用户。

[0156] 在上述实施方式中，智能音箱与教学平台连接，从教学平台中为用户搜索相匹配的教学视频，为用户提供其学校的教学视频，更加贴合用户所在学校的学习进度和学习要
求，提高学习效率。

[0157] 在另一种可选的实施方式中，上述拍摄模块510用于确定目标拍摄装置并控制目标拍摄装置拍摄用户的书写页面的方式具体为：

[0158] 上述拍摄模块510，用于将与智能音箱连接的可穿戴设备的第二拍摄装置确定为目标拍摄装置，向目标拍摄装置发送拍摄指令，以使目标拍摄装置拍摄用户的书写页面，获
得第二书写页面图像；

[0159] 上述操作控制模块540用于执行与书写页面的书写内容相适配的操作的方式具体为：

[0160] 上述操作控制模块540，用于接收可穿戴设备返回的第二书写页面图像；以及，判断第二书写页面图像的书写内容是否与当前听写内容相适配；若否，播放用于询问是否需
要重新报读当前听写内容的询问消息；以及，在接收到针对询问消息反馈的用于确定需要
重新报读当前听写内容的回复消息时，播放当前听写内容。

[0161] 在上述实施方式中，智能音箱在听写过程中，可以通过检测用户表情，在用户表情匹配预设表情时，进一步检测书写内容是否正确，在书写内容正确时，报读下一个听写内
容，在书写内容不正确时，在获得用户需要重新报读的指示后，重新报读当前听写内容，即
可提升智能音箱在听写上的智能化，通过拍摄装置检测用户表情，根据用户表情来触发智
能音箱执行相应的操作，有利于提高智能音箱的智能化，提高操作的准确率，提升用户的使
用体验感及使用粘稠度，有利于在低龄用户群中推广智能音箱。

[0162] 可选地，智能音箱还包括烧水控制模块，该烧水控制模块可以用于在检测到用户输入的用于指示烧水的语音命令时，向智能家居控制系统发送烧水指令，以使智能家居控
制系统控制相应的烧水设备执行烧水操作；接收智能家居控制系统返回的完成烧水提示，
并语音播放该完成烧水提示以通知用户。在该实施方式中，智能音箱作为智能家居设备一
种，用户在学习时，如果需要喝水，可以通过语音触发智能音箱与智能家居控制系统进行交
互完成烧水流程，在开水烧好之后，再起身去接水，减少走动次数，提高学习效率。

[0163] 实施例六

[0164] 请参阅图7，图7为本发明又一实施例公开的智能音箱的结构示意图；图7 所示的智能音箱可包括：至少一个处理器710，例如CPU，通信总线730用于实现这些组件之间的通
信连接。存储器720可以是高速RAM存储器，也可以是非不稳定的存储器(non‑volatile
memory)，例如至少一个磁盘存储器。存储器720可选的还可以是至少一个位于远离前述处
理器710的存储装置。其中，处理器710可以结合图5至图6所描述的智能音箱，存储器720中
存储一组程序代码，且处理器710调用存储器720中存储的程序代码，用于执行以下操作：

[0165] 通过智能音箱的第一拍摄装置对用户人脸进行拍摄，获得人脸图像；识别人脸图像获得当前用户表情；判断当前用户表情与预设表情是否相匹配；若是，确定目标拍摄装置
并控制目标拍摄装置拍摄用户的书写页面；其中，该目标拍摄装置不同于第一拍摄装置；执
行与书写页面的书写内容相适配的操作。

[0166] 作为一种可选的实施方式，上述处理器710还用于执行以下步骤：

[0167] 将智能音箱的第二拍摄装置确定为目标拍摄装置，以及，控制目标拍摄装置升降和/或旋转至目标位置，基于目标位置通过目标拍摄装置拍摄用户的书写页面，获得第一书
写页面图像；

[0168] 以及，识别第一书写页面图像获得书写内容，搜索与书写内容相匹配的搜索结果，并在智能音箱的显示屏上输出该搜索结果。

[0169] 作为一种可选的实施方式，上述处理器710还用于执行以下步骤：

[0170] 将与智能音箱连接的可穿戴设备的第二拍摄装置确定为目标拍摄装置，向目标拍摄装置发送拍摄指令，以使目标拍摄装置拍摄用户的书写页面，获得第二书写页面图像；

[0171] 以及，接收可穿戴设备返回的第二书写页面图像；判断第二书写页面图像的书写内容是否与当前听写内容相适配；若否，播放用于询问是否需要重新报读当前听写内容的
询问消息；在接收到针对询问消息反馈的用于确定需要重新报读当前听写内容的回复消息
时，播放当前听写内容。

[0172] 作为一种可选的实施方式，上述处理器710还用于执行以下步骤：

[0173] 若书写内容包括计量值数据，接收用户输入的语音消息，该语音消息用于指示对书写内容中的计量值数据进行单位换算；在智能音箱的显示屏上输出该计量值数值的单位
换算结果。

[0174] 作为一种可选的实施方式，上述处理器710还用于执行以下步骤：

[0175] 在识别第一书写页面图像获得书写内容，搜索与书写内容相匹配的搜索结果，并在智能音箱的显示屏上输出该搜索结果之后，搜索与书写内容相适配的若干电子书；在智
能音箱的显示屏上推送若干电子书的相关信息，该相关信息包括电子书图标及电子书简介
信息；检测是否接收到用户针对目标电子书的查看指令；在接收到该查看指令时，输出针对
目标电子书的购买界面，该购买界面上显示有相关信息及购买按钮；接收用户对购买按钮
的点击操作以将付款信息发送给与智能音箱连接的用户终端；该付款信息至少包括付款金
额及目标电子书的电子书简介信息；在接收到用户终端反馈的付款成功消息时，获取目标
电子书并添加至用户书籍列表中。

[0176] 本发明实施例还公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行图2至图4公开的一种智能音箱应用控制方法。

[0177] 本发明实施例还公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行图2至图4公开的任意一种方法的部分或全部步骤。

[0178] 本发明实施例还公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行图2至图4公开
的任意一种方法的部分或全部步骤。

[0179] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储
介质包括只读存储器(Read‑Only Memory，ROM)、随机存储器(Random Access Memory，
RAM)、可编程只读存储器(Programmable Read‑only Memory，PROM)、可擦除可编程只读存
储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器 (One‑
time Programmable Read‑Only Memory，OTPROM)、电子抹除式可复写只读存储器
(Electrically‑Erasable Programmable Read‑Only Memory， EEPROM)、只读光盘
(Compact Disc Read‑Only Memory，CD‑ROM)或其他光盘存储器、磁盘存储器、磁带存储器、
或者能够用于携带或存储数据的计算机可读的任何其他介质。

[0180] 以上对本发明实施例公开的一种智能音箱应用控制方法及智能音箱进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明
只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本
发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应
理解为对本发明的限制。

一种智能音箱应用控制方法及智能音箱转让专利

申请号 : CN202010219629.0

文献号 : CN111385683B

文献日 : 2022-01-28

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 叶炳珊 , 尚宇翔

申请人 : 广东小天才科技有限公司

摘要 :

权利要求 :

说明书 :