悬停追踪方法、悬停追踪装置、悬停追踪设备及存储介质

IPRDB

API 数据接口

专利申请

使用指引 chat嘟嘟

会员体验

联系我们

交流群

现在联系顾问~

悬停追踪方法、悬停追踪装置、悬停追踪设备及存储介质
申请号	CN202211674674.0	申请日	2022-12-26	公开(公告)号	CN116012910A	公开(公告)日	2023-04-25
申请人	科大讯飞股份有限公司;			发明人	沙文; 殷保才; 殷兵;
摘要	本发明提供了一种悬停追踪方法、悬停追踪装置、悬停追踪设备及存储介质，方法包括：当基于麦克风阵列获取的声音信息中包含唤醒语音时，确定发出唤醒语音的对象的位置作为目标位置；基于摄像头获取目标位置处的图像，基于获取的图像确定追踪对象；控制悬停追踪设备运动至与追踪对象之间的距离在预设距离范围内且追踪对象的人脸位于摄像头画面的指定区域的位置，基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，基于人脸运动轨迹和头姿变化情况控制悬停追踪设备对追踪对象的人脸进行追踪。本发明提供的追踪设备无使用场景的限制，且无需用户手持，本发明提供的追踪方法使得追踪设备能够长时间稳定的对追踪对象的人脸进行追踪。
权利要求	1.一种悬停追踪方法，其特征在于，应用于设置有麦克风阵列和摄像头的悬停追踪设备，所述方法包括：基于所述麦克风阵列获取声音信息，当所述声音信息中包含唤醒语音时，确定发出所述唤醒语音的对象的位置作为目标位置；基于所述摄像头获取所述目标位置处的图像，并基于所述目标位置处的图像确定追踪对象；控制所述悬停追踪设备运动至与所述追踪对象之间的距离在预设距离范围内且所述追踪对象的人脸位于摄像头画面的指定区域的位置，并基于所述摄像头获取所述追踪对象的图像；基于所述追踪对象的图像确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 2.根据权利要求1所述的悬停追踪方法，其特征在于，所述基于所述目标位置处的图像确定追踪对象，包括：对所述目标位置处的图像进行人形检测；对检测出的人形进行手势识别，得到所述目标位置处的图像中每个对象的手势；将做出指定手势的对象，确定为追踪对象。 3.根据权利要求1所述的悬停追踪方法，其特征在于，所述基于所述追踪对象的图像确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪，包括：每获得所述追踪对象的一帧图像，基于当前帧图像确定所述追踪对象的头部姿态角和人脸质点三维坐标；基于所述追踪对象的头部姿态角和人脸质点三维坐标，构建能够表征所述追踪对象在当前帧图像的头部姿态和人脸位置的向量，作为当前帧图像对应的目标向量；基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 4.根据权利要求3所述的悬停追踪方法，其特征在于，基于当前帧图像确定所述追踪对象的人脸质点三维坐标，包括：从当前帧图像中检测出所述追踪对象的人脸区域；对所述人脸区域进行人脸关键点提取，得到所述追踪对象的人脸关键点二维坐标；基于所述追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及所述摄像头的相机内参，确定所述追踪对象的人脸关键点三维坐标；基于所述追踪对象的人脸关键点三维坐标中的眼部关键点三维坐标，确定所述追踪对象的人脸质点三维坐标。 5.根据权利要求4所述的悬停追踪方法，其特征在于，所述基于所述追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及所述摄像头的相机内参，确定所述追踪对象的人脸关键点三维坐标，包括：基于所述追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及所述摄像头的相机内参确定变换矩阵，确定出的变换矩阵作为第一变换矩阵；基于所述第一变换矩阵对所述标准的人脸关键点三维坐标进行变换，得到所述追踪对象的人脸关键点三维坐标。 6.根据权利要求3所述的悬停追踪方法，其特征在于，所述基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪，包括：基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，确定变换矩阵，确定出的变换矩阵作为第二变换矩阵；基于所述第二变换矩阵对所述悬停追踪设备的实际位置进行变换，得到变换后的位置；控制所述悬停追踪设备运动至所述变换后的位置，以使所述追踪对象的人脸位于摄像头画面的指定区域。 7.根据权利要求1～6中任一项所述的悬停追踪方法，其特征在于，还包括：当基于所述追踪对象的图像检测到所述追踪对象的交互手势时，控制所述悬停追踪设备执行与所述交互手势对应的操作；当检测到所述追踪对象的交互语音时，控制所述悬停追踪设备执行与所述交互语音中的命令词对应的操作。 8.根据权利要求1～6中任一项所述的悬停追踪方法，其特征在于，还包括：当基于所述追踪对象的图像检测到所述追踪对象的视线落点在所述悬停追踪设备上时，引导用户基于手势或语音确认所述悬停追踪设备是否执行设定操作，或者，触发基于手势或语音的交互。 9.根据权利要求1～6中任一项所述的悬停追踪方法，其特征在于，还包括：当基于所述追踪对象的图像检测到所述追踪对象的交互手势或者检测到所述追踪对象的交互语音时，基于所述追踪对象的图像检测所述追踪对象的视线信息，结合所述追踪对象的视线信息，响应所述交互语音或交互手势。 10.根据权利要求1～6中任一项所述的悬停追踪方法，其特征在于，还包括：当检测到所述追踪对象的交互语音时，若所述交互语音不满足语音交互条件，则触发基于手势的交互；当基于所述追踪对象的图像检测到所述追踪对象的交互手势时，若所述交互手势不满足手势交互条件，则触发基于语音的交互。 11.一种悬停追踪装置，其特征在于，应用于设置有麦克风阵列和摄像头的悬停追踪设备，所述装置包括：目标位置确定模块、追踪对象确定模块、控制模块和人脸追踪模块；所述目标位置确定模块，用于基于所述麦克风阵列获取声音信息，当所述声音信息中包含唤醒语音时，确定发出所述唤醒语音的对象的位置作为目标位置；所述追踪对象确定模块，用于基于所述摄像头获取所述目标位置处的图像，并基于所述目标位置处的图像确定追踪对象；所述控制模块，用于控制所述悬停追踪设备运动至与所述追踪对象之间的距离在预设距离范围内且所述追踪对象的人脸位于摄像头画面的指定区域的位置；所述人脸追踪模块，用于基于所述摄像头获取所述追踪对象的图像，基于所述追踪对象的图像确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 12.一种悬停追踪设备，其特征在于，包括：麦克风阵列、摄像头和处理单元；所述麦克风阵列，用于采集声音信息；所述摄像头，用于拍摄图像；所述处理单元，用于：当所述麦克风阵列采集的语音中包含唤醒语音时，确定发出所述唤醒语音的对象的位置作为目标位置，并基于所述目标位置控制所述悬停追踪设备运动，以使所述摄像头朝向发出所述唤醒语音的对象所在的方向；基于所述摄像头朝向发出所述唤醒语音的对象所在的方向拍摄的图像确定追踪对象，控制所述悬停追踪设备运动至与所述追踪对象之间的距离在预设距离范围内且所述追踪对象的人脸位于摄像头画面的指定区域的位置；以及，基于所述摄像头拍摄的所述追踪对象的图像，确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的悬停追踪方法的各个步骤。
说明书全文	悬停追踪方法、悬停追踪装置、悬停追踪设备及存储介质技术领域 [0001] 本发明涉及追踪技术领域，尤其涉及一种悬停追踪方法、悬停追踪装置、悬停追踪设备及存储介质。背景技术 [0002] 随着社会和科学技术的进步，追踪设备被应用到越来越多的领域，比如安防领域、直播领域等。现有的追踪设备只能固定在某个位置使用，或者由用户手持使用，然而，固定在某个位置使用限制了追踪设备的使用场景，用户手持使用不能解放使用者的双手。发明内容 [0003] 有鉴于此，本发明提供了一种悬停追踪方法、悬停追踪装置、悬停追踪设备及存储介质，用以解决目前的追踪装置使用场景有限、不能解放使用者双手的问题，其技术方案如下： [0004] 一种悬停追踪方法，应用于设置有麦克风阵列和摄像头的悬停追踪设备，所述方法包括： [0005] 基于所述麦克风阵列获取声音信息，当所述声音信息中包含唤醒语音时，确定发出所述唤醒语音的对象的位置作为目标位置； [0006] 基于所述摄像头获取所述目标位置处的图像，并基于所述目标位置处的图像确定追踪对象； [0007] 控制所述悬停追踪设备运动至与所述追踪对象之间的距离在预设距离范围内且所述追踪对象的人脸位于摄像头画面的指定区域的位置，并基于所述摄像头获取所述追踪对象的图像； [0008] 基于所述追踪对象的图像确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 [0009] 可选的，所述基于所述目标位置处的图像确定追踪对象，包括： [0010] 对所述目标位置处的图像进行人形检测； [0011] 对检测出的人形进行手势识别，得到所述目标位置处的图像中每个对象的手势； [0012] 将做出指定手势的对象，确定为追踪对象。 [0013] 可选的，所述基于所述追踪对象的图像确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪，包括： [0014] 每获得所述追踪对象的一帧图像，基于当前帧图像确定所述追踪对象的头部姿态角和人脸质点三维坐标； [0015] 基于所述追踪对象的头部姿态角和人脸质点三维坐标，构建能够表征所述追踪对象在当前帧图像的头部姿态和人脸位置的向量，作为当前帧图像对应的目标向量； [0016] 基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 [0017] 可选的，基于当前帧图像确定所述追踪对象的人脸质点三维坐标，包括： [0018] 从当前帧图像中检测出所述追踪对象的人脸区域； [0019] 对所述人脸区域进行人脸关键点提取，得到所述追踪对象的人脸关键点二维坐标； [0020] 基于所述追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及所述摄像头的相机内参，确定所述追踪对象的人脸关键点三维坐标； [0021] 基于所述追踪对象的人脸关键点三维坐标中的眼部关键点三维坐标，确定所述追踪对象的人脸质点三维坐标。 [0022] 可选的，所述基于所述追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及所述摄像头的相机内参，确定所述追踪对象的人脸关键点三维坐标，包括： [0023] 基于所述追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及所述摄像头的相机内参确定变换矩阵，确定出的变换矩阵作为第一变换矩阵； [0024] 基于所述第一变换矩阵对所述标准的人脸关键点三维坐标进行变换，得到所述追踪对象的人脸关键点三维坐标。 [0025] 可选的，所述基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪，包括： [0026] 基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，确定变换矩阵，确定出的变换矩阵作为第二变换矩阵； [0027] 基于所述第二变换矩阵对所述悬停追踪设备的实际位置进行变换，得到变换后的位置； [0028] 控制所述悬停追踪设备运动至所述变换后的位置，以使所述追踪对象的人脸位于摄像头画面的指定区域。 [0029] 可选的，所述悬停追踪方法还包括： [0030] 当基于所述追踪对象的图像检测到所述追踪对象的交互手势时，控制所述悬停追踪设备执行与所述交互手势对应的操作； [0031] 当检测到所述追踪对象的交互语音时，控制所述悬停追踪设备执行与所述交互语音中的命令词对应的操作。 [0032] 可选的，所述悬停追踪方法还包括： [0033] 当基于所述追踪对象的图像检测到所述追踪对象的视线落点在所述悬停追踪设备上时，引导用户基于手势或语音确认所述悬停追踪设备是否执行设定操作，或者，触发基于手势或语音的交互。 [0034] 可选的，所述悬停追踪方法还包括： [0035] 当基于所述追踪对象的图像检测到所述追踪对象的交互手势或者检测到所述追踪对象的交互语音时，基于所述追踪对象的图像检测所述追踪对象的视线信息，结合所述追踪对象的视线信息，响应所述交互语音或交互手势。 [0036] 可选的，所述悬停追踪方法还包括： [0037] 当检测到所述追踪对象的交互语音时，若所述交互语音不满足语音交互条件，则触发基于手势的交互； [0038] 当基于所述追踪对象的图像检测到所述追踪对象的交互手势时，若所述交互手势不满足手势交互条件，则触发基于语音的交互。 [0039] 一种悬停追踪装置，应用于设置有麦克风阵列和摄像头的悬停追踪设备，所述装置包括：目标位置确定模块、追踪对象确定模块、控制模块和人脸追踪模块； [0040] 所述目标位置确定模块，用于基于所述麦克风阵列获取声音信息，当所述声音信息中包含唤醒语音时，确定发出所述唤醒语音的对象的位置作为目标位置； [0041] 所述追踪对象确定模块，用于基于所述摄像头获取所述目标位置处的图像，并基于所述目标位置处的图像确定追踪对象； [0042] 所述控制模块，用于控制所述悬停追踪设备运动至与所述追踪对象之间的距离在预设距离范围内且所述追踪对象的人脸位于摄像头画面的指定区域的位置； [0043] 所述人脸追踪模块，用于基于所述摄像头获取所述追踪对象的图像，基于所述追踪对象的图像确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 [0044] 一种悬停追踪设备，包括：麦克风阵列、摄像头和处理单元； [0045] 所述麦克风阵列，用于采集声音信息； [0046] 所述摄像头，用于拍摄图像； [0047] 所述处理单元，用于： [0048] 当所述麦克风阵列采集的语音中包含唤醒语音时，确定发出所述唤醒语音的对象的位置作为目标位置，并基于所述目标位置控制所述悬停追踪设备运动，以使所述摄像头朝向发出所述唤醒语音的对象所在的方向； [0049] 基于所述摄像头朝向发出所述唤醒语音的对象所在的方向拍摄的图像确定追踪对象，控制所述悬停追踪设备运动至与所述追踪对象之间的距离在预设距离范围内且所述追踪对象的人脸位于摄像头画面的指定区域的位置； [0050] 以及，基于所述摄像头拍摄的所述追踪对象的图像，确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 [0051] 一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的悬停追踪方法的各个步骤。 [0052] 针对现有的追踪装置使用场景有限、不能解放使用者双手的问题，本发明提出了悬停追踪设备，在此基础上提出了悬停追踪方法，即，首先基于麦克风阵列获取声音信息，当声音信息中包含唤醒语音时，确定发出唤醒语音的对象的位置作为目标位置，接着基于摄像头获取目标位置处的图像，并基于目标位置处的图像确定追踪对象，然后控制悬停追踪设备运动至与追踪对象之间的距离在预设距离范围内且追踪对象的人脸位于摄像头画面的指定区域的位置，并基于摄像头获取追踪对象的图像，最后基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪。本发明提供的悬停追踪设备无使用场景的限制，且无需用户手持，能够解放用户的双手，本发明提供的悬停追踪方法使得悬停追踪设备能够确定出追踪对象，并能长时间稳定的对追踪对象的人脸进行追踪。附图说明 [0053] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。 [0054] 图1为本发明实施例提供的悬停追踪方法的流程示意图； [0055] 图2为基于本发明实施例提供的基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪的流程示意图； [0056] 图3为本发明实施例提供的悬停追踪设备的结构示意图； [0057] 图4为本发明实施例提供的悬停追踪装置的结构示意图。具体实施方式 [0058] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。 [0059] 针对现有的追踪设备使用场景有限、不能解放使用者双手的问题，本案发明人想到，可使追踪设备悬于空中，即采用悬停追踪设备进行追踪，使追踪设备悬于空中并非难点，真正的难点在于，悬于空中的追踪设备如何实现追踪，为此，本案发明人进行了深入研究，通过不断研究，最终提出了一种效果较好的悬停追踪方法，该方法能够长时间稳定的对追踪对象的人脸进行追踪。 [0060] 接下来通过下述实施例对本发明提供的悬停追踪方法进行介绍。 [0061] 请参阅图1，示出了本发明实施例提供的悬停追踪方法的流程示意图，可以包括： [0062] 步骤S101：基于麦克风阵列获取声音信息，当声音信息中包含唤醒语音时，确定发出唤醒语音的对象的位置作为目标位置。 [0063] 具体的，可基于麦克风阵列获取的声音信息进行声源定位，在目标场景中可能会有多个人在说话，因此，通过声源定位可能会获得多个声源的位置，为了获得发出唤醒语音的对象的位置，可结合各声源的声纹信息，从通过声源定位确定出的若干位置中确定发出唤醒语音的对象的位置，即目标位置。 [0064] 需要说明的是，为了实现声源定位，需要先构建麦克风阵列的三维坐标系，在此基础上，可利用TDOA(Time Difference of Arrival )定位方法即利用时间差进行定位的方法，确定出目标场景中的声源在麦克风阵列的三维坐标系中的位置。 [0065] TDOA方法是先后估计声源到达不同麦克风的时延差，通过时延差来计算距离差，再利用距离差和麦克风阵列的空间几何位置来确定声源的位置。TDOA方法分为TDOA估计和TDOA定位两步，其中，TDOA估计指的是，使用广义互相关GCC(Generalized Cross Correlation)的方法来进行延时的估计，TDOA定位指的是，根据TDOA估值进行声源定位，基于三颗麦克风可以确定空间声源位置，增加麦克风可提高数据精度。 [0066] 步骤S102：基于摄像头获取目标位置处的图像，并基于目标位置处的图像确定追踪对象。 [0067] 在确定出发出唤醒语音的对象的位置即目标位置后，可基于目标位置控制悬停追踪设备运动，以使悬停追踪设备的摄像头朝向发出唤醒语音的对象所在的方向拍摄图像，本步骤中“目标位置处的图像”即为悬停追踪设备的摄像头朝向发出唤醒语音的对象所在的方向拍摄图像。可选的，摄像头的位置是固定的，若要使摄像头朝向发出唤醒语音的对象所在的方向，则需要使悬停追踪设备运动。 [0068] 需要说明的是，由于通过声源定位结合声纹信息确定出的目标位置为麦克风阵列的三维坐标系下的目标位置，即发出唤醒语音的对象在麦克风阵列的三维坐标系中的位置，若要使摄像头朝向发出唤醒语音的对象所在的方向拍摄图像，则需要获得摄像头的坐标系下的目标位置，即发出唤醒语音的对象在摄像头的坐标系中的位置，有鉴于此，需要构建摄像头的坐标系，还要确定麦克风阵列的坐标系与摄像头的坐标系的变换矩阵，在获得麦克风阵列的三维坐标系下的目标位置后，可基于麦克风阵列的坐标系与摄像头的坐标系的变换矩阵对其进行变换，以得到摄像头的坐标系下的目标位置。 [0069] 在获得摄像头的坐标系下的目标位置后，可基于摄像头的坐标系下的目标位置控制悬停追踪设备运动，以使悬停追踪设备的摄像头朝向发出唤醒语音的对象所在的方向，进而拍摄图像，从而得到基于摄像头获取的发出唤醒语音的对象所在方向的图像，即目标位置处的图像。 [0070] 在获得目标位置处的图像后，可基于目标位置处的图像确定追踪对象，具体的，首先对目标位置处的图像进行人形检测，以得到若干人形框，优选的，在获得若干人形框后，可对人形框进行外扩，以使人形框内包含完整的手部信息，接着对每个外扩人形框进行手势识别，以得到若干外扩人形框分别对应的手势识别结果，最后将做出指定手势(预先设定的用于锁定追踪对象的手势)的对象，确定为追踪对象，即本发明通过特定手势对追踪对象进行锁定。 [0071] 步骤S103：控制悬停追踪设备运动至与追踪对象之间的距离在预设距离范围内且追踪对象的人脸位于摄像头画面的指定区域的位置，并基于摄像头获取追踪对象的图像。 [0072] 在确定出追踪对象后，控制悬停追踪设备运动，以使悬停追踪设备与追踪对象之间的距离在预设距离范围内，且使追踪对象的人脸位于摄像头画面的指定区域(比如使追踪对象的人脸位于摄像头画面的中央)，进而基于摄像头获取追踪对象的图像。 [0073] 示例性的，可控制悬停追踪设备运动至与追踪对象之间的距离为2米且追踪对象的人脸位于摄像头画面中央的位置。 [0074] 步骤S104：基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪。 [0075] 本发明基于摄像头实时获取追踪对象的图像，通过对追踪对象的图像进行分析，确定追踪对象的人脸运动轨迹和头姿变化情况，进而基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备运动，以使追踪对象的人脸一直位于摄像头画面的指定区域，比如，控制悬停追踪设备随着人脸的转动而转动，使追踪对象的人脸一直位于摄像头画面的中央。 [0076] 本发明提供的应用于悬停追踪设备的悬停追踪方法，首先基于麦克风阵列获取声音信息，当声音信息中包含唤醒语音时，确定发出唤醒语音的对象的位置作为目标位置，接着基于摄像头获取目标位置处的图像，并基于目标位置处的图像确定追踪对象，然后控制悬停追踪设备运动至与追踪对象之间的距离在预设距离范围内且追踪对象的人脸位于摄像头画面的指定区域的位置，并基于摄像头获取追踪对象的图像，最后基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪。本发明提供的悬停追踪方法使得悬停追踪设备能够确定出追踪对象，并能长时间稳定的对追踪对象的人脸进行追踪。 [0077] 在本发明的另一实施例中，对上述实施例中的“步骤S104：基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪”的实现过程进行介绍。 [0078] 请参阅图2，示出了基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪的流程示意图，可以包括： [0079] 步骤S201：每获得追踪对象的一帧图像，基于当前帧图像确定追踪对象的头部姿态角和人脸质点三维坐标。 [0080] 其中，基于当前帧图像确定追踪对象的人脸质点三维坐标的过程可以包括： [0081] 步骤a1、从当前帧图像中确定出追踪对象的人脸区域。 [0082] 可基于追踪对象在前一帧图像的人脸关键点外扩框，从当前帧图像中确定出追踪对象的人脸区域。 [0083] 需要说明的是，追踪对象在第一帧图像的人脸关键点外扩框可按如下方式获得：对追踪对象的第一帧图像中追踪对象的人脸区域进行检测，以得到第一帧图像中的人脸区域，对第一帧图像中的人脸区域进行人脸关键点提取，以得到第一帧图像中追踪对象的人脸关键点，在此基础上可获得追踪对象在第一帧图像的人脸关键点外扩框。 [0084] 步骤a2、对经由步骤a1确定出的人脸区域进行人脸关键点提取，获得追踪对象的人脸关键点二维坐标，在此基础上获得追踪对象在当前帧图像的人脸关键点外扩框。 [0085] 其中，追踪对象在当前帧图像的人脸关键点外扩框可用于确定下一帧图像中追踪对象的人脸区域。 [0086] 步骤a3、基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参，确定追踪对象的人脸关键点三维坐标。 [0087] 具体的，基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参，确定追踪对象的人脸关键点三维坐标的过程可以包括：基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参确定变换矩阵，确定出的变换矩阵作为第一变换矩阵；基于第一变换矩阵对标准的人脸关键点三维坐标进行变换，得到追踪对象的人脸关键点的三维坐标。 [0088] 步骤a4、基于追踪对象的人脸关键点三维坐标中的眼部关键点三维坐标，确定追踪对象的人脸质点三维坐标。 [0089] 具体的，可根据眼部关键点三维坐标，确定追踪对象的两眼中心点的三维坐标，作为追踪对象的人脸质点三维坐标。 [0090] 本实施例中，追踪对象的头部姿态角可采用现有的基于二维图像进行头部姿态估计的方法获得。 [0091] 步骤S202：基于追踪对象的头部姿态角和人脸质点三维坐标，构建能够表征追踪对象在当前帧图像的头部姿态和人脸位置的向量，作为当前帧图像对应的目标向量。 [0092] 其中，基于追踪对象的头部姿态角和人脸质点三维坐标构建的向量以人脸质点为向量起点，以头部姿态角决定的方向为向量方向。 [0093] 步骤S203：基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制悬停追踪设备对追踪对象的人脸进行追踪。 [0094] 需要说明的是，当前帧图像对应的目标向量和前一帧图像对应的目标向量能够表征追踪对象在这两帧图像的人脸运动轨迹和头姿变化情况。 [0095] 具体的，基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制悬停追踪设备对追踪对象的人脸进行追踪的过程包括：基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，确定变换矩阵，确定出的变换关系作为第二变换矩阵；基于第二变换矩阵对悬停追踪设备的实际位置进行变换，得到变换后的位置；控制悬停追踪设备运动至变换后的位置。需要说明的是，悬停追踪设备的运动基于悬停追踪设备中设置的动力模块实现，在确定出变换后的位置后，可基于变换后的位置确定动力模块的参数，控制悬停追踪设备中的动力模块基于确定出的参数工作，从而使悬停追踪设备运动至变换后的位置。 [0096] 需要说明的是，前一帧图像对应的目标向量的获得方式与当前帧图像对应的目标向量的获得方式类似，即基于前一帧图像确定追踪对象的头部姿态角和人脸质点三维坐标，基于确定出的头部姿态角和人脸质点三维坐标构建能够表征追踪对象在前一帧图像的头部姿态和人脸位置的向量，作为前一帧图像对应的目标向量。 [0097] 另外需要说明的是，若当前帧图像为追踪对象的第一帧图像，由于不存在前一帧图像，因此无需执行步骤S203。 [0098] 在本发明的另一实施例中，悬停追踪方法除了包括上述实施例中的步骤S101～步骤S104外，还包括：获取追踪对象的交互信息，控制悬停追踪设备响应追踪对象的交互信息。 [0099] 在一种可能的实现方式中，追踪对象可通过手势(比如手臂和拳头的挥动)与悬停追踪设备进行交互，以使悬停追踪设备按照设置的要求运动到特定的位置上，比如远离、拉近、环绕、翻转等。实现基于手势交互的过程包括：基于追踪对象的图像，检测追踪对象的交互手势，当检测到追踪对象的交互手势时，控制悬停追踪设备执行与交互手势对应的操作，比如，当追踪对象做出用于使悬停追踪设备远离的交互手势时，控制悬停追踪设备远离追踪对象，当追踪对象做出使悬停追踪设备翻转的交互手势时，控制悬停追踪设备翻转。 [0100] 在另一种可能的实现方式中，追踪对象可通过语音与悬停追踪设备进行交互。实现基于语音交互的过程包括：检测追踪对象的交互语音(包含命令词的语音)，当检测到追踪对象的交互语音时，控制悬停追踪设备执行与交互语音中的命令词对应的操作，比如，当追踪对象说出命令词“翻转”时，则控制悬停追踪设备翻转。 [0101] 优选的，在远场场景中，可采用基于手势的交互方式，在近场场景中，可采用基于语音的交互方式，也可采集基于手势的交互方式。 [0102] 在再一种可能的实现方式中，追踪对象可基于多模交互方式与悬停追踪设备进行交互。 [0103] 对于多模交互，在一种可能的实现方式中，可基于语音和手势交互。 [0104] 示例性的，可基于语音触发基于手势的交互，具体实现过程包括：当检测到追踪对象的交互语音时，若交互语音包含触发手势交互的命令词，则触发基于手势的交互，即基于追踪对象的图像，检测追踪对象的交互手势，控制悬停追踪设备执行与交互手势对应的操作。 [0105] 示例性的，当交互语音不满足语音交互条件时，触发基于手势的交互，具体实现过程包括：当检测到追踪对象的交互语音时，若交互语音不满足交互条件(比如交互语音不清晰)，则触发基于手势的交互，即基于追踪对象的图像，检测追踪对象的交互手势，控制悬停追踪设备执行与交互手势对应的操作。 [0106] 示例性的，可基于手势触发基于语音的交互，具体实现过程包括：当基于追踪对象的图像检测到追踪对象的交互手势时，若交互手势为用于触发语音交互的手势，则触发基于语音的交互，即获取追踪对象的交互语音，控制悬停追踪设备执行与交互语音中的命令词对应的操作。 [0107] 示例性的，当交互手势不满足手势交互条件时，触发基于语音的交互，具体实现过程包括：当基于追踪对象的图像检测到追踪对象的交互手势时，若交互手势不满足手势交互条件(比如交互手不清晰)，则触发基于语音的交互，即获取追踪对象的交互语音，控制悬停追踪设备执行与交互语音中的命令词对应的操作。 [0108] 对于多模交互，在一种可能的实现方式中，可基于手势或语音以及视线进行交互。 [0109] 示例性的，可基于视线，同时辅以手势或语音进行交互，具体实现过程包括：基于追踪对象的图像检测追踪对象的视线信息，当追踪对象的视线落点在悬停追踪设备上时，引导用户基于手势或语音确认悬停追踪设备是否执行设定操作，若用户基于手势或语音确认悬停追踪设备执行设定操作，则控制悬停追踪设备执行设定操作。 [0110] 示例性的，可基于视线触发基于手势或语音的交互，具体实现过程包括：基于追踪对象的图像检测追踪对象的视线信息，当追踪对象的视线落点在悬停追踪设备上时，触发基于语音或手势的交互，即获取追踪对象的交互语音，控制悬停追踪设备执行与交互语音中的命令词对应的操作，或者，基于追踪对象的图像检测追踪对象的交互手势，控制悬停追踪设备执行与交互手势对应的操作。 [0111] 示例性的，基于语音或手势同时辅以视线进行交互(比如，因环境嘈杂导致语音不清晰，或者，因追踪对象被遮挡导致手势不清晰时，可辅以视线信息进行交互，以确保交互的鲁棒性)，具体实现过程包括：检测追踪对象的交互语音或者基于追踪对象的图像检测追踪对象的交互手势，若检测到的交互语音或交互手势不清晰，则基于追踪对象的图像获取追踪对象的视线信息，结合追踪对象的视线信息，响应交互语音或交互手势，即辅以追踪对象的视线信息，决定如何响应交互语音或交互手势。 [0112] 本发明实施例还提供了一种悬停追踪设备，该悬停追踪设备能够悬于空中，请参阅图3，示出了该悬停追踪设备的结构示意图，该悬停追踪设备可以包括：麦克风阵列301、摄像头302以及处理单元303。 [0113] 麦克风阵列301和摄像头302均可与处理单元303通信。麦克风阵列301可采集声音信息，并可将采集的声音信息传输至处理单元303处理，摄像头302可拍摄图像，并将拍摄的图像传输至处理单元303处理。 [0114] 处理单元303检测麦克风阵列301采集的声音信息中是否包含唤醒语音，当麦克风阵列301采集的声音信息中包含唤醒语音时，确定发出唤醒语音的声源的位置作为目标位置。 [0115] 可选的，处理单元303可在基于麦克风阵列301获取的声音信息进行声源定位的基础上，结合各声源的声纹信息，确定发出唤醒语音的对象的位置，即目标位置。 [0116] 处理单元303在确定出发出唤醒语音的声源的位置即目标位置后，基于目标位置控制悬停追踪设备运动，以使摄像头302朝向发出唤醒语音的对象所在的方向。 [0117] 处理单元303在获得摄像头302朝向发出唤醒语音的对象所在的方向拍摄的图像后，基于该图像确定追踪对象。 [0118] 具体的，处理单元303可对摄像头302朝向发出唤醒语音的对象所在的方向拍摄的图像进行人形检测，以得到若干人形框，优选的，在获得若干人形框后，可对人形框进行外扩，以使人形框内包含完整的手部信息，接着对每个外扩人形框进行手势识别，以得到若干外扩人形框分别对应的手势识别结果，最后将做出指定手势(预先设定的用于锁定追踪对象的手势)的对象，确定为追踪对象。 [0119] 处理单元303在确定出追踪对象后，控制悬停追踪设备运动至与追踪对象之间的距离在预设距离范围内且追踪对象的人脸位于摄像头画面的指定区域的位置，进而摄像头302拍摄追踪对象的图像。 [0120] 示例性的，处理单元303可控制悬停追踪设备运动至与追踪对象之间的距离为2米且追踪对象的人脸位于摄像头画面中央的位置。 [0121] 处理单元303在获得摄像头302拍摄的追踪对象的图像后，基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪，以使追踪对象的人脸始终位于摄像头画面的中央。 [0122] 具体的，处理单元303每获得追踪对象的一帧图像，首先基于当前帧图像确定追踪对象的头部姿态角和人脸质点三维坐标，然后基于追踪对象的头部姿态角和人脸质点三维坐标，构建能够表征追踪对象在当前帧图像的头部姿态和人脸位置的向量，作为当前帧图像对应的目标向量，最后基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制悬停追踪设备对追踪对象的人脸进行追踪。前一帧图像对应的目标向量的获取方式与当前帧图像对应的目标向量获取方式类似。 [0123] 其中，处理单元303基于当前帧图像确定追踪对象的人脸质点三维坐标的过程包括：从当前帧图像中确定出追踪对象的人脸区域；对确定出的人脸区域进行人脸关键点提取，获得追踪对象的人脸关键点二维坐标，在此基础上获得追踪对象在当前帧图像的人脸关键点外扩框；基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参，确定追踪对象的人脸关键点三维坐标；基于追踪对象的人脸关键点三维坐标中的眼部关键点三维坐标，确定追踪对象的人脸质点三维坐标。 [0124] 可选的，处理单元303在从当前帧图像中确定出追踪对象的人脸区域时，可基于追踪对象在前一帧图像的人脸关键点外扩框，从当前帧图像中确定出追踪对象的人脸区域。需要说明的是，追踪对象在第一帧图像的人脸关键点外扩框可按如下方式获得：对追踪对象的第一帧图像中追踪对象的人脸区域进行检测，以得到第一帧图像中的人脸区域，对第一帧图像中的人脸区域进行人脸关键点提取，以得到第一帧图像中追踪对象的人脸关键点，在此基础上可获得追踪对象在第一帧图像的人脸关键点外扩框。 [0125] 可选的，处理单元303基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参，确定追踪对象的人脸关键点三维坐标的过程可以包括：基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参确定变换矩阵，确定出的变换矩阵作为第一变换矩阵；基于第一变换矩阵对标准的人脸关键点三维坐标进行变换，得到追踪对象的人脸关键点的三维坐标。 [0126] 可选的，处理单元303基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制悬停追踪设备对追踪对象的人脸进行追踪的过程可以包括：基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，确定变换矩阵，确定出的变换关系作为第二变换矩阵；基于第二变换矩阵对悬停追踪设备的实际位置进行变换，得到变换后的位置；控制悬停追踪设备运动至变换后的位置。需要说明的是，悬停追踪设备还包括动力模块，处理单元303得到变换后的位置后，可基于变换后的位置确定动力模块的参数，进而控制动力模块基于确定出的参数工作，以使悬停追踪设备运动至变换后的位置。 [0127] 在实现了追踪的基础上，处理单元303可获取追踪对象的交互信息，控制悬停追踪设备响应追踪对象的交互信息。 [0128] 在一种可能的实现方式中，处理单元303可基于追踪对象的图像，检测追踪对象的交互手势，当检测到追踪对象的交互手势时，控制悬停追踪设备执行与交互手势对应的操作。 [0129] 在一种可能的实现方式中，处理单元303可检测追踪对象的交互语音(包含命令词的语音)，当检测到追踪对象的交互语音时，控制悬停追踪设备执行与交互语音中的命令词对应的操作。 [0130] 在一种可能的实现方式中，处理单元303可检测追踪对象的交互语音，当检测到追踪对象的交互语音时，若交互语音包含触发手势交互的命令词，则触发基于手势的交互，即基于追踪对象的图像，检测追踪对象的交互手势，控制悬停追踪设备执行与交互手势对应的操作。 [0131] 在一种可能的实现方式中，处理单元303可检测追踪对象的交互语音，当检测到追踪对象的交互语音时，若交互语音不满足交互条件(比如交互语音不清晰)，则触发基于手势的交互，即基于追踪对象的图像，检测追踪对象的交互手势，控制悬停追踪设备执行与交互手势对应的操作。 [0132] 在一种可能的实现方式中，处理单元303可基于追踪对象的图像，检测追踪对象的交互手势，当检测到追踪对象的交互手势时，若交互手势为用于触发语音交互的手势，则触发基于语音的交互，即获取追踪对象的交互语音，控制悬停追踪设备执行与交互语音中的命令词对应的操作。 [0133] 在一种可能的实现方式中，处理单元303可基于追踪对象的图像，检测追踪对象的交互手势，当检测到追踪对象的交互手势时，若交互手势不满足手势交互条件(比如交互手不清晰)，则触发基于语音的交互，即获取追踪对象的交互语音，控制悬停追踪设备执行与交互语音中的命令词对应的操作。 [0134] 在一种可能的实现方式中，处理单元303可基于追踪对象的图像检测追踪对象的视线信息，当追踪对象的视线落点在悬停追踪设备上时，引导用户基于手势或语音确认悬停追踪设备是否执行设定操作，若用户基于手势或语音确认悬停追踪设备执行设定操作，则控制悬停追踪设备执行设定操作。 [0135] 在一种可能的实现方式中，处理单元303可基于追踪对象的图像检测追踪对象的视线信息，当追踪对象的视线落点在悬停追踪设备上时，触发基于语音或手势的交互，即获取追踪对象的交互语音，控制悬停追踪设备执行与交互语音中的命令词对应的操作，或者，基于追踪对象的图像检测追踪对象的交互手势，控制悬停追踪设备执行与交互手势对应的操作。 [0136] 在一种可能的实现方式中，处理单元303可检测追踪对象的交互语音或者基于追踪对象的图像检测追踪对象的交互手势，若检测到的交互语音或交互手势不清晰，则基于追踪对象的图像获取追踪对象的视线信息，结合追踪对象的视线信息，响应交互语音或交互手势，即辅以追踪对象的视线信息，决定如何响应交互语音或交互手势。 [0137] 本发明实施例提供的悬停追踪设备具有如下优势：其一，没有应用场景的限制，无需用户手持，能够解放用户的双手；其二，能够长时间稳定的对追踪对象的人脸进行追踪；其三，能够基于多种交互方式(比如语音、手势、视线)进行智能交互。 [0138] 本发明实施例还提供了一种悬停追踪装置，该悬停追踪装置应用于设置有麦克风阵列和摄像头且能够悬停于空中的悬停追踪设备，下面对本发明实施例提供的悬停追踪装置进行描述，下文描述的悬停追踪装置与上文描述的悬停追踪方法可相互对应参照。 [0139] 请参阅图4，示出了本发明实施例提供的悬停追踪装置的结构示意图，该悬停追踪装置可以包括：目标位置确定模块401、追踪对象确定模块402、控制模块403和人脸追踪模块404。 [0140] 目标位置确定模块401，用于基于麦克风阵列获取声音信息，当声音信息中包含唤醒语音时，确定发出唤醒语音的对象的位置作为目标位置。 [0141] 追踪对象确定模块402，用于基于摄像头获取目标位置处的图像，基于目标位置处的图像确定追踪对象。 [0142] 控制模块403，用于控制悬停追踪设备运动至与追踪对象之间的距离在预设距离范围内且追踪对象的人脸位于摄像头画面的指定区域的位置。 [0143] 人脸追踪模块404，用于基于摄像头获取追踪对象的图像，基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪。 [0144] 可选的，目标位置确定模块401在基于目标位置处的图像确定追踪对象时，具体用于： [0145] 对所述目标位置处的图像进行人形检测； [0146] 对检测出的人形进行手势识别，得到所述目标位置处的图像中每个对象的手势； [0147] 将做出指定手势的对象，确定为追踪对象。 [0148] 可选的，人脸追踪模块404在基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪时，具体用于： [0149] 每获得追踪对象的一帧图像，基于当前帧图像确定追踪对象的头部姿态角和人脸质点三维坐标； [0150] 基于追踪对象的头部姿态角和人脸质点三维坐标，构建能够表征追踪对象在当前帧图像的头部姿态和人脸位置的向量，作为当前帧图像对应的目标向量； [0151] 基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制悬停追踪设备对追踪对象的人脸进行追踪。 [0152] 可选的，人脸追踪模块404在基于当前帧图像确定追踪对象的人脸质点三维坐标时，具体用于： [0153] 从当前帧图像中确定追踪对象的人脸区域； [0154] 对确定出的人脸区域进行人脸关键点提取，得到追踪对象的人脸关键点二维坐标； [0155] 基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参，确定追踪对象的人脸关键点三维坐标； [0156] 基于追踪对象的人脸关键点三维坐标中的眼部关键点三维坐标，确定追踪对象的人脸质点三维坐标。 [0157] 可选的，人脸追踪模块404在基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参，确定追踪对象的人脸关键点三维坐标时，具体用于： [0158] 基于追踪对象的人脸关键点二维坐标、标准的人脸关键点三维坐标以及摄像头的相机内参确定变换矩阵，确定出的变换矩阵作为第一变换矩阵； [0159] 基于第一变换矩阵对标准的人脸关键点三维坐标进行变换，得到追踪对象的人脸关键点三维坐标。 [0160] 可选的，人脸追踪模块404在基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，控制悬停追踪设备对所述追踪对象的人脸进行追踪时，具体用于： [0161] 基于当前帧图像对应的目标向量和前一帧图像对应的目标向量，确定变换矩阵，确定出的变换矩阵作为第二变换矩阵； [0162] 基于第二变换矩阵对悬停追踪设备的实际位置进行变换，得到变换后的位置； [0163] 控制悬停追踪设备运动至变换后的位置，以使追踪对象的人脸位于摄像头画面的指定区域。 [0164] 可选的，本实施例提供的悬停追踪装置还可以包括：第一交互模块、第二交互模块。 [0165] 第一交互模块，用于当基于所述追踪对象的图像检测到所述追踪对象的交互手势时，控制所述悬停追踪设备执行与所述交互手势对应的操作。 [0166] 第二交互模块，用于当检测到所述追踪对象的交互语音时，控制所述悬停追踪设备执行与所述交互语音中的命令词对应的操作。 [0167] 可选的，本实施例提供的悬停追踪装置还可以包括：第三交互模块。 [0168] 第三交互模块，用于当基于所述追踪对象的图像检测到所述追踪对象的视线落点在所述悬停追踪设备上时，引导用户基于手势或语音确认所述悬停追踪设备是否执行设定操作，或者，触发基于手势或语音的交互。 [0169] 可选的，本实施例提供的悬停追踪装置还可以包括：第四交互模块。 [0170] 第四交互模块，用于当基于所述追踪对象的图像检测到所述追踪对象的交互手势或者检测到所述追踪对象的交互语音时，基于所述追踪对象的图像检测所述追踪对象的视线信息，结合所述追踪对象的视线信息，响应所述交互语音或交互手势。 [0171] 可选的，本实施例提供的悬停追踪装置还可以包括：第五交互模块和第六交互模块。 [0172] 第五交互模块，用于当检测到所述追踪对象的交互语音时，若所述交互语音不满足语音交互条件，则触发基于手势的交互； [0173] 第六交互模块，用于当基于所述追踪对象的图像检测到所述追踪对象的交互手势时，若所述交互手势不满足手势交互条件，则触发基于语音的交互。 [0174] 本发明实施例提供的应用于悬停追踪设备的悬停追踪装置，首先基于麦克风阵列获取声音信息，当声音信息中包含唤醒语音时，确定发出唤醒语音的对象的位置作为目标位置，接着基于摄像头获取目标位置处的图像，并基于目标位置处的图像确定追踪对象，然后控制悬停追踪设备运动至与追踪对象之间的距离在预设距离范围内且追踪对象的人脸位于摄像头画面的指定区域的位置，并基于摄像头获取追踪对象的图像，最后基于追踪对象的图像确定追踪对象的人脸运动轨迹和头姿变化情况，并基于追踪对象的人脸运动轨迹和头姿变化情况，控制悬停追踪设备对追踪对象的人脸进行追踪。本发明提供的悬停追踪装置使得悬停追踪设备能够确定出追踪对象，并能长时间稳定的对追踪对象的人脸进行追踪。本发明提供的悬停追踪装置使得追踪对象可与悬停追踪设备通过多种交互方式(比如语音、手势、视线)进行交互。 [0175] 本发明实施例还提供了一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于： [0176] 基于所述麦克风阵列获取声音信息，当所述声音信息中包含唤醒语音时，确定发出所述唤醒语音的对象的位置作为目标位置； [0177] 基于所述摄像头获取所述目标位置处的图像，并基于所述目标位置处的图像确定追踪对象； [0178] 控制所述悬停追踪设备运动至与所述追踪对象之间的距离在预设距离范围内且所述追踪对象的人脸位于摄像头画面的指定区域的位置，并基于所述摄像头获取所述追踪对象的图像； [0179] 基于所述踪对象的图像确定所述追踪对象的人脸运动轨迹和头姿变化情况，并基于所述人脸运动轨迹和头姿变化情况，控制所述悬停追踪设备对所述追踪对象的人脸进行追踪。 [0180] 可选的，所述程序的细化功能和扩展功能可参照上文描述。 [0181] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。 [0182] 本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。 [0183] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。