蓝牙耳机播放控制方法转让专利

申请号 : CN202311294587.7

文献号 : CN117041807B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 方晓丽

申请人 : 深圳市迪斯声学有限公司

摘要 :

本发明涉及无线通信技术领域,尤其涉及一种蓝牙耳机播放控制方法。所述方法包括以下步骤:对获取的用户声音数据进行声纹注册处理,生成用户注册数据;通过用户注册数据对蓝牙耳机进行安全访问策略定制,得到声纹访问策略;对获取的指令音频数据进行声纹认证,生成目标声纹识别数据;对目标声纹识别数据进行上下文感知处理,得到耳机播放控制数据;根据收集的用户生理数据以及目标声纹识别数据进行情绪节律处理,分别得到个性化播放数据以及睡眠节律播放数据,并对耳机播放控制数据进行自适应性调整,生成智能情感控制数据;对智能情感控制数据进行实时响应处理,得到智能耳机播放数据。本发明通过语音识别实现蓝牙耳机智能播放控制。

权利要求 :

1.一种蓝牙耳机播放控制方法,其特征在于,包括以下步骤:步骤S1:利用耳机麦克风装置对用户进行声纹采集,得到用户声音数据;对用户声音数据进行声纹特征处理,生成用户声纹特征数据;

步骤S2:根据用户声纹特征数据进行声纹注册处理,生成用户注册数据;通过用户注册数据对蓝牙耳机进行安全访问策略定制,从而得到声纹访问策略;

步骤S3:获取指令音频数据;对指令音频数据进行目标声纹识别,生成目标声纹识别数据;对目标声纹识别数据进行上下文感知处理,从而得到耳机播放控制数据;

步骤S4,包括:

步骤S41:通过传感器设备对用户进行生理特征收集,生成用户生理数据;其中用户生理数据包含用户呼吸频率数据、用户面部数据以及用户心率数据;

步骤S42:对用户呼吸频率数据以及用户心率数据进行时域滤波处理,生成呼吸心率频率数据;

步骤S43:将呼吸心率频率数据以及目标声纹识别数据进行频谱图转换,从而得到生理频谱图数据;

步骤S44:对生理频谱图数据进行情绪特征熵计算,生成预测情绪熵数据;

步骤S45:通过预测情绪熵数据对生理频谱图数据进行情绪区域划分,生成情绪状态区域数据;

步骤S46:对情绪状态区域数据进行呼吸模式处理,生成呼吸模式特征数据;对情绪状态区域数据进行心率变异性挖掘,生成心率特征数据;对情绪状态区域数据进行声学特征提取,从而得到语音特征数据;

步骤S47:通过边缘检测算法对用户面部数据进行面部表情分析,生成用户表情特征数据;

步骤S48:对呼吸模式特征数据、心率特征数据、语音特征数据以及用户表情特征数据进行多模态融合,生成多模态特征数据;

步骤S49:对多模态特征数据进行情绪相似度计算,从而得到预测情绪状态数据;

其中,情绪相似度计算通过情绪相似度公式进行相似度计算,情绪相似度公式如下所示:;

式中,表示为情绪相似度,表示为情绪状态区域数据量, 表示为第个情绪状态区域数据与用户当前情绪状态的夹角,表示情绪频率因子,表示重叠情绪状态区域数据量,表示为第 个情绪状态区域数据的半径, 表示为情绪状态区域数据的呼吸模式特征数据, 表示为第 个情绪状态区域数据的心率特征数据, 表示为第个情绪状态区域数据的语音特征数据;

步骤S410:利用预设的情感标签规则对预测情绪状态数据进行情绪标签匹配,生成情绪标签数据;

步骤S411:根据情绪标签数据进行情绪置信度计算,从而生成用户情绪状态数据;

步骤S412,包括:

步骤S4121:获取用户睡眠节律数据;

步骤S4122:通过用户睡眠节律数据对呼吸模式特征数据以及心率特征数据进行节律关联性分析,生成实时睡眠节律数据;

步骤S4123:通过用户情绪状态数据对实时睡眠节律数据进行睡眠节律判断,生成睡眠检测数据;

步骤S4124:对睡眠检测数据进行睡眠程度划分,得到睡眠阶段数据;

步骤S4125:基于睡眠阶段数据利用蓝牙耳机对用户进行睡眠偏好策略定制,从而生成睡眠节律播放数据;

步骤S413:获取用户历史播放数据;

步骤S414:利用用户历史播放数据对用户情绪状态数据进行情绪播放处理,生成个性化播放数据;

步骤S415:根据耳机播放控制数据进行实时操作反馈监听,生成实时控制反馈数据;

步骤S416:通过睡眠节律播放数据、个性化播放数据以及实时控制反馈数据对耳机播放控制数据进行自适应性调整,生成智能情感控制数据;

步骤S5:对智能情感控制数据进行实时响应处理,从而得到智能耳机播放数据。

2.根据权利要求1所述的蓝牙耳机播放控制方法,步骤S1包括以下步骤:步骤S11:利用耳机麦克风装置与预设的声纹录制规则对用户进行声音采集,生成用户声音数据;

步骤S12:对用户声音数据进行自适应滤波处理,得到去噪声音数据;

步骤S13:对蓝牙耳机进行环境静音检测,生成静音检测数据,通过静音检测数据对去噪声音数据进行静音剪切处理,生成去静音声音数据;

步骤S14:根据去静音声音数据进行语音特征分析,生成语音特征数据;

步骤S15:对语音特征数据进行归一化处理,生成归一化语音数据;

步骤S16:对归一化语音数据进行特征重要性分析,得到重要语音特征数据;

步骤S17:对重要语音特征数据进行声纹特征向量拼接,生成用户声纹特征数据。

3.根据权利要求2所述的蓝牙耳机播放控制方法,其特征在于,语音特征数据包括语音频谱图、语音音色数据、语音声调数据、语速等级数据以及语音能量数据,步骤S14包括以下步骤:步骤S141:利用预设的时间窗口对去静音声音数据进行数据分帧处理,生成声音分帧数据;

步骤S142:对声音分帧数据进行频域转换处理,生成声音频谱图;

步骤S143:根据声音频谱图进行梅尔频率能量计算,从而得到梅尔能量数据;

步骤S144:利用预设的能量阈值对梅尔能量数据进行语音活动区分,得到语音标记数据;

步骤S145:通过语音标记数据对声音频谱图进行语音活动检测,生成语音频谱图;

步骤S146:通过语音基频估算算法对语音频谱图进行语音声调提取,生成语音声调数据;

其中,语音基频估算算法如下所示:

式中, 表示为第 帧语音信号的基频,表示为语音信号的帧数量,表示为语音信号的持续时间,表示为语音信号每一帧的时间长度, 表示为语音信号的解析信号函数, 表示为解析信号的虚部, 表示为解析信号的实部, 表示为语音信号量化函数, 表示为梅尔频率值, 表示为第 帧的相位角;

步骤S147:根据语音频谱图进行音帧时长间隔计算,从而得到语速估计数据;

步骤S148:通过预设的语速分级规则对语速估计数据进行语速等级标记,生成语速等级数据;

步骤S149:根据语音频谱图进行分帧能量计算,从而得到语音能量数据;

步骤S1410:根据语音频谱图进行谱包络特征分析,从而得到语音音色数据。

4.根据权利要求1所述的蓝牙耳机播放控制方法,其特征在于,步骤S2包括以下步骤:步骤S21:利用预设的声纹识别模型对用户声纹特征数据进行迁移学习,从而得到声纹识别模型;

步骤S22:通过声纹识别模型对用户声纹特征数据进行声纹识别处理,生成用户声纹识别数据;

步骤S23:通过蓝牙耳机以及终端设备对用户声纹识别数据进行蓝牙传输及存储,得到声纹注册数据;

步骤S24:根据声纹注册数据进行用户数据注册,生成用户注册数据;

步骤S25:利用终端设备对用户注册数据进行安全访问策略定制,从而得到声纹访问策略。

5.根据权利要求4所述的蓝牙耳机播放控制方法,其特征在于,步骤S21包括以下步骤:步骤S211:获取预训练卷积模型以及初始化权重数据;

步骤S212:通过初始化权重数据对预训练卷积模型进行模型初始化,生成初始卷积模型;将初始卷积模型中卷积层进行权重数据冻结,得到冻结初始卷积模型;

步骤S213:基于冻结初始卷积模型进行声纹识别层定制,并利用特定初始化策略进行初始化新层权重,生成初始声纹识别层;

步骤S214:获取标准声纹特征数据;

步骤S215:通过标准声纹特征数据对初始声纹识别层进行声纹特征映射,生成声纹特征层;根据预设的声纹识别阈值以及初始声纹识别层进行声纹匹配通道创建,从而得到声纹判别层;

步骤S216:将声纹特征层集成到冻结初始卷积模型的卷积层后面以及全连接层前面,将声纹判别层集成到冻结初始卷积模型的全连接层最后面,以构建初始声纹识别模型;

步骤S217:通过用户声纹特征数据对初始声纹识别模型进行模型迁移学习训练,从而生成声纹识别模型。

6.根据权利要求1所述的蓝牙耳机播放控制方法,其特征在于,步骤S3包括以下步骤:步骤S31:获取指令音频数据;

步骤S32:通过声纹识别模型对指令音频数据进行声纹识别处理,生成目标声纹识别数据;

步骤S33:对目标声纹识别数据进行语音指令提取,从而得到语音指令数据;

步骤S34:对语音指令数据进行控制指令解析,得到语音控制指令数据;

步骤S35:根据语音控制指令数据进行上下文感知处理,生成上下文感知信息;

步骤S36:通过上下文感知信息对语音控制指令数据进行析构与再塑处理,从而生成上下文感知指令;

步骤S37:对上下文感知指令进行上下文过滤处理,生成过滤指令数据;

步骤S38:对过滤指令数据进行指令映射处理,得到音频控制指令数据;

步骤S39:根据音频控制指令数据进行终端指令处理,从而生成耳机播放控制数据。

说明书 :

蓝牙耳机播放控制方法

技术领域

[0001] 本发明涉及无线通信技术领域,尤其涉及一种蓝牙耳机播放控制方法。

背景技术

[0002] 随着智能手机等移动设备的普及和发展,人们对无线音频的需求不断增加,蓝牙耳机作为一种便捷、舒适、时尚的无线音频设备,受到了广泛的欢迎和喜爱;现代蓝牙耳机不仅用于音频播放,还具备电话通话、语音助手控制等多种功能,这使得蓝牙耳机成为了日常生活中不可或缺的一部分。例如,用户希望能够轻松地切换音乐、调整音量、接听电话,而不必取出手机,蓝牙耳机控制方法的研究与用户体验密切相关。然而,传统的蓝牙耳机播放控制方法通常通过几个物理按钮进行播放控制,这极大的限制了用户操作选项,导致功能受限,难以执行高级操作;蓝牙耳机通常缺乏自定义选项,无法根据用户的生活习惯或者联合终端设备进行智能化控制,因此无法提供更好的用户体验和更丰富的功能性。

发明内容

[0003] 基于此,本发明提供一种蓝牙耳机播放控制方法,以解决至少一个上述技术问题。
[0004] 为实现上述目的,蓝牙耳机播放控制方法包括以下步骤:
[0005] 步骤S1:利用耳机麦克风装置对用户进行声纹采集,得到用户声音数据;对用户声音数据进行声纹特征处理,生成用户声纹特征数据;
[0006] 步骤S2:根据用户声纹特征数据进行声纹注册处理,生成用户注册数据;通过用户注册数据对蓝牙耳机进行安全访问策略定制,从而得到声纹访问策略;
[0007] 步骤S3:获取指令音频数据;对指令音频数据进行目标声纹识别,生成目标声纹识别数据;对目标声纹识别数据进行上下文感知处理,从而得到耳机播放控制数据;
[0008] 步骤S4:通过传感器设备对用户进行生理特征收集,生成用户生理数据;根据用户生理数据以及目标声纹识别数据进行情绪节律处理,分别得到个性化播放数据以及睡眠节律播放数据;根据个性化播放数据以及睡眠节律播放数据对耳机播放控制数据进行自适应性调整,生成智能情感控制数据;
[0009] 步骤S5:对智能情感控制数据进行实时响应处理,从而得到智能耳机播放数据。
[0010] 本发明通过预设的声纹规则对用户进行声纹数据采集,可以从用户的声音中提取出独特和稳定的声纹特征,用于表示用户的身份信息可以防止耳机被非法使用或盗用,保护用户的隐私和数据安全。根据用户声纹特征数据进行声纹注册处理可以实现用户的声纹授权,提高耳机的智能性和灵活性。通过声纹授权可以根据用户的不同身份、角色、环境、目的等因素,为用户定制不同的安全访问策略,例如:只允许特定的人或设备连接耳机、只允许在特定的时间或地点使用耳机、只允许播放特定的内容或功能等。对指令音频数据进行声纹认证,可以实现在多种声音环境下依旧可以识别用户语音指令,以实现语音蓝牙耳机多场景适用,达到无需触摸或视觉输入的自然语言通信。根据目标声纹识别数据进行上下文感知处理,例如:根据用户的情绪、兴趣、习惯等因素来推荐合适的内容或服务、根据用户的位置、时间、事件等因素来调整播放模式或参数等。这样,可以提高耳机的便捷性和智慧性,满足用户的语音交互需求,增强用户的互动和参与感。通过传感器设备对用户进行生理特征收集,例如:心率、血压、体温、血氧等,从而生成用户生理数据。根据用户生理数据以及目标声纹识别数据进行情绪节律处理,例如:分析用户的情绪状态、节奏偏好、音乐喜好等,从而得到个性化播放数据以及睡眠节律播放数据。根据个性化播放数据以及睡眠节律播放数据对耳机播放控制数据进行自适应性调整,例如:根据用户的情绪变化来调节音乐的风格、速度、音量等,从而达到缓解压力、提升心情、增强信心等目的、根据用户的睡眠周期来调节音乐的类型、时长、频率等,从而达到助眠、改善睡眠质量、促进身体恢复等目的。这样,可以提高耳机的舒适性和健康性。对智能情感控制数据进行实时响应处理,例如:根据用户的反馈和评价来调整音乐和服务的质量、效果、内容等、根据用户的喜好和需求来推送更多相关或新颖的音乐和服务等。因此,本发明的一种蓝牙耳机播放控制方法通过语音指令识别对蓝牙耳机进行播放控制,考虑使用声纹识别技术对用户进行语音指令识别,以实现在多种声音环境下依旧可以识别用户语音指令,为用户定制不同的蓝牙耳机安全访问策略,可以适应用户的多样化的安全需求;蓝牙耳机在接收语音指令后会进行上下文感知处理,并且通过监控用户生理数据对用户进行智能化使用场景播放控制,从而在满足用户的蓝牙耳机智能播放控制后,以提高了蓝牙耳机的舒适度和健康性,增强用户的快乐和幸福感。

附图说明

[0011] 图1为本发明一种蓝牙耳机播放控制方法的步骤流程示意图;
[0012] 图2为图1中步骤S1的详细实施步骤流程示意图;
[0013] 图3为图1中步骤S2的详细实施步骤流程示意图;
[0014] 图4为图1中步骤S3的详细实施步骤流程示意图;
[0015] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0016] 下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0017] 此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。
[0018] 应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
[0019] 为实现上述目的,请参阅图1至图4,本发明提供一种蓝牙耳机播放控制方法,包括以下步骤:
[0020] 步骤S1:利用耳机麦克风装置对用户进行声纹采集,得到用户声音数据;对用户声音数据进行声纹特征处理,生成用户声纹特征数据;
[0021] 步骤S2:根据用户声纹特征数据进行声纹注册处理,生成用户注册数据;通过用户注册数据对蓝牙耳机进行安全访问策略定制,从而得到声纹访问策略;
[0022] 步骤S3:获取指令音频数据;对指令音频数据进行目标声纹识别,生成目标声纹识别数据;对目标声纹识别数据进行上下文感知处理,从而得到耳机播放控制数据;
[0023] 步骤S4:通过传感器设备对用户进行生理特征收集,生成用户生理数据;根据用户生理数据以及目标声纹识别数据进行情绪节律处理,分别得到个性化播放数据以及睡眠节律播放数据;根据个性化播放数据以及睡眠节律播放数据对耳机播放控制数据进行自适应性调整,生成智能情感控制数据;
[0024] 步骤S5:对智能情感控制数据进行实时响应处理,从而得到智能耳机播放数据。
[0025] 本发明通过预设的声纹规则对用户进行声纹数据采集,可以从用户的声音中提取出独特和稳定的声纹特征,用于表示用户的身份信息可以防止耳机被非法使用或盗用,保护用户的隐私和数据安全。根据用户声纹特征数据进行声纹注册处理可以实现用户的声纹授权,提高耳机的智能性和灵活性。通过声纹授权可以根据用户的不同身份、角色、环境、目的等因素,为用户定制不同的安全访问策略,例如:只允许特定的人或设备连接耳机、只允许在特定的时间或地点使用耳机、只允许播放特定的内容或功能等。对指令音频数据进行声纹认证,可以实现在多种声音环境下依旧可以识别用户语音指令,以实现语音蓝牙耳机多场景适用,达到无需触摸或视觉输入的自然语言通信。根据目标声纹识别数据进行上下文感知处理,例如:根据用户的情绪、兴趣、习惯等因素来推荐合适的内容或服务、根据用户的位置、时间、事件等因素来调整播放模式或参数等。这样,可以提高耳机的便捷性和智慧性,满足用户的语音交互需求,增强用户的互动和参与感。通过传感器设备对用户进行生理特征收集,例如:心率、血压、体温、血氧等,从而生成用户生理数据。根据用户生理数据以及目标声纹识别数据进行情绪节律处理,例如:分析用户的情绪状态、节奏偏好、音乐喜好等,从而得到个性化播放数据以及睡眠节律播放数据。根据个性化播放数据以及睡眠节律播放数据对耳机播放控制数据进行自适应性调整,例如:根据用户的情绪变化来调节音乐的风格、速度、音量等,从而达到缓解压力、提升心情、增强信心等目的、根据用户的睡眠周期来调节音乐的类型、时长、频率等,从而达到助眠、改善睡眠质量、促进身体恢复等目的。这样,可以提高耳机的舒适性和健康性。对智能情感控制数据进行实时响应处理,例如:根据用户的反馈和评价来调整音乐和服务的质量、效果、内容等、根据用户的喜好和需求来推送更多相关或新颖的音乐和服务等。因此,本发明的一种蓝牙耳机播放控制方法通过语音指令识别对蓝牙耳机进行播放控制,考虑使用声纹识别技术对用户进行语音指令识别,以实现在多种声音环境下依旧可以识别用户语音指令,为用户定制不同的蓝牙耳机安全访问策略,可以适应用户的多样化的安全需求;蓝牙耳机在接收语音指令后会进行上下文感知处理,并且通过监控用户生理数据对用户进行智能化使用场景播放控制,从而在满足用户的蓝牙耳机智能播放控制后,以提高了蓝牙耳机的舒适度和健康性,增强用户的快乐和幸福感。
[0026] 本发明实施例中,参考图1所述,为本发明一种蓝牙耳机播放控制方法的步骤流程示意图,在本实施例中,所述的蓝牙耳机播放控制方法包括以下步骤:
[0027] 步骤S1:利用耳机麦克风装置对用户进行声纹采集,得到用户声音数据;对用户声音数据进行声纹特征处理,生成用户声纹特征数据;
[0028] 本发明实施例中,通过蓝牙耳机麦克风装置对用户进行声音采集,用户可以通过说出一些特定的词语或短语,来提供自己的声音数据。声音数据可以包括音频信号的频率、振幅、时长、音色等信息,对于声音数据的声纹特征处理来提取声音数据中的特征向量,从而生成用户声纹特征数据。利用耳机麦克风装置对用户进行声纹采集,可以实现对用户身份的验证和保护,提高耳机使用的安全性和便捷性。对用户声音数据进行声纹特征处理,可以提高声纹识别的准确性和效率,降低误识别和拒识别的风险。
[0029] 步骤S2:根据用户声纹特征数据进行声纹注册处理,生成用户注册数据;通过用户注册数据对蓝牙耳机进行安全访问策略定制,从而得到声纹访问策略;
[0030] 本发明实施例中,根据用户声纹特征数据进行声纹注册处理,用户注册数据可以用于标识和验证用户的身份和权限。通过用户注册数据对蓝牙耳机进行安全访问策略定制,可以根据用户的个人喜好和需求,设置不同的访问条件和限制,如时间、地点、设备、指令等,从而得到声纹访问策略。声纹访问策略可以用于控制和管理耳机的功能和服务。根据用户声纹特征数据进行声纹注册处理,可以实现对用户身份和权限的授权和管理,提高耳机使用的安全性和个性化。通过用户注册数据对蓝牙耳机进行安全访问策略定制,可以实现对耳机功能和服务的灵活配置和优化,提高耳机使用的便捷性和舒适性。
[0031] 步骤S3:获取指令音频数据;对指令音频数据进行目标声纹识别,生成目标声纹识别数据;对目标声纹识别数据进行上下文感知处理,从而得到耳机播放控制数据;
[0032] 本发明实施例中,获取指令音频数据,可以通过耳机麦克风装置来实现。指令音频数据可以包括用户发出的各种控制指令或请求信息。对指令音频数据进行声纹认证来比较指令音频数据与用户注册数据中的声纹特征,从而生成目标声纹识别数据。目标声纹识别数据可以用于判断指令音频数据是否来自于合法的用户,以及用户的身份和权限。对目标声纹识别数据进行上下文感知处理,可以采用一些自然语言处理或语音识别的方法,如语义分析、语音转文本、意图识别等,来理解指令音频数据中的内容和意图,从而得到耳机播放控制数据。耳机播放控制数据可以用于控制和调节耳机的播放功能和参数,如音量、频率、模式等。获取指令音频数据,可以实现对用户的语音交互和沟通,提高耳机使用的便捷性和互动性。对指令音频数据进行声纹认证,可以实现对用户的身份和权限的验证和保护,提高耳机使用的安全性和个性化。对目标声纹识别数据进行上下文感知处理,可以实现对用户的内容和意图的理解和响应,提高耳机使用的智能性和舒适性。
[0033] 步骤S4:通过传感器设备对用户进行生理特征收集,生成用户生理数据;根据用户生理数据以及目标声纹识别数据进行情绪节律处理,分别得到个性化播放数据以及睡眠节律播放数据;根据个性化播放数据以及睡眠节律播放数据对耳机播放控制数据进行自适应性调整,生成智能情感控制数据;
[0034] 本发明实施例中,通过传感器设备对用户进行生理特征收集,可以通过耳机内置或外部连接的各种传感器来实现。用户生理数据可以包括用户的各种生理指标和状态。根据用户生理数据以及目标声纹识别数据进行情绪节律处理,来分析用户的情绪状态和节律变化,从而分别得到个性化播放数据以及睡眠节律播放数据。个性化播放数据可以用于根据用户的情绪状态来推荐或调整适合的音乐或内容。睡眠节律播放数据可以用于根据用户的睡眠状态来推荐或调整适合的音乐或内容。根据个性化播放数据以及睡眠节律播放数据对耳机播放控制数据进行自适应性调整,来优化或调整耳机播放控制数据中的功能和参数,从而生成智能情感控制数据。智能情感控制数据可以用于控制和调节耳机的播放功能和参数,以适应用户的情绪状态和节律变化。
[0035] 步骤S5:对智能情感控制数据进行实时响应处理,从而得到智能耳机播放数据。
[0036] 本发明实施例中,对智能情感控制数据进行实时响应处理,可以采用一些实时计算或流式计算的方法,如Spark、Storm、Flink等来实现对智能情感控制数据的快速处理和传输,从而得到智能耳机播放数据。智能耳机播放数据可以用于驱动和操控耳机的播放功能和参数,如音频输出、音效处理、播放列表等。对智能情感控制数据进行实时响应处理,可以实现对用户的实时反馈和服务,提高耳机使用的响应性和体验性。
[0037] 优选地,步骤S1包括以下步骤:
[0038] 步骤S11:利用耳机麦克风装置与预设的声纹录制规则对用户进行声音采集,生成用户声音数据;
[0039] 步骤S12:对用户声音数据进行自适应滤波处理,得到去噪声音数据;
[0040] 步骤S13:对蓝牙耳机进行环境静音检测,生成静音检测数据,通过静音检测数据对去噪声音数据进行静音剪切处理,生成去静音声音数据;
[0041] 步骤S14:根据去静音声音数据进行语音特征分析,生成语音特征数据;
[0042] 步骤S15:对语音特征数据进行归一化处理,生成归一化语音数据;
[0043] 步骤S16:对归一化语音数据进行特征重要性分析,得到重要语音特征数据;
[0044] 步骤S17:对重要语音特征数据进行声纹特征向量拼接,生成用户声纹特征数据。
[0045] 本发明利用耳机麦克风装置与预设的声纹录制规则对用户进行声音采集,可以实现对用户身份的验证和保护,提高耳机使用的安全性和便捷性。对用户声音数据进行自适应滤波处理,可以实现对用户声音数据的清洗和优化。对蓝牙耳机进行环境静音检测,可以实现对蓝牙耳机状态的监测和评估,提高耳机使用的健康性和舒适性。通过静音检测数据对去噪声音数据进行静音剪切处理,可以实现对去噪声音数据的裁剪和优化。根据去静音声音数据进行语音特征分析,可以实现对用户声音数据的特征化和表达。对语音特征数据进行归一化处理,可以实现对用户声音数据的规范化和优化。对归一化语音数据进行特征重要性分析,可以实现对用户声音数据的精简和优化。对重要语音特征数据进行声纹特征向量拼接,可以实现对用户声音数据的整合和表达,提高声纹注册和认证的准确性和效率。
[0046] 作为本发明的一个实例,参考图2所示,为图1中步骤S1的详细实施步骤流程示意图,在本实例中所述步骤S1包括:
[0047] 步骤S11:利用耳机麦克风装置与预设的声纹录制规则对用户进行声音采集,生成用户声音数据;
[0048] 本发明实施例中,通过蓝牙耳机麦克风装置与用户的智能设备连接,从而实现对用户的声音采集。预设的声纹录制规则可以指定用户需要说出的一些特定的词语或短语,以及说话的速度、音量、语调等要求,从而保证声音采集的质量和一致性。用户声音数据可以包括音频信号的频率、振幅、时长、音色等信息。利用耳机麦克风装置与预设的声纹录制规则对用户进行声音采集,可以实现对用户身份的验证和保护,提高耳机使用的安全性和便捷性。
[0049] 步骤S12:对用户声音数据进行自适应滤波处理,得到去噪声音数据;
[0050] 本发明实施例中,对用户声音数据进行自适应滤波处理,可以采用一些信号处理或降噪的办法,即自适应噪声消除来去除用户声音数据中的噪声成分,如环境噪声、回声、杂音等,从而得到去噪声音数据。去噪声音数据可以保留用户声音数据中的有效信息,提高信噪比和清晰度。对用户声音数据进行自适应滤波处理,可以实现对用户声音数据的清洗和优化,提高声纹特征处理和识别的准确性和效率。
[0051] 步骤S13:对蓝牙耳机进行环境静音检测,生成静音检测数据,通过静音检测数据对去噪声音数据进行静音剪切处理,生成去静音声音数据;
[0052] 本发明实施例中,对蓝牙耳机进行环境静音检测,可以采用一些能量检测或阈值判断的办法,如短时能量、零交叉率、能量阈值等来判断蓝牙耳机是否处于静音状态,从而生成静音检测数据。静音检测数据可以用于标识和区分去噪声音数据中的有效部分和无效部分。通过静音检测数据对去噪声音数据进行静音剪切处理来去除去噪声音数据中的静音部分,从而生成去静音声音数据。去静音声音数据可以压缩用户声音数据的长度和大小,提高信号密度和有效性。对蓝牙耳机进行环境静音检测,可以实现对蓝牙耳机状态的监测和评估,提高耳机使用的健康性和舒适性。
[0053] 步骤S14:根据去静音声音数据进行语音特征分析,生成语音特征数据;
[0054] 本发明实施例中,根据去静音声音数据进行语音特征分析,可以采用一些语音特征提取或表示的办法,即梅尔频率倒谱系数来提取或表示去静音声音数据中的语音特征,从而生成语音特征数据。语音特征数据可以包括用户声音数据中的语谱、共振峰、基频等信息。根据去静音声音数据进行语音特征分析,可以实现对用户声音数据的特征化和表达。
[0055] 步骤S15:对语音特征数据进行归一化处理,生成归一化语音数据;
[0056] 本发明实施例中,对语音特征数据进行归一化处理,可以采用一些归一化或标准化的办法,如最大最小归一化、均值方差归一化、Z分数标准化等,来消除或减小语音特征数据中的量纲、尺度、分布等差异,从而生成归一化语音数据。归一化语音数据可以使用户声音数据更加统一和规范。对语音特征数据进行归一化处理,可以实现对用户声音数据的规范化和优化。
[0057] 步骤S16:对归一化语音数据进行特征重要性分析,得到重要语音特征数据;
[0058] 本发明实施例中,对归一化语音数据进行特征重要性分析,可以采用一些特征选择或降维的办法,如主成分分析、线性判别分析、信息增益等,来筛选或降低归一化语音数据中的冗余或无关特征,从而得到重要语音特征数据。重要语音特征数据可以包括用户声音数据中对于声纹识别最具有区分度和贡献度的特征。
[0059] 步骤S17:对重要语音特征数据进行声纹特征向量拼接,生成用户声纹特征数据。
[0060] 本发明实施例中,对重要语音特征数据进行声纹特征向量拼接,可以采用一些向量拼接或组合的办法,如向量叠加、向量连接、向量融合等,来将重要语音特征数据中的各个子向量拼接或组合成一个完整的向量,从而生成用户声纹特征数据。用户声纹特征数据可以用于后续的声纹注册和认证。对重要语音特征数据进行声纹特征向量拼接,可以实现对用户声音数据的整合和表达,提高声纹注册和认证的准确性和效率。
[0061] 优选地,步骤S14包括以下步骤:
[0062] 步骤S141:利用预设的时间窗口对去静音声音数据进行数据分帧处理,生成声音分帧数据;
[0063] 步骤S142:对声音分帧数据进行频域转换处理,生成声音频谱图;
[0064] 步骤S143:根据声音频谱图进行梅尔频率能量计算,从而得到梅尔能量数据;
[0065] 步骤S144:利用预设的能量阈值对梅尔能量数据进行语音活动区分,得到语音标记数据;
[0066] 步骤S145:通过语音标记数据对声音频谱图进行语音活动检测,生成语音频谱图;
[0067] 步骤S146:通过语音基频估算算法对语音频谱图进行语音声调提取,生成语音声调数据;
[0068] 步骤S147:根据语音频谱图进行音帧时长间隔计算,从而得到语速估计数据;
[0069] 步骤S148:通过预设的语速分级规则对语速估计数据进行语速等级标记,生成语速等级数据;
[0070] 步骤S149:根据语音频谱图进行分帧能量计算,从而得到语音能量数据;
[0071] 步骤S1410:根据语音频谱图进行谱包络特征分析,从而得到语音音色数据。
[0072] 本发明利用预设的时间窗口对去静音声音数据进行数据分帧处理,可以实现对去静音声音数据的分解和规范,提高频域转换和特征提取的准确性和效率。对声音分帧数据进行频域转换处理,可以实现对声音分帧数据的变换和表达。根据声音频谱图进行梅尔频率能量计算,可以实现对声音频谱图的转换和压缩,提高语音活动区分和特征重要性分析的准确性和效率。利用预设的能量阈值对梅尔能量数据进行语音活动区分,可以实现对梅尔能量数据的筛选和区分。通过语音标记数据对声音频谱图进行语音活动检测,可以实现对声音频谱图的裁剪和优化。通过语音基频估算算法对语音频谱图进行语音声调提取,可以实现对用户声调特征的提取和表达。根据语音频谱图进行音帧时长间隔计算,可以实现对用户说话速度特征的提取和表达。通过预设的语速分级规则对语速估计数据进行语速等级标记,可以实现对用户说话速度特征的分类和表达。根据语音频谱图进行分帧能量计算,可以实现对用户说话能量特征的提取和表达。根据语音频谱图进行谱包络特征分析,可以实现对用户说话音色特征的提取和表达。
[0073] 本发明实施例中,利用预设的时间窗口对去静音声音数据进行数据分帧处理,可以采用一些信号分割或窗函数的办法,即汉宁窗来将去静音声音数据按照一定的时间间隔和重叠率划分为多个小的数据帧,从而生成声音分帧数据。对声音分帧数据进行频域转换处理,可以采用快速傅里叶变换来将声音分帧数据从时域转换为频域,并计算每个数据帧中的各个频率成分的幅值或能量,从而生成声音频谱图。根据声音频谱图进行梅尔频率能量计算,可以采用一些梅尔滤波器或梅尔倒谱系数的办法来将声音频谱图中的线性频率刻度转换为非线性的梅尔频率刻度,并计算每个梅尔滤波器输出的能量或对数能量,从而得到梅尔能量数据。利用预设的能量阈值对梅尔能量数据进行语音活动区分,根据预设的能量阈值判断每个梅尔滤波器输出是否包含有效的语音活动信息,并给出相应的语音标记(如0表示杂音,1表示语音),从而得到语音标记数据。通过语音标记数据对声音频谱图进行语音活动检测,可以采用一些信号分割或裁剪的方法,利用帧分析来根据语音标记数据,去除声音频谱图中的杂音部分,从而生成语音频谱图。通过语音基频估算算法对语音频谱图进行语音声调提取,根据语音频谱图中的谐波结构或共振峰,估计每个数据帧中的基频或基频轮廓,从而生成语音声调数据。根据每个数据帧的时长以及相邻数据帧之间的间隔,计算用户说话的平均速度或速度变化,从而得到语速估计数据。根据预设的规则或标准(如每分钟说话字数、每秒说话字数等),将语速估计数据划分为不同的语速等级(如慢速、中速、快速等),并给出相应的语速等级标记,从而生成语速等级数据。根据每个数据帧中的各个频率成分的幅值或能量,计算每个数据帧的总能量或平均能量,从而得到语音能量数据。根据每个数据帧中的频率成分的幅值或能量,提取或表示每个数据帧的谱包络或共振峰信息,从而得到语音音色数据。
[0074] 优选地,步骤S146中的语音基频估算算法如下所示:
[0075] ;
[0076] 式中, 表示为第 帧语音信号的基频,表示为语音信号的帧数量,表示为语音信号的持续时间,表示为语音信号每一帧的时间长度, 表示为语音信号的解析信号函数, 表示为解析信号的虚部, 表示为解析信号的实部, 表示为语音信号量化函数, 表示为梅尔频率值, 表示为第 帧的相位角。
[0077] 本发明利用一种语音基频估算算法,该算法充分考虑了语音信号的帧数量 、语音信号的持续时间 、语音信号每一帧的时间长度 、语音信号的解析信号函数 、解析信号的虚部 、解析信号的实部 、语音信号量化函数 、梅尔频率值 、第 帧的相位角 以及函数之间的相互作用关系,以形成函数关系式:
[0078] 即, ,通过对语音信号进行分帧处理,将其分成若干个长度为 的小段,每个小段称为一帧,语音信号的帧数量为 。这样做的目的是为了减少语音信号在时间上的变化,使得每一帧语音信号都可以看作是一个稳态信号。对每一帧语音信号应用希尔伯特变换,得到一个复数信号,称为解析信号。解析信号可以分解为实部 和虚部 ,分别反映了语音信号的幅度和相位变化。这样做的目的是为了将语音信号从时域转换到复数域,方便进行后续的分析。对每一帧解析信号的实部和虚部进行对数运算,得到一个平滑的能量包络函数。即,能量包络函数反映了语音信号在时间上的能量变化。这样做的目的
是为了消除语音信号中的高频成分,只保留低频成分,从而突出语音信号的周期性。对能量包络函数进行微分运算,得到一个反映了语音信号周期性的函数。这个函数在每一个周期内都有一个极大值和一个极小值,极大值对应于语音信号的最大能量点,极小值对应于语音信号的最小能量点。这样做的目的是为了找出语音信号中的能量峰值和谷值,从而确定语音信号的周期长度。对该函数进行极限运算,得到一个无穷大的值,表示语音信号的基频无限接近于某个值。这个值就是每一帧语音信号的基频估计值。这样做的目的是为了消除微分运算引入的误差,提高基频估计的精度。对该值进行三角函数运算和求和运算,得到每一帧语音信号的基频值。这样做的目的是为了将基频估计值从复数域转换回时域,并且对所有帧进行平均处理,得到最终的基频输出值。
[0079] 优选地,步骤S2包括以下步骤:
[0080] 步骤S21:利用预设的声纹识别模型对用户声纹特征数据进行迁移学习,从而得到声纹识别模型;
[0081] 步骤S22:通过声纹识别模型对用户声纹特征数据进行声纹识别处理,生成用户声纹识别数据;
[0082] 步骤S23:通过蓝牙耳机以及终端设备对用户声纹识别数据进行蓝牙传输及存储,得到声纹注册数据;
[0083] 步骤S24:根据声纹注册数据进行用户数据注册,生成用户注册数据;
[0084] 步骤S25:利用终端设备对用户注册数据进行安全访问策略定制,从而得到声纹访问策略。
[0085] 本发明利用已有的声纹识别模型对用户声纹特征数据进行训练和优化,从而得到适合用户的声纹识别模型。这个模型可以提高声纹识别的准确率和效率,适应用户的声音变化和环境干扰。通过声纹识别模型对用户声纹特征数据进行匹配和比对,从而生成用户声纹识别数据。这个数据可以表明用户的身份是否合法和有效,以及用户的信任度和可靠度。通过蓝牙耳机以及终端设备,对用户声纹识别数据进行无线传输和安全存储,从而得到声纹注册数据。这个数据可以作为用户的唯一标识和凭证,用于后续的访问控制和数据管理。根据声纹注册数据进行用户数据注册,从而生成用户注册数据。这个数据可以记录用户的基本信息和个性化选项。根据用户的不同身份、角色、环境、目的等因素,为用户提供不同的安全访问权限和服务权限,例如:只允许特定的人或设备连接耳机、只允许在特定的时间或地点使用耳机、只允许播放特定的内容或功能等,从而得到声纹访问策略。
[0086] 作为本发明的一个实例,参考图3所示,为图1中步骤S2的详细实施步骤流程示意图,在本实例中所述步骤S2包括:
[0087] 步骤S21:利用预设的声纹识别模型对用户声纹特征数据进行迁移学习,从而得到声纹识别模型;
[0088] 本发明实施例中,利用预设的声纹识别模型对用户声纹特征数据进行迁移学习,可以采用一些迁移学习或深度学习的办法,如迁移网络、微调、知识蒸馏等,来利用预设的声纹识别模型中已经学习到的知识和参数,对用户声纹特征数据进行训练和优化,从而得到声纹识别模型。声纹识别模型可以用于后续的声纹识别和验证。利用预设的声纹识别模型对用户声纹特征数据进行迁移学习,可以实现对用户声纹特征数据的快速和高效的学习和适应,提高声纹识别和验证的准确性和效率。
[0089] 步骤S22:通过声纹识别模型对用户声纹特征数据进行声纹识别处理,生成用户声纹识别数据;
[0090] 本发明实施例中,通过声纹识别模型对用户声纹特征数据进行声纹识别处理,可以采用一些分类或匹配的办法,根据声纹识别模型中的知识和参数,对用户声纹特征数据进行分类或匹配,从而生成用户声纹识别数据。用户声纹识别数据可以用于标识和验证用户的身份和权限。通过声纹识别模型对用户声纹特征数据进行声纹识别处理,可以实现对用户身份和权限的验证和保护,提高耳机使用的安全性和个性化。
[0091] 步骤S23:通过蓝牙耳机以及终端设备对用户声纹识别数据进行蓝牙传输及存储,得到声纹注册数据;
[0092] 本发明实施例中,通过蓝牙耳机以及终端设备对用户声纹识别数据进行蓝牙传输及存储,来实现用户声纹识别数据在蓝牙耳机和终端设备之间的安全传输和存储,从而得到声纹注册数据。声纹注册数据可以用于后续的用户数据注册和管理。通过蓝牙耳机以及终端设备对用户声纹识别数据进行蓝牙传输及存储,可以实现对用户身份和权限的授权和管理,提高耳机使用的安全性和便捷性。
[0093] 步骤S24:根据声纹注册数据进行用户数据注册,生成用户注册数据;
[0094] 本发明实施例中,根据声纹注册数据进行用户数据注册,将声纹注册数据存储在数据库或云端,并为每个用户分配一个唯一的标识符或账号,从而生成用户注册数据。用户注册数据可以用于后续的用户数据查询和更新。根据声纹注册数据进行用户数据注册,可以实现对用户数据的存储和管理。
[0095] 步骤S25:利用终端设备对用户注册数据进行安全访问策略定制,从而得到声纹访问策略。
[0096] 本发明实施例中,利用终端设备对用户注册数据进行安全访问策略定制,可以采用一些用户界面或交互设计的办法,如图形界面、触摸屏、语音控制等来实现用户通过终端设备对自己的注册数据进行查看和修改,并根据自己的个人喜好和需求,设置不同的访问条件和限制,如时间、地点、设备、指令等,从而得到声纹访问策略。声纹访问策略可以用于控制和管理耳机的功能和服务。
[0097] 优选地,步骤S21包括以下步骤:
[0098] 步骤S211:获取预训练卷积模型以及初始化权重数据;
[0099] 步骤S212:通过初始化权重数据对预训练卷积模型进行模型初始化,生成初始卷积模型;将初始卷积模型中卷积层进行权重数据冻结,得到冻结初始卷积模型;
[0100] 步骤S213:基于冻结初始卷积模型进行声纹识别层定制,并利用特定初始化策略进行初始化新层权重,生成初始声纹识别层;
[0101] 步骤S214:获取标准声纹特征数据;
[0102] 步骤S215:通过标准声纹特征数据对初始声纹识别层进行声纹特征映射,生成声纹特征层;根据预设的声纹识别阈值以及初始声纹识别层进行声纹匹配通道创建,从而得到声纹判别层;
[0103] 步骤S216:将声纹特征层集成到冻结初始卷积模型的卷积层后面以及全连接层前面,将声纹判别层集成到冻结初始卷积模型的全连接层最后面,以构建初始声纹识别模型;
[0104] 步骤S217:通过用户声纹特征数据对初始声纹识别模型进行模型迁移学习训练,从而生成声纹识别模型。
[0105] 本发明中预训练卷积模型可以利用大量的数据学习到通用的特征提取能力,避免从零开始训练的时间和资源消耗。初始化权重数据可以为模型提供一个合理的初始状态,避免随机初始化带来的梯度消失或爆炸问题。通过初始化权重数据对预训练卷积模型进行微调,可以使模型适应声纹识别任务的特点,提高特征提取的准确性。将卷积层进行权重数据冻结,可以保留预训练卷积模型学习到的通用特征,同时减少训练参数的数量,提高训练效率。添加声纹识别层可以使模型输出与声纹类别对应,实现分类任务。使用特定初始化策略可以使新层的权重分布合理。获取标准声纹特征数据可以作为监督学习的训练数据,提供真实有效的标签信息。通过标准声纹特征数据对初始声纹识别层进行训练,可以使模型学习到有效的声纹特征映射,提高分类性能。根据预设的声纹识别阈值进行二值化处理,可以使模型输出更加清晰明确,提高识别准确性。将不同的模块集成到一个网络中,可以使模型具有端到端的能力,实现从输入到输出的一次性计算。通过用户声纹特征数据对初始声纹识别模型进行迁移学习训练,可以使模型适应用户自己的数据分布和需求,提高个性化和定制化的能力。
[0106] 本发明实施例中,从公开的模型库中选择一个适合声纹识别任务的卷积模型,如ResNet、VGG等,下载其网络结构和参数文件。同时,从公开的数据集中获取一些声纹特征数据,用于初始化权重。使用初始化权重数据作为输入,通过前向传播计算预训练卷积模型的输出,并与标签计算损失函数。然后,通过反向传播更新预训练卷积模型的参数,得到初始卷积模型。接着,将初始卷积模型中所有卷积层的参数设置为不可训练,即冻结它们的权重数据,得到冻结初始卷积模型。在冻结初始卷积模型的最后一层全连接层之后,添加一个新的全连接层作为声纹识别层。该层的输出节点数等于声纹类别数,即注册用户数。然后,使用特定初始化策略对新层的权重进行初始化,这样就得到了初始声纹识别层。从公开或私有的声纹数据库中获取一些标准声纹特征数据,即已经经过人工标注或自动识别的声纹类别信息。这些数据可以是原始语音信号或经过特征提取后的声纹向量。使用标准声纹特征数据作为输入,通过前向传播计算初始声纹识别层的输出,并与标签计算损失函数。然后,通过反向传播更新初始声纹识别层的参数,得到声纹特征层。该层的输出是一个概率分布,表示输入声纹属于每个类别的可能性。接着,根据预设的声纹识别阈值,对声纹特征层的输出进行二值化处理,得到一个0‑1向量,表示输入声纹是否匹配某个类别。这样就得到了声纹判别层。将冻结初始卷积模型和声纹特征层、声纹判别层按照顺序连接起来,形成一个完整的神经网络模型。该模型的输入是原始语音信号或经过特征提取后的声纹向量,输出是一个0‑1向量,表示输入声纹是否匹配某个类别,同时将识别成功的音频数据进行输出。这样就构建了初始声纹识别模型。使用用户声纹特征数据作为输入,通过前向传播计算初始声纹识别模型的输出,并与标签计算损失函数。然后,通过反向传播更新初始声纹识别模型中未冻结的参数,即声纹特征层和声纹判别层的参数。这样就得到了最终的声纹识别模型。
[0107] 优选地,步骤S3包括以下步骤:
[0108] 步骤S31:获取指令音频数据;
[0109] 步骤S32:通过声纹识别模型对指令音频数据进行声纹识别处理,生成目标声纹识别数据;
[0110] 步骤S33:对目标声纹识别数据进行语音指令提取,从而得到语音指令数据;
[0111] 步骤S34:对语音指令数据进行控制指令解析,得到语音控制指令数据;
[0112] 步骤S35:根据语音控制指令数据进行上下文感知处理,生成上下文感知信息;
[0113] 步骤S36:通过上下文感知信息对语音控制指令数据进行析构与再塑处理,从而生成上下文感知指令;
[0114] 步骤S37:对上下文感知指令进行上下文过滤处理,生成过滤指令数据;
[0115] 步骤S38:对过滤指令数据进行指令映射处理,得到音频控制指令数据;
[0116] 步骤S39:根据音频控制指令数据进行终端指令处理,从而生成耳机播放控制数据。
[0117] 本发明获取指令音频数据,并将其转换为数字信号,存储为指令音频数据,实现了人机交互的自然方式。对指令音频数据进行分析,提取其中的声纹特征,与已经注册过的声纹模型进行对比,从而确定发出语音指令的用户身份,生成目标声纹识别数据。声纹识别技术是一种生物特征识别技术,利用人类发音时产生的独特的声波图形来区分不同的个体。实现了用户身份的验证和安全保护,防止了非法用户的干扰和攻击。对目标声纹识别数据进行处理,将语音信号转换为相应的文本命令,从而得到语音指令数据。对语音指令数据进行分析,理解其中的意图、逻辑和参数,从而得到语音控制指令数据。实现了对用户意图和需求的理解和响应,提高了人机交互的智能性和准确性。根据语音控制指令数据,利用其他相关的上下文信息(如用户位置、时间、环境参数、邻近的设备和人员、用户活动等),进行对未来事情的推断和预测,从而生成上下文感知信息,实现了对用户环境和状态的感知和适应。根据上下文感知信息,对语音控制指令数据进行修改、补充或删除,从而生成上下文感知指令。析构与再塑技术是一种让系统能够根据不同的上下文信息,动态地调整指令内容和格式的技术。对上下文感知指令进行检查和验证,过滤掉不合理、不合法或不安全的指令,从而生成过滤指令数据,实现了对语音控制指令的安全和合规性的保障。对过滤指令数据进行转换和匹配,将其映射为相应的音频控制指令数据。指令映射技术是一种让系统能够根据不同的目标设备和功能,将语音控制指令转换为相应的音频控制指令的技术。实现了对语音控制指令和音频控制指令之间的兼容和适配。根据音频控制指令数据,对蓝牙耳机进行相应的操作和反馈,从而生成耳机播放控制数据。终端指令处理技术是一种让系统能够根据不同的音频控制指令,实现目标设备的播放、暂停、切换、调节等功能的技术。
[0118] 作为本发明的一个实例,参考图4所示,为图1中步骤S3的详细实施步骤流程示意图,在本实例中所述步骤S3包括:
[0119] 步骤S31:获取指令音频数据;
[0120] 本发明实施例中,通过麦克风设备实时监测用户是否发出了语音指令,将用户的语音信号采样、量化、编码等操作,将其转换为数字音频数据。
[0121] 步骤S32:通过声纹识别模型对指令音频数据进行声纹识别处理,生成目标声纹识别数据;
[0122] 本发明实施例中,利用已训练好的声纹识别模型对采集到的指令数字音频数据进行声纹识别,判断音频数据中是否存在目标用户声纹数据,将识别成功的音频数据进行目标声纹识别数据标记,实现了用户身份的验证,保证了语音控制的安全性和个性化程度。
[0123] 步骤S33:对目标声纹识别数据进行语音指令提取,从而得到语音指令数据;
[0124] 本发明实施例中,通过一个自然语言处理模型,将目标声纹识别数据中的语音信号转换为文本信息,并从中解析出用户的意图和参数,形成一个结构化的语音指令数据。对语音信号进行特征提取、序列建模、解码等操作实现,得到一个包含单词或字母序列的文本信息。对文本信息进行分词、词性标注、命名实体识别、语义角色标注等操作实现,得到一个包含意图和参数的结构化语音指令数据。
[0125] 步骤S34:对语音指令数据进行控制指令解析,得到语音控制指令数据;
[0126] 本发明实施例中,通过自然语言处理技术对语音指令数据进行语义分析和意图识别,将用户发出的自然语言指令转换为可执行的控制指令,存储为语音控制指令数据。使得耳机可以根据用户的意图来执行相应的控制功能,而不需要用户记住固定的命令格式或者关键词。
[0127] 步骤S35:根据语音控制指令数据进行上下文感知处理,生成上下文感知信息;
[0128] 本发明实施例中,通过上下文感知模型对语音控制指令数据进行上下文分析和关联,考虑用户当前的环境、情境、历史行为等因素,生成上下文感知信息,表示用户发出指令时的上下文状态。使得耳机可以根据用户当前的上下文状态来调整控制功能的执行方式和参数,提高了耳机的智能性和适应性。
[0129] 步骤S36:通过上下文感知信息对语音控制指令数据进行析构与再塑处理,从而生成上下文感知指令;
[0130] 本发明实施例中,根据上下文感知信息中的相关信息和建议,对语音控制指令数据进行修改、拆分或合并等操作,生成一个更合理、更高效、更个性化的上下文感知指令。表示经过上下文优化的控制指令。使得耳机可以根据用户当前的上下文状态来优化用户的语音指令,提高了耳机的执行效率和用户的满意度。
[0131] 步骤S37:对上下文感知指令进行上下文过滤处理,生成过滤指令数据;
[0132] 本发明实施例中,对上下文感知指令进行过滤和筛选,根据上下文感知信息来判断哪些控制指令是合理的、必要的或者优先的,生成过滤指令数据,表示经过上下文过滤的控制指令。耳机可以根据用户当前的上下文状态来过滤用户的语音指令,避免了执行不合理、不必要或者低优先级的控制指令。
[0133] 步骤S38:对过滤指令数据进行指令映射处理,得到音频控制指令数据;
[0134] 本发明实施例中,对过滤指令数据进行映射和转换,将自然语言形式的控制指令转换为音频播放相关的控制参数,生成音频控制指令数据,表示用于控制音频播放的具体参数。根据用户的语音指令来调整音频播放的相关参数,如音量、进度、模式、歌曲等,提高了耳机的播放功能和用户的听觉享受。
[0135] 步骤S39:根据音频控制指令数据进行终端指令处理,从而生成耳机播放控制数据。
[0136] 本发明实施例中,对音频控制指令数据进行处理和执行,将音频播放相关的控制参数应用到耳机或者手机上,生成耳机播放控制数据,表示用于控制耳机播放状态的具体数据。根据用户的语音指令来改变耳机或者手机上的播放状态,如暂停、播放、切换、停止等。通过一个终端指令处理器,将音频控制指令数据中的指令转换为适合耳机终端执行的控制数据,形成一个耳机播放控制数据。
[0137] 优选地,步骤S4包括以下步骤:
[0138] 步骤S41:通过传感器设备对用户进行生理特征收集,生成用户生理数据;其中用户生理数据包含用户呼吸频率数据、用户面部数据以及用户心率数据;
[0139] 步骤S42:对用户呼吸频率数据以及用户心率数据进行时域滤波处理,生成呼吸心率频率数据;
[0140] 步骤S43:将呼吸心率频率数据以及目标声纹识别数据进行频谱图转换,从而得到生理频谱图数据;
[0141] 步骤S44:对生理频谱图数据进行情绪特征熵计算,生成预测情绪熵数据;
[0142] 步骤S45:通过预测情绪熵数据对生理频谱图数据进行情绪区域划分,生成情绪状态区域数据;
[0143] 步骤S46:对情绪状态区域数据进行呼吸模式处理,生成呼吸模式特征数据;对情绪状态区域数据进行心率变异性挖掘,生成心率特征数据;对情绪状态区域数据进行声学特征提取,从而得到语音特征数据;
[0144] 步骤S47:通过边缘检测算法对用户面部数据进行面部表情分析,生成用户表情特征数据;
[0145] 步骤S48:对呼吸模式特征数据、心率变异性挖掘、语音特征数据以及用户表情特征数据进行多模态融合,生成多模态特征数据;
[0146] 步骤S49:对多模态特征数据进行情绪相似度计算,从而得到预测情绪状态数据;
[0147] 步骤S410:利用预设的情感标签规则对预测情绪状态数据进行情绪标签匹配,生成情绪标签数据;
[0148] 步骤S411:根据情绪标签数据进行情绪置信度计算,从而生成用户情绪状态数据;
[0149] 步骤S412:通过呼吸模式特征数据以及心率特征数据对用户情绪状态数据进行睡眠偏好处理,生成睡眠节律播放数据;
[0150] 步骤S413:获取用户历史播放数据;
[0151] 步骤S414:利用用户历史播放数据对用户情绪状态数据进行情绪播放处理,生成个性化播放数据;
[0152] 步骤S415:根据耳机播放控制数据进行实时操作反馈监听,生成实时控制反馈数据;
[0153] 步骤S416:通过睡眠节律播放数据、个性化播放数据以及实时控制反馈数据对耳机播放控制数据进行自适应性调整,生成智能情感控制数据。
[0154] 本发明通过收集用户的生理特征,可以更准确地反映用户的情绪状态,通过时域滤波处理,可以消除或减少由于传感器设备本身或外界环境等因素引起的信号干扰和噪声,提高信号质量和可靠性。通过频谱图转换,可以从另一个角度观察和分析信号,在频域上发现信号隐藏或难以察觉的特征和规律。通过情绪特征熵计算,可以从信息论的角度评估信号的情绪表达能力,区分不同的情绪状态和情绪变化。通过情绪区域划分,可以从空间上划分和识别信号的不同情绪成分,反映信号的情绪复杂度和多样性。通过呼吸模式处理,可以从生理上识别和评估用户的呼吸状况;通过心率变异性挖掘,可以从生理上识别和评估用户的心理状况;通过声学特征提取,可以从生理上识别和评估用户的语音状况。通过边缘检测算法,可以从视觉上识别和评估用户的面部表情。多模态融合可以充分利用不同模态的数据之间的互补性和相关性,提高信息的完整性和准确性,增强对用户情绪状态的理解和预测能力。情绪相似度计算可以根据不同的场景和需求选择合适的度量算法。情绪标签匹配可以根据不同的情绪模型和分类体系选择合适的情绪标签,提高情绪标签数据的表达性和可解释性。通过进行情绪置信度计算可以更准确地反映用户的真实情绪,避免因为单一信息源的误判而导致错误的反馈。通过进行睡眠偏好处理,可以根据用户当前的身心状况,为用户提供最符合其需求和习惯的睡眠建议,帮助用户调整自己的作息规律,提高生活质量。通过生成睡眠节律播放数据,可以利用音乐或声音对人体产生积极的影响,如降低血压、缓解压力、改善情绪等,从而促进用户的睡眠质量和健康状况。通过获取用户历史播放数据可以了解用户的个人喜好和习惯。通过进行情绪播放处理,可以根据用户当前的身心状况,为用户提供最符合其需求和喜好的音乐或声音。通过进行实时操作反馈监听,可以增强用户对耳机的控制能力和自主性,让用户可以根据自己的喜好和需求随时调整耳机的输出。通过进行自适应性调整,可以根据用户当前的身心状况和反馈信息,为用户提供最合适和最舒适的耳机输出,帮助用户改善情绪状态和睡眠质量。
[0155] 本发明实施例中,实时采集用户的呼吸频率、面部表情和心率等生理信号,并将其转换为数字化的数据,存储在终端设备中。根据不同的信号特性和需求,选择合适的时域滤波器,对用户呼吸频率数据和心率数据进行去噪和平滑处理,得到更清晰和稳定的呼吸心率频率数据。通过快速傅里叶变换技术将信号从时间域转换到频域,从而得到信号在不同频率上的能量分布。 频谱图转换可以揭示信号在频域上的结构和特征。通过计算信号在频域上的微分熵或其他熵值,反映信号的信息量和信息分布。 情绪特征熵可以表征信号的情绪含义和情绪强度。利用预测情绪熵数据作为聚类依据,将生理频谱图数据按照不同的频率范围和能量水平进行聚类,从而得到不同的情绪区域。 情绪区域划分可以进一步揭示信号在频域上的情绪结构和特征。利用呼吸心率频率数据在时间域或频域上的周期性变化,识别用户的呼吸模式类型、呼吸深度、呼吸速度等参数;利用心率变异性指标反映用户的心脏功能和自主神经系统活动,分析用户的心率稳定性、心率复杂度、心率节律等参数;利用目标声纹识别数据在频域上的能量分布和谐波结构,分析用户的语音音高、语音强度、语音速度等参数。根据不同的面部轮廓和特征点的位置和形状,识别用户的面部表情类型,如微笑、皱眉、惊讶等。 边缘检测算法可以反映用户的面部表达能力和面部情感倾向。将不同模态的特征数据进行拼接、加权或变换,得到一个综合的特征向量作为多模态特征数据。利用情绪相似度计算公式与已知的情绪类别或样本进行相似度计算,得到情绪度量值。将预测情绪状态数据与预设的阈值进行比较,如果超过或低于某个阈值,则表示匹配某个情绪标签。对每个情绪标签赋予一个0到1之间的数值,表示该情绪标签对应的可信程度。例如,如果用户的语音分析结果是高兴,那么高兴这个情绪标签的置信度可能是0.8,表示有80%的概率用户确实是高兴的。用户情绪状态数据是指将所有情绪标签及其置信度组合成一个向量,表示用户当前的整体情绪状态。例如,如果用户有三个情绪标签:高兴(0.8)、紧张(0.6)、惊讶(0.4),那么用户情绪状态数据就是[0.8, 0.6, 0.4]。根据用户情绪状态数据和呼吸模式特征数据以及心率特征数据,推断出用户当前最适合的睡眠类型(如深度睡眠、浅层睡眠、快速眼动睡眠等),以及最佳的入睡时间和起床时间。睡眠节律播放数据是指根据用户的睡眠偏好处理结果,选择合适的音乐或声音(如轻柔的旋律、自然的声音等),并设置合适的音量、节奏、时长等参数,形成一个可以帮助用户入睡和提高睡眠质量的播放方案。用户历史播放数据是指通过对用户在智能设备上的播放记录进行收集和分析,得到的用户过去所听过的音乐或声音的类型、风格、时长、频率、喜好程度等信息。让终端设备根据自己的情绪状态进行智能推荐。系统需要实时监测用户对耳机的操作,如调节音量、跳过或暂停音乐或声音、切换模式等,并将操作信息发送到耳机播放控制数据中,对应地修改参数,如音量、标题、类型、风格、时长等。将睡眠节律播放数据、个性化播放数据以及实时控制反馈数据进行自适应性调整,可以进行优化计算。优化计算可以包括选择、替换、调整等操作,目的是使得优化后的参数能够更好地满足用户的情绪状态和睡眠质量。
[0156] 优选地,步骤S49中的情绪相似度公式如下所示:
[0157] ;
[0158] 式中,表示为情绪相似度,表示为情绪状态区域数据量, 表示为第 个情绪状态区域数据与用户当前情绪状态的夹角,表示情绪频率因子, 表示重叠情绪状态区域数据量, 表示为第 个情绪状态区域数据的半径, 表示为情绪状态区域数据的呼吸模式特征数据, 表示为第 个情绪状态区域数据的心率特征数据, 表示为第个情绪状态区域数据的语音特征数据。
[0159] 本发明利用一种情绪相似度公式,该公式充分考虑了情绪状态区域数据量 、第个情绪状态区域数据与用户当前情绪状态的夹角 、情绪频率因子 、重叠情绪状态区域数据量 、第 个情绪状态区域数据的半径 ,情绪状态区域数据的呼吸模式特征数据 、第个情绪状态区域数据的心率特征数据 、第个情绪状态区域数据的语音特征数据 以及函数之间的相互作用关系,以形成函数关系式:
[0160] 即, ,通过考虑当前情绪状态与每个情绪状态区域数据的差异程度,反映了用户当前情绪状态与各个情绪状态区域数据在方向上的差异程度,方向越一致则相似度越高。式子项利用对数函数和余弦函数都是单调递减函数,例如夹角 为0时取最大
值,在夹角为π时取最小值。这符合人类对情绪相似度的直觉感受,即当两者在情绪空间中的方向完全一致时相似度最高;当两者在情绪空间中的方向完全相反时,相似度最低。通过调节夹角的变化去控制相似度的敏感度,例如,当夹角为 时,对数函数和余弦函数的组合运算约为0.53;当夹角为 时,对数函数和余弦函数的组合运算约为0.15。
的目的是为了进行缩放操作,使得结果在0到1之间,但不包括0。式子项
考虑了当前情绪状态与每个重叠情绪状态区域
在情绪空间中的范围和特征上的匹配程度,范围越大且特征越接近则相似度越高。
是对重叠情绪状态区域数据的半径进行乘积运算,得到一个表示范围大小
的数值。这个数值越大,表示重叠情绪状态区域数据在情绪空间中占据的面积越大,也就意味着用户当前情绪状态与该情绪状态区域数据的重合程度越低,相似度越低。
是对重叠情绪状态区域数据的语音特征数据进行平方运算,然后取反余割运算,得到一个表示语音特征差异的数值。这个数值越小,表示重叠情绪状态区域数据对应的语音与用户当前情绪状态的语音越接近,相似度越高。将上述两个值与第个情绪状态区域数据的半径进行乘积运算,得到一个表示范围大小的数值。这个数值越大,表示重叠情绪状态区域数据在情绪空间中占据的面积越大,也就意味着用户当前情绪状态与该情绪状态区域数据的重合程度越低,相似度越低。
[0161] 优选地,步骤S412包括以下步骤:
[0162] 步骤S4121:获取用户睡眠节律数据;
[0163] 步骤S4122:通过用户睡眠节律数据对呼吸模式特征数据以及心率特征数据进行节律关联性分析,生成实时睡眠节律数据;
[0164] 步骤S4123:通过用户情绪状态数据对实时睡眠节律数据进行睡眠节律判断,生成睡眠检测数据;
[0165] 步骤S4124:对睡眠检测数据进行睡眠程度划分,得到睡眠阶段数据;
[0166] 步骤S4125:基于睡眠阶段数据利用蓝牙耳机对用户进行睡眠偏好策略定制,从而生成睡眠节律播放数据。
[0167] 本发明通过获取用户睡眠节律数据,可以判断用户的睡眠习惯一般在哪个时间段进行睡眠。对用户睡眠节律数据进行处理和计算,判断用户的呼吸模式特征数据和心率特征数据之间的相关性和规律性,生成实时睡眠节律数据,表示用户当前的睡眠状态和深度。对用户情绪状态数据进行处理和识别,判断用户在入睡前或者醒来后的情绪状态,如愉悦、焦虑、抑郁等,并将其与实时睡眠节律数据进行比较和判断,生成睡眠检测数据,表示用户的睡眠质量和影响因素。通过睡眠程度划分模型,对睡眠检测数据进行处理和分类,将用户的整个睡眠过程划分为不同的阶段,如清醒、浅睡、深睡、快速动眼等,并计算每个阶段的持续时间和比例,得到睡眠阶段数据,表示用户的睡眠结构和特点。通过睡眠偏好策略定制模型,对睡眠阶段数据进行处理和分析,根据用户的个人信息、偏好设置、历史反馈等因素,为用户定制适合其睡眠节律的播放策略,如音乐、催眠、白噪音等,并将其通过蓝牙耳机播放给用户,从而生成睡眠节律播放数据,表示用户的睡眠节律播放状态和效果。使得用户可以通过蓝牙耳机来享受个性化的睡眠节律播放服务,提高了用户的睡眠体验和满意度。
[0168] 本发明实施例中,通过获取用户睡眠节律数据,可以了解用户的睡眠质量和睡眠习惯。对呼吸模式特征数据和心率特征数据进行节律关联性分析,根据不同的节律模式识别出用户的睡眠阶段(如清醒、浅睡、深睡、快速眼动等),根据不同的情绪类型(如愉悦、焦虑、悲伤、愤怒等)对实时睡眠节律数据进行调整和修正,以消除情绪因素对睡眠节律的影响,并将修正后的信息作为睡眠检测数据返回给蓝牙耳机。在蓝牙耳机上,利用预设的睡眠划分阈值规则对睡眠检测数据进行处理,根据不同的阈值将用户的睡眠状态划分为不同的等级(如轻度、中度、重度等),并将这些信息作为睡眠阶段数据存储在蓝牙耳机中。根据睡眠阶段数据对用户进行睡眠偏好策略定制,根据用户的睡眠阶段数据和用户的个人喜好,从终端获取适合用户的音乐、声音、故事等内容,并将这些内容作为睡眠节律播放数据通过蓝牙耳机播放给用户,帮助用户入睡、提高睡眠质量和改善睡眠习惯,同时智能调节蓝牙耳机的播放、音量以及暂停播放时间,从而通过对蓝牙耳机进行智能睡眠控制,在夜晚更好地满足用户的个性化需求,提高用户的睡眠满意度和幸福感。
[0169] 本申请有益效果在于,蓝牙耳机麦克风装置采集用户声音数据,包括音频信号的频率、振幅、时长、音色等信息。声纹特征处理提取声音数据中的特征向量,生成用户声纹特征数据。声纹采集实现用户身份验证和保护,提高耳机使用安全性和便捷性。声纹特征处理提高声纹识别准确性和效率,降低误识别和拒识别风险。声纹注册处理标识和验证用户身份和权限。安全访问策略定制设置不同访问条件和限制,如时间、地点、设备、指令等,得到声纹访问策略。声纹访问策略用于控制和管理耳机功能和服务。声纹注册处理实现用户身份和权限授权和管理,提高耳机使用安全性和个性化。安全访问策略定制实现耳机功能和服务灵活配置和优化,提高耳机使用便捷性和舒适性。获取指令音频数据通过耳机麦克风装置实现。指令音频数据包括用户发出的各种控制指令或请求信息。声纹认证比较指令音频数据与用户注册数据中的声纹特征,生成目标声纹识别数据。目标声纹识别数据判断指令音频数据是否来自合法用户,以及用户身份和权限。上下文感知处理理解指令音频数据中的内容和意图,得到耳机播放控制数据。耳机播放控制数据控制和调节耳机播放功能和参数,如音量、频率、模式等。获取指令音频数据实现用户语音交互和沟通,提高耳机使用便捷性和互动性。声纹认证验证和保护用户身份和权限,提高耳机使用安全性和个性化。上下文感知处理理解和响应用户内容和意图,提高耳机使用智能性和舒适性。传感器设备收集用户生理特征,通过耳机内置或外部连接的各种传感器实现。用户生理数据包括用户的各种生理指标和状态。情绪节律处理分析用户情绪状态和节律变化,得到个性化播放数据以及睡眠节律播放数据。个性化播放数据推荐或调整适合的音乐或内容。睡眠节律播放数据推荐或调整适合的音乐或内容。自适应性调整优化或调整耳机播放控制数据中的功能和参数,生成智能情感控制数据。智能情感控制数据控制和调节耳机播放功能和参数,以适应用户情绪状态和节律变化。实时响应处理快速处理和传输智能情感控制数据,得到智能耳机播放数据。智能耳机播放数据驱动和操控耳机播放功能和参数,如音频输出、音效处理、播放列表等。实时响应处理实现对用户的实时反馈和服务,提高耳机使用响应性和体验性。
[0170] 因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。
[0171] 以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。