会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
1 区域再现系统以及区域再现方法 CN202280048786.7 2022-04-22 CN117751404A 2024-03-22 中桥康太; 坂口敦
区域再现系统具备将多个扬声器并排配置的扬声器阵列,接受再现声的输入,对与再现声的声束辐射的再现区域不同的非再现区域中的环境音进行收声,对环境音中包含的非再现区域中的噪声和泄漏到非再现区域的泄漏声进行获取,基于噪声以及泄漏声的声压的频率特性,生成声压比泄漏声高的掩蔽声,调整使多个扬声器分别输出的掩蔽声的指向性,以使得掩蔽声的声束避开收听者而辐射到非再现区域,使多个扬声器分别输出被调整的掩蔽声。
2 对象音频编码 CN202311198575.4 2023-09-18 CN117750293A 2024-03-22 S·扎马尼; M·Y·金; D·森; S·U·吕; J·O·梅里马; S·D·马尼亚斯
本公开涉及对象音频编码。在一个方面,一种计算机实现的方法包括:获得对象音频和在空间上描述该对象音频的元数据;基于该元数据将该对象音频转换为时频域高保真度立体声响复制音频;以及将该时频域高保真度立体声响复制音频和该元数据的子集编码为一个或多个比特流,该一个或多个比特流将存储在计算机可读存储器中或传输到远程设备。
3 一种视频流发送方法、系统、电子设备和存储介质 CN202311634010.6 2023-12-01 CN117750062A 2024-03-22 邹然; 唐汇波
发明实施例提供的一种视频流发送方法、系统、电子设备和存储介质,应用于视频播放技术领域,通过获取第一视频流;对所述音频数据中的语音进行识别,得到语音文本;将所述语音文本翻译为至少一种预设语种的字幕文本;根据所述第一视频流创建第二视频流;将所述至少一种预设语种的字幕文本添加至所述第二视频流,得到包含字幕文本的视频流;将所述包含字幕文本的视频流发送至客户端,以使所述客户端获取所述至少一种预设语种的字幕文本中的目标预设语种的字幕文本并渲染显示,可以在获取第一视频流后,对该第一视频流进行语音识别和翻译,得到至少一种预设语种的字幕,然后创建包含至少一种字幕文本的视频流并发送给客户端,从而节约占用的资源。
4 坐席服务方法、坐席服务系统以及存储介质 CN202311612986.3 2023-11-28 CN117749942A 2024-03-22 王成锋; 邓宇芳; 涂畅; 林韬; 张智尧; 郑杰中; 赵俊霖; 张姬; 蔡小格
申请公开了一种坐席服务方法、坐席服务系统以及存储介质。该方法包括:获取与目标对象的呼叫操作对应的目标语音流,其中,目标语音流中包括:与目标对象的呼出操作对应的主叫语音流、与目标对象的呼入操作对应的被叫语音流;基于目标识别算法对目标语音流进行识别,得到与目标语音流对应的目标意图结果;将目标意图结果和预设的坐席服务进行匹配,确定目标坐席服务,并将目标坐席服务反馈至目标对象,其中,目标坐席服务包括以下至少之一:话术调用服务、咨询流程导航服务、订单填写服务、用户画像服务、质检服务。本申请解决了相关坐席服务技术需要坐席人员自主判断服务流程,并通过手动处理,导致坐席服务质量较差、效率较低的技术问题。
5 基于时频特征分离式transformer交叉融合架构的语音情感识别方法 CN202311672258.1 2023-12-07 CN117746908A 2024-03-22 闫静杰; 汪雨果; 周晓阳; 包岩
发明提供一种基于时频特征分离式transformer交叉融合架构的语音情感识别方法,包括以下步骤S1、对原始语音信号进行预处理,将所述原始语音信号转换为相应的特征表示,包括语谱图和音频梅尔频率倒谱系数;S2、从所述特征表示中进行特征提取,使用两条支路提取特征,其中一条支路通过时频分离式transformer交叉融合架构提取特征,另一条支路通过扩张因果卷积网络提取特征;S3、进行特征融合,使用transformer的多头自注意机制来动态地融合时频分离式transformer交叉融合架构和扩张因果卷积输出特征;S4、输出结果,使用输出层来对时频分离式transformer交叉融合架构的输出进行分类或回归,以使时频分离式transformer交叉融合架构适应训练数据,并对任务进行预测或分类。
6 一种基于电故障知识库的声纹监测诊断方法 CN202311773639.9 2023-12-22 CN117746903A 2024-03-22 谢超善; 史建设; 王清华; 易升升
发明公开的属于电设备监测技术领域,具体为一种基于风电故障知识库的声纹监测诊断方法,包括诊断方法如下:在风电发电机的塔筒底部以及机舱内均安装声纹采集终端,安装于机舱内的声纹检测终端为传动链设备声纹检测,安装于塔筒底部的声纹检测终端为叶片损伤检测,通过各个声纹检测模电性连接的麦克风对设备运行时的声音进行采集,通过声纹过滤模块的噪声抑制算法、声源增强算法以及盲源分离算法对采集的声音进行过滤,本发明将预测结果反馈给服务器和运维人员,实现远程监测和控制,同时,通过控制系统,对风机进行调节和控制,如调节风机转速、控制风机启停等,以保证风机在最佳运行状态下工作,延长风机寿命,提高发电效率。
7 一种纯软件音频自动化测试方法、系统、设备及介质 CN202311766033.2 2023-12-21 CN117746902A 2024-03-22 石锡杨
申请涉及音频测试技术领域,尤其是涉及一种纯软件音频自动化测试方法、系统、设备及介质,获取测试音频信号,判断测试音频信号的格式是否为标准待测格式,在测试音频信号的格式不是标准待测格式的情况下进行格式转换,得到标准待测音频;分析标准待测音频的波形,在波形为正弦波的情况下,获取指标预设范围,根据指标预设范围判断音频质量;在波形为非正弦波的情况下,将标准待测音频进行文本转换,得到转换文本,获取预期文本,根据预期文本对转换文本进行比对,减少音频测试繁杂且重复的操作,提升音频测试的效率。
8 歌声评价信息获取方法、计算机设备和存储介质 CN202311752689.9 2023-12-19 CN117746900A 2024-03-22 王武城; 龚韬
申请涉及一种歌声评价信息获取方法、计算机设备和存储介质,涉及歌声评价技术领域,能够提升歌声评价信息的精准性。所述方法包括:获取待评价歌声对应的歌声特征;将所述歌声特征与预先获取的正样本歌声对应的正样本歌声特征和负样本歌声对应的负样本歌声特征进行比较,得到所述歌声特征与所述正样本歌声特征的第一相似度,及所述歌声特征与所述负样本歌声特征的第二相似度;其中,所述正样本歌声的歌声质量高于所述负样本歌声的歌声质量;根据所述第一相似度和所述第二相似度,确定所述待评价歌声的歌声评价信息。
9 一种基于声纹特征识别的自移机尾故障诊断方法 CN202311359973.X 2023-10-19 CN117746896A 2024-03-22 符如康; 亢生彩; 任永强; 刘琦军; 田永超; 蒲忠辉; 肖卫; 张宏伟; 程永涛; 王进辉; 张忠原; 李震
发明公开了一种基于声纹特征识别的自移机尾故障诊断方法,包括以下步骤:S1.采集自移机尾正常状态和故障状态下的声音样本数据,将声音样本数据划分为训练数据集和测试数据集;S2.对训练数据集的数据进行预处理;S3.通过改进的能量归一化倒谱系数算法从S2预处理的数据中提取特征向量;S4.利用K最近邻分类算法进行一级故障识别,对自移机尾健康状态进行初步判断,根据判定结果决定是否继续进行二级故障分类;本发明的有益效果为:提升了设备的自动化平,自移机尾发生故障后能第一时间发现,减少设备故障带来的损害,同时无需依赖工人根据经验判断设备故障,避免恶劣坏境对员工健康的伤害,提高了企业的安全效益和生产效率。
10 朗读事件识别方法、装置、教学设备和存储介质 CN202211108927.8 2022-09-13 CN117746894A 2024-03-22 李波
发明涉及一种朗读事件识别方法、装置、教学设备和存储介质,通过将采集的课堂音频划分为若干音频片段,利用预训练的齐声朗读模型获取各音频片段中的每一个音频的齐声朗读事件检测结果,根据各音频帧的齐声朗读事件检测结果来获取课堂音频中发生齐声朗读事件的齐声朗读音频片段,本申请可以自动从课堂音频中获取齐声朗读音频片段,获取的齐声朗读音频片段可供教师或教学评价人员来了解学生的学习情况,便于教师复盘和回顾课堂互动情况。
11 口语评测方法、装置、设备及存储介质 CN202311642830.X 2023-11-29 CN117746893A 2024-03-22 王超; 吴奎; 盛志超; 李浩; 张凯波; 王士进; 刘聪; 胡国平
申请公开了一种口语评测方法、装置、设备及存储介质,本申请配置了文本语音对齐模型,该模型的输入为目标音频的音频表征及参考文本,模型被配置为提取参考文本的嵌入表征,并将嵌入表征与音频表征进行拼接,基于拼接表征解码得到对齐结果,对齐结果包括了目标音频的识别文本及识别文本与参考文本的对齐信息,由此可见,本申请文本语音对齐模型可端到端的直接预测得到对齐结果,避免了传统方案识别结果中产生的级联误差。在得到对齐结果后可以进一步基于对齐结果和参考文本来计算目标音频的完整度测评结果,提高了口语完整度测评结果的准确度。
12 声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质 CN202311791981.1 2023-12-22 CN117746891A 2024-03-22 梁昌城
发明涉及人工智能技术领域,公开了一种声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质,该声学场景分类模型包括数据获取模、音频信号预处理模块、多个依次连接的深度膨胀残差块、卷积层和全连接层,通过采用深度膨胀残差块,能在不增加网络参数和计算量的前提下提高网络感受野,网络捕获全局信息能更强,将残差操作与膨胀卷积结合可以避免网络训练过程中可能出现的梯度消失,通过实例归一化处理,避免了中间特征的频域信息和时域信息丢失,加快模型训练过程中的收敛速度,该声学场景分类模型合理,可以实现低计算复杂度和实时的声场景分类,使得该方案可以部署到蓝牙机、音响等资源受限的设备上。
13 一种频谱修复方法、系统及设备 CN202311821951.0 2023-12-27 CN117746883A 2024-03-22 张姣; 万蕊; 付中华
申请公开了一种频谱修复方法、系统及设备,通过获取初步增强后的预备掩膜值和预备语音频谱;基于第一预设阈值对各个时间频率单元的预备掩膜值进行二元化,得到用于表征时间频率单元为噪声主导单元或语音主导单元的第一掩膜值,基于预备语音频谱和第一掩膜值,计算得到预备输出;基于滑动窗覆盖区域是否包含语音主导单元,对所述第一掩膜值进行更新,得到第二掩膜值;基于滑动窗覆盖区域中语音主导单元的个数,对所述第二掩膜值进行更新,得到第三掩膜值;计算所述第三掩膜值和所述预备输出的乘积,得到频谱输出结果。由此,实现了对语音占主导的部分进行针对性修复,该修复能够使得模糊的谐波更加清晰,进而提升低信噪比下的语音增强效果。
14 用于音频回放中的选择性噪声抑制的方法 CN202311217155.6 2023-09-20 CN117746875A 2024-03-22 陈启升; 曾伦阶; 艾丽尔·阿雷利亚诺·德·卡斯特罗
提供了一种用于音频回放中的选择性噪声抑制的方法。该方法包括:提供处理器;利用处理器从操作系统获得麦克状态和回放设备状态;基于麦克风状态和回放设备状态确定音频回放是通信音频;以及在音频回放是通信音频、不是音乐并且存在噪声的情况下,启用对音频回放应用噪声抑制,否则禁用对音频回放应用噪声抑制。
15 用于推迟音频分量的响度调整的方法和系统 CN202311215265.9 2023-09-20 CN117746873A 2024-03-22 F·鲍姆加特; D·森
本公开涉及用于推迟音频分量的响度调整的方法和系统。本发明公开了一种方法,包括:接收与音频场景相关联的音频分量,该音频分量包括音频信号;基于该音频信号来确定该音频分量的响度平;接收该音频分量的目标响度水平;通过对该音频信号进行编码并且包括具有该响度水平和该目标响度水平的元数据来产生具有该音频分量的比特流;以及向电子设备传输该比特流。
16 基于改进的seq2seq模型的多意图识别方法、装置、设备及介质 CN202410006771.5 2024-01-02 CN117746862A 2024-03-22 张花旗
申请公开了一种基于改进的seq2seq模型的多意图识别方法、装置、设备及介质,应用于车辆中控设备,所述方法包括:获得待识别语音信息,并根据所述待识别语音信息中的各个词,构建对应所述词的特征向量;其中,所述特征向量包括字符向量和分词向量;将所述特征向量输入至多意图识别模型中,采用所述多意图识别模型对所述特征向量进行处理,得到处理结果;其中,所述处理结果包括所述待识别语音信息对应的由多个单意图语句组成的意图识别结果,所述多意图识别模型是基于seq2seq模型进行改进的;所述处理结果至少依据所述字符向量对应的局部上下文特征向量和所述分词向量对应的全局上下文特征向量得到的。
17 语音识别方法、装置、设备及可读存储介质 CN202311642707.8 2023-11-29 CN117746847A 2024-03-22 张婷; 李永超; 吴明辉; 吴重亮
申请公开了一种语音识别方法、装置、设备及可读存储介质。该方案中,在确定候选语音识别结果之后,针对每个候选语音识别结果,基于候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定候选语音识别结果的最终得分,最后从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。考虑到与实体相关,以及,与预设实体库中实体匹配的候选语音识别结果,实体识别正确的概率更高,将该种候选语音识别结果的最终得分设置的高一些,使得这种候选语音识别结果具有更高的概率被选作为最终的语音识别结果,从而提升了语音识别结果的实体识别正确率。
18 无声语音识别方法及智能机系统 CN202311632758.2 2023-12-01 CN117746843A 2024-03-22 陈晓江; 孙雪; 李秉昊; 李晓慧; 王安文; 房鼎益
申请涉及一种无声语音识别方法及智能机系统,方法包括获取经人体耳道反射的声波数据;声波数据携带无声语音信息;对声波数据进行耳机自干扰消除,得到自干扰消除后的声波数据;提取干扰消除后的声波数据中的有效数据;基于有效数据提取传递函数特征和连续小波变换特征;将传递函数特征和连续小波变换特征输入到无声语音识别模型中,得到无声语音识别结果。本申请无需额外的设备,利用低廉的具有麦克的耳机就可以实现用户无声语音识别,降低无声语音识别的成本;通过提取人体耳道结构的关键特征多路径轮廓和形变特征,利用双通道分层神经网络实现用户无声语音识别,提高系统的健壮性。
19 一种基于人工智能人脸识别语音识别禁系统 CN202310872895.7 2023-07-17 CN117746543A 2024-03-22 韦天贵
发明公开了一种基于人工智能人脸识别语音识别禁系统,包括人脸及语音识别门禁系统,所述人脸及语音识别门禁系统的内部设置有信息识别模。本发明通过信息采集模块可对人脸及语音信息进行采集,通过信息识别模块,可对环境降噪,以提高声音检测采集效果,避免影响解工作,同时可对语音及图像进行检测,防止语音及图像为提前录制使用的问题,提高门禁安全性,通过信息记录模块,可对异常信息进行记录,方便后续查询取证,通过系统控制模块,可对异常信息警报提示,采取多端同时提示的方法,方便用户对异常状况的及时了解及问题的及时解决,提高门禁安全性。
20 一种电平台工单数据生成方法、系统、电子设备及介质 CN202311770525.9 2023-12-21 CN117745223A 2024-03-22 张子健; 周明; 张靖; 马永; 王丽; 管建超; 程航; 薛晓茹; 郭洋; 徐道磊; 路宇; 张永梅; 许畅; 范莹; 刘佳; 许冬; 王俊; 赵煜阳; 涂冰花
发明涉及电工单分析处理技术领域,具体是基于一种电力平台工单数据生成方法、系统、电子设备及介质,包括监测客户接入电网客服中心时,将客户端的通话音频通过转化为文本内容并提取出关键词,将关键词与故障特征词通过相似度计算后录入,同时根据关键词获取工单的处理部。若未在设定时间完成工单数据,则生成标准问句,并通过可视化界面提醒客户代表进行询问,当监测工单数据生成完成后,则由客户代表复核工单数据后进行下发。本发明通过数据挖掘客户端的通话音频得到关键词,判定该关键词是工单数据的所需信息后录入,使得生成的工单数据更加具有准确性。