会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
61 一种基于声学信号的变电设备缺陷诊断方法 CN202410057814.2 2024-01-16 CN117894338A 2024-04-16 刘春; 庞巍; 王维东; 郑乃熙; 王达; 王勇; 谢蓓敏; 郭怀东
发明公开了一种基于声学信号的变电设备缺陷诊断方法,涉及变压器故障诊断技术、声纹处理技术、人工智能技术领域。本发明包括以下步骤:在变电站采集变压器不同电压程度下运行时的声音信号,运用矩阵束方法对声音信号进行时频谱分析,得到时频谱图数据,将矩阵束方法得到的时频谱图数据转化为灰度图像数据,输入ResNet50神经网络中,根据故障声学特征数据库里提取出来的故障声学特征进行逐项比对,来判断变压器的运行状态。本发明通过引入矩阵束方法,对变压器声音信号进行时频分析,提升声音信号的频率分辨率,构建残差神经网络实现了变压器缺陷、环境、开关切换、电压等级等状态分类,有效提升了变压器在线监测声音信号分析能
62 一种基于孪生网络的集井水位测量方法 CN202311721897.2 2023-12-14 CN117894337A 2024-04-16 徐长明; 冉鄂渝; 王腾; 毛茜; 严玉明; 张鹏; 翟玉杰; 艾远高; 郝辉
一种基于孪生网络的集井水位测量方法,包括音频发生模、音频采集模块和音频处理模块,顶部安装有音频发生模块及音频采集模块的圆筒被置于集水井中,音频发生模块发生固定频率的音频信号,经过底部水面反射叠加成新的音频信号被音频采集模块采集;通过音频处理模块内孪生网络模型对采集到的音频信号进行识别,判断出当前集水井水位,进而实现对集水井水位的控制与预警。本发明用于解决投入式压传感器长时间使用零漂和安装维护不便的问题。
63 一种燃油车引擎声浪智能模拟系统及方法 CN202410109819.5 2024-01-25 CN117894328A 2024-04-16 周天怡; 张嘉桐; 王维莉
发明提出一种燃油车引擎声浪智能模拟系统及方法,该系统包括数据采集,获取车辆行驶状态数据;人机交互模块,集成于车载信息娱乐系统,包括工况识别模块、样本调音模块、音频拼接模块和声音修正模块。工况识别模块存储、管理驾驶工况识别模型,根据车辆行驶状态数据判别实时驾驶工况,并选定实时驾驶工况对应的引擎声浪音频样本。样本调音模块对选定的引擎声浪音频样本进行调音处理。音频拼接模块对音频进行音频拼接和/或参数调整。声音修正模块对音频进行修正处理。声音输出模块将修正处理后的引擎声浪音频通过车载信息娱乐系统在车内播放。本发明既不依赖于额外的硬件装置,又可根据实时驾驶工况动态调节引擎声浪的模拟发声。
64 一种语音的编码方法、装置、设备及存储介质 CN202311868547.9 2023-12-29 CN117894327A 2024-04-16 巴万琴; 朱昊; 田文强; 刘伟; 邵智勇; 王智国
申请公开了一种语音的编码方法、装置、设备及存储介质。在执行本申请实施例提供的方法时,首先可以获取待编码语音,提取待编码语音中的语音信号。识别语音信号的特征参数,根据特征参数对语音信号进行分类得到分类结果,分类结果包括高复杂度信号或低复杂度信号。再根据分类结果对待编码语音进行编码。本申请通过对待编码语音进行特征提取、分类和编码,根据语音信号的复杂度选择合适的处理方法和算法。对于低复杂度的语音信号,可以采用简化的算法和模型,减少计算开销,降低系统的计算资源需求。同时,根据语音信号的分类结果对待编码语音进行编码,选择适当的编码方法和压缩算法,以减少所需的存储空间,从而降低系统的存储成本和资源占用。
65 一种语音交互方法、语音交互提示系统、装置 CN202410296001.9 2024-03-15 CN117894321A 2024-04-16 张卫平
发明公开了一种语音交互方法、语音交互提示系统、装置,涉及语音交互技术领域,根据特定环境中人员数量的分析,和是否为惯性用户的情况下,同时产生贴近信号和独处信号时,之后会自动启动对待分人声的每一段语音进行分析,当语音中存在特定语句时,自动识别该段语音中的指令并进行执行;通过上述方式,可以不通过特定唤醒词在部分场景下根据用户习惯直接唤醒语音交互系统,进行指令下达;同时通过对用户的每一条指令进行分析和保留,以及后续语音内容,能够在产生关联对话时,自动唤醒并执行相关指令;本发明简单有效,且易于实用。
66 音频处理模型的训练方法及装置、存储介质、电子设备 CN202410063886.8 2024-01-16 CN117894318A 2024-04-16 吕安超; 范璐; 彭毅; 吴友政; 李清涛; 何晓冬
本公开涉及人工智能技术领域,提供了一种音频处理模型的训练方法、音频处理模型的训练装置、计算机存储介质、电子设备,其中,音频处理模型的训练方法包括:获取训练样本集;利用第一样本集对待训练的音频处理模型的第一分支网络进行预训练,获得预训练的第一分支网络,以及,利用第二样本集对待训练的音频处理模型的第二分支网络进行预训练,获得预训练的第二分支网络;利用训练样本集对预训练的第一分支网络和预训练的第二分支网络进行联合训练,获得训练好的音频处理模型;其中,第一分支网络用于执行回声消除和语音增强任务,第二分支网络用于执行语音端点检测任务。本公开能够通过一个模型执行多个音频处理任务,降低了系统功率。
67 基于声纹分析的箱式变压器在线监测方法及系统 CN202410292409.9 2024-03-14 CN117894317A 2024-04-16 赵青; 韩政霖
发明公开了一种基于声纹分析的箱式变压器在线监测方法及系统,涉及数据处理技术领域,该方法包括:通过声纹感知采集装置采集目标箱式变压器的声纹信号;激活边缘计算模,进行声纹信号预处理;构建箱式变压器的声纹样本库,训练获得识别网络模型,对经预处理的声纹信号进行识别,确定声纹识别类别,对声纹信号进行解耦,获得变压器状态声纹信号;通过平台进行状态识别分析,当存在异常状态时,发送状态提醒信息。本发明解决了现有技术中传统的箱式变压器监测方法易受到环境因素干扰,可靠性和可持续性较低的技术问题,达到了对箱式变压器全生命周期的持续监测,提高了设备运行状态监测的可靠性和可持续性的技术效果。
68 一种基于嵌入式系统的大语言模型边切换方法、系统 CN202311789833.6 2023-12-22 CN117894316A 2024-04-16 叶昌; 杨武
发明提供的一种基于嵌入式系统的大语言模型边切换方法及系统,包括第一数据交换模,第二数据交换模块、音频模块、文本生成器、模型选择器、边云管理组件、本地模型库,部署在嵌入式实时操作系统中,可以使得从语音输入到最终自然语言处理过程实时性、稳定性更强。
69 一种语音交互方法和电子设备 CN202311861406.4 2023-12-29 CN117894308A 2024-04-16 韦力诚; 赵敬霄; 张宁; 杨竟成
申请实施例提供一种语音交互方法以及电子设备。方法应用于电子设备,方法包括:根据控制界面上事件元素与文本信息的绑定关系,标注所述事件元素对应的文本标注;获取控制语音;解析控制语音,获取语音文本;基于所述文本标注,确定所述语音文本对应的事件元素;根据所述语音文本,针对所述语音文本对应的事件元素进行控制操作。根据本申请实施例的方法,在进行语音控制前对控制界面中的元素进行标注,提高了语音控制时对页面元素识别的准确性,提高了语音控制时对页面多个重复元素的匹配效率。
70 一种语音处理方法、装置、计算机设备及存储介质 CN202410304656.6 2024-03-18 CN117894306A 2024-04-16 韦伟才; 邓海蛟; 马健莹; 潘晖
申请实施例属于语音增强技术领域,涉及一种语音处理方法、装置、计算机设备及存储介质。本申请使用数据预处理的方式通过有限脉冲数据对输入数据进行混响卷积并做数字滤波;再进行预加重、分加窗以及短时傅里叶变换;使用深度学习算法对变换后的数据进行处理,使用卷积网络进行特征提取,然后构建时间卷积网络(TCN)模型,通过构建的模型得到掩码数据,最后将得到的掩码数据与原始信号进行增益计算,将计算后的结果通过逆短时傅里叶变换、加窗以及重构得到增强后的语音信号,通过使用深度学习的方式能够将语音降噪与去混响进行有效的结合,有效提高语音音质。
71 一种基于分布式协同质检方法 CN202311720811.4 2023-12-14 CN117894304A 2024-04-16 饶庆炜; 郑新锴; 卢家文
发明公开一种基于分布式协同质检方法,步骤1,特征数据集预处理:获取音频文件并进行预处理得到FBank特征,形成特征数据集,特征数据集按设定比例分为训练集、验证集和测试集;步骤2,构建神经网络:神经网络包括7层卷积、3层最大池化以及1层平均池化,使用relu激活函数以及softmax激活函数;步骤3,对构建好的神经网络进行模型训练得到自由质检模型和声纹识别模型;步骤4,利用训练好的模型对客服业务场景的语音大数据进行声纹识别与音频分离,并基于分离的音频文件进行质检分析得到对应质检报告。本发明可以为音频打上标签、分类的信息,有助于业务的精细化运营。
72 拟人化的副语言语音合成方法及系统 CN202410288143.0 2024-03-14 CN117894294A 2024-04-16 刘刚; 苏江
发明提供了一种拟人化的副语言语音合成方法及系统,对包含副语言的原始音色语音数据进行副语言标签标注,根据标注后的原始音色语音数据,结合目标音色的参考音频获取具有目标音色的副语言发音单元;接收语言输入文本,语言输入文本包括TTS文本和在TTS文本中相应位置标注的副语言标签;将TTS文本合成目标音色TTS语音,根据副语言标签选择相应的具有目标音色的副语言发音单元,并与目标音色TTS语音进行拼接,生成具有目标音色的音频。本发明能以低成本实现语音库中的说话人具备副语言发音能,提升TTS说话人在对话过程的自然度及真实度,使AI在人机交互中零距离交流。
73 语音合成方法、装置、计算机设备和存储介质 CN202311829206.0 2023-12-28 CN117894293A 2024-04-16 周远侠
申请涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品,涉及人工智能技术领域。所述方法包括:获取语音库问题集;基于语音库问题集、目标标注文件和声学参数提取结果,对单音素模型进行训练,得到语音合成模型库;声学参数提取结果包括针对训练语音数据库进行声学参数提取处理后的提取结果;根据语音合成模型库合成得到与待合成语音文本对应的目标语音音频。采用本方法能够提升语音合成质量
74 一种多初级声源条件下的虚拟误差信号计算方法 CN202410058758.4 2024-01-16 CN117894291A 2024-04-16 韩宁; 张天; 段哲华
发明公开了一种多初级声源条件下的虚拟误差信号计算方法,涉及主动降噪技术领域,包括:根据初级声源个数,以确定观测传声器个数,确定待降噪位置,在待降噪位置附近布放观测传声器,在待降噪位置布放临时传声器;通过观测传声器和临时传声器分别接收多个初级声源发出的初级声场信号,分别输出得到第一观测传声器信号和临时传声器信号;对第一观测传声器信号做自相关处理,得到自相关序列,对第一观测传声器信号和临时传声器信号做互相关处理,得到互相关序列;利用自相关序列和互相关序列计算得出观测传声器对临时传声器的观测路径序列;利用第二观测传声器信号与观测传声器对临时传声器的观测路径序列计算得出待降噪位置的虚拟误差信号。
75 一种针对合唱音频的修订方法、系统、介质及设备 CN202311761379.3 2023-12-20 CN117894285A 2024-04-16 岳伯禹; 李成
发明属于音频确定领域,尤其涉及一种针对合唱音频的修订方法、系统、介质及设备。该方法包括:获取合唱音频文件;对所述合唱音频文件进行拆分,得到人声音频文件以及伴奏音频文件;确定人声音频文件中的男生音域以及女生音域,基于所述男生音域以及女生音域对所述伴奏音频文件进行调整,生成调整后的伴奏音频文件。本发明的有益效果是:基于对合唱音频文件的拆分可以准确的剥离出人声、背景音乐或乐器伴奏。进而使得后续修订或进行性别判定时更加准确且快速。另外为了更好的适配对于合唱音频的调整,采用了对人声音频进行性别区分的处理方案,使得后续进行伴奏音频文件调整的过程更具有针对性,调整后的方案也更适合合唱的人群。
76 一种双孔排箫 CN202410236371.3 2024-03-01 CN117894284A 2024-04-16 冯敏德
发明涉及一种双孔排箫,包括音管组件和连接组件,音管组件包括8‑30个音管,每个音管尾部密封,连接组件包括吹嘴和连接管,连接管的管口上设有吹嘴,管口分为前孔和后孔,连接管内设有插片,插片的长度与音管的长度成正比。吹奏时,只需用下嘴唇堵住后孔,就能快速准确地吹奏出降半音,方便半音的吹奏。
77 一种基于全景视频的视觉显著性分析基准程序 CN202311780879.1 2023-12-22 CN117894060A 2024-04-16 李文辉; 王涛; 吴娟; 王哲悦
发明提供了一种基于全景视频的视觉显著性分析基准程序,包括:数据建立模:负责捕获、建立和组织大规模的全景视频数据集。眼动追踪采集模块:使用虚拟现实头戴设备收集了静音、单声道和双声道音频模态,下观察者的眼动追踪数据。整合模块:令采集到的全景视频、音频和眼动追踪数据整合,形成了建立的AVS‑ODV。视觉注意机制分析模块:基于AVS‑ODV,该模块对观察者在全景音频视觉环境下的视觉注意机制进行探索和分析,比较不同音频模态下的注意分布差异,总结观看特征。显著性预测模型比较模块:对几种预测模型在AVS‑ODV上的表现进行比较和评估构建基准。本发明为全景音频视觉显著性的研究和发展提供了基础和支持。
78 基于多粒度的特征对比和融合框架的多模态情感分析方法 CN202410127215.3 2024-01-30 CN117893948A 2024-04-16 林煜明; 冯新宇; 张英豪; 曾旭鹏; 李优
发明公开了基于多粒度的特征对比和融合框架的多模态情感分析方法,包括:提取原始视频的低纬度多模态特征数据;将所述低纬度多模态特征数据,输入单模态特征提取模,进行特征提取,获取单模态独立特征数据;将所述单模态独立特征数据,输入多模态融合模块,进行数据融合,获取跨模态融合数据;将所述跨模态融合数据,输入对比学习模块,使用MSA回归主任务和对比学习子任务对分类输出模块进行训练;基于训练后的所述分类输出模块,获取多模态情感预测结果。本发明不仅可以有效捕获跨模态不变特征来识别情感分类,还可以利用模态特定特征预测情感强度。
79 一种显示设备及语音唤醒方法 CN202311834314.7 2023-12-28 CN117891517A 2024-04-16 潘程; 杨香斌
申请提供一种显示设备及语音唤醒方法,所述方法通过在显示器显示待机界面时,响应于用户输入的语音唤醒指令,获取音频数据,并提取音频数据的音频特征。然后基于预唤醒词,通过第一唤醒模型对音频特征进行识别,若第一识别概率大于第一识别概率阈值,则基于唤醒词,通过第二唤醒模型再次对音频特征进行识别,在第二识别概率大于第二识别概率阈值时,显示器显示用户界面,完成唤醒。本申请通过第一唤醒模型对音频数据的预唤醒词执行识别后,再通过第二唤醒模型对音频数据的唤醒词执行识别,降低误唤醒的次数,减少显示设备的功耗。
80 虚拟控制方法、显示设备及电子设备 CN202410108368.3 2024-01-25 CN117891349A 2024-04-16 贾硕
申请实施例提供虚拟控制方法、显示设备及电子设备。本实施例中,在获得用户对象的语音信息,将语音信息转换成对应的文本问题信息,查找到与该文本问题信息匹配的文本答案信息,以及基于语音信息识别出用户对象的情绪特征之后,依据获得的文本问题信息、文本答案信息、情绪特征、以及当前的天气状态,确定用于驱动数字虚拟人执行的目标动作,以实现控制显示设备上已部署的数字虚拟人处于天气状态对应的背景下按照目标动作播报文本答案信息。这种借助于情感特征以及天气状态进行数字虚拟人的控制方式,使数字虚拟人的表达更加生动灵活,以吸引用户继续交互,提高人机交互的流畅度。