专利检索_语音分析或合成语音识别语音或声音处理语音或音频编码或解码专利检索_语音分析或合成语音识别语音或声音处理语音或音频编码或解码专利检索查询

子分类：

序号	专利名	申请号	申请日	公开（公告）号	公开（公告）日	发明人
1	语音识别歧义消除方法及装置	CN202211290249.1	2022-10-21	CN117917729A	2024-04-23	马坚; 李敏; 曾谁飞; 刘卫强; 孔令磊; 张景瑞
本发明揭示了一种语音识别歧义消除方法及装置，方法包括步骤：若歧义词典中查询文本数据中存在歧义词；则获取图像数据；将所述图像数据输入图像模型，得到图像识别结果；获取与所述智能决策参数对应的量化数据；将所述文本数据、所述图像识别结果和所述量化数据输入所述智能决策模型，得到决策文本；将所述决策文本输入语言模型，得到用户意图识别结果。当语音含有歧义内容时，通过结合图像数据的图像识别结果，以及融合多项智能决策参数的数据信息做决策，可以直接对语音中的歧义内容进行判断，清楚地理解用户的真实需求，提高了用户的使用体验。
2	自动化配置方法及系统、存储介质和电子设备	CN202210682080.8	2022-06-15	CN114898751B	2024-04-23	何军响; 杨明川; 李伟; 刘振华

3	语音处理方法、决策树模型训练方法、装置、设备及存储介质	CN202111016575.9	2021-08-31	CN113724738B	2024-04-23	梁国铿

4	语音合成方法、装置、设备及存储介质	CN202110621375.X	2021-06-03	CN113327576B	2024-04-23	徐波

5	计算机系统、语音识别方法以及程序产品	CN201880099694.5	2018-09-27	CN113168836B	2024-04-23	菅谷俊二

6	语音唤醒识别方法、装置、电子设备及存储介质	CN201910618609.8	2019-07-09	CN112216286B	2024-04-23	陈孝良; 王江; 冯大航; 苏少炜

7	观众情绪识别方法、装置及系统	CN202010163550.0	2020-03-10	CN111401198B	2024-04-23	肖俊海; 詹启军; 郑广平

8	一种语音处理方法、装置和电子设备	CN201811161308.9	2018-09-30	CN110970015B	2024-04-23	文仕学

9	构音障碍检测方法、构音障碍检测装置以及程序	CN202280057302.5	2022-08-01	CN117915839A	2024-04-19	釜井孝浩; 樱井朗穗; 大毛胜统; 川见员令; 高畑翔吾; 长尾青空
构音障碍检测方法包括取得步骤(S3)和检测步骤(S5)。在取得步骤(S3)中，取得与受验者发出的语音相关的语音信息。在检测步骤(S5)中，基于通过对检测模型输入取得步骤(S3)中取得的语音信息所得的输出结果，来检测受验者有无构音障碍，所述检测模型是以将语音作为输入并输出与有无构音障碍相关的信息的方式经过机器学习的模型。
10	一种语音控制操作的内窥镜	CN202310628588.4	2023-05-31	CN117915167A	2024-04-19	张福乐
本发明公开了一种语音控制操作的内窥镜，包括手持握柄，所述手持握柄的一端设置有操作结构，所述手持握柄的另一端设置有固定外壳，所述固定外壳远离手持握柄的一端设置有内窥镜摄像头，所述固定外壳靠近手持握柄的一侧内侧壁上固定连接有驱动马达，所述驱动马达的输出端固定连接有驱动丝杆，所述驱动丝杆的末端固定连接有锁紧，所述驱动丝杆呈两段设置，两段所述驱动丝杆上的螺纹相反设置。本发明可以通过语音控制驱动马达的运行，从而控制内控镜的转动，从而无需手动对内窥镜进行调节操作，使内窥镜的操作更加方便，同时也极大的提高了内窥镜的使用效率，有利于管道的维修。
11	数字虚拟人自动化制作方法	CN202410047066.X	2024-01-12	CN117915163A	2024-04-19	黄翰; 徐粤婷; 李刚; 郑曙滨; 郑小辉; 王子龙; 黎姿; 曾梓峰; 冯艳洁; 罗旺宗
本发明公开了一种数字虚拟人自动化制作方法，包括以下步骤：对视频素材进行人像抠图，进行动作识别和表情识别，构建动作、表情视频库；对讲稿内容进行文本自动分句得到子句序列，进行动作分析和表情分析，得到动作、表情标签序列；根据标签序列选取动作视频和表情视频，构成动作、表情视频序列，进行动作表情合成，得到合成视频序列；对音频素材进行语音特征提取，构建语音特征库，将子句序列转换为音频序列，将音频序列转换为克隆音频序列；根据克隆音频序列的音频长度确定合成视频序列的视频长度；将合成视频序列与克隆音频序列进行口型同步，得到虚拟人视频序列，对虚拟人视频序列进行拼接，添加背景进行渲染，生成数字虚拟人视频。
12	通话内容记录方法、装置、服务器和系统	CN202311766508.8	2023-12-20	CN117914998A	2024-04-19	王泽; 于鑫
本发明提供一种通话内容记录方法、装置、服务器和系统，涉及通信技术领域，该方法包括：在监听到通话事件的情况下，实时获取通话发起方和通话接听方的双声道音频流文件；将双声道音频流文件按照声道拆分为通话发起方对应的第一声道音频文件和通话接听方对应的第二声道音频文件；分别对第一声道音频文件和第二声道音频文件进行语音识别，得到第一声道音频文件对应的第一文本内容和第二声道音频文件对应的第二文本内容；将第一文本内容和第二文本内容按照时间顺序进行记录，得到通话发起方和通话接听方的通话内容文本。本发明提供的技术方案能够实现通话内容的高效、完整记录。
13	基于Unet深度卷积的混合声音滤除无人机噪声方法及系统	CN202311652135.1	2023-12-05	CN117912491A	2024-04-19	易辰颖; 李锐; 张磊; 陈梁远; 芦宇峰; 苏毅; 潘绍明
本发明公开了基于Unet深度卷积的混合声音滤除无人机噪声方法及系统，包括：采集混合声音，对混合声音进行预处理，通过U型深度卷积网络得到反映目标声音显著程度的掩膜；根据维纳滤波器的输出得到滤除噪声后的混合声音，迭代滤除无人机自噪声，获得目标声音的频域特征；将目标声音的频域特征进行傅里叶逆变换和加窗，得到目标声音的时域特征，完成无人机噪声的滤除。本发明通过U型网络结构提取声音特征，并利用维纳滤波器精确滤除噪声，能够在复杂背景下显著提高目标声音的提取纯度。迭代机制进一步优化了声音信号，确保了噪声滤除过程的高效性和低误差性，最终通过逆傅里叶变换精确恢复出目标声音的时域特征。
14	一种剪枝可调的音频分离模型优化方法和装置	CN202410318898.0	2024-03-20	CN117912484A	2024-04-19	周若华; 张巍
本申请提供一种剪枝可调的音频分离模型优化方法和装置。包括：基于所述第一性能确定所述预训练的音频分离模型的参数的第一排序；根据优化目标对所述预训练的音频分离模型的参数进行聚类，获得多个参数簇；基于第一冗余阈值、所述第一排序和所述多个参数簇筛选第一剪枝范围；基于所述第一剪枝范围对预训练的音频分离模型进行剪枝和量化，都得到第二音频分离模型；检测所述第二音频分离模型的第二性能，基于所述第二性能调整聚类参数簇和所述第一冗余阈值，对所述预训练的音频分离模型重新剪枝和量化。本申请不断调整剪枝和量化的尺度，自适应实现剪枝、量化程度的调整，从而实现音频分离模型的最佳优化效果，保证音频分离效果，同时优化模型体积。
15	二轮电动车语音处理装置、方法及二轮电动车	CN202410082369.5	2024-01-19	CN117912480A	2024-04-19	万顺勇; 张贞耀; 曾勇
本发明实施例公开了一种二轮电动车语音处理装置、方法及二轮电动车。二轮电动车语音处理装置设置于驾驶员正前方的二轮电动车表盘内；该二轮电动车语音处理装置包括双麦阵列语音获取模块和语音处理模块；双麦阵列语音获取模块与语音处理模块连接，双麦阵列语音获取模块用于根据采集的声音产生数字语音信号，语音处理模块根据数字语音信号识别有效语音信号和噪音信号，并增强语音信号，抑制噪音信号。本方案利用自身设置位置的特点和双麦阵列语音获取模块拾取语音具有部分区域声音重复拾取的特点，使语音处理模块可以快速且准确地识别有效语音信号和噪音信号，并针对有效语音信号进行增强处理，针对噪音信号进行抑制处理。
16	具有声源定向功能的音频编解码装置、方法及系统	CN202311762358.3	2023-12-19	CN117912474A	2024-04-19	杜亮
本申请提供具有声源定向功能的音频编解码装置、方法及系统，通过将声源定向功能设置于音频编解码内部，以及在声源定向模块中基于实时音频进行自动化权重分配及声源定向计算的方式，提升了声源定向的精度，摆脱了采样率的限制。使得声源定向工作在保持高稳定性的同时，提供了灵活的时延调整，以更好的适用于实时音频领域。降低了算法设计的复杂度，且可以根据实际场景自动地进行时延控制。此外还显著减轻了主处理器的计算负担，提高整体系统的效率和响应速度。
17	多人音频关系建立方法、装置、介质和计算设备	CN202410058499.5	2024-01-15	CN117912472A	2024-04-19	杜佳楠; 曹一豪; 石芳瑜; 孙玮梓; 吴林; 周敏; 吴政通
本公开的实施方式提供了一种多人音频关系建立方法、装置、介质和计算设备，该方法包括：确定待建立多人音频关系所属的目标关系类型；确定待建立多人音频关系的各个目标用户；构建各个目标用户在音频播放程序的音频账号之间的关联关系，并将关联关系与目标关系类型关联存储，以对各个目标用户建立目标关系类型所对应的多人音频关系；根据目标关系类型以及各个目标用户对应的人物图像，生成多人音频关系的关系页面，并输出关系页面，关系页面用于建立多人音频关系的各个目标用户在音频播放程序进行互动。本公开中，简化了多人音频关系的建立流程，提高了用户对于多人音频关系的建立积极性，从而提高了用户之间的交互频次且提高了用户留存率。
18	声纹识别方法、装置、计算机设备和存储介质	CN202311092503.1	2023-08-28	CN117912470A	2024-04-19	汪斌; 王欣
本申请涉及一种声纹识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待识别语音数据，并提取待识别语音数据的待识别声纹特征；基于声纹特征库，获取分布式集群中各节点的声纹特征数据；将待识别声纹特征和各节点的声纹特征数据输入声纹识别模型，得到待识别声纹特征和各节点的声纹特征数据的相似度；根据相似度，确定待识别语音数据的识别结果。采用本申请的声纹识别方法，能够通过识别人员的待识别语音数据，有效地提高人员识别的准确率。
19	一种说话人语音验证方法、装置和电子设备	CN202410082354.9	2024-01-19	CN117912468A	2024-04-19	向凌云; 周静涵; 欧成富
本发明提供一种说话人语音验证方法、装置和电子设备，属于语音处理技术及信息安全技术领域。方法包括：预训练语音特征提取‑教师模型；基于语音特征提取‑教师模型对所述说话人语音验证‑学生模型进行多层知识蒸馏训练，采用结合特征知识蒸馏和解耦知识蒸馏的两层迁移学习策略，其中包括嵌入层特征知识蒸馏和逻辑层解耦知识蒸馏；基于训练好的说话人语音验证‑学生模型对目标说话人语音进行验证。采用本发明，可以缓解域失配问题，提高模型远场语音验证准确性。另外，在保证模型验证准确性的前提下，本发明通过重参数化技术减小模型的计算复杂度，提高推理速度，使其更适用于复杂的实际场景。
20	一种智能家居训练离线语音固件的方法及装置	CN202311693297.X	2023-12-07	CN117912463A	2024-04-19	王习
本发明涉及语音固件训练技术领域，尤其涉及一种智能家居训练离线语音固件的方法及装置。本发明从用户智能移动端的数据库中提取语音数据。智能移动端包括智能手机、手表、手环和平板电脑这些，能进行语音通话的智能设备。因此本方法通过上述来源直接获取语音数据。将上述数据处理后，作为训练样本反复输入离线语音固件训练系统，实现智能家居的离线语音固件训练。数据量大，且无需用户花费额外时间输入语音数据，训练高效、智能。

1 2 3 4 5 6 7 8 9 10

IPRDB

热门服务

关于我们

友情链接

联系方式