会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码 / 用于冗余度下降情形(例如在声码器中)的语音或音频信号分析-合成技术;语音或音频信号编码或解码,采用源滤波器模型或心理声学分析(乐器中的入G10H)
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
1 一种基于多数据自适应技术的语义通信方法 CN202410151098.4 2024-02-02 CN117975996A 2024-05-03 汪晓丁; 阙友雄; 赵敏; 吴期滨; 王禹森
发明公开一种基于多数据自适应技术的语义通信方法,包括步骤:S1、将信道自适应融入采用多数据自适应算法的语义通信中,在数据编码解码时基于信道条件使传输模型适应低信噪比的条件,达到传输效果;S2、使用深度强化学习创建带宽决策,根据当前环境的信噪比、数据和数据类型选择有限带宽进行数据传输;通过定义状态、动作和奖励,采用深度Q学习得到带宽决策的最佳带宽分配策略;以便适应低带宽环境,极大的提高了在低信噪比和低带宽环境下的传输效果;S3、使用深度强化学习同时决策多类数据传输的带宽分配问题,强化了系统对于信噪比和带宽变化的适应性和稳定性。提高了多数据在低信噪比低带宽条件下的传输效果。本发明实现较好的低延迟通信。
2 结合大语言模型的深度合成音频检测方法、系统和产品 CN202410063989.4 2024-01-17 CN117577120B 2024-04-05 陶建华
申请提供了一种结合大语言模型的深度合成音频检测方法、系统和产品,涉及音频检测技术领域,该方法包括:通过音频编码器对待检测音频进行编码,得到音频编码结果;通过预先训练的Q‑former模从所述音频编码结果中提取音频鉴别特征,并将所述音频鉴别特征对齐至文本模态,得到文本模态的音频鉴别特征;通过预先训练的线性对齐模块将所述文本模态的音频鉴别特征的维度对齐至大语言模型的输入维度;通过文本编码器对提示文本进行编码,得到文本编码结果;将所述文本编码结果与经过维度对齐的文本模态的音频鉴别特征输入预先训练的大语言模型,得到音频检测结果。
3 音频信号编码方法、装置、电子设备和存储介质 CN202280001342.8 2022-05-10 CN117813652A 2024-04-02 高硕
一种音频信号编码方法、装置、电子设备和存储介质,该方法包括:获取音频信号(S1);确定音频信号对应的音频场景类型(S2);根据音频场景类型和音频信号,确定目标输入格式音频信号(S3);对目标输入格式音频信号进行编码,生成目标编码码流(S4)。由此,能够保证所选择的音频格式信号能够更好表征本端用户的音频场景,使得远端用户能够很好的获取本端用户所处音频场景的音频场景信息,提升用户体验。
4 视频音频处理设备、视频音频处理方法和存储介质 CN202311581249.1 2017-05-17 CN117612539A 2024-02-27 本间弘幸; 山本优树
本技术涉及视频音频处理设备、视频音频处理方法和存储介质,通过该视频声音处理设备、视频声音处理方法和程序,可以更容易地以更高的精度分离期望的对象声音。所述视频声音处理设备具备:显示控制单元,使得基于视频信号的视频对象被显示;对象选择单元,从一个视频对象或者从多个视频对象之间选定预定的视频对象;以及提取单元,将由所述对象选择单元选定的视频对象的音频信号提取为音频对象信号。本技术可应用于视频声音处理设备。
5 语音识别方法、装置、设备、系统及存储介质 CN202110752421.X 2021-07-02 CN113436614B 2024-02-13 鲍晓
申请提出一种语音识别方法、装置、设备、系统及存储介质,该方法包括:向服务器发送语音识别请求,所述语音识别请求中包括待识别语音;获取所述服务器发送的对所述待识别语音的解码识别结果;根据预先构建的热词库,以及所述解码识别结果,确定对应所述待识别语音的语音识别结果;其中,所述热词库中存储与发出所述待识别语音的用户对应的热词。上述方案能够实现个性化用户语音识别,并且能够保证用户个性化信息的安全。(56)对比文件Zhong Meng et al.Domain Adaptationvia Teacher-Student Learning for End-to-End Speech Recognition.2019 IEEEAutomatic Speech Recognition andUnderstanding Workshop (ASRU).2020,全文.张翔;李智诚.面向电行业的热词语音识别技术.现代计算机.2020,(22),全文.
6 音频信号的增量编码方法及装置 CN202010277596.5 2020-04-10 CN111462767B 2024-01-09 黄旭; 潘兴德; 吴超刚; 谭敏强
发明公开了一种音频信号的增量编码方法及装置,涉及数字音频制作技术领域,解决了重复编码而导致音频质量下降的技术问题,其技术方案要点是在原有音频信号基础上,区分未修改的声音数据和修改的数据,并仅对修改的数据做压缩编码,未修改的数据首先从原始码流中解析出其压缩数据,并和修改数据生成的压缩数据组织成新的码流,即对修改部分做增量编码,避免未修改数据的音质损失并降低编码复杂度。
7 使用不同的时间/频率分辨率来编码或解码定向音频编码参数的装置和方法 CN202311255126.9 2018-11-16 CN117351970A 2024-01-05 纪尧姆·福克斯; 于尔根·赫勒; 法比安·库奇; 斯蒂芬·朵拉; 马库斯·马特拉斯; 奥利弗·迪尔加特; 奥利弗·维博尔特; 弗罗林·吉多; 斯特凡·拜尔; 乌尔夫冈·雅吉斯
一种用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置和方法。该装置包括:参数计算器(100),用于计算具有第一时间或频率分辨率的扩散度参数并用于计算具有第二时间或频率分辨率的方向参数;以及量化器和编码器处理器(200),用于产生扩散度参数和方向参数的经量化且经编码的表示。还公开了用于解码包括定向音频编码参数的经编码的音频信号解码器和方法以及计算机可读存储介质。
8 一种语音识别及转换系统 CN202311515170.9 2023-11-14 CN117351938A 2024-01-05 张丹; 李宏军; 崔焕
发明公开了一种语音识别及转换系统,包括:对用户的方言语和普通话音信号进行采集,同时对采集到的方言和普通话语音信号进行预处理;对预处理后的方言和普通话语音信号进行声学特征提取,从中提取出声学特征中唯一的方言音纹特征和普通话音纹特征,构建出方言或普通话的音纹模型;根据方言音纹模型和普通话音纹模型,将输入的方言语音或普通话语音识别为相应的方言文本或普通话文本;将方言文本转换为普通话文本或将普通话文本转换为方言文本,并基于合成器将普通话文本转换为普通话语音或将方言文本转换为方言语音。本发明能够针对方言与普通话进行语音转换,有效的提高了方言与普通交流的便利性和效率。
9 一种音频文件检测方法、装置与计算设备 CN202311214185.1 2023-09-20 CN117012207B 2023-12-29 唐鹏; 吴志刚; 侯磊; 王翊存
发明公开了一种音频文件检测方法、装置与计算设备,涉及媒体播放器的音频文件检测技术领域,目的是为了解决现有的检测方式易导致媒体播放器播放不正常,造成不好的用户体验的问题。上述方法包括:响应于音频文件被添加到媒体播放软件的播放列表,利用多媒体解码库对音频文件进行参数检测:若检测通过,则将音频文件的前若干发送至解码器,并将解码器接收到的帧数量与解码的帧数量进行匹配;若参数检测未通过或匹配失败,则判断音频文件无效,并在播放列表中显著提示无效的音频文件。本发明在音频文件添加到播放列表时对音频文件进行有效性检测,不仅检测速度快,而且能够避免播放器播放不正常,使用户体验更加友好。
10 一种数字声音重构方法、系统、设备及介质 CN202210121026.6 2022-02-09 CN114446311B 2023-12-01 刘长华; 杜海江
发明公开一种数字声音重构方法、系统、设备及介质,涉及声音重构技术领域,用于解决现有技术中无法实现数字发声且精度低的问题。包括:接收第一数字音频数据;对第一数字音频数据进行格式转换,得到通用格式的第二数字音频数据;对第二数字音频数据执行sigma‑delta调制以及抽取操作,得到多路量化音频数字流;将多路量化音频数字流转换为驱动电信号;并采用驱动电信号驱动换能元件阵列,得到声音信号。其中基于Sigma‑Delta的数字声音重构方法,能够实现了一种高信噪比的数字发声,具有减少失真、减小频响非线性、提高信噪比等技术效果。
11 一种面向航天专业领域的语音识别系统和方法 CN202011139217.2 2020-10-22 CN112466282B 2023-11-28 温正棋; 李博; 刘进涛; 任斌; 李振龙; 周仔恒
发明的一个实施例公开了一种面向航天专业领域的语音识别系统和方法,系统包括:由第一长短时记忆网络构成的编码器,用于输入声学特征序列,经过编码后,输出声学特征序列对应的隐藏表示;由第二长短时记忆网络构成的预测网络,首先输入文本序列起始符号sos,输出文本序列第一个词对应的隐藏表示,之后每次都输入上一个词的嵌入向量,经过预测网络后输出预测后的词对应的隐藏表示;由第三长短时记忆网络构成的偏置编码网络,用于输入航天领域的专业词汇序列,输出航天领域的专业词汇序列对应的隐藏表示;由多层感知机构成的融合网络,融合上述三个网络的输出结果,预测出文本序列的
12 基于特征的话语码本选择 CN201780079428.1 2017-11-28 CN110114829B 2023-11-28 郭寅一; E·维瑟
一种设备包含话语处理引擎,所述话语处理引擎经配置以接收对应于话语的数据并且以确定与所述话语相关联的第一特征是与参考特征相差至少阈值量。所述设备进一步包含响应于所述话语处理引擎的选择电路。所述选择电路经配置以基于所述第一特征与所述参考特征相差至少阈值量从多个话语码本之中选择特定话语码本。所述特定话语码本与所述第一特征相关联。此第一特征是基于所述用户的情绪、所述用户的环境和所述用户的估计的年龄或距离麦克的所述用户的估计的距离的。
13 一种联发科平台终端设备及其控制方法 CN202311354457.8 2023-10-19 CN117095685A 2023-11-21 谭光华; 刘晋; 蒋辉艳
申请提供一种联发科平台终端设备及其控制方法,将获取的联发科平台终端设备的待存储音频数据分,得到多个待存储音频子块;对每个待存储音频子块进行频域变换得到子块振幅因子矩阵,对子块振幅因子矩阵进行均值化得到无偏子块振幅因子矩阵;确定无偏子块振幅因子矩阵中每一列的最大绝对值,得到最大绝对值序列,根据最大绝对值序列确定每一列所需的编码最大位数;根据每一列所需的编码最大位数和预设编码分配位数进行迭代更新,得到列编码分配位数序列,通过对列编码分配位数序列确定的离散子块振幅因子矩阵进行编码得到压缩的待存储音频数据,对压缩的待存储音频数据进行存储,以解决联发科平台终端设备中音频数据的存储效率低的技术问题。
14 信号处理装置、方法和程序 CN201880063759.0 2018-10-05 CN111164673B 2023-11-21 本间弘幸; 辻实; 知念徹
15 用于棱椎矢量量化编索引和解索引的方法和装置 CN201910206563.9 2015-02-26 CN110033779B 2023-11-17 乔纳斯·斯韦德贝里
用于音频/视频信号的棱椎矢量量化索引编制的方法包括:获得(402)对音频/视频信号采样进行表示的整数型输入矢量。从整数型输入矢量提取(404)前导符号。前导符号是整数型输入矢量中的端非零系数的符号。端非零系数是整数型输入矢量中的第一个非零系数和最后一个非零系数之一。使用棱椎矢量量化枚举方案将整数型输入矢量编索引(406)为表示音频/视频信号采样的输出索引。将棱椎矢量量化枚举方案设计为忽略端非零系数的符号。输出(408)输出索引和前导符号。因此,还公开了对应的解索引方法、编码器解码器计算机程序
16 一种音频数据处理方法、装置、设备及介质 CN202311141490.2 2023-09-05 CN117059105A 2023-11-14 梁俊斌
申请公开了一种音频数据处理方法、装置、设备及介质,方法包括:获取待编码音频数据对应的数据编码码流,对数据编码码流进行预解码处理,解码得到预解码音频数据帧;对待编码音频数据帧和预解码音频数据帧进行误差计算,得到数据编码误差;响应于数据编码误差满足待处理音频信号对应的误差编码条件,对数据编码误差进行误差编码,得到与待编码音频数据帧相关联的误差编码码流;误差编码码流解码得到的误差解码数据帧和数据编码码流解码得到的音频解码数据帧,用于重构得到待编码音频数据帧对应的音频数据重构帧;音频数据重构帧用于重构得到待处理音频信号对应的音频重构信号。采用本申请,可以在音频编解码过程中提升信号保真度。
17 基于HRTF数据信息的家庭影院个性化环绕声生成系统及方法 CN202311060586.6 2023-08-22 CN117037815A 2023-11-10 谭波; 刘少鹏
发明提供一种基于HRTF数据信息的家庭影院个性化环绕声生成系统及方法,涉及家庭影院技术领域,该系统包括音频获取模,用于获取音频数据;音频解码器模块,用于对获取的音频数据进行解码,将音频数据恢复为原始音频信号;个性化音频生成模块,包括HRTF数据信息获取单元,用于获取用户HRTF数据信息;HRTF数据信息预处理单元,用于对获取的用户HRTF数据信息进行预处理;HRTF数据信息存储单元,用于存储预处理后的用户HRTF数据信息;个性化音频处理单元,用于基于预处理后的用户HRTF数据信息和恢复的原始音频信号进行处理,生成个性化虚拟环绕声音频信号。本发明解决了现有家庭影院系统中生成的虚拟环绕声不能满足用户的差异化需求的问题。
18 一种音频文件检测方法、装置与计算设备 CN202311214185.1 2023-09-20 CN117012207A 2023-11-07 唐鹏; 吴志刚; 侯磊; 王翊存
发明公开了一种音频文件检测方法、装置与计算设备,涉及媒体播放器的音频文件检测技术领域,目的是为了解决现有的检测方式易导致媒体播放器播放不正常,造成不好的用户体验的问题。上述方法包括:响应于音频文件被添加到媒体播放软件的播放列表,利用多媒体解码库对音频文件进行参数检测:若检测通过,则将音频文件的前若干发送至解码器,并将解码器接收到的帧数量与解码的帧数量进行匹配;若参数检测未通过或匹配失败,则判断音频文件无效,并在播放列表中显著提示无效的音频文件。本发明在音频文件添加到播放列表时对音频文件进行有效性检测,不仅检测速度快,而且能够避免播放器播放不正常,使用户体验更加友好。
19 数据处理方法、装置、可读介质以及电子设备 CN202210295585.9 2022-03-23 CN114640826B 2023-11-03 李入云; 刘艺; 蔡猛; 马泽君
本公开涉及一种数据处理方法、装置、可读介质以及电子设备,所述方法包括:获取视频数据和音频数据;确定所述视频数据中包括同一人脸的目标视频数据;针对每一人脸的所述目标视频数据,在所述音频数据中确定与该目标视频数据匹配的目标音频数据;基于每一匹配的所述目标音频数据和所述目标视频数据,从各候选发言人中确定所述目标音频数据的目标发言人。本公开的数据处理方法可以提高为目标音频数据确定的目标发言人的准确度。
20 语音识别方法、装置、电子设备和存储介质 CN202011226698.0 2020-11-05 CN112382294B 2023-10-20 杨松; 纪盛; 孟宪海; 徐木水
申请公开了一种语音识别方法、装置、电子设备和存储介质,涉及语音技术深度学习技术等人工智能技术领域。具体实现方案为:通过预设的第一进程识别目标语音数据中是否包含唤醒词;若包含唤醒词,则通过第一进程生成与目标语音数据对应的语音标识信息;控制第一进程通过预设的通信链路,向预设的第二进程发送包含语音标识信息的唤醒提醒消息;通过第二进程获取目标语音数据,对目标语音数据压缩生成压缩语音数据;通过第二进程向服务器发送压缩语音数据。由此,将语音唤醒算法与语音压缩处理业务解耦,便于各自独立升级和维护,且由于语音唤醒算法与语音压缩处理业务运行在独立的进程中,避免了单进程负载过高的问题,保证了语音处理的服务质量