会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
141 一种演奏时值信息与曲谱时值信息最优比对路径的获得方法 CN202111036222.5 2019-09-02 CN113744764B 2024-04-26 李惠子; 曹琛; 冯亚星
发明公开了演奏时值信息与曲谱时值信息最优比对路径的获得方法,主要解决现有技术中存在的现有评价系统和方法机械化地要求实际演奏数据与标准演奏数据的匹配,忽视了实际演奏过程的不流畅性,缺少例如音区错误、抢拍、拖拍、节奏不稳等细致技术点的评价,从而造成演奏评价较低的问题。本发明通过先获取演奏声音信息和曲谱信息;然后将演奏声音信息和曲谱信息分别进行编码转换生成矩阵;然后将矩阵输入对应的比对函数中生成比对矩阵;然后根据比对矩阵进行路径规划,生产最优路径;然后根据最优比对路径的位置索引将最先生成的矩阵进行切分;最后根据评价词典进行评价并输出评价语。通过上述方案,本发明达到了能进行细节点评的目的。
142 语音协同唤醒方法、装置、电子设备及存储介质 CN202110961834.9 2021-08-20 CN113689857B 2024-04-26 黄助良
本公开是关于语音协同唤醒方法、装置、电子设备及存储介质,方法包括:响应于语音唤醒事件,生成第一唤醒请求,并将第一唤醒请求发送至服务器;接收至少一个第二智能设备发送的第二唤醒请求,每个第二唤醒请求是发送第二唤醒请求的第二智能设备响应于语音唤醒事件而生成;如果满足决策条件,根据预设的决策规则,生成第一唤醒结果,并向各个智能设备发送第一唤醒结果;如果生成第一唤醒结果,在接收到服务器根据第一唤醒请求和第二唤醒请求返回的第二唤醒结果之后,根据第二唤醒结果执行唤醒或抑制唤醒;如果生成第一唤醒结果,在接收到第二唤醒结果之前,根据第一唤醒结果执行唤醒或抑制唤醒。以有效改善多个智能设备同时应答的现象。
143 一种语音增强方法及系统 CN202110795988.5 2021-07-14 CN113611321B 2024-04-26 王雨田; 王童; 王晖; 赵海博
发明公开了一种语音增强方法及系统,包括:获取带噪语音信号;对所述带噪语音信号进行小波分解,获得若干个带噪子带;将每一所述带噪子带输入至语音增强模型,获得与每一带噪子带对应的增强子带;将若干个所述增强子带进行小波合成,获得增强后的语音信号。本发明通过离散小波变化可以逐层减少信号的长度,降低采样点的数量,更加适用于语音这类非平稳信号,提升了语音信号增强的效果。
144 噪声抑制方法、装置、介质以及电子设备 CN202110129579.1 2021-01-29 CN113571078B 2024-04-26 鲍枫; 刘志鹏; 李岳鹏
本公开提供了一种噪声抑制方法、装置、介质以及电子设备。该方法包括:获取原始语音信号的低频频谱特征和高频频谱特征,并对低频频谱特征和高频频谱特征进行特征组合处理得到频带能量特征;在原始语音信号中确定当前语音信号和上一帧语音信号,并对当前帧语音信号和上一帧语音信号进行线性域变换处理得到频谱特征参数;对频谱特征参数和频带能量特征进行相关性计算得到倒谱特征,并对倒谱特征进行降维映射处理得到降维特征;对降维特征和倒谱特征进行特征融合处理得到增益信息,并对增益信息进行噪声抑制处理得到原始语音信号的降噪语音信号。本公开保证了关键噪声种类的噪声抑制效果和效率,极大地降低了噪声抑制的复杂度。
145 声音信号识别方法及装置 CN202110572969.6 2021-05-25 CN113314135B 2024-04-26 何琪琪; 侯海宁
本公开是关于一种声音信号识别方法及装置。涉及智能语音交互技术,解决了强干扰低信噪比场景下声源定位准确率低、语音识别质量较差的问题。该方法包括:获取至少两个采集点分别对至少两个声源采集的原始观测数据;对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;根据所述后验域估计数据,得到各个声源的信号分量;分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;根据所述波束成形估计信号,得到各个所述声源的时域声源信号。本公开提供的技术方案适用于智能语音系统,实现了高效、抗干扰能语音信号识别。
146 一种音频编解码方法和音频编解码设备 CN202010033973.0 2020-01-13 CN113192517B 2024-04-26 夏丙寅; 李佳蔚; 王喆
申请实施例公开了一种音频编解码方法和音频编解码设备,能够提高音频信号的解码质量。本申请实施例提供一种音频编码方法,所述方法包括:获取音频信号的当前,所述当前帧包括高频带信号;根据所述高频带信号获得所述当前帧的高频带参数,所述高频带参数用于表示所述高频带信号包括的音调成分的位置、数量以及幅度或能量;对所述高频带编码参数进行码流复用,以得到编码码流。
147 一种用于识别音乐的方法、芯片和终端 CN201910521424.5 2019-06-17 CN112102848B 2024-04-26 韦益德; 孙忠; 勾军委; 庞立祥
一种用于识别音乐的方法、芯片和终端,该方法包括:终端通过数字麦克实时获取声音,所述数字麦克风一直开启;所述终端根据所述麦克风获取的声音,分析数字麦克风获取的声音是否是音乐;所述终端确定所述数字麦克风获取的声音是音乐;所述终端开启音乐名称识别的应用,并将音乐名称显示在显示屏。该方法属于人工智能领域,该方法中可以通过持续常开的数字麦克风,实时感知用户周围环境声音的变化。
148 用于关键短语识别的系统和方法 CN202010903865.4 2017-10-24 CN112037774B 2024-04-26 周荣
用于关键短语识别的方法可以包括:获得音频;获得对应于音频部分的至少两个候选词,至少两个候选词构成候选短语;确定候选短语中第N个候选词的概率是否大于第N个候选词与关键短语中第N个关键词相关联的阈值;响应于确定第N个候选词的概率大于相关联的阈值,确定第(N+1)个候选词的概率;直到确定候选短语和关键短语包含相同序列中的相同词;获得候选词与音频部分之间的每个对应关系的第一概率分数;确定每个第一概率分数是否超过对应的阈值;响应于确定每个第一概率分数超过对应的阈值,基于每个的第一概率分数,获得表示候选短语与关键短语之间匹配关系的第二概率得分;响应于确定第二概率得分超过第二阈值,将候选短语确定为关键短语。
149 一种数据处理方法、装置和用于数据处理的装置 CN201811574155.0 2018-12-21 CN111354348B 2024-04-26 姚光超
发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:确定当前语音在解码网络中对应的活跃节点;根据所述活跃节点从其前驱节点接收的所述前驱节点的节点索引,以及节点索引与有序链表之间的映射关系,确定所述活跃节点的前驱节点对应的有序链表;根据预置的合并算法,对待合并的至少一个有序链表进行合并;其中,所述待合并的至少一个有序链表包括:所述活跃节点的至少一个前驱节点对应的有序链表。本发明实施例可以降低合并多个有序链表的复杂度,进而可以提高解码速度以及提高语音识别的效率。
150 语音识别歧义消除方法及装置 CN202211290249.1 2022-10-21 CN117917729A 2024-04-23 马坚; 李敏; 曾谁飞; 刘卫强; 孔令磊; 张景瑞
发明揭示了一种语音识别歧义消除方法及装置,方法包括步骤:若歧义词典中查询文本数据中存在歧义词;则获取图像数据;将所述图像数据输入图像模型,得到图像识别结果;获取与所述智能决策参数对应的量化数据;将所述文本数据、所述图像识别结果和所述量化数据输入所述智能决策模型,得到决策文本;将所述决策文本输入语言模型,得到用户意图识别结果。当语音含有歧义内容时,通过结合图像数据的图像识别结果,以及融合多项智能决策参数的数据信息做决策,可以直接对语音中的歧义内容进行判断,清楚地理解用户的真实需求,提高了用户的使用体验。
151 自动化配置方法及系统、存储介质和电子设备 CN202210682080.8 2022-06-15 CN114898751B 2024-04-23 何军响; 杨明川; 李伟; 刘振华
本公开涉及计算机技术领域,涉及自动化配置方法及系统、存储介质和电子设备,包括:对接收到的用户语音进行语音识别和语义理解,得到第一识别信息;基于动态知识体系,对所述第一识别信息的完整性和合理性进行检测,根据检测结果生成第二识别信息,第二识别信息用于指示用户对智能平台内的多个智能设备的配置意图,动态知识体系是根据所述智能平台内的当前设备信息构建;根据所述第二识别信息生成自动化配置信息,自动化配置信息包括所述多个智能设备的状态之间的联动关系。本公开结合用户语音的识别结果和动态知识体系,自动生成反映用户操作意图的自动化配置信息,实现智能设备的状态之间的联动,降低智能平台的操作槛,利于智能生活的普及。
152 语音处理方法、决策树模型训练方法、装置、设备及存储介质 CN202111016575.9 2021-08-31 CN113724738B 2024-04-23 梁国铿
申请涉及人工智能技术和智慧城市领域,具体公开了一种语音处理方法、决策树模型训练方法、装置、设备及存储介质,所述方法包括:获取坐席当前的通话文本;获取预设产品对应的标准话术,根据标准话术中的条款将标准话术中的多个语句进行拼接,得到多个第一拼接语句;将通话文本拆分分割成多个语句,计算多个语句与多个第一拼接语句的相似度,并根据相似度将多个所述语句进行拼接,得到多个第二拼接语句;计算第二拼接语句与第一拼接语句的语句相似度,以及根据通话文本的词频表计算每个第二拼接语句相对词频表的词频分值;将第二拼接语句对应的语句相似度和词频分值输入至预先训练好的决策树模型,得到坐席质检结果。
153 语音合成方法、装置、设备及存储介质 CN202110621375.X 2021-06-03 CN113327576B 2024-04-23 徐波
发明提供了一种语音合成方法、装置、设备及存储介质,该方法包括:将待处理的文本数据的每个字转成相应的音素;根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。本发明能有效提高语音合成的效果,使得合成的音频更加自然、真实,同时能提高语音合成的推理速度。
154 计算机系统语音识别方法以及程序产品 CN201880099694.5 2018-09-27 CN113168836B 2024-04-23 菅谷俊二
发明的目的在于提供一种容易提高对语音识别的识别结果的准确性的计算机系统、语音识别方法以及程序。计算机系统获取语音数据,进行获取到的所述语音数据的语音识别,利用与所述第一识别单元不同的算法数据库来进行获取到的所述语音数据的语音识别,在各个语音识别的识别结果不同的情况下,输出双方的识别结果。此外,计算机系统获取语音数据,进行获取到的所述语音数据的语音识别,并利用相互不同的算法或数据库来进行N种方式的语音识别,仅输出以所述N种方式进行的语音识别中识别结果不同的识别结果。
155 语音唤醒识别方法、装置、电子设备及存储介质 CN201910618609.8 2019-07-09 CN112216286B 2024-04-23 陈孝良; 王江; 冯大航; 苏少炜
一种语音唤醒识别方法,应用于语音识别领域,包括:当接收到语音信号后,提取语音信号的声学特征,通过神经网络模型预测声学特征在各声学建模单元上的后验概率,根据后验概率,基于预置的一级评估模型评估是否进入二级评估装置,若进入二级评估装置,则基于后验概率,通过二级评估装置,判断是否进入唤醒状态。本发明还公开了一种语音唤醒识别装置、电子设备及存储介质,具有简单易行、功耗低,同时在保证唤醒率的前提下,降低了误唤醒率。
156 观众情绪识别方法、装置及系统 CN202010163550.0 2020-03-10 CN111401198B 2024-04-23 肖俊海; 詹启军; 郑广平
发明涉及情绪识别技术领域,提供一种观众情绪识别方法、装置及系统,所述方法包括:提取包含多个观众的视频图像的每一图像;对每一帧图像进行人脸表情识别,获得每一帧图像的表情类别;对所有帧的表情类别进行综合判定,获得综合判定后的表情类别,将综合判定后的表情类别作为视频图像的情绪类别;对与所述视频图像对应的音频进行声音情绪识别,获得所述音频的情绪类别;对所述视频图像的情绪类别和所述音频的情绪类别进行综合判定,获得观众情绪识别结果。本发明提供的技术方案,能够全面、准确地识别观众在观看节目过程中的整体情绪。
157 一种语音处理方法、装置和电子设备 CN201811161308.9 2018-09-30 CN110970015B 2024-04-23 文仕学
发明实施例提供了一种语音处理方法、装置和电子设备,其中,所述方法包括:获取至少一组语音训练数据,所述语音训练数据包括:带噪声的样本语音数据和带噪声的参考语音数据;依据所述带噪声的样本语音数据对语音增强模型进行前向训练,得到所述语音增强模型输出的预测语音数据;依据所述带噪声的参考语音数据和预测语音数据,对所述语音增强模型进行后向训练;相对于现有技术采用干净的语音数据对语音增强模型进行后向训练而言,本发明实施例无需获取干净的语音数据,降低了获取语音训练数据的成本、复杂度和时长,能够提高模型训练的效率。
158 构音障碍检测方法、构音障碍检测装置以及程序 CN202280057302.5 2022-08-01 CN117915839A 2024-04-19 釜井孝浩; 樱井朗穗; 大毛胜统; 川见员令; 高畑翔吾; 长尾青空
构音障碍检测方法包括取得步骤(S3)和检测步骤(S5)。在取得步骤(S3)中,取得与受验者发出的语音相关的语音信息。在检测步骤(S5)中,基于通过对检测模型输入取得步骤(S3)中取得的语音信息所得的输出结果,来检测受验者有无构音障碍,所述检测模型是以将语音作为输入并输出与有无构音障碍相关的信息的方式经过机器学习的模型。
159 一种语音控制操作的内窥镜 CN202310628588.4 2023-05-31 CN117915167A 2024-04-19 张福乐
发明公开了一种语音控制操作的内窥镜,包括手持握柄,所述手持握柄的一端设置有操作结构,所述手持握柄的另一端设置有固定外壳,所述固定外壳远离手持握柄的一端设置有内窥镜摄像头,所述固定外壳靠近手持握柄的一侧内侧壁上固定连接有驱动达,所述驱动马达的输出端固定连接有驱动丝杆,所述驱动丝杆的末端固定连接有紧,所述驱动丝杆呈两段设置,两段所述驱动丝杆上的螺纹相反设置。本发明可以通过语音控制驱动马达的运行,从而控制内控镜的转动,从而无需手动对内窥镜进行调节操作,使内窥镜的操作更加方便,同时也极大的提高了内窥镜的使用效率,有利于管道的维修。
160 数字虚拟人自动化制作方法 CN202410047066.X 2024-01-12 CN117915163A 2024-04-19 黄翰; 徐粤婷; 李刚; 郑曙滨; 郑小辉; 王子龙; 黎姿; 曾梓峰; 冯艳洁; 罗旺宗
发明公开了一种数字虚拟人自动化制作方法,包括以下步骤:对视频素材进行人像抠图,进行动作识别和表情识别,构建动作、表情视频库;对讲稿内容进行文本自动分句得到子句序列,进行动作分析和表情分析,得到动作、表情标签序列;根据标签序列选取动作视频和表情视频,构成动作、表情视频序列,进行动作表情合成,得到合成视频序列;对音频素材进行语音特征提取,构建语音特征库,将子句序列转换为音频序列,将音频序列转换为克隆音频序列;根据克隆音频序列的音频长度确定合成视频序列的视频长度;将合成视频序列与克隆音频序列进行口型同步,得到虚拟人视频序列,对虚拟人视频序列进行拼接,添加背景进行渲染,生成数字虚拟人视频。