会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 语音分析或合成;语音识别;语音或声音处理;语音或音频编码或解码
序号 专利名 申请号 申请日 公开(公告)号 公开(公告)日 发明人
61 基于双曲空间对齐的多模态语音脏腑器官识别方法 CN202410386135.X 2024-04-01 CN117958765A 2024-05-03 文贵华; 王昶
发明系一种基于双曲空间对齐的多模态语音脏腑器官识别方法,包括,获取人体语音信号以及对应的文本信号;分别对语音信号和文本信号进行特征提取,得到音频特征和文本特征;将音频特征和文本特征映射至双曲几何空间中,确定映射后的音频特征和文本特征之间的双曲距离,以双曲距离作为相似度对音频特征和文本特征进行对齐;将对齐后的音频特征和文本特征依次进行交叉注意融合以及特征拼接,得到人体语音特征;并根据人体语音特征对脏腑器官进行识别。本发明将多模态和双曲空间特征对齐结合起来,让特征融合前在双曲空间对齐,提高了多模态语音脏腑器官识别的准确率。
62 一种音频信息内容识别方法 CN202410211284.2 2024-02-27 CN117789706B 2024-05-03 陈国强
发明公开了一种音频信息内容识别方法,涉及音频识别技术领域,本发明提供的方法能够精准对音频信息进行分析,在针对少量用户使用时,能够适应性建立对应用户的习惯数据库,能够识别出系统在识别个人因为习惯发音错误的内容,并针对错误内容进行正确文本的匹配再识别;之后建立一个纠偏的语音信号来调整,后续涉及到声纹识别出来后自动替换纠偏的语音信号来进行识别,使得本申请提供的音频识别更加个性化;本发明简单有效,且易于使用。
63 一种现代语音采录、分析及展示系统 CN202311342385.5 2023-10-17 CN117612553B 2024-05-03 林春雨; 龚明袖
发明公开了一种现代语音采录、分析及展示系统,其包括:用于对多种现代语音数据进行采集录入的采录单元,用于将采录获得的现代语音数据通过拆分声、韵、调,进行多层面比较分析,并输出分析结果的分析单元,用于存储包括采录的现代语音数据、语音拆解规则及多个语音基础数据表的存储单元,用于将语音数据调查分析结果在地图上按地理信息进行展示的展示单元。本发明能够提高现代语音采录、分析及展示效率,为语音的社会科学研究提供有支持。
64 一种基于深度自编码器子域自适应跨库语音情感识别方法 CN202110316366.X 2021-03-24 CN113077823B 2024-05-03 庄志豪; 刘曼; 陶华伟; 傅洪亮
发明提出了一种基于深度自编码器子域自适应跨库语音情感识别方法,本发明包括以下步骤:首先,源域和目标域提取的高维语音特征分别输入两个深度自编码网络,将高维特征映射到低维特征空间中,压缩特征中的冗余信息;其次,将低维特征输入基于MMD的子域自适应模型中,实现了不同情感类别空间中的特征分布对齐,并将对齐后的特征输入softmax分类器进行分类;最后,将带标签源域数据计算的交叉熵loss和MMD loss添加进自编码网络进行有监督地优化训练,确保跨语料库语音情感识别系统的准确率。本发明提出的方法可以学习更多不同领域的共同情感特征,模型在不同的语料库中具有很好的鲁棒性和泛化性。
65 跨语言音频转换方法、装置、计算机设备和存储介质 CN202011516681.9 2020-12-21 CN112712789B 2024-05-03 赵之源; 黄东延
发明实施例公开了一种跨语言音频转换方法、装置、计算机设备和存储介质。该方法包括:获取待转换文本和目标用户的目标语音,所述待转换文本包括至少一种语言;将所述待转换文本转换为合成音频;对所述合成音频进行预处理得到合成音频特征;将所述合成音频特征和目标语音作为输入,使用预先训练好的音频转换模型得到目标音频特征;将所述目标音频特征转换为模拟所述目标语音的目标文本语音。本发明实施例实现了跨语言的合成目标用户语音。
66 一种语音合成方法、系统及装置 CN202011373946.4 2020-11-30 CN112530401B 2024-05-03 叶俊杰; 王伦基; 胡玉针; 李权; 成秋喜; 李嘉雄; 朱杰; 高翠; 韩蓝青
发明公开了一种语音合成方法、系统及装置,其中所述方法包括:获取包含混合数据集,并获取混合文本;根据混合文本获取发音编码,根据混合文本中包含的语言种类确定语言编码;将混合数据集中的说话人进行编号,获取指定说话人编号并根据指定说话人编号确定说话人编码;根据所述发音编码、所述语言编码以及所述说话人编码,解码还原指定说话人主语言和其他语言混合的语音信息。本申请实施例能够在指定说话人提供一种语言语音数据时,就能合成指定说话人其他语言的语音。本申请可广泛应用于语音处理技术领域。
67 信息处理装置及信息处理方法 CN202010127298.8 2020-02-28 CN112420020B 2024-05-03 丁宁; 藤村浩司
实施方式提供能够精度良好地根据声音检测关键词的信息处理装置和信息处理方法。有关实施方式的信息处理装置具有第一及第二取得部、第一及第二计算部和判定部。第一取得部取得声音数据,第二取得部取得已学习模型,当输入声音数据的特征量时输出与关键词和背景噪声相关的似然度。第一及第二计算部对声音数据的每一计算关键词分数及背景噪声分数。判定部判定声音数据是否包含关键词。
68 音频降噪方法、装置、电子设备以及存储介质 CN202011080460.1 2020-10-10 CN112185408B 2024-05-03 蒋燚
申请公开了一种音频降噪方法、装置、电子设备以及存储介质,涉及电子设备技术领域。所述方法包括:获取待降噪的音频信号,并获取待降噪的音频信号对应的音频使用场景,基于音频使用场景,选取多个目标音频降噪算法,按指定降噪处理顺序,将待降噪的音频信号依次经过多个目标音频降噪算法中的每个目标音频降噪算法进行降噪处理,获得降噪后的音频信号。本申请实施例提供的音频降噪方法、装置、电子设备以及存储介质,根据待降噪的音频信号对应的音频使用场景选取多个音频降噪算法对待降噪的音频信号进行降噪处理,以实现根据实际的语音质量需求,选择相应数量的音频降噪算法进行降噪处理,提升音频处理效果。
69 终端设备控制方法、装置及终端设备 CN202010766782.5 2020-08-03 CN111883129B 2024-05-03 何营昊; 桑伟; 陈先义
申请提供的终端设备控制方法、装置及终端设备,当终端设备作为主控终端设备时,可以接收的用户的语音控制请求;根据语音控制请求确定目标终端设备;在目标终端设备不是主控终端设备的情况下,根据目标终端设备的类型,获取与语音控制请求对应的控制指令;最后,根据控制指令控制目标终端设备执行相应的动作。当用户的家用终端设备有很多时,可以使用本申请的技术方案,通过控制一个主控终端设备进而统一控制其他终端设备,将主控终端设备作为控制中心,简化多种终端设备控制的操作过程,保证控制的准确性。另外,针对不同终端设备的类型,还可以通过不同的方式获取到对应的控制指令,使得本申请的方案可以应用在多种类型终端设备的语音控制中。
70 键盘乐器弹奏音乐的处理方法、装置、电子装置 CN202010732687.3 2020-07-27 CN111863026B 2024-05-03 徐成振; 智鹏鹏; 杨嵩
申请提供的键盘乐器弹奏音乐的处理技术方案,根据键盘乐器的按键数量以及每个按键对应产生的音高值,建立识别音高值及其出现概率的模型;对键盘乐器产生的音频文件进行预处理,以提取其中至少一音频的音频特征;将音频帧的音频特征输入到上述模型中,识别出上述音频帧对应的音高值及其出现概率;根据音频帧对应的音高值及其出现概率,确定对应音频帧的内容识别结果。上述方案通过根据键盘乐器的按键数量以及每个按键对应产生的音高值而建立的识别音高值及其出现概率的模型,来识别出上述音频帧对应的音高值及其出现概率,降低了键盘乐器弹奏音乐的识别处理难度,提高了识别的准确度。
71 语音识别方法及装置 CN201910047340.2 2019-01-18 CN111462738B 2024-05-03 张帆; 郑梓豪; 胡于响; 姜飞俊
发明实施例提供了一种语音识别方法及装置,其中,所述语音识别方法包括:获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量;获取所述文本向量的句法特征;根据所述句法特征,获取所述文本数据中包含的至少一个文本子句,以及,获取每一个所述文本子句的领域信息;至少根据每一个所述文本子句的领域信息,识别所述语音输入数据中的语音指令。通过本发明实施例,减轻了用户的操作负担,也提高了智能语音设备对用户语音指令的智能化处理程度。
72 语音合成方法、装置、终端及存储介质 CN201980003388.1 2019-12-31 CN111164674B 2024-05-03 李贤; 黄东延; 丁万; 张皓; 白洛玉; 熊友军
发明实施例公开了一种语音合成方法,所述方法包括:获取待合成文本;获取所述待合成文本的文本特征,所述文本特征包括分词特征、多音字特征和/或韵律特征中的至少一个;将所述文本特征输入预设的时长预测模型,获取与所述文本特征对应的时长特征;将所述文本特征和所述时长特征输入预设的声学模型,获取与所述待合成文本对应的语音特征;将所述语音特征转换成语音,生成与所述待合成文本对应的目标语音。本发明提供的语音合成方法考虑了多种文本特征和时长特征生成的语音特征,使得合成的语音更加准确,提高了语音合成的准确性,提高了用户体验。此外,还提出了一种语音合成装置、终端及存储介质。
73 信息提示方法、电子设备及存储介质 CN201911365873.1 2019-12-26 CN111162994B 2024-05-03 郭连
申请提供一种信息提示方法、电子设备及存储介质,该方法包括:获取聊天内容的第一信息,根据预设规则判断第一信息的隐含信息,根据隐含信息输出第一信息的提示信息。由于本申请实施例通过根据预设规则判断的聊天内容中第一信息的隐含信息,并根据隐含信息输出第一信息的提示信息,实现了对聊天内容中的隐含意义进行智能翻译,增强用户体验。
74 基于注视的听写 CN202280059719.5 2022-09-01 CN117957511A 2024-04-30 T·S·派克; K·M·达亚纳尼; K·S·弗里德曼; 谷岳; S·哈拉达; V·H·乐; D·鲁德琴科; G·L·韦恩伯格
提供了用于基于注视来操作智能听写系统的系统和过程。一种示例性方法包括:在具有一个或多个处理器以及存储器电子设备处,检测用户的注视;基于该用户的被检测到的注视来确定是否进入听写模式;以及根据确定进入该听写模式:接收话语;基于该用户的被检测到的注视和该话语来确定是否进入编辑模式;以及根据确定不进入该编辑模式,在该电子设备的屏幕上显示该话语的文本表示。
75 一种语音播报方法及显示设备 CN202211295368.6 2022-10-21 CN117956213A 2024-04-30 易舟; 蔡培玲; 王小伟
申请实施例公开了一种语音播报方法及显示设备,涉及智能终端技术领域,能够降低语音播报所需的硬件条件的要求,从而提高语音播报方案的可实现性。具体方案为:接收用户触发显示设备显示应用程序中的界面的第一指令;响应于第一指令,显示界面,并运行JavaScript文件;接收用户触发更新界面焦点的第二指令;通过JavaScript文件响应于第二指令,确定更新后的界面焦点所指示的目标文本内容;播报目标文本内容。
76 音视频非静音段检测方法、装置、设备及存储介质 CN202410135440.1 2024-01-30 CN117953925A 2024-04-30 李绍帅
发明涉及音视频领域,公开了一种音视频非静音段检测方法、装置、设备及存储介质。该方法包括:接收音视频非静音段检测请求,并读取音视频文件中的音频段;根据预设音量阈值及音频段中的音频,获取非静音段,并将非静音段的持续时间与预设最小持续时间比较,对非静音段进行筛选;根据预设缓冲长度,对筛选后的非静音段进行延展,并将延展的非静音段进行合并,得到合并音频段;输出合并音频段中的非静音帧。在本发明实施例中,能在获得更灵活、适用面更广的检测结果的同时,可以大大降低计算量和计算时间,从而提高非静音段检测效率。
77 一种基于深层次语音分析技术的情感状态特征提取方法 CN202410098516.8 2024-01-24 CN117953921A 2024-04-30 凌志辉
发明公开一种基于深层次语音分析技术的情感状态特征提取方法,根据语音语调的情感特征向量提取心理状态特征,其特征在于:建立基于互补声学表征的并行模型,所述并行模型结合卷积神经网络处理局部特征与Transformer捕获全局依赖关系的优势,并使用对数梅尔频谱和梅尔倒谱系数作为并行模型输入;此外,声道长度扰动被用以进行数据增强,Transformer还在RAVDESS数据集上进行了预训练。本发明根据语音语调的情感特征向量提取心理状态特征的关键步骤包括:步骤1)InfSort分数排序方法;步骤2)寻找关键数据;步骤3)排除过拟合。
78 一种基于语音和声纹识别的情绪感知监测方法及系统 CN202311812754.2 2023-12-27 CN117953920A 2024-04-30 符健春; 黄晓笑
申请公开了一种基于语音和声纹识别的情绪感知监测系统,包括:语音和声纹采集模、数据预处理模块、情绪特征提取模块、情绪识别与分类模块、情感训练模块及情感监测模块;其中,所述语音和声纹采集模块用于捕获和分析用户的语音和声纹样本,并将所述捕获和分析用户的语音和声纹样本发送至数据预处理模块;通过捕获和分析用户声音中的音频信号,再经过处理得到语音声纹特征向量,将其输入到情感训练模型中进行训练,生成情感特征值,情将生成的情感特征值与预设的情绪特征进行比对识别,情感识别结果被发送至情感监测模块,从而用于情感咨询工作者监测用户的当前情感状态,从而辅助情感咨询工作者对客户作出相对准确的情感分析
79 一种语音信号处理方法及相关设备 CN202410349919.5 2024-03-26 CN117953912A 2024-04-30 王泰辉; 夏日升
申请提供了一种语音信号处理方法及相关设备,属于音频领域,在低信噪比场景中,语音增强的效果尤为明显。该方法可以应用于包括气导麦克和骨导麦克风的电子设备。根据该方法,电子设备可以分别基于骨导麦克风和气导麦克风获取骨导语音信号和气导语音信号,以骨导语音信号作为条件扩散模型的条件,基于条件扩散模型预测气导语音信号中的干净的语音信号,以实现对气导麦克风的语音增强。由于骨导语音信号几乎不受噪声的影响,用骨导语音信号辅助对气导语音信号进行语音增强,能够提升语音增强的效果。
80 音频处理方法、装置及终端设备 CN202211275143.4 2022-10-18 CN117953908A 2024-04-30 尚楚翔; 向肖肖; 赵成帅; 黄传增
本公开提供一种音频处理方法、装置及终端设备,该方法包括:获取多个音频采集设备采集的多个第一音频;基于所述多个第一音频和目标方向,确定度特征,所述角度特征用于指示所述目标方向的音源在每个第一音频中所占的比重;基于所述多个第一音频和所述角度特征,确定所述目标方向相关联的第二音频,并播放所述第二音频。提高音频播放效果。