专利检索_语音识别（G10L17/00优先）专利检索_语音识别（G10L17/00优先）专利检索查询

子分类：

序号	专利名	申请号	申请日	公开（公告）号	公开（公告）日	发明人
1	一种语音交互方法、装置、电子设备及存储介质	CN202410337027.3	2024-03-22	CN117995192A	2024-05-07	李瑞杰; 李洋全; 刘俊君
本申请涉及车辆技术领域，公开了一种语音交互方法、装置、电子设备及存储介质，该方法通过获取用户输入的语音数据，对语音数据进行语义解析，以根据语义解析结果确定语音数据对应的反馈语音集合，反馈语音集合包括多个预设语音风格分别对应的反馈语音，并通过预设的情绪识别模型对语音数据进行情绪识别，得到用户当前情绪，其中，情绪识别模型根据带有用户情绪标签的语音样本进行训练得到，根据用户当前情绪确定当前语音风格，并根据当前语音风格与预设语音风格之间的对比结果从反馈语音集合中进行匹配，得到目标语音，通过目标语音响应语音数据，以实现语音交互；通过上述方法提供更实用、更有趣的语音交互方法。
2	一种有声书质检方法、系统、电子设备及存储介质	CN202311400768.3	2023-10-26	CN117976001A	2024-05-03	范兴华; 潘志双
本申请提供了一种有声书质检方法、系统、电子设备及存储介质，涉及信息检测领域。方法包括：基于音频源分离法对待识别音频进行背景噪声去除得到初始待识别音频；获取训练完备的多语言识别模型，所述多语言识别模型包括多个语言识别子模型；将初始待识别音频作为目标音频输入多语言识别模型得到待检测的语义文本，基于所述待检测的语义文本进行文本规则检测得到检测结果。
3	基于语音转换的事件记录方法、装置、设备及介质	CN202410366053.9	2024-03-28	CN117975949A	2024-05-03	朱磊; 卢骁; 陈裕妙; 陈楠; 蒋志立
本发明涉及人工智能技术领域，提供一种基于语音转换的事件记录方法、装置、设备及介质，能够启动与目标事件的事件类型对应的事件记录界面，当检测到事件记录界面的指定输入框中有数据输入时，对输入的数据进行校验，以保证在基本信息正确的前提下再进行后续处理；当输入的数据通过校验时实时采集用户语音，基于频段信号强度对所述用户语音进行优化，按照配置拆分策略对待处理数据进行拆分得到待转换数据，将待转换数据输入至预先训练的多语言转换模型得到目标文本，将目标文本插入至事件记录界面的指定区域，以基于人工智能手段将语音实时转换为文本，提升了事件记录的准确性及处理效率。
4	用于渐进式自然语言理解的系统和方法	CN202110098326.2	2021-01-25	CN113450783B	2024-05-03	K·N·库马尔; J·R·肯尼迪; S·D·隆巴尔多; P·G·希瓦库玛
用于渐进式自然语言理解的系统，包括媒体模块、存储软件代码的存储器，以及通信地连接至该媒体模块的硬件处理器。该硬件处理器被配置为执行该软件代码以接收包括第一话语的音频流，并基于该第一话语的第一部分和第二部分，产生第一渐进式语音识别输出和第二渐进式语音识别输出。此外，该硬件处理器被配置为执行软件代码，以在产生该第二渐进式语音识别输出之前，基于该第一渐进式语音识别输出，确定该第一话语的第一意图。该硬件处理器还被配置为，执行软件代码，以基于所确定的第一意图来获取第一资源，并将该第一资源合并至将由媒体模块播放的媒体内容中。
5	基于深度神经网络的口音分类方法及其模型	CN202110052375.2	2021-01-14	CN112992119B	2024-05-03	王伟; 吴小培; 张超; 吕钊; 张磊; 郭晓静; 高湘萍; 周蚌艳
本发明公开了一种基于深度神经网络的口音分类方法，包括：提取原始音频的帧级频域特征，构建2D语音频谱作为网络输入X；构建一个多任务权值共享的基于CRNNs的前端编码器来提取频谱X的局部序列描述符{P1,…,PT'}；在训练过程中，前端编码器后增设语音识别任务分支网络，用来抑制口音识别中的过拟合现象；构建用于口音识别任务的核心分支网络，首先将所有局部序列描述符整合成一个全局口音特征；然后在预测过程中引入判别性损失函数；最后通过基于softmax的分类层对全局口音特征进行分类，实现口音预测。还公开了一种高度可判别性的基于深度神经网络的口音分类模型，对来自不同区域群体的说话人能给出一个可靠的口音预测。
6	语音语义识别方法、装置及车辆	CN201910009490.4	2019-01-04	CN111415656B	2024-04-30	刘磊
本申请涉及语音语义识别方法，包括实时判断是否接收到用户的语音信息；在接收到语音信息时，判断是否符合预设话术；若符合，根据语音信息进行相对应的响应操作；若不符合，解析语音信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图，获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息。本申请还涉及一种语音语义识别装置及车辆。本申请的语音语义识别方法能够将语音交互技术引用到车机设备中，利用语音识别技术能减少用户手动操作，而且能够让用户在没有掌握话术的条件下，给用户提供话术指引，提供更加贴切的帮助，同时也加快了用户掌握语音功能的进度，提高了用户体验。
7	一种离线语音灯带控制器	CN201811081531.2	2018-09-17	CN109219214B	2024-04-23	赵惠彬; 刘宏伟; 巫朝云
本发明公开了一种离线语音灯带控制器，包括语音识别单元，语音播放单元，灯带控制单元，触摸按键单元和核心主控单元。本发明一方面可以通过定制化语音模块，实现语音命令对灯具进行控制；另一方面还可以通过自适应触摸按键单元实现控制灯具工作状态。本发明控制电路结构简单，功能多样化，智能化程度高。
8	方言流式语音识别方法、装置、电子设备及存储介质	CN202410044548.X	2024-01-12	CN117558265B	2024-04-19	吕召彪; 赵文博; 肖清; 许程冲
本发明提供一种方言流式语音识别方法、装置、电子设备及存储介质，其中方法包括：分别调整预训练语音识别模型的注意力机制和卷积感受野，以将其进行流式化处理；在流式化的预训练语音识别模型中引入蒸馏损失，以实现非流式模型至流式模型的知识迁移；对目标方言语音对应的方言语音样本进行预处理并分段，并利用分段的方言语音样本对经知识迁移的预训练语音识别模型进行微调训练，获取目标方言语音识别模型；将目标方言语音进行预处理并分段后，将分段的目标方言语音输入所述目标方言语音识别模型，以获取对目标方言语音的识别结果。本发明通过对预训练语音识别模型进行流式化处理，并利用知识迁移进行辅助，能够显著提升流式模型的识别精度。
9	一种基于语音识别的电子设备及其控制方法	CN202410025380.8	2024-01-08	CN117877486A	2024-04-12	唐瑞芳; 姚国康
本发明适用于自动语音识别技术领域，提供一种基于语音识别的控制方法，应用于一种基于语音识别的控制系统，包括语音采集模块、信号处理模块、特征提取模块、语音识别模块、文字转换模块、语音数据库、报警器、存储器、处理中心；所述语音采集模块、信号处理模块、特征提取模块、语音识别模块、文字转换模块、语音数据库、报警器、存储器分别与处理中心相连；还提供一种基于语音识别的电子设备。本发明可以对任何汉语地区的方言或没有自己文字的少数民族(包括其它国家民族)方言的语音可以在线自动转换为汉语文字，解决了针对没有文字的各种方言是无法进行语音识别为汉语文字的的问题。
10	一种人工智能交互方法及人工智能交互系统	CN202410148487.1	2024-02-02	CN117690416B	2024-04-12	石司马; 顾旭
本发明适用于语音交互技术领域，提供了一种人工智能交互方法及人工智能交互系统，所述方法包括以下步骤：接收目标用户语音输入信息，采集目标用户人脸图像；对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；对目标用户人脸图像进行分析，得到目标性别和目标年龄；根据目标性别和目标年龄确定虚拟人像；根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。本发明中，虚拟人像的外形和声音特点更能符合用户的倾听喜好；另外，交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配，使得用户感到亲切，体验感更好。
11	信息处理装置、信息处理方法以及信息处理系统	CN201980033449.9	2019-04-11	CN112136102B	2024-04-02	原昌宏; 龟冈慎平
提供了一种信息处理装置、一种信息处理方法和一种信息处理系统，通过其处理与代理的基于语音的对话。所述信息处理装置包括：通信单元，通过驻留在第一设备中的代理接收与用户对话有关的信息；以及控制单元，控制外部代理服务。控制单元收集以下至少一个：用户图像或语音；与用户对第一设备的操作有关的信息；或者由安装在第一设备中的传感器检测的传感器信息。控制单元控制外部代理服务的调用。
12	一种基于大数据服务的信息采集设备及信息采集方法	CN202311193749.8	2023-09-15	CN117275459B	2024-03-29	曹少天; 石桂林
本发明公开了一种基于大数据服务的信息采集设备及信息采集方法，涉及大数据服务技术领域，其技术方案要点包括数据采集模块，所述数据采集模块包括第一数据采集单元和第二数据采集单元；所述第一数据采集单元用于采集交流者正在与机器人进行语言交流时的基本信息；其中，所述基本信息包括语种信息、音质信息和语言情感信息；所述第二数据采集单元用于采集正在与机器人进行语言交流时所处环境的其他语言信息；效果是通过对交流者正在与机器人进行语言交流时的音质信息进行识别，通过对交流者的音质追踪后识别交流者的语言内容，从而机器人根据交流者的语言内容提供相关服务。
13	语音识别方法、装置、电子设备及存储介质	CN202311672423.3	2023-12-06	CN117765927A	2024-03-26	郭一凡; 刘亚明; 田垚; 单煜翔; 索宏彬; 万玉龙
本申请提供一种语音识别方法、装置、电子设备及存储介质，所述方法包括利用目标语音识别模型确定第一帧语音的声学嵌入向量；利用目标语音识别模型确定第一帧语音对应的文本嵌入向量；获取第一帧语音的语种嵌入向量；根据声学嵌入向量、文本嵌入向量和语种嵌入向量，确定第一帧语音对应的第一文本信息。本申请提供的语音识别方法在语音识别时，结合语音对应的语种嵌入向量，在识别过程中考虑到语种的相关信息从而更加准确的识别出对应的文本信息，提高语音识别的精度；同时还可以利用同一个语音识别模型识别不同的语种，增加语音识别模型的适用场景。
14	语音信息处理方法及装置	CN202311713929.4	2023-12-13	CN117727300A	2024-03-19	李为民; 刘丹; 请求不公布姓名
本说明书涉及智慧医疗技术领域，尤其涉及一种语音信息处理方法及装置。其中所述语音信息处理方法，包括：采集术者在手术过程中的语音信息；获取手术机器人的状态数据和病灶区域的图像数据；根据状态数据和图像数据提炼语音信息的语义，得到第一语义提示信息；发送第一语义提示信息，以向术者的辅助医护人员呈现第一语义提示信息。本说明书实施例可以结合手术机器人的状态数据和病灶区域的图像数据等术中信息，提炼语音信息的语义，从而向辅助医护人员呈现语义提示信息。避免了由于手术现场噪音的存在造成手术信息传递不及时、不准确等情况，从而降低了手术风险。
15	语音识别模型的训练、语音识别方法、装置、设备及介质	CN202311750395.2	2023-12-19	CN117711386A	2024-03-15	丁枫林; 万根顺; 熊世富; 高建清
本发明提供一种语音识别模型的训练、语音识别方法、装置、设备及介质，其中方法包括：获取初始编码器；基于不同语种下语音的语种共享表征和/或语种特定表征，对初始编码器进行预训练，得到预训练编码器；基于预训练编码器，构建预训练识别模型；对预训练识别模型进行有监督微调，得到语音识别模型。基于不同语种下语音的语种共享表征和/或语种特定表征，对初始编码器进行预训练，得到预训练编码器，可以抑制语种间串扰问题，指导初始编码器学习更易于适应不同语种的语音表征，在不显著增加模型参数量和计算量的情况下，既能提升低资源语种识别性能，又能保持高资源语种性能相较于单语模型不降，从而提供一个高效、准确的多语种语音识别模型。
16	一种基于神经网络的小语种口语智能训练方法、系统及设备	CN202410042703.4	2024-01-11	CN117690456A	2024-03-12	项敬畏; 何世超; 伊诺拉·西拉·阿维拉; 杨胜英; 宋蔚
本发明公开了一种基于神经网络的小语种口语智能训练方法、系统及设备，属于语音识别技术领域。该方法包括：收集小语种词语口语表达数据，对小语种词语口语表达数据进行预处理，作为样本数据集；构建生成对抗网络模型，并将样本数据集送入生成对抗网络模型进行样本数据扩充，得到训练样本数据集；构建口语评估模型，并根据训练样本数据集训练口语评估模型，得到优化后的口语评估模型；获取用户的口语信息并输入优化后的口语评估模型，输出评估结果。对于提高小语种学习者的口语水平和语言能力具有重要的意义。
17	语音识别的方法及装置、非易失性存储介质	CN202311676915.X	2023-12-07	CN117672203A	2024-03-08	杨岩; 李杰; 康健
本申请公开了一种语音识别的方法及装置、非易失性存储介质。其中，该方法包括：获取语音信息，并确定每一帧语音信息所属的语音类型，其中，语音类型包括：方言和普通话；根据每一帧语音信息所属的语音类型确定每一帧语音信息对应的语音识别模型，其中，语音识别模型包括：用于识别属于方言的语音信息的第一语音识别模型、用于识别属于普通话的语音信息的第二语音识别模型；采用每一帧语音信息对应的语音识别模型对每一帧语音信息的内容进行识别，得到识别结果。本申请解决了由于粤语和普通话存在同形异音字造成的使用一个语音识别模型同时识别粤语和普通话的识别效果准确率低的技术问题。
18	智慧城市系统、方法、设备及存储介质	CN202311579967.5	2023-11-23	CN117591589A	2024-02-23	赵晶石; 柳光煜; 黄邦屯; 徐梦非; 王春生; 于海滨
本申请关于一种智慧城市系统、方法、设备及存储介质，涉及计算机技术领域。智慧城市系统包括业务与应用模块、数据融合模块、数据预处理模块、大数据中心模块和基础设施模块；业务与应用模块用于采集智慧城市数据，并向数据融合模块发送智慧城市数据；数据融合模块用于将业务与应用模块发送的智慧城市数据转换为预设数据格式，并向数据预处理模块发送数据格式转换后的智慧城市数据；数据预处理模块用于将数据融合模块发送的数据格式转换后的智慧城市数据进行预处理，以得到预处理结果；大数据中心模块用于响应于智慧城市服务处理请求，从预处理结果中，确定并展示智慧城市服务处理请求对应的智慧城市数据。
19	基于HMM和DNN的藏语语音识别方法	CN202010397525.9	2020-05-12	CN111696522B	2024-02-23	韩智丞; 魏建国; 吕绪康
本发明涉及人工智能领域，为提出一种基于HMM‑DNN(隐马尔科夫模型‑深度神经网络)的藏语语音识别系统，将深度学习训练模型与藏语这种低资源语料结合，训练基于藏语的建立模型，对藏语语音进行识别，提高藏族人民人机交互的效率，本发明，基于HMM和DNN的藏语语音识别方法，步骤如下：步骤1：录制藏语语音数据；步骤2：进行数据准备；步骤3：构建语言模型和发音字典；步骤4：进行单音素模型的训练；步骤5：训练三音子模型；步骤6：进行线性判别分析和最大似然线性变换，并进行解码和对齐；步骤7：进行说话人自适应训练；步骤8：进行模型训练。本发明主要应用于藏语音自动识别场合。
20	方言流式语音识别方法、装置、电子设备及存储介质	CN202410044548.X	2024-01-12	CN117558265A	2024-02-13	吕召彪; 赵文博; 肖清; 许程冲
本发明提供一种方言流式语音识别方法、装置、电子设备及存储介质，其中方法包括：分别调整预训练语音识别模型的注意力机制和卷积感受野，以将其进行流式化处理；在流式化的预训练语音识别模型中引入蒸馏损失，以实现非流式模型至流式模型的知识迁移；对目标方言语音对应的方言语音样本进行预处理并分段，并利用分段的方言语音样本对经知识迁移的预训练语音识别模型进行微调训练，获取目标方言语音识别模型；将目标方言语音进行预处理并分段后，将分段的目标方言语音输入所述目标方言语音识别模型，以获取对目标方言语音的识别结果。本发明通过对预训练语音识别模型进行流式化处理，并利用知识迁移进行辅助，能够显著提升流式模型的识别精度。

1 2 3 4 5 6 7 8 9 10

IPRDB

热门服务

关于我们

友情链接

联系方式