专利号CN202511043577.5 | 一种基于语义内容多粒度解纠缠的说话人确认方法及装置

发明公开 CN120636377A 一种基于语义内容多粒度解纠缠的说话人确认方法及装置 审中-公开 AI深度解读

专利标题：一种基于语义内容多粒度解纠缠的说话人确认方法及装置
申请号：CN202511043577.5 申请日：2025-07-28
公开(公告)号：CN120636377A 公开(公告)日：2025-09-12
发明人：姚姗姗 , 刘典龙
申请人：山西大学
申请人地址：山西省太原市小店区坞城路92号
专利权人：山西大学
当前专利权人：山西大学
当前专利权人地址：山西省太原市小店区坞城路92号
代理机构：太原智慧管家知识产权代理事务所(特殊普通合伙)
代理人：马俊平
主分类号： G10L15/18
IPC分类号： G10L15/18 ; G10L15/16 ; G10L17/02 ; G10L17/04 ; G10L17/18

摘要：

本发明属于声纹识别技术领域，公开了一种基于语义内容多粒度解纠缠的说话人确认方法及装置。该方法通过双分支网络模型分别提取第一帧级声纹特征和语义特征，经维度匹配模块得到第二帧级特征，经聚合模块得到话语级特征；构建帧级和话语级解纠缠损失，结合多粒度解纠缠损失和声纹分类损失形成总损失函数训练模型；利用训练好的模型提取待比较语音的话语级声纹特征进行身份确认。本发明通过多粒度解纠缠消除语义内容干扰，提升声纹特征准确性，同时采用预训练语义编码器降低计算复杂度，适用于文本无关的说话人确认场景。

中国专利公布公告审查信息 Global Dossier Espacenet

G	物理
--G10	乐器；声学
----G10L	语言分析或合成；语言识别
------G10L15/00	语音识别
--------G10L15/08	.语音分类或检索
----------G10L15/18	..利用自然语言模型

发明公开 CN120636377A 一种基于语义内容多粒度解纠缠的说话人确认方法及装置 审中-公开 AI深度解读

基本信息:

信息查询:

IPC结构图谱:

IPRDB

热门服务

关于我们

友情链接

联系方式