
基本信息:
- 专利标题: 一种基于语义内容多粒度解纠缠的说话人确认方法及装置
- 申请号:CN202511043577.5 申请日:2025-07-28
- 公开(公告)号:CN120636377A 公开(公告)日:2025-09-12
- 发明人: 姚姗姗 , 刘典龙
- 申请人: 山西大学
- 申请人地址: 山西省太原市小店区坞城路92号
- 专利权人: 山西大学
- 当前专利权人: 山西大学
- 当前专利权人地址: 山西省太原市小店区坞城路92号
- 代理机构: 太原智慧管家知识产权代理事务所(特殊普通合伙)
- 代理人: 马俊平
- 主分类号: G10L15/18
- IPC分类号: G10L15/18 ; G10L15/16 ; G10L17/02 ; G10L17/04 ; G10L17/18
摘要:
本发明属于声纹识别技术领域,公开了一种基于语义内容多粒度解纠缠的说话人确认方法及装置。该方法通过双分支网络模型分别提取第一帧级声纹特征和语义特征,经维度匹配模块得到第二帧级特征,经聚合模块得到话语级特征;构建帧级和话语级解纠缠损失,结合多粒度解纠缠损失和声纹分类损失形成总损失函数训练模型;利用训练好的模型提取待比较语音的话语级声纹特征进行身份确认。本发明通过多粒度解纠缠消除语义内容干扰,提升声纹特征准确性,同时采用预训练语义编码器降低计算复杂度,适用于文本无关的说话人确认场景。