
基本信息:
- 专利标题: 一种听视觉时空特征融合的声乐练声元音发音质量评估方法
- 申请号:CN202510944393.X 申请日:2025-07-09
- 公开(公告)号:CN120636469A 公开(公告)日:2025-09-12
- 发明人: 廖一鹏 , 章先恒 , 孙磊 , 白森杰 , 高跃明
- 申请人: 福州大学
- 申请人地址: 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学
- 专利权人: 福州大学
- 当前专利权人: 福州大学
- 当前专利权人地址: 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学
- 代理机构: 福州元创专利商标代理有限公司
- 代理人: 丘鸿超; 蔡学俊
- 主分类号: G10L25/60
- IPC分类号: G10L25/60 ; G10L25/51 ; G10L25/03 ; G10L25/30 ; G06N3/0442 ; G06N3/0464 ; G06V40/16
摘要:
本发明提供一种听视觉时空特征融合的声乐练声元音发音质量评估方法,包括:采集歌唱者的元音发音音频信号及对应视频,构建多模态数据集;对所述音频信号通过自适应阶数的短时分数阶傅里叶变换生成分数阶Mel语谱图;提取所述分数阶Mel语谱图的时序特征与空间特征,并通过门控机制融合生成音频时空特征;提取视频中的人脸视觉特征,并通过交叉注意力机制与所述音频时空特征融合,其中所述交叉注意力机制集成周期性建模网络;将融合后的特征输入分类器,采用动态权重多模态余弦损失函数训练模型,所述动态权重多模态余弦损失函数通过混淆矩阵动态调整样本权重,对分类错误的样本基于其历史误分频次增加权重;输出发音质量评估结果。
IPC结构图谱:
G | 物理 |
--G10 | 乐器;声学 |
----G10L | 语言分析或合成;语言识别 |
------G10L25/00 | 不限于组G10L15/00-G10L21/00的语言或者声音分析技术 |
--------G10L25/48 | .专门适用于特定用途 |
----------G10L25/51 | ..比较或判别 |
------------G10L25/60 | ...语音信号的质量检测 |