
基本信息:
- 专利标题: 基于模态增强的图像描述模型训练方法及图像描述方法
- 申请号:CN202210963668.0 申请日:2022-08-11
- 公开(公告)号:CN115238118B 公开(公告)日:2025-05-02
- 发明人: 黄俊 , 王晓艺 , 魏鑫燏
- 申请人: 中国科学院上海高等研究院
- 申请人地址: 上海市浦东新区海科路99号
- 专利权人: 中国科学院上海高等研究院
- 当前专利权人: 中国科学院上海高等研究院
- 当前专利权人地址: 上海市浦东新区海科路99号
- 代理机构: 上海光华专利事务所(普通合伙)
- 代理人: 牛莎莎
- 主分类号: G06F16/583
- IPC分类号: G06F16/583 ; G06F16/383 ; G06F40/30 ; G06N5/04 ; G06N20/00
摘要:
本发明提供基于模态增强的图像描述模型训练方法及图像描述方法,其中,该模型训练方法于执行单次模型训练时,包括:获取当前训练数据中的图像数据,提取所述图像数据的图像区域特征;获取所述当前训练数据中的文本数据;对所述文本数据中的各单词,依次执行基于模态信息增强的上下文推理过程,以获得对应的语义推理信息;基于各单词对应的所述语义推理信息,和当前图像的语义标签信息,构建模型的交叉熵损失,以基于该交叉熵损失对图像描述模型进行优化,可以充分挖掘图像视觉特征和文本语言特征之间的关联性,从而增强模型推理能力,提高模型理解多模态语义的准确性。
公开/授权文献:
- CN115238118A 基于模态增强的图像描述模型训练方法及图像描述方法 公开/授权日:2022-10-25
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F16/00 | 信息检索;数据库结构;文件系统结构 |
--------G06F16/10 | .文件系统;文件服务器 |
----------G06F16/58 | ..使用元数据的特征检索,例如,不来自内容或者元数据派生的 |
------------G06F16/583 | ...使用从内容中自动派生的元数据 |