
基本信息:
- 专利标题: 目标检测方法、装置、设备、存储介质和计算机程序产品
- 申请号:CN202411443367.0 申请日:2024-10-16
- 公开(公告)号:CN119445205A 公开(公告)日:2025-02-14
- 发明人: 葛建跃 , 余立 , 丛鹏宇 , 严昱超 , 陈建忠 , 金炜众 , 陈其博 , 厉舒畅 , 刘梦迪 , 郭轩江
- 申请人: 中国移动通信集团浙江有限公司 , 中国移动通信集团有限公司 , 中国移动(浙江)创新研究院有限公司 , 浙江移动信息系统集成有限公司
- 申请人地址: 浙江省杭州市解放东路19号
- 专利权人: 中国移动通信集团浙江有限公司,中国移动通信集团有限公司,中国移动(浙江)创新研究院有限公司,浙江移动信息系统集成有限公司
- 当前专利权人: 中国移动通信集团浙江有限公司,中国移动通信集团有限公司,中国移动(浙江)创新研究院有限公司,浙江移动信息系统集成有限公司
- 当前专利权人地址: 浙江省杭州市解放东路19号
- 代理机构: 北京路浩知识产权代理有限公司
- 代理人: 史洪溢
- 主分类号: G06V10/764
- IPC分类号: G06V10/764 ; G06V10/40 ; G06V10/774
摘要:
本发明提供一种目标检测方法、装置、设备、存储介质和计算机程序产品,涉及人工智能技术领域,该方法包括:获取待检测文本和待检测图像;将待检测文本和待检测图像输入开集目标检测模型,得到开集目标检测模型输出的检测结果;其中,开集目标检测模型包括图像信息与文本信息的混合模块,混合模块包括多层多头自注意力机制和多层基于类别引导的多头交叉注意力机制,混合模块用于对第一图像类别特征向量与待检测文本的文本特征进行增强,得到第一强化文本特征。本发明通过在开集目标检测模型中引入混合模块,将图像类别特征向量与文本特征相结合,使文本特征带有图像语义信息,从而减少语义歧义带来的影响,提高模型的零样本和少样本推理能力。