基于多模态联合语义感知的零样本目标检测 |
| |
引用本文: | 段立娟,袁蓥,王文健,梁芳芳.基于多模态联合语义感知的零样本目标检测[J].北京航空航天大学学报,2024(2):368-375. |
| |
作者姓名: | 段立娟 袁蓥 王文健 梁芳芳 |
| |
作者单位: | 1. 北京工业大学信息学部;2. 可信计算北京市重点实验室;3. 信息安全等级保护关键技术国家工程实验室;4. 河北农业大学信息科学与技术学院;5. 河北省农业大数据重点实验室 |
| |
基金项目: | 国家自然科学基金(62176009,62106065); |
| |
摘 要: | 零样本目标检测借助语义嵌入作为引导信息,将未见过的物体的视觉特征与类别语义嵌入映射到同一空间,根据其在映射空间的距离进行分类,但由于语义信息获取的单一性,视觉信息缺乏可靠表示,易混淆背景信息和未见过对象信息,使得视觉和语义之间很难无差别对齐。基于此,借助视觉上下文模块捕捉视觉特征的上下文信息,并通过语义优化模块对文本上下文和视觉上下文信息进行交互融合,增加视觉表达的多样化,使模型感知到前景的辨别性语义,从而有效地实现零样本目标检测。在MS-COCO的2个划分数据集上进行实验,在零样本目标检测和广义零样本目标检测的准确率和召回率上取得了提升,结果证明了所提方法的有效性。
|
关 键 词: | 目标检测 零样本目标检测 多模态 上下文感知 语义优化 |
|
|