首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于差异化和空间约束的自动图像描述模型
引用本文:姜文晖,陈志亮,程一波,方玉明,左一帆.基于差异化和空间约束的自动图像描述模型[J].北京航空航天大学学报,2024(2):456-465.
作者姓名:姜文晖  陈志亮  程一波  方玉明  左一帆
作者单位:江西财经大学信息管理学院
基金项目:国家自然科学基金(62161013,62162029);;江西省自然科学基金(20224BAB212010,20212BAB202011,20224BAB212012,20232BAB202001)~~;
摘    要:多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。针对上述问题,提出一种损失函数作为训练目标的正则化项,以提高多头注意力机制的多样性和准确性。在多样性方面,提出一种多头注意力的差异化正则,鼓励多头注意力机制的不同分支关注于所描述目标的不同部件,使不同分支的建模目标变得简单。同时,不同分支相互融合,最后形成完整且更有区分性的视觉描述。在准确性方面,设计一种空间一致性正则。通过建模多头注意力机制的空间关联,鼓励注意力机制关注的图像区域尽可能集中,从而抑制背景区域的影响,提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法,最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证,并与多种代表性工作进行对比。实验结果表明:所提方法显著地提高了图像描述的准确性。

关 键 词:多头注意力机制  图像描述  差异性  空间约束  模态融合
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号