基于差异化和空间约束的自动图像描述模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于差异化和空间约束的自动图像描述模型

引用本文：	姜文晖,陈志亮,程一波,方玉明,左一帆.基于差异化和空间约束的自动图像描述模型[J].北京航空航天大学学报,2024(2):456-465.

作者姓名：	姜文晖陈志亮程一波方玉明左一帆

作者单位：	江西财经大学信息管理学院

基金项目：	国家自然科学基金(62161013,62162029)；;江西省自然科学基金(20224BAB212010,20212BAB202011,20224BAB212012,20232BAB202001)~~；

摘要：	多头注意力机制是图像描述模型的常用方法，该机制通过多分支结构构建关于输入特征的独特属性，以提高特征模型的区分性。然而，不同分支的独立性导致建模存在冗余性。同时，注意力机制会关注于不重要的图像区域，导致描述的文本不够准确。针对上述问题，提出一种损失函数作为训练目标的正则化项，以提高多头注意力机制的多样性和准确性。在多样性方面，提出一种多头注意力的差异化正则，鼓励多头注意力机制的不同分支关注于所描述目标的不同部件，使不同分支的建模目标变得简单。同时，不同分支相互融合，最后形成完整且更有区分性的视觉描述。在准确性方面，设计一种空间一致性正则。通过建模多头注意力机制的空间关联，鼓励注意力机制关注的图像区域尽可能集中，从而抑制背景区域的影响，提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法，最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证，并与多种代表性工作进行对比。实验结果表明：所提方法显著地提高了图像描述的准确性。
关键词：	多头注意力机制图像描述差异性空间约束模态融合

设为首页 | 免责声明 | 关于勤云 | 加入收藏