首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于多模态掩码Transformer网络的社会事件分类
引用本文:陈宏,钱胜胜,李章明,方全,徐常胜.基于多模态掩码Transformer网络的社会事件分类[J].北京航空航天大学学报,2024(2):579-587.
作者姓名:陈宏  钱胜胜  李章明  方全  徐常胜
作者单位:1. 郑州大学河南先进技术研究院;2. 中国科学院自动化研究所
基金项目:国家自然科学基金(61832002)~~;
摘    要:多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。

关 键 词:多模态  社会事件分类  社交媒体  表示学习  多模态Transformer网络
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号