基于多模态掩码Transformer网络的社会事件分类 |
| |
作者姓名: | 陈宏 钱胜胜 李章明 方全 徐常胜 |
| |
作者单位: | 郑州大学河南先进技术研究院,郑州 450000;中国科学院自动化研究所,北京 100190 |
| |
基金项目: | 国家自然科学基金(61832002)~~; |
| |
摘 要: | 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。
|
关 键 词: | 多模态 社会事件分类 社交媒体 表示学习 多模态Transformer网络 |
本文献已被 万方数据 等数据库收录! |
|