首页 | 本学科首页   官方微博 | 高级检索  
     检索      

融合语义信息的视频摘要生成
引用本文:滑蕊,吴心筱,赵文天.融合语义信息的视频摘要生成[J].北京航空航天大学学报,2021,47(3):650-657.
作者姓名:滑蕊  吴心筱  赵文天
作者单位:北京理工大学 计算机学院, 北京 100081
摘    要:视频摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。 

关 键 词:视频摘要    视觉-语义嵌入空间    视频文本描述    视频关键帧    长短期记忆(LSTM)模型
收稿时间:2020-08-24

Video summarization by learning semantic information
HUA Rui,WU Xinxiao,ZHAO Wentian.Video summarization by learning semantic information[J].Journal of Beijing University of Aeronautics and Astronautics,2021,47(3):650-657.
Authors:HUA Rui  WU Xinxiao  ZHAO Wentian
Institution:School of Computer Science & Technology, Beijing Institute of Technology, Beijing 100081, China
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京航空航天大学学报》浏览原始摘要信息
点击此处可从《北京航空航天大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号