首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
图像描述生成任务要求机器自动生成自然语言文本来描述图像所呈现的语义内容,从而将视觉信息转化为文本描述,便于对图像进行管理、检索、分类等工作。图像差异描述生成是图像描述生成任务的延伸,其难点在于如何确定2张图像之间的视觉语义差别,并将视觉差异信息转换成对应的文本描述。基于此,提出了一种引入文本信息辅助训练的模型框架TA-IDC。采取多任务学习的方法,在传统的编码器-解码器结构上增加文本编码器,在训练阶段通过文本辅助解码和混合解码2种方法引入文本信息,建模视觉和文本2个模态间的语义关联,以获得高质量的图像差别描述。实验证明,TA-IDC模型在3个图像差异描述数据集上的主要指标分别超越已有模型最佳结果12%、2%和3%。  相似文献   

2.
现有图像描述文本生成模型能够应用词性序列和句法树使生成的文本更符合语法规则,但文本多为简单句,在语言模型促进深度学习模型的可解释性方面研究甚少。将依存句法信息融合到深度学习模型以监督图像描述文本生成的同时,可使深度学习模型更具可解释性。图像结构注意力机制基于依存句法和图像视觉信息,用于计算图像区域间关系并得到图像区域关系特征;融合图像区域关系特征和图像区域特征,与文本词向量通过长短期记忆网络(LSTM),用于生成图像描述文本。在测试阶段,通过测试图像与训练图像集的内容关键词,计算2幅图像的内容重合度,间接提取与测试图像对应的依存句法模板;模型基于依存句法模板,生成多样的图像描述文本。实验结果验证了模型在改善图像描述文本多样性和句法复杂度方面的能力,表明模型中的依存句法信息增强了深度学习模型的可解释性。   相似文献   

3.
视频摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。   相似文献   

4.
为解决现有图像修复算法因缺乏足够的上下文信息导致修复大面积破损时效果差且修复结果不可控的缺陷,提出了双重模态文本引导的图像修复算法。引入文本标签作为修复的控制引导,确保修复结果的整体与区域一致,并增加修复的可控多样性。设计双重模态掩码注意力机制提取破损区域的语义信息;通过深度文本图像融合模块加深生成器中的文本图像融合过程,并应用图像文本匹配损失最大化生成图像与文本之间的语义相似度;采用投射鉴别器训练生成图像与真实图像增强修复图像的真实性。在2个带有文本标签的数据集上进行定量和定性实验,结果表明:生成的修复图像与引导文本描述一致,可根据不同的文字描述生成多样的结果。  相似文献   

5.
多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。针对上述问题,提出一种损失函数作为训练目标的正则化项,以提高多头注意力机制的多样性和准确性。在多样性方面,提出一种多头注意力的差异化正则,鼓励多头注意力机制的不同分支关注于所描述目标的不同部件,使不同分支的建模目标变得简单。同时,不同分支相互融合,最后形成完整且更有区分性的视觉描述。在准确性方面,设计一种空间一致性正则。通过建模多头注意力机制的空间关联,鼓励注意力机制关注的图像区域尽可能集中,从而抑制背景区域的影响,提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法,最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证,并与多种代表性工作进行对比。实验结果表明:所提方法显著地提高了图像描述的准确性。  相似文献   

6.
针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择性地关注视频数据的重要信息,获取数据的全局特征;采用双向门控循环单元(GRU)捕捉多模态数据内部上下文之间的交互特征;通过对局部数据之间的细微差别进行联合编码挖掘出视频和文本数据中的局部信息。通过数据的全局特征、上下文交互特征和局部特征构成多模态数据的多语义线索,更好地挖掘数据中的语义信息,进而提高检索效果。在此基础上,提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,提升了跨模态特征的学习效果。在MSR-VTT数据集上的实验表明:与当前最先进的方法比较,所提算法在文本检索视频任务上提高了11.1%;在MSVD数据集上的实验表明:与当前先进的方法比较,所提算法在文本检索视频任务上总召回率提高了5.0%。   相似文献   

7.
针对基于深度学习的语义分割模型在解析遥感图像时,小尺寸目标和目标边界存在分割不准确的问题,提出一种U型网络模型SGE-Unet。该模型通过优化网络结构加强模型的特征提取能力;融合空间组增强注意力,提升模型对上下文语义信息的解析能力;采用中值频率平衡交叉熵损失函数抑制类别分布不均衡的影响。在2个数据集上进行实验,SGE-Unet的整体准确率、平均交并比、■分数和Kappa系数均高于主流模型,Vaihingen数据集中小尺寸目标车的交并比和F1分数分别为0.719和0.901,比次优模型提升了16%和11%,实验结果表明所提模型能更精准地分割小尺寸目标及目标边界。  相似文献   

8.
针对无人机航拍图像背景复杂、小尺寸目标较多等问题,提出了一种基于倒置残差注意力的无人机航拍图像小目标检测算法。在主干网络部分嵌入倒置残差模块与倒置残差注意力模块,利用低维向高维的特征信息映射,获得丰富的小目标空间信息和深层语义信息,提升小目标的检测精度;在特征融合部分设计多尺度特征融合模块,融合浅层空间信息和深层语义信息,并生成4个不同感受野的检测头,提升模型对小尺寸目标的识别能力,减少小目标的漏检;设计马赛克混合数据增强方法,建立数据之间的线性关系,增加图像背景复杂度,提升算法的鲁棒性。在VisDrone数据集上的实验结果表明:所提模型的平均精度均值比DSHNet模型提升了1.2%,有效改善了无人机航拍图像小目标漏检、误检的问题。  相似文献   

9.
当将人工智能技术应用于军事领域中的目标识别任务时,针对由红外图片采集的局限性而造成的训练数据不足的问题,提出了基于生成对抗网络以生成红外图像的方法,实现了数据集的扩充。对基本的生成对抗网络进行了改进,将网络的输入由随机噪声变为真实图片,使之实现了图片到图片的风格转换,即彩色图片转变为红外图片。经过网络模型的搭建和训练,实验结果表明,该方法能够有效生成清晰和高质量的红外图片,解决了由红外数据不足而造成的网络训练不充分的问题。  相似文献   

10.
高光谱图像(HSI)分类是遥感领域的基础应用之一。该任务旨在根据部分带类别标签的像素样本训练分类器,预测图像中剩余像素对应的类别标签。在实际应用中,由于人工标记样本成本过高,只能获得少量带标签的样本。针对少量样本无法准确描述数据分布从而导致训练过程过拟合的问题,提出一种基于记忆关联学习的小样本高光谱图像分类方法。考虑到无标签样本中包含大量与数据分布相关的信息,构建基于有标签样本记忆模块,并根据样本间的特征关联,利用不断更新的记忆模块学习无标签样本的潜在类别分布,构建无监督分类模型,并与传统的有监督分类模型进行联合学习。在多个高光谱图像分类数据集上的实验结果表明,所提方法能有效提升小样本高光谱图像分类的准确性。   相似文献   

11.
针对空间低照度成像条件下卫星光学图像信息受损严重的问题,提出了一种基于生成对抗网络的空间卫星低照度图像增强方法,提高了图像的平均亮度及对比度,恢复图像细节信息,为图像识别等图像处理技术提供更高质量的数据信息.首先,设计了一种密集连接的生成器,加强了各特征提取阶段中的信息传递以及多层特征的融合,减少了特征信息的损耗,更好...  相似文献   

12.
针对目前Anchor-free目标检测方法CenterNet(ObjectsasPoints)生成热力图不准确、检测精度不足的问题,提出了一种基于特征迭代聚合的高分辨率表征网络CenterNet-DHRNet。首先,引入高分辨率表征骨干网络,并用迭代聚合的方式对不同分辨率的特征图进行融合,提高网络的分辨率,有效减少图像在下采样过程中损失的空间语义信息。其次,使用高效通道注意力机制对高分辨率表征骨干网络的输出进行优化。最后,利用结合空洞卷积的空间金字塔池化操作增强网络对不同尺度物体的感受野。实验在PASCALVOC数据集和KITTI数据集上进行,结果表明:CenterNet-DHRNet精度更高,满足实时检测的性能要求,具有良好的鲁棒性。   相似文献   

13.
融合邻域色差的PSPNet对遥感影像的分割   总被引:1,自引:0,他引:1  
传统的遥感影像语义分割利用影像的光谱特性,将具有相似值的像素进行归类,但无法区分具有不同光谱的同一类对象.针对这一问题,提出将邻域的色差信息和原始图像一起输入PSPNet网络中的方法.先将RGB变换到LAB空间,然后采用CIELAB公式计算出每一个像素与周围8个邻域像素的色差值,取平均值作为该像素的邻域色差值.在WHU...  相似文献   

14.
现有图像配准算法中,借助图像采集设备参数的方法存在硬件内参难以获得或精度不够的问题,采用匹配图像特征计算图像单应性的方法存在对场景深度信息利用不全的问题。针对这一现象,提出了结合可见光图像与其深度信息来生成更具有真实性的配准图像对数据,用以训练得到一个可以进行像素级别图像配准的深度神经网络PIR-Net。建立了一个大规模、多视角、超仿真的图像配准数据集:多视角配准(MVR)数据集,该数据集包含7 240对含有深度信息的待配准图像及其像素级别的坐标对准真值;基于编码器-解码器的深度神经网络结构,训练得到一个能以全分辨率形式对2幅输入图像之间的坐标变化矩阵进行重建的PIR-Net。通过实验验证了PIR-Net能够在未知相机内参的情况下实现不同视角的可见光图像配准,并比传统算法具有更高的配准精度。在MVR数据集上,PIR-Net的配准误差仅为通用的特征匹配对准算法(SIFT+RANSAC)的18%,同时减少了30%的时间消耗。   相似文献   

15.
由于电力系统的安全问题往往会造成严重的经济或社会影响,隐患检测已成为电力系统不可或缺的重要环节。随着人工智能领域的发展,基于深度学习的智能化电力系统隐患检测技术逐渐得到越来越多的关注。但目前的方法大多只是单一地考虑图像的全局特征或局部特征,无法全面彻底表征图像,进而难以捕捉电力领域尤其室外复杂背景下的隐患检测。为此,基于深度学习技术,提出了一种面向电力系统的多粒度隐患检测方法MGNet。通过引入图像的多粒度信息,构建全局和局部网络,进行多粒度级检测;并通过不同粒度级检测结果的协作式融合,增强检测的全面性。在杆塔连接金具隐患和线路通道机械隐患2个数据集上进行了实验比较和分析,对所提模型的检测性能进行评估。通过与现有最优隐患检测基准方法相比,所提方法在2种不同数据集上的平均精度均值分别提升了2.74%和2.77%,验证了模型的有效性。   相似文献   

16.
光伏组件的遮挡物识别是光伏运维系统中不可或缺的环节,传统识别算法多依赖人工巡检,成本高昂且效率低下。基于卷积神经网络,提出了一种面向光伏组件的遮挡物识别算法PORNet。通过引入特征金字塔,构建多个分辨率下具有丰富语义信息的图像特征,提升对遮挡物尺度和密度的敏感性。通过特征自选择,筛选出语义最具代表性的特征图,以加强物体环境的语义信息表达。用筛选出的特征图完成遮挡物识别,从而提升识别准确率。在自建光伏组件落叶遮挡数据集上进行了实验比较和分析,并对识别性能进行了评估,通过与现有物体识别算法相比,所提算法的准确率和召回率分别提升了9.21%和15.79%。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号