首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着媒体数据的多样化发展,联合图像与三维模型的跨域检索成为三维模型检索问题的一个新挑战。针对图像与三维模型差异大、难匹配问题,提出了一种基于三元组网络的跨域数据检索方法。以端到端的方式构建真实图像与三维模型的特征联合嵌入空间,通过特征间的距离度量不同模态数据之间的相似性,实现从单张图像检索相似的三维模型。为了提高跨域检索准确度,将三维模型用一组顺序视图表示,结合门控循环单元(GRU)聚合视图级特征,同时引入注意力机制提取图像特征,缩小真实图像与投影视图间的语义差异。实验结果表明:相比于同类方法,所提方法在两个跨域数据集上的检索平均准确率至少提升2.98%~3.05%。   相似文献   

2.
针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择性地关注视频数据的重要信息,获取数据的全局特征;采用双向门控循环单元(GRU)捕捉多模态数据内部上下文之间的交互特征;通过对局部数据之间的细微差别进行联合编码挖掘出视频和文本数据中的局部信息。通过数据的全局特征、上下文交互特征和局部特征构成多模态数据的多语义线索,更好地挖掘数据中的语义信息,进而提高检索效果。在此基础上,提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,提升了跨模态特征的学习效果。在MSR-VTT数据集上的实验表明:与当前最先进的方法比较,所提算法在文本检索视频任务上提高了11.1%;在MSVD数据集上的实验表明:与当前先进的方法比较,所提算法在文本检索视频任务上总召回率提高了5.0%。   相似文献   

3.
为解决现有图像修复算法因缺乏足够的上下文信息导致修复大面积破损时效果差且修复结果不可控的缺陷,提出了双重模态文本引导的图像修复算法。引入文本标签作为修复的控制引导,确保修复结果的整体与区域一致,并增加修复的可控多样性。设计双重模态掩码注意力机制提取破损区域的语义信息;通过深度文本图像融合模块加深生成器中的文本图像融合过程,并应用图像文本匹配损失最大化生成图像与文本之间的语义相似度;采用投射鉴别器训练生成图像与真实图像增强修复图像的真实性。在2个带有文本标签的数据集上进行定量和定性实验,结果表明:生成的修复图像与引导文本描述一致,可根据不同的文字描述生成多样的结果。  相似文献   

4.
通过对跨模态检索问题的研究,属性信息的使用可以增强所提取特征的语义表达性,但现有基于自然语言的跨模态行人重识别算法对行人图片和文本的属性信息利用不够充分。基于双重属性信息的跨模态行人重识别算法充分考虑了行人图片和文本描述的属性信息,构建了基于文本属性和图片属性的双重属性空间,并通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络,提高了所提取图文特征的可区分性和语义表达性。跨模态行人重识别数据集CUHK-PEDES上的实验评估表明,所提算法的检索准确率Top-1达到了56.42%,与CMAAM算法的Top-1(56.68%)具有可比性,Top-5、Top-10相比CMAAM算法分别提升了0.45%、0.29%。针对待检索图片库中可能存在身份标签的应用场景,利用行人的类别信息提取属性特征,可以较大幅度提高跨模态行人图片的检索准确率,Top-1达到64.88%。消融实验证明了所提算法使用的文本属性和图片属性的重要性及基于双重属性空间的有效性。   相似文献   

5.
可视-红外跨模态行人重识别任务的目标是给定一个模态的特定人员图像,在其他不同模态摄像机所拍摄的图像集中进行检索,找出相同人员对应的图像。由于成像方式不同,不同模态的图像之间存在明显的模态差异。为此,从度量学习的角度出发,对损失函数进行改进以获取具有更加辨别性的信息。对图像特征内聚性进行理论分析,并在此基础上提出一种基于内聚性分析和跨模态近邻损失函数的重识别方法,以加强不同模态样本的内聚性。将跨模态困难样本的相似性度量问题转化为跨模态最近邻样本对和同模态样本对的相似性度量,使得网络对模态内聚性的优化更加高效和稳定。对所提方法在全局特征表示的基线网络和部分特征表示的基线网络上进行实验验证结果表明:所提方法对可视-红外行人重识别的预测结果相较于基线方法,平均准确度最高可提升8.44%,证明了方法在不同网络架构中的通用性;同时,以较小的模型复杂度和较低的计算量为代价,实现了可靠的跨模态行人重识别结果。  相似文献   

6.
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。  相似文献   

7.
针对产品全三维数字化研制中产生的MBD历史建模数据重用性需求,提出了一种基于本体技术的MBD模型知识表达与管理方法,综合考虑几何信息与非几何信息进行检索应用。首先,根据MBD数据集规范性要求,以模型检索为目的,构建本体结构,分为几何信息层与非几何信息层进行具体阐述;其次,根据已构建本体结构,给出几何信息层与非几何信息层相似性对比方法;最终,综合几何信息与非几何信息,实现MBD模型检索。本文方法通过本体技术,将MBD模型数据进行结构化、语义化表达和存储,在此基础上,综合考虑几何信息相似度及非几何信息相似度,进行相似模型检索,实现MBD模型信息重用。  相似文献   

8.
基于深度学习的图像超分辨率(SR)重建方法主要通过增加模型的深度来提升图像重建的质量,但同时增加了模型的计算代价,很多网络利用注意力机制来提高特征提取能力,但难以充分学习到不同区域的特征。为此,提出一种基于期望最大化(EM)自注意力残差的图像超分辨率重建网络。该网络通过改进基础残差块,构建特征增强残差块,以更好地复用残差块中所提取的特征。为增加特征信息在空间上的相关性,引入EM自注意力机制,构建EM自注意力残差模块来增强模型中每个模块的特征提取能力,并通过级联EM自注意力残差模块来构建整个模型的特征提取结构。所获得的特征图通过上采样的图像重建模块获得重建的高分辨率图像。将所提方法与主流方法进行实验对比,结果表明:所提方法在5个流行的SR测试集上能够取得较好的主观视觉效果和更优的性能指标。  相似文献   

9.
行人图像分辨率的变化对现有的行人重识别方法带来了很大的挑战。针对这一问题,提出了一种新的跨分辨率行人重识别方法。该方法从两方面解决分辨率变化带来的识别困难:一方面通过通道注意力机制和空间注意力机制捕捉人物特征获取局部区域;另一方面通过核动态上采样模块恢复任意分辨率图像的局部区域信息。为了验证所提方法的有效性,在Market1501、CUHK03和CAVIAR三个公开数据集上开展了对比实验,实验结果表明:所提方法取得了最佳性能。   相似文献   

10.
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。  相似文献   

11.
针对提高基于生成式对抗网络的复原图像可信度的需求,提出一种基于多方向差异哈希(MDhash)算法的复原图像质量测评方法。该方法基于像素域,根据相邻像素之间灰度值的差异计算图像的哈希值。通过组合横向、纵向、斜向上、斜向下四个方向的Hash值得到多方向差异哈希值,实现图像的准确表征。通过计算四个方向上复原图像与参考图像的MDhash值之间的汉明距离,度量复原图像与原始图像的相似性。最后,基于公开数据集对所提评价指标与主观评分值的相关性进行验证。实验结果表明,本方法可实现对复原图像质量的准确量化评估,与对比方法结构相似度(SSIM)相比,MDhash方法与人的主观评价结果具有更高的相关系数,相关系数为0.9819。  相似文献   

12.
利用人工智能和深度学习技术自动化地分析互联网海量图片,快速、准确地识别有害的暴恐图像并及时处置是反恐工作的重要手段之一。研究了利用深度学习和迁移学习技术对暴恐图像进行分类识别。首先,定义了暴恐图像的主要概念特征,并针对性地构建数据集;其次,针对暴恐图像正样本较少的问题,设计深度神经网络模型和迁移学习方式;最后,基于构建的训练数据集进行模型训练和测试。结果显示:所提方法可以快速、准确地对互联网图片进行分类识别,平均分类准确率达到96.7%,从而有效降低人工检测的劳动强度,为反恐预警工作提供决策支持。   相似文献   

13.
针对类内干扰影响基于个体人员特征目标跟踪算法的精确性和鲁棒性问题,分析当前跟踪算法在个体人员跟踪方面存在的不足,提出了利用语言先验知识引导辅助跟踪器的方法。在视觉跟踪器的基础上增加语言引导分支,对跟踪目标产生注意力,从而减少对类内干扰的影响。利用位置置信度进行回归目标框定位的方法解决基于孪生网络目标跟踪算法中利用分类置信度定位候选目标框的局限性,实现跨模态信息融合提升特定目标跟踪的精度。为提升所提模型对特定人员目标跟踪的针对性,构建了跨模态的人员目标跟踪数据集用于训练和验证。实验表明:所提模型应用于个体人员跟踪时表现更佳,其有效性得到了证明。   相似文献   

14.
现有图像配准算法中,借助图像采集设备参数的方法存在硬件内参难以获得或精度不够的问题,采用匹配图像特征计算图像单应性的方法存在对场景深度信息利用不全的问题。针对这一现象,提出了结合可见光图像与其深度信息来生成更具有真实性的配准图像对数据,用以训练得到一个可以进行像素级别图像配准的深度神经网络PIR-Net。建立了一个大规模、多视角、超仿真的图像配准数据集:多视角配准(MVR)数据集,该数据集包含7 240对含有深度信息的待配准图像及其像素级别的坐标对准真值;基于编码器-解码器的深度神经网络结构,训练得到一个能以全分辨率形式对2幅输入图像之间的坐标变化矩阵进行重建的PIR-Net。通过实验验证了PIR-Net能够在未知相机内参的情况下实现不同视角的可见光图像配准,并比传统算法具有更高的配准精度。在MVR数据集上,PIR-Net的配准误差仅为通用的特征匹配对准算法(SIFT+RANSAC)的18%,同时减少了30%的时间消耗。   相似文献   

15.
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。  相似文献   

16.
图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用。针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.602 8%,召回率为0.323 4%,F-1值为0.356 7%,相较于基准方法提升明显。   相似文献   

17.
行人再识别是图像检索领域的一个重要部分,但是由于行人姿态各异、背景复杂等因素,导致提取到的行人特征鲁棒性和代表性不强,进而影响行人再识别的精度。在AlignedReID++算法基础上,提出了基于空间注意力机制的行人特征提取方法,应用在行人再识别中取得了很好的效果。首先,在特征提取部分,引入空间注意力机制来增强特征表达,同时抑制可能的噪声;其次,通过在卷积层中引入实例正则化层(IN)来辅助批正则化层(BN)对特征进行归一化处理,解决单一BN层对特征色调变化以及光照变化的不敏感性,提高特征提取对亮度、色调变化的鲁棒性;最后,在Market1501、DukeMTMC和CUHK03 3个行人再识别通用数据集上对所提改进模型进行测试评价。实验结果显示:改进后的模型在3个数据集上识别精度分别提升了2%、2.9%和5.1%,表明改进后的模型相较于改进前的模型,在精度以及鲁棒性上都有显著提高。   相似文献   

18.
目前,短视频已经成为新媒体时代极具有代表性的产物之一,其天然的具有时短、强编辑等特点,使得传统视频分类模型不再适合于短视频分类任务。针对综合短视频分类问题的特点,提出了一种基于深度多模态特征融合的短视频分类算法。所提算法将视觉模态信息和音频模态信息输入到域分离网络中,将整个特征空间划分为所有模态共享的公有域部分及由音频模态和视觉模态分别独有的私有域部分,借助优化域分离网络,最大程度地保留了不同模态特征间的差异性和相似性。在公开的短视频分类数据集上进行实验,证明了所提算法可以有效减少特征融合时的冗余性,并将分类的平均精度提高到0.813。   相似文献   

19.
针对火星局部地表形貌原始自然、色彩单一和纹理相似度高难以实现双目精确定位的问题,提出一种融合深度信息的火星局部地表图像立体匹配方法.利用空间金字塔特征提取模块聚合不同尺度和位置的上下文信息,然后通过分层立体匹配架构构建多尺度的匹配代价卷,用条件代价卷归一化代替批量归一化层,在立体匹配网络的代价正则化阶段以深度信息为条件调制匹配代价卷特征,从而降低计算量,提升推理速度,并生成高精度的视差图.最终利用感兴趣目标的视差值并结合相机的基线参数,得到目标点在指定坐标系下的三维坐标从而实现定位任务.在火星模拟场数据集上的视差图达到了三像素误差小于0.017%,通过与GCNet+ CCVNorm等方法的结果进行比较,表明所提出方法在火星局部地表下的优势.  相似文献   

20.
针对小样本分割中如何提取支持图像和查询图像共性信息的问题,提出一种新的小样本分割模型,同时结合了全局相似性和局部相似性,实现了更具泛化能力的小样本分割。具体地,根据支持图像和查询图像全局特征和局部特征之间的相似性,提出了一种新型注意力谱生成器,进而实现查询图像的注意力谱生成和区域分割。所提注意力谱生成器包含2个级联模块:全局引导器和局部引导器。在全局引导器中,提出了一种新的基于指数函数的全局相似性度量,对查询图像特征和支持图像的全局特征进行关系建模,输出前景增强的查询图像特征。在局部引导器中,通过引入局部关系矩阵对支持图像特征和查询图像特征之间的局部相似性进行建模,得到与类别无关的注意力谱。在Pascal-5i数据集上做了大量的实验,在1-shot设定下mIoU达到了59.9%,5-shot设定下mIoU达到了61.9%,均优于现有方法。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号