首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对无人机航拍图像背景复杂、小尺寸目标较多等问题,提出了一种基于倒置残差注意力的无人机航拍图像小目标检测算法。在主干网络部分嵌入倒置残差模块与倒置残差注意力模块,利用低维向高维的特征信息映射,获得丰富的小目标空间信息和深层语义信息,提升小目标的检测精度;在特征融合部分设计多尺度特征融合模块,融合浅层空间信息和深层语义信息,并生成4个不同感受野的检测头,提升模型对小尺寸目标的识别能力,减少小目标的漏检;设计马赛克混合数据增强方法,建立数据之间的线性关系,增加图像背景复杂度,提升算法的鲁棒性。在VisDrone数据集上的实验结果表明:所提模型的平均精度均值比DSHNet模型提升了1.2%,有效改善了无人机航拍图像小目标漏检、误检的问题。  相似文献   

2.
随着水下生物抓取技术的不断发展,高精度的水下物体识别与分割成为了挑战。已有的水下目标检测技术仅能给出物体的大体位置,无法提供物体轮廓等更加细致的信息,严重影响了抓取效率。为了解决这一问题,标注并建立了真实场景水下语义分割数据集DUT-USEG,该数据集包含6 617张图像,其中1 487张具有语义分割和实例分割标注,剩余5 130张图像具有目标检测框标注。基于该数据集,提出了一个关注边界的半监督水下语义分割网络(US-Net),该网络通过设计伪标签生成器和边界检测子网络,实现了对水下物体与背景之间边界的精细学习,提升了边界区域的分割效果。实验表明:所提方法在DUT-USEG数据集的海参、海胆和海星3个类别上相较于对比方法提升了6.7%,达到了目前最好的分割精度。   相似文献   

3.
针对现有安全帽检测算法难以检测小目标、密集目标等缺点,提出一种基于YOLOv5s的安全帽检测改进算法。采用DenseBlock模块来代替主干网络中的切片结构,提升网络的特征提取能力;在网络颈部检测层加入SE-Net通道注意力模块,引导模型更加关注小目标信息的通道特征,以提升对小目标的检测性能;对数据增强方式进行改进,丰富小尺度样本数据集;增加一个检测层以便能更好地学习密集目标的多级特征,从而提高模型应对复杂密集场景的能力。此外,构建一个面向密集目标及远距离小目标的安全帽检测数据集。实验结果表明:所提改进算法比原始YOLOv5s算法平均精确率(mAP@0.5)提升6.57%,比最新的YOLOX-L及PP-YOLOv2算法平均精确率分别提升1.05%与1.21%,在密集场景及小目标场景下具有较强的泛化能力。  相似文献   

4.
针对遥感影像中类别不均衡的小目标分割效果不理想的问题,提出了一种类别不均衡小目标二分类分割的损失函数——TopPixelLoss损失函数。首先计算出每个像素的交叉熵,然后将所有像素的交叉熵按从大到小进行排序,随后确定一个K值作为阈值,筛选出前K个交叉熵最大的像素,最后对于筛选出的K个像素交叉熵取平均,做为损失值。在ISPRS 提供的 Vaihingen 数据集上,使用PSPNet网络与普通交叉熵、FocalLoss、TopPixelLoss三种损失函数分别对车辆进行二分类分割试验。结果表明,不同的K值,使用TopPixelLoss损失函数的平均交并比(MIoU)、F1-score、准确度(ACC)都最高;当K值为5×104时效果最佳,MIoU、F1-score、ACC分别比FocalLoss提高了3.0%、5.0%、0.1%。TopPixelLoss损失函数是一种针对类别不均衡分割非常有效的损失函数  相似文献   

5.
视频摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。   相似文献   

6.
针对烟雾因半透明、形状不规则和边界模糊造成分割困难的问题,提出了基于注意力机制的长距离信息建模方法,以提取长距离像素间的依赖和连续性关系。通过注意力机制作用原理,解决孤立小块区域误分类问题,减少非连续区域的烟雾误判。为避免注意力网络大尺寸矩阵运算造成的内存和计算负担,对空间和通道2种注意力方式进行改进,分别设计了双向定位空间注意力(BDA)模块和多尺度通道注意力(MSCA)融合模块,弥补现有注意力全局池化操作导致的大量空间信息丢失。将所提注意力模块和残差深度网络合并,构建面向图像烟雾分割的全局烟雾注意网络,在尽可能不丢失全局信息相关性的同时减少内存消耗。实验结果表明:所提网络在DS01、DS02、DS03合成烟雾测试集上,取得的平均交并比分别为73.13%、73.81%、74.25%,总体上优于对比算法。   相似文献   

7.
针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择性地关注视频数据的重要信息,获取数据的全局特征;采用双向门控循环单元(GRU)捕捉多模态数据内部上下文之间的交互特征;通过对局部数据之间的细微差别进行联合编码挖掘出视频和文本数据中的局部信息。通过数据的全局特征、上下文交互特征和局部特征构成多模态数据的多语义线索,更好地挖掘数据中的语义信息,进而提高检索效果。在此基础上,提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,提升了跨模态特征的学习效果。在MSR-VTT数据集上的实验表明:与当前最先进的方法比较,所提算法在文本检索视频任务上提高了11.1%;在MSVD数据集上的实验表明:与当前先进的方法比较,所提算法在文本检索视频任务上总召回率提高了5.0%。   相似文献   

8.
基于孪生网络的跟踪方法通过离线训练跟踪模型,不需要对跟踪模型进行在线更新,兼顾了跟踪精度和速度。现有孪生网络目标跟踪方法使用固定阈值选择正负训练样本易造成训练样本漏选问题,且训练时分类分支和回归分支之间存在低相关性问题,不利于训练出高精度的跟踪模型。为此,提出了一种基于交并比(IoU)约束的孪生网络目标跟踪方法。通过使用动态阈值策略根据预定义锚框与目标真实框的相关统计特征,动态调整正负训练样本的界定阈值,提升跟踪精度。所提方法使用IoU质量评估分支代替分类分支,通过锚框与目标真实框之间的IoU反映目标位置,提升跟踪精度,降低模型的参数量。在数据集VOT2016、OTB-100、VOT2019、UAV123上进行了对比实验,所提方法均有较好的表现。在VOT2016数据集上,所提方法的跟踪精度比SiamRPN方法高0.017,期望平均重叠率为0.463,与SiamRPN++相比仅差0.001,实时运行速度可达220帧/s。   相似文献   

9.
红外弱小目标检测技术是红外探测系统的核心技术之一。针对远距离复杂场景下红外弱小目标对比度低、信噪比低和纹理特征稀疏分散导致目标检测率低的问题,提出一种融合注意力机制和改进YOLOv3的红外弱小目标检测算法。首先,在YOLOv3的基础上,用更大尺度的检测头替换最小尺度的检测头,在保证推理速度的基础上有效提升了红外图像中小目标的检测概率。然后,在检测头之前设计了Infrared Attention模块,通过通道间的信息交互,抽取出更加关键重要的信息供网络学习。最后,用完全交并比损失(Complete IoU Loss)替代交并比损失(Intersection over Union Loss)来衡量预测框的检测能力,通过梯度回传实现更好的模型训练。实验结果表明,本文提出的YOLOv3-DCA 能完成多种场景下红外弱小目标的检测任务,且检测准确率、召回率、F1和平均准确率分别达到91.84%、88.85%、93%和88.82%,平均准确率比YOLOv3基线提升约7%,与主流的SSD、CenterNet和YOLOv4模型对比平均准确率也取得了目前最优。  相似文献   

10.
跨域是行人重识别的重要应用场景,但是源域与目标域行人图像在光照条件、拍摄视角、成像背景与风格等方面的表观特征差异性是导致行人重识别模型泛化能力下降的关键因素。针对该问题,提出了基于多标签协同学习的跨域行人重识别方法。利用语义解析模型构造了基于语义对齐的多标签数据表示,以引导构建更关注行人前景区域的局部特征,达到语义对齐的目的,减少背景对跨域重识别的影响。基于行人图像全局特征和语义对齐后的行人局部特征,利用协同学习平均模型生成行人重识别模型的多标签表示,减少跨域场景下噪声硬标签的干扰。利用协同学习网络框架联合多标签的语义对齐模型,提高行人重识别模型的识别能力。实验结果表明:在Market-1501→ DukeMTMC-reID、DukeMTMC-reID→Market-1501、Market-1501→MSMT17、DukeMTMC-reID→MSMT17跨域行人重识别数据集上,与NRMT方法相比,平均精度均值分别提高了8.3%、8.9%、7.6%、7.9%,多标签协同学习方法具有显著的优越性。   相似文献   

11.
足球比赛中球员运动数据分析对增加观众的观看体验和辅助教练进行球员评估有着重要意义。球员运动数据分析的难点在于如何定位球员在球场上的坐标,即如何确定足球视频中单帧画面出现的缺损球场与标准二维球场之间的映射关系。针对如何在足球比赛中克服相机的高速移动和视角剧烈变化,设计并提出了利用球场重建与球员跟踪来进行球员运动数据分析的方法。球场重建方面,将足球视频中的球场分组为左中右3部分,每组通过球场分割、球场直线检测、球场直线分组、球场中圈点集合识别和球场关键点匹配来实现缺损球场到标准球场的映射;球员跟踪采用核相关滤波(KCF)跟踪算法,得到了球员运动数据统计的可视化结果。结合球场重建和球员跟踪算法定位球员的标准坐标,统计球员的一系列运动数据并进行可视化分析。提出的球员运动数据分析方法能够准确而快速地统计出球员的运动数据,包括球员坐标、运动轨迹、奔跑速度、活动范围和球员间距。球场重建方面采用图像交并进行评估,交并比达到87%,相比于传统的基于字典查询的方法(交并比为83.3%)准确度提升了3.7%。实验结果表明:所提出的球场重建方法能够更准确地表示球场映射关系,为球员运动数据分析统计提供更好的支持。   相似文献   

12.
图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用。针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.602 8%,召回率为0.323 4%,F-1值为0.356 7%,相较于基准方法提升明显。   相似文献   

13.
为解决航空发动机在安装过程中大多实行人工安装、定位不精确等问题,在研究其自动化安装方法中,针对航空发动机安装工位的检测需求,提出了一种残差网络与膨胀卷积相融合的SSD改进算法(R-D SSD)。将经典SSD模型的主干网络VGG16替换为残差网络ResNet-101,并增加其输出特征图上的预选框数量,解决了原始算法对底层特征抓取能力不足的问题,进而弥补了对小目标检测效果较差的缺陷;利用膨胀卷积扩大网络的感受野,获取足够的安装工位边缘特征细节信息,在不改变网络结构的同时,保证了模型良好的实时性和对目标的检测精度。实验表明:对于小目标数据集和整个数据集,R-D SSD算法的平均检测精度较原始算法分别提高了8.6%和4.0%,可以满足航空发动机安装时平均检测精度不低于85%的要求。   相似文献   

14.
语言引导的目标分割旨在将文本描述的目标与其所指代的实体进行匹配,从而实现对文本、实体之间关系的理解与指代目标的定位。该任务在信息抽取、文本分类、机器翻译等应用场景中具有重要的应用价值。基于Refvos模型提出一种语言引导的多粒度特征融合目标分割方法,能够对特定目标精准定位。利用Swin Transformer和Bert网络,分别提取多粒度的视觉特征和文本特征,提高对整体与细节的表征能力;将文本特征分别与不同粒度视觉特征进行融合,通过语言引导增强特定目标表达;通过卷积长短期记忆网络对多粒度融合特征进行优化,在不同粒度特征间进行信息交流,得到更精细化的分割结果。在UNC、UNC+、G-Ref、ReferIt数据集上进行训练并测试所提方法。实验结果表明:相比Refvos,所提方法在UNC数据集的val、testB子集中IoU结果分别提升0.92%、4.1%,在UNC+数据集的val、testA、testB子集中IoU结果分别提升1.83%、0.63%、1.75%。所提方法在G-Ref、ReferIt数据集的IoU结果分别为40.16%和64.37%,达到前沿水平,证明所提方法的有效性与先进性...  相似文献   

15.
红外弱小目标的检测识别是军事侦察和遥感探测领域的一项关键技术。针对现有的传统目标检测方法普遍存在的检测误报率高、环境适应性差等问题,本文设计提出了一种基于Swin Transformer和多尺度特征融合的红外弱小目标检测方法。该方法首先在基于编解码Unet网络架构的基础上,通过引入Swin Transformer的自注意力机制代替常规的卷积核来进行目标特征的分层提取,从而有助于在更大的感受野下挖掘目标在不同尺度下的潜在信息;之后,通过设计一个自底向上的跨层特征融合模块作为网络模型的解码器,可以从复杂背景中保留红外弱小目标特征,并将目标的浅层局部信息和深层语义信息进行充分融合。试验测试结果表明,所提方法在红外小目标公共测试数据集SIRST上能够实现0.747的交并比指标(IoU),以及0.752的归一化交并比指标(nIoU),其性能均优于其它典型方法,在不同复杂场景下均拥有更好的检测效果。  相似文献   

16.
针对传统深度学习模型在进行焊缝缺陷检测时对小缺陷目标检测效果不理想问题,提出基于改进深度学习Faster RCNN模型的焊缝缺陷检测算法,算法通过多层特征网络提取多尺度特征图并共同作用于模型后续环节,以充分利用模型中的低层特征,增加细节信息;改进模型的区域生成网络,加入多种滑动窗口,从而优化了模型锚点的长宽比设置,提高检测能力。实验表明,改进Faster RCNN模型取得最优的缺陷检测结果,对于小缺陷目标仍取得较好的检测精度,从而验证了算法的有效性。  相似文献   

17.
社交平台允许用户采用多种信息模态发表意见与观点,多模态语义信息融合能够更有效地预测用户所表达的情感倾向。因此,多模态情感分析近年来受到了广泛关注。然而,多模态情感分析中视觉与文本存在的语义无关问题,导致情感分析效果不佳。针对这一问题,提出了基于语义相关的多模态社交情感分析(MSSA-SC)方法。采用图文语义相关性分类模型,对图文社交信息进行语义相关性识别,若图文语义相关,则对图文社交信息使用图文语义对齐多模态模型进行图文特征融合的情感分析;若图文语义无关,则仅对文本模态进行情感分析。在真实社交媒体数据集上进行了实验,由实验结果可知,所提方法能够有效降低图文语义无关情况对多模态社交媒体情感分析的影响。与此同时,所提方法的Accuracy和Macro-F1指标分别为75.23%和70.18%,均高于基准模型。   相似文献   

18.
眼动交互是头戴式虚拟现实(VR)/增强现实(AR)设备的关键操控方式, 如何进行高精度、高鲁棒性的非标定视线估计是当前VR/AR眼动交互的核心问题之一, 高效、鲁棒的非标定视线估计需要大量的眼图训练数据和高效的算法结构做支撑。在现有基于深度学习的近眼视线估计方法的基础上, 通过添加多任务辅助推理模块, 增加网络结构的多阶段输出, 进行多任务联合训练, 在不增加视线估计测试耗时的前提下, 有效提升视线估计精度。在模型训练时, 从视线估计网络结构的多个中间阶段引出多个眼部特征的辅助推理并行网络头, 包括眼动图像的语义分割、虹膜边界框及眼部轮廓信息, 为原始视线估计网络提供多阶段中继监控, 在不增加训练数据的基础上, 有效提升视线估计网络的测试精度。在国际公开数据集Acomo-14与OpenEDS2020上的验证实验表明, 与无辅助推理的网络相比, 所提方法精度分别得到了21.74%与18.91%的效果提升, 平均角度误差分别减少到1.38°与2.01°。   相似文献   

19.
针对中医舌诊中舌体分割不准确、分割速度较慢且需要人工标定候选区域等问题,提出了一种端到端的舌图像分割算法。与传统舌图像分割算法相比,所提算法可以得到更为准确的分割结果,并且不需要人工操作。首先,使用孔卷积算法,可以在不增加参数的条件下扩大网络的特征图谱。其次,使用孔卷积空间金字塔池化(ASPP)模块,令网络通过不同的感受野学习舌图像的多尺度特征。最后,将深度卷积神经网络(DCNN)和全连接的条件随机场(CRF)相结合,细化分割后的舌体边缘。实验结果表明:所提算法优于传统舌图像分割算法和主流的深度卷积神经网络,具有较高的分割精度,平均交并比达到了95.41%。   相似文献   

20.
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度。通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量。实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号