首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
针对行人重识别中存在遮挡及行人判别特征层次单调的问题,在IBN-Net50-a网络的基础上,提出了一种结合随机遮挡和多粒度特征融合的网络模型。通过对输入图像进行随机遮挡处理,模拟行人被遮挡的真实情景,以增强应对遮挡的鲁棒性;将网络分为全局分支、局部粗粒度互融分支和局部细粒度互融分支,提取全局显著性特征,同时补充局部多粒度深层特征,丰富行人判别特征的层次性;进一步挖掘局部多粒度特征间的相关性进行深度融合;联合标签平滑交叉熵损失和三元组损失训练网络。在3个标准公共数据集和1个遮挡数据集上,将所提方法与先进的行人重识别方法进行比较,实验结果表明:在Market1501、DukeMTMC-reID、CUHK03标准公共数据集上,所提方法的Rank-1分别达到了95.2%、89.2%、80.1%,在遮挡数据集Occluded-Duke上,所提方法的Rank-1和mAP分别达到了60.6%和51.6%,均优于对比方法,证实了方法的有效性。  相似文献   

2.
现有的行人重识别方法主要关注于学习行人的局部特征来实现跨摄像机条件下的行人辨识。然而在人体部件存在运动或遮挡、背景干扰等行人数据非完备条件下,会导致行人局部辨识信息丢失概率的增加。针对这个问题,提出了一种多尺度联合学习方法对行人辨识特征进行精细化表达。该方法包含3个分支网络,分别提取行人的粗粒度全局特征、细粒度全局特征和细粒度局部特征。其中粗粒度全局分支通过融合不同层次的语义信息来增强全局特征的丰富性;细粒度全局分支通过联合全部局部特征,在对全局特征进行细粒度描述的同时学习行人局部部件间的相关性;细粒度局部分支则通过遍历局部特征来挖掘行人非显著性的信息以增强局部特征的鲁棒性。为了验证所提方法的有效性,在Market1501、DukeMTMC-ReID和CUHK03三个公开数据集上开展了对比实验,实验结果表明:所提方法取得了最佳性能。   相似文献   

3.
基于迁移学习的暴恐图像自动识别   总被引:1,自引:1,他引:0  
利用人工智能和深度学习技术自动化地分析互联网海量图片,快速、准确地识别有害的暴恐图像并及时处置是反恐工作的重要手段之一。研究了利用深度学习和迁移学习技术对暴恐图像进行分类识别。首先,定义了暴恐图像的主要概念特征,并针对性地构建数据集;其次,针对暴恐图像正样本较少的问题,设计深度神经网络模型和迁移学习方式;最后,基于构建的训练数据集进行模型训练和测试。结果显示:所提方法可以快速、准确地对互联网图片进行分类识别,平均分类准确率达到96.7%,从而有效降低人工检测的劳动强度,为反恐预警工作提供决策支持。   相似文献   

4.
上下位关系是自然语言处理(NLP)下游任务的基础,因此上下位关系检测是自然语言处理领域备受关注的问题。针对现有词嵌入方法采用随机初始化词向量,不能很好地捕获上下位关系不对称和可传递的特性,且现有模型没有充分利用预测向量与真实投影之间关系的局限性,提出了一种基于图对比学习的上下位关系检测(HyperCL)方法。引入图对比学习进行数据增强,基于最大化局部和全局表示的互信息,学习具有鲁棒性的词特征表示。所提方法学习了将下位词的词向量投影到上位词和非上位词,同时能够更好地区分嵌入空间中的上位词和非上位词,从而提高了检测精度。在2个基准数据集上的实验结果表明,所提模型比现有方法在准确率上提升了0.03以上。  相似文献   

5.
图像中的区域特征更关注于图像中的前景信息,背景信息往往被忽略,如何有效的联合局部特征和全局特征还没有得到充分地研究。为解决上述问题,加强全局概念和局部概念之间的关联得到更准确的视觉特征,提出一种基于多级语义对齐的图像-文本匹配算法。提取局部图像特征,得到图像中的细粒度信息;提取全局图像特征,将环境信息引入到网络的学习中,从而得到不同的视觉关系层次,为联合的视觉特征提供更多的信息;将全局-局部图像特征进行联合,将联合后的视觉特征和文本特征进行全局-局部对齐得到更加精准的相似度表示。通过大量的实验和分析表明:所提算法在2个公共数据集上具有有效性。  相似文献   

6.
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。  相似文献   

7.
针对小样本分割中如何提取支持图像和查询图像共性信息的问题,提出一种新的小样本分割模型,同时结合了全局相似性和局部相似性,实现了更具泛化能力的小样本分割。具体地,根据支持图像和查询图像全局特征和局部特征之间的相似性,提出了一种新型注意力谱生成器,进而实现查询图像的注意力谱生成和区域分割。所提注意力谱生成器包含2个级联模块:全局引导器和局部引导器。在全局引导器中,提出了一种新的基于指数函数的全局相似性度量,对查询图像特征和支持图像的全局特征进行关系建模,输出前景增强的查询图像特征。在局部引导器中,通过引入局部关系矩阵对支持图像特征和查询图像特征之间的局部相似性进行建模,得到与类别无关的注意力谱。在Pascal-5i数据集上做了大量的实验,在1-shot设定下mIoU达到了59.9%,5-shot设定下mIoU达到了61.9%,均优于现有方法。   相似文献   

8.
针对现有的大多数跨模态视频检索算法忽略了数据中丰富的语义线索,使得生成特征的表现能力较差的问题,设计了一种基于多语义线索的跨模态视频检索模型,该模型通过多头目自注意力机制捕捉视频模态内部对语义起到重要作用的数据帧,有选择性地关注视频数据的重要信息,获取数据的全局特征;采用双向门控循环单元(GRU)捕捉多模态数据内部上下文之间的交互特征;通过对局部数据之间的细微差别进行联合编码挖掘出视频和文本数据中的局部信息。通过数据的全局特征、上下文交互特征和局部特征构成多模态数据的多语义线索,更好地挖掘数据中的语义信息,进而提高检索效果。在此基础上,提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,提升了跨模态特征的学习效果。在MSR-VTT数据集上的实验表明:与当前最先进的方法比较,所提算法在文本检索视频任务上提高了11.1%;在MSVD数据集上的实验表明:与当前先进的方法比较,所提算法在文本检索视频任务上总召回率提高了5.0%。   相似文献   

9.
针对输电线路金具缺陷样本不足和缺陷目标形态多样化,仅仅利用深度学习模型导致金具缺陷分类准确率较低的问题,提出了一种结合深度网络和逻辑回归模型的因果分类方法。首先,通过样本扩充方法获得数量丰富化和角度多样化的数据集;然后,基于微调后的VGG16模型提取深度特征并进行特征处理,以构建符合因果关系学习的输入特征集;最后,通过全局混杂平衡进行金具缺陷特征与标签之间的因果关系学习,构建符合金具特点的因果逻辑回归模型,完成金具缺陷分类。为了证明所提方法的有效性,利用无人机实际采集的4类金具缺陷图片分别进行了实验,所使用的训练样本和测试样本数量较原始数据集提升了5倍左右。实验结果表明:所提方法可以实现对输电线路金具缺陷的精准分类,其中,防震锤相交和变形分类准确率分别达到了0.929 9和0.911 8,屏蔽环锈蚀和均压环损坏分类准确率分别达到了0.956 7和0.966 9。   相似文献   

10.
语言引导的目标分割旨在将文本描述的目标与其所指代的实体进行匹配,从而实现对文本、实体之间关系的理解与指代目标的定位。该任务在信息抽取、文本分类、机器翻译等应用场景中具有重要的应用价值。基于Refvos模型提出一种语言引导的多粒度特征融合目标分割方法,能够对特定目标精准定位。利用Swin Transformer和Bert网络,分别提取多粒度的视觉特征和文本特征,提高对整体与细节的表征能力;将文本特征分别与不同粒度视觉特征进行融合,通过语言引导增强特定目标表达;通过卷积长短期记忆网络对多粒度融合特征进行优化,在不同粒度特征间进行信息交流,得到更精细化的分割结果。在UNC、UNC+、G-Ref、ReferIt数据集上进行训练并测试所提方法。实验结果表明:相比Refvos,所提方法在UNC数据集的val、testB子集中IoU结果分别提升0.92%、4.1%,在UNC+数据集的val、testA、testB子集中IoU结果分别提升1.83%、0.63%、1.75%。所提方法在G-Ref、ReferIt数据集的IoU结果分别为40.16%和64.37%,达到前沿水平,证明所提方法的有效性与先进性...  相似文献   

11.
图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用。针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.602 8%,召回率为0.323 4%,F-1值为0.356 7%,相较于基准方法提升明显。   相似文献   

12.
为降低目标运动时产生的外观形变对目标跟踪的影响,在DaSiamese-RPN基础上进行改进,提出了一种外观动作自适应的目标跟踪方法。在孪生网络的子网络中引入外观动作自适应更新模块,融合目标的时空信息和动作特征;利用2种欧氏距离分别度量真实图和预测图之间的全局和局部差异,并对二者加权融合构建损失函数,加强预测目标特征图与真实目标特征图之间全局和局部信息的关联性。在VOT2016、VOT2018、VOT2019和OTB100数据集上进行测试,实验结果表明:在VOT2016和VOT2018数据集上,预测平均重叠率分别提高4.5%和6.1%;在VOT2019数据集上,准确度提高0.4%,预测平均重叠率降低1%;在OTB100数据集上,跟踪成功率提高0.3%,精确度提高0.2%。   相似文献   

13.
Applications including change detection, disaster management, and urban planning require precise building information, and therefore automatic building extraction has become a significant research topic. With the improvements in sensor and satellite technologies, more data has become available, and with the increased computational power, deep learning methods have emerged as successful tools. In this study, U-Net and FPN architectures using four different backbones (ResNet-50, ResNeXt-50, SE-ResNext-50, and DenseNet-121), and an Attention Residual U-Net approach were used for building extraction from high-resolution aerial images. Two publicly available datasets, Inria Aerial Image Labeling Dataset and Massachusetts Buildings Dataset were used to train and test the models. According to the results, Attention Residual U-Net model has the highest F1 score with 0.8154, IoU score with 0.7102, and test accuracy with 94.51% on the Inria dataset. On the Massachusetts dataset, FPN Dense-Net-121 model has the highest F1 score with 0.7565 and IoU score with 0.6188, and Attention Residual U-Net model has the highest test accuracy with 92.43%. It has been observed that, FPN with DenseNet backbone can be a better choice when working with small size datasets. On the other hand, Attention Residual U-Net approach achieved higher success when a sufficiently large dataset is provided.  相似文献   

14.
针对大多数特征表示算法在挖掘高维数据内在结构时容易受到噪声的影响,以及特征学习与分类器设计割裂导致分类性能降低的问题,提出了一种新的基于特征表示的人脸识别方法,称为块对角投影表示(BDPR)学习。首先,利用样本信息对每类样本的编码系数施加一个加权矩阵,通过局部约束来加强表示系数之间的相似性,从而降低噪声对系数学习的影响,使所提方法能够更好地保持数据的局部结构。其次,为了实现数据与编码系数相关联,降低表示系数的学习难度,构造了块对角化判别约束项来学习一个判别投影,通过投影从低维数据中提取样本表示系数,使系数包含更多的样本间全局结构信息且具有更低的计算复杂度。最后,将系数学习和分类器学习整合到同一框架下,同时增大不同类别样本间的“标签距离”,采用迭代求解的方式交替更新判别投影和分类器,最终得到最适合当前表示特征的分类器,使得所提方法能自动完成分类。多个公开的人脸数据集上的实验结果表明:较之传统的协作表示分类和多个主流的子空间学习方法,所提方法均取得了更优的识别效果。   相似文献   

15.
厂站接线图中电气元件的拓扑关系是厂站接线图自动生成技术所需的核心数据。目前,已知的厂站接线图自动生成技术仍然依靠人工获取图中的拓扑关系。通过利用基于深度学习的目标检测技术与传统的计算机图像处理技术相结合的方式,能够实现厂站接线图拓扑关系检测。首先,利用基于深度学习的目标检测方法对电气元件进行识别,并利用计算机图像处理技术对标量格式接线图进行预处理,完成电气元件与连接线的分割。然后,利用轮廓跟踪算法对连接线连通区域进行检测标记。最后,根据获取的电气元件信息与连接线信息获取图纸的拓扑关系。采用国家电网有限公司提供的数据集,并设计了对比实验,验证了所提方法的有效性。   相似文献   

16.
微博平台数据中含有大量反映用户情感喜恶的信息,对于涉及博文倾向性分析的应用尤为重要。现有的分析方法往往聚焦在博文情感的简单分类上,无法分析特定类型实体的微博倾向性。为解决微博倾向性分析问题,实现博文立场判定,采用半监督学习的方法,通过协同训练和主动学习,训练实体识别模型,并构建基于主成分分析的情感规则,提取句子的主成分,将口语化的文本规范化为指定格式。再利用指向性实体的正负面性、情感词的褒贬义及情感词充当的句子成分,实现情感分类的更深层次分析——立场判定。针对实际问题进行立场判定实验,在不同规模数据集上的自对比实验和他比实验显示,随着标注实体的博文数量增加,模型对博文立场判断的正确率持续提升,而且所提方法判断博文立场的正确率显著高于对比方法,相较已有研究方法分别提高了2.79%和10.00%。   相似文献   

17.
传统的厂站一次接线图的绘制和管理主要依靠电网运行人员,费时费力且缺乏科学可校核的参考标准。提出了一种基于深度神经网络和数字图像处理相结合的厂站一次接线图的自动检测、识别和校核算法。首先,使用目标检测Faster R-CNN模型检测厂站接线图中的电器元件,并达到92%的检测准确率,同时使用端到端的文字检测识别模型识别厂站接线图中的文字信息,并达到94.2%的文字检测准确率和92%的文字识别准确率;然后,使用数字图像处理技术进行厂站接线图连接线、拓扑关系识别;最后,使用改进的VF2算法进行厂站一次接线图和人工维护的厂站一次接线图拓扑关系匹配校核,将拓扑数据抽象为无向图,通过轮廓序号得到元件的相对位置信息,根据改进的VF2算法得到2张图的匹配率,并通过匹配率与设定好的阈值来帮助核验,相比于节点遍历的匹配方法,核验准确率提高了37.5%。基于某供电公司提供的部分变电站的厂站一次接线图标注了接线图电器元件,贡献了一个小型接线图数据集。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号