首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对大面积图像修复缺失严重时,需要完整且高质量训练样本的问题,提出了一种将残缺或含噪图像样本作为训练集的双生成器深度卷积生成对抗网络(DGDCGAN)模型。构建两个生成器和一个鉴别器以解决单一生成器收敛慢的问题,用残缺图像样本作为训练集,通过交叉计算、搜索损失区域类似的图像信息作为训练生成模型的样本,收敛速度更快。鉴别器损失函数改进为输出的Wasserstein距离,使用自适应估计算法优化生成器损失函数和鉴别器损失函数的模型参数,最小化两两图像之间的总距离差,使用鉴别模型和修复图像总距离变化均方差最小化两个指标优化修复结果。在4个公开数据集上进行主客观实验,结果表明:所提方法能使用残缺图像样本作为训练集,有效实现大面积失真图像的修复,且收敛速度和修复效果优于现有图像修复方法。   相似文献   

2.
针对现有深度学习图像修复算法修复壁画时,存在特征提取不足及细节重构丢失等问题,提出了一种多尺度特征和注意力融合的生成对抗壁画修复深度学习模型。设计多尺度特征金字塔网络提取壁画中不同尺度的特征信息,增强特征关联性;采用自注意力机制及特征融合模块构建多尺度特征生成器,以获取丰富的上下文信息,提升网络的修复能力;引入最小化对抗损失与均方误差促进判别器的残差反馈,从而结合不同尺度的特征信息完成壁画修复。通过对真实敦煌壁画数字化修复的实验结果表明,所提算法能够有效保护壁画图像的边缘和纹理等重要特征信息,并且主观视觉效果及客观评价指标均优于比较算法。  相似文献   

3.
为解决现有图像修复算法因缺乏足够的上下文信息导致修复大面积破损时效果差且修复结果不可控的缺陷,提出了双重模态文本引导的图像修复算法。引入文本标签作为修复的控制引导,确保修复结果的整体与区域一致,并增加修复的可控多样性。设计双重模态掩码注意力机制提取破损区域的语义信息;通过深度文本图像融合模块加深生成器中的文本图像融合过程,并应用图像文本匹配损失最大化生成图像与文本之间的语义相似度;采用投射鉴别器训练生成图像与真实图像增强修复图像的真实性。在2个带有文本标签的数据集上进行定量和定性实验,结果表明:生成的修复图像与引导文本描述一致,可根据不同的文字描述生成多样的结果。  相似文献   

4.
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度。通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量。实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换。   相似文献   

5.
针对卫星地面测控中心在异常检测时面临的遥测数据不平衡和缺乏异常标签等问题,提出了一种基于时序生成对抗网络的异常检测方法.首先对卫星遥测数据进行预处理,剔除原始数据中的噪声和野值.然后使用长短时记忆网络构建生成模型的生成器和判别器,使得模型可以学习到历史数据的时间依赖关系.采用改进的生成对抗损失函数,使得生成模型在训练时可以保证生成序列与输入序列的潜在空间分布一致.最后,使用残差作为测试序列的异常分数,通过阈值自适应方法判断测试序列是否异常.经真实卫星遥测数据进行实验验证,表明该异常检测方法具有较好的有效性.  相似文献   

6.
现有图像描述文本生成模型能够应用词性序列和句法树使生成的文本更符合语法规则,但文本多为简单句,在语言模型促进深度学习模型的可解释性方面研究甚少。将依存句法信息融合到深度学习模型以监督图像描述文本生成的同时,可使深度学习模型更具可解释性。图像结构注意力机制基于依存句法和图像视觉信息,用于计算图像区域间关系并得到图像区域关系特征;融合图像区域关系特征和图像区域特征,与文本词向量通过长短期记忆网络(LSTM),用于生成图像描述文本。在测试阶段,通过测试图像与训练图像集的内容关键词,计算2幅图像的内容重合度,间接提取与测试图像对应的依存句法模板;模型基于依存句法模板,生成多样的图像描述文本。实验结果验证了模型在改善图像描述文本多样性和句法复杂度方面的能力,表明模型中的依存句法信息增强了深度学习模型的可解释性。   相似文献   

7.
在对抗生成网络(GAN)这一概念的诞生及发展推动下,文本生成图像的研究取得进展和突破,但大部分的研究内容集中于提高生成图片稳定性和解析度的问题,提高生成结果美观度的研究则很少。而计算机视觉中另一项经典的课题——图像美观度评判的研究也在深度神经网络的推动下提出了一些成果可信度较高的美观度评判模型。本文借助美观度评判模型,对实现文本生成图像目标的GAN模型进行了改造,以期提高其生成图片的美观度指标。首先针对StackGAN++模型,通过选定的美观度评判模型从美学角度评估其生成结果;然后通过借助评判模型构造美学损失的方式对其进行优化。结果使得其生成图像的总体美学分数比原模型提高了3.17%,同时Inception Score提高了2.68%,证明所提方法具有一定效果,但仍存在一定缺陷和提升空间。   相似文献   

8.
针对行人重识别中存在遮挡及行人判别特征层次单调的问题,在IBN-Net50-a网络的基础上,提出了一种结合随机遮挡和多粒度特征融合的网络模型。通过对输入图像进行随机遮挡处理,模拟行人被遮挡的真实情景,以增强应对遮挡的鲁棒性;将网络分为全局分支、局部粗粒度互融分支和局部细粒度互融分支,提取全局显著性特征,同时补充局部多粒度深层特征,丰富行人判别特征的层次性;进一步挖掘局部多粒度特征间的相关性进行深度融合;联合标签平滑交叉熵损失和三元组损失训练网络。在3个标准公共数据集和1个遮挡数据集上,将所提方法与先进的行人重识别方法进行比较,实验结果表明:在Market1501、DukeMTMC-reID、CUHK03标准公共数据集上,所提方法的Rank-1分别达到了95.2%、89.2%、80.1%,在遮挡数据集Occluded-Duke上,所提方法的Rank-1和mAP分别达到了60.6%和51.6%,均优于对比方法,证实了方法的有效性。  相似文献   

9.
在图像分类任务中,零样本图像分类问题已成为一个研究热点。为了解决零样本图像分类问题,采用一种基于生成对抗网络(GAN)的方法,通过生成未知类的图像特征使得零样本分类任务转换为传统的图像分类任务。同时对生成对抗网络中的判别网络做出改进,使其判别过程更加准确,从而进一步提高生成图像特征的质量。实验结果表明:所提方法在AWA、CUB和SUN数据集上的分类准确率分别提高了0.4%、0.4%和0.5%。因此,所提方法通过改进生成对抗网络,能够生成质量更好的图像特征,从而有效解决零样本图像分类问题。   相似文献   

10.
行人重识别是计算机视觉领域的一个重要部分,但是容易受到行人图片实际采集环境的影响,导致行人特征表达不充分,进一步导致模型精度不高。提出一种基于注意力机制和条件卷积改进的行人重识别方法,使行人特征得到更充分的表达。将注意力机制引入特征提取网络ResNet50中,对输入图像空间和通道上的关键信息进行加权强化,同时抑制可能的噪声;将条件卷积模块引入主干网络,动态调整卷积核参数,使模型能够在保持高效推理的同时提高容量和性能;利用Market1501、MSMT17和DukeMTMC-ReID主流数据集对改进方法进行评估,Rank1分别提升1.1%、2.4%、1.3%,mAP分别提升0.5%、2.3%、1.3%,结果表明:改进方法能够使行人特征得到更好的表达,识别精度得到提升。  相似文献   

11.
近年来,不断发射的空基观测台持续传送回海量日面图像及日地间气象数据,为采用人工智能技术对太阳活动进行预报预警提供了数据基础。但是,极端天气爆发少,样本量较少;中等程度爆发稍多,样本量较多;常规无爆发天气常见,样本较为集中,样本不均衡状况严重影响机器学习方法在空间天气领域的广泛应用。本文面向多源多通道多尺度日面图像信息,构建了来自SOHO和SDO的1996-2015年日面活动区图像数据集;针对数据分布的不平衡,对太阳活动区图像作耀斑分级与预报。在对比分析元学习算法的基础上,设计了结合分类头设计和卷积核初始化的生成式模型;在使网络轻量化的基础上,能够将M和X级耀斑预报的检测率指标相较于普通的深度学习模型和无监督度量式模型分别提升10%和7%。  相似文献   

12.
针对面部表情识别中,传统机器学习方法特征提取较为复杂,浅层卷积神经网络识别率不高,以及深度卷积神经网络易带来梯度爆炸或弥散的问题,构建了残差网络嵌入注意力机制的多尺度深度可分离表情识别网络。通过多层多尺度深度可分离残差单元的叠加进行不同尺度的表情特征提取,使用CBAM注意力机制进行表情特征的筛选,提升有效表情特征权重的表达,削弱训练数据的噪声影响。所提网络模型在Fer-2103和CK+表情数据集分别取得了73.89%和97.47%的准确度,表明所提网络具有较强的泛化性。   相似文献   

13.
针对图像多分类任务,提出基于深度卷积的残差三生网络,旨在通过残差学习和距离比较来训练神经网络得到有效的特征表示。首先,设计了一个21层的深度卷积神经网络作为三生网络的嵌入网络,其中该卷积网络共连接6个块(block)。利用残差学习的方式,每个block的输出层由卷积层的输出和该block的输入共同组成,降低网络学习难度,避免网络出现退化问题。然后,每个block中采用相同拓扑结构分路的卷积层,拓宽网络的宽度。最后,在全连接层拼接了来自前面卷积层和block的输出,加强特征信息的传递。训练前,针对正负样本采用交叉组合的采样方法来增加有效训练样本量;训练期间,用样本中心点更换原点样本作为输入,能平均降低0.5%错误率。在与其他三生网络的对比实验中,在MNIST、CIFAR10和SVHN数据库上达到最好的效果,在所有分类网络中,本文网络在MNIST上达到最好的效果,在CIFAR10和SVHN上表现优异。   相似文献   

14.
基于MobileFaceNet网络改进的人脸识别方法   总被引:1,自引:1,他引:0  
为了解决训练过程中卷积模型参数较多、收敛速度较慢的问题,提出了一种基于MobileFaceNet网络改进的人脸识别方法。首先,使用MobileFaceNet网络提取人脸特征,在提取特征的过程中,通过引入可分离卷积减少模型中卷积层参数的数量;其次,通过在MobileFaceNet网络中引入风格注意力机制来增强特征的表达,同时使用AdaCos人脸损失函数来训练模型,利用AdaCos损失函数中的自适应缩放系数,来动态地调整超参数,避免了人为设置超参数对模型的影响;最后,分别在LFW、AgeDB和CFP-FF测试数据集上对训练模型进行评估。实验结果显示:改进后的模型在LFW、AgeDB和CFP-FF测试数据集上的识别精度分别提升了0.25%、0.16%和0.3%,表明改进后的模型相较于改进前的模型在精度和鲁棒性上有所提高。   相似文献   

15.
针对中医舌诊中舌体分割不准确、分割速度较慢且需要人工标定候选区域等问题,提出了一种端到端的舌图像分割算法。与传统舌图像分割算法相比,所提算法可以得到更为准确的分割结果,并且不需要人工操作。首先,使用孔卷积算法,可以在不增加参数的条件下扩大网络的特征图谱。其次,使用孔卷积空间金字塔池化(ASPP)模块,令网络通过不同的感受野学习舌图像的多尺度特征。最后,将深度卷积神经网络(DCNN)和全连接的条件随机场(CRF)相结合,细化分割后的舌体边缘。实验结果表明:所提算法优于传统舌图像分割算法和主流的深度卷积神经网络,具有较高的分割精度,平均交并比达到了95.41%。   相似文献   

16.
语言引导的目标分割旨在将文本描述的目标与其所指代的实体进行匹配,从而实现对文本、实体之间关系的理解与指代目标的定位。该任务在信息抽取、文本分类、机器翻译等应用场景中具有重要的应用价值。基于Refvos模型提出一种语言引导的多粒度特征融合目标分割方法,能够对特定目标精准定位。利用Swin Transformer和Bert网络,分别提取多粒度的视觉特征和文本特征,提高对整体与细节的表征能力;将文本特征分别与不同粒度视觉特征进行融合,通过语言引导增强特定目标表达;通过卷积长短期记忆网络对多粒度融合特征进行优化,在不同粒度特征间进行信息交流,得到更精细化的分割结果。在UNC、UNC+、G-Ref、ReferIt数据集上进行训练并测试所提方法。实验结果表明:相比Refvos,所提方法在UNC数据集的val、testB子集中IoU结果分别提升0.92%、4.1%,在UNC+数据集的val、testA、testB子集中IoU结果分别提升1.83%、0.63%、1.75%。所提方法在G-Ref、ReferIt数据集的IoU结果分别为40.16%和64.37%,达到前沿水平,证明所提方法的有效性与先进性...  相似文献   

17.
视频摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。   相似文献   

18.
复杂干扰条件下的红外空中目标识别技术是空战对抗领域的热点研究课题,复杂人工干扰严重遮蔽目标,导致目标特征的连续性与显著性遭到破坏,无法全面描述识别对象的特性,造成空中目标识别准确率下降。针对此问题,提出一种基于图像混合深度特征的空中目标抗干扰识别算法。首先,基于卷积神经网络进行图像深度特征的提取,将深度特征与梯度直方图(Histogram of Gradient, HOG)特征进行有效融合,构建混合深度特征。针对作战场景中的目标与干扰的对抗态势多样性,将支持向量机的二分类模型改进为三分类模型,对目标、干扰以及目标干扰粘连三种状态进行精确分类。实验结果表明:在复杂干扰环境下,基于混合深度特征的空中目标抗干扰识别算法正确率为92.29%,该算法可以有效地解决目标被干扰遮蔽、形成目标干扰粘连状态时的抗干扰识别问题。  相似文献   

19.
为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学习的方法利用实值空间相似度引导哈希码的生成。在3个常用的数据集MIRFLICKR-25K、IAPR TC-12和MSCOCO上与深度跨模态哈希(DCMH)、成对关系引导的深度哈希(PRDH)、跨模态汉明哈希(CMHH)等优秀方法进行对比实验,结果显示哈希码长度为64 bit的条件下,所提模型在3个数据集图像检索文本任务的平均精确度均值(MAP)达到72.3%,文本检索图像任务的MAP达到70%,高于对比方法。  相似文献   

20.
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号