首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 828 毫秒
1.
针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码,得到文本的特征向量表示。引入条件增强(CA)模型,通过文本特征向量的均值和协方差矩阵产生附加的条件变量,代替原来的高维文本特征向量。将条件变量与随机噪声结合作为生成器的输入,并在生成器的损失中额外加入KL损失正则化项,避免模型训练过拟合,使模型可以更好的收敛,在判别器中使用谱约束(SN)层,防止其梯度下降太快造成生成器与判别器不平衡训练而发生模式崩溃的问题。实验验证结果表明:所提模型在Oxford-102-flowers和CUB-200数据集上生成的图像质量较alignDRAW、GAN-CLS、GAN-INT-CLS、StackGAN(64×64)、StackGAN-v1(64×64)模型更好且接近于真实样本,初始得分值最低分别提高了10.9%和5.6%,最高分别提高了41.4%和37.5%,FID值最低分别降低了11.4%和8.4%,最高分别降低了43....  相似文献   

2.
视频摘要任务旨在通过生成简短的视频片段来表示原视频的主要内容,针对现有方法缺乏对语义信息探索的问题,提出了一种融合语义信息的视频摘要生成模型,学习视频特征使其包含丰富的语义信息,进而同时生成描述原始视频内容的视频摘要和文本摘要。该模型分为3个模块:帧级分数加权模块、视觉-语义嵌入模块、视频文本描述生成模块。帧级分数加权模块结合卷积网络与全连接层以获取帧级重要性分数;视觉-语义嵌入模块将视觉特征与文本特征映射到同一空间,以使2种特征相互靠近;视频文本描述生成模块最小化视频摘要的生成描述与文本标注真值之间的距离,以生成带有语义信息的视频摘要。测试时,在获取视频摘要的同时,该模型获得简短的文本摘要作为副产品,可以帮助人们更直观地理解视频内容。在SumMe和TVSum数据集上的实验表明:该模型通过融合语义信息,比现有先进方法取得了更好的性能,在这2个数据集上F-score指标分别提高了0.5%和1.6%。   相似文献   

3.
为解决现有图像修复算法因缺乏足够的上下文信息导致修复大面积破损时效果差且修复结果不可控的缺陷,提出了双重模态文本引导的图像修复算法。引入文本标签作为修复的控制引导,确保修复结果的整体与区域一致,并增加修复的可控多样性。设计双重模态掩码注意力机制提取破损区域的语义信息;通过深度文本图像融合模块加深生成器中的文本图像融合过程,并应用图像文本匹配损失最大化生成图像与文本之间的语义相似度;采用投射鉴别器训练生成图像与真实图像增强修复图像的真实性。在2个带有文本标签的数据集上进行定量和定性实验,结果表明:生成的修复图像与引导文本描述一致,可根据不同的文字描述生成多样的结果。  相似文献   

4.
现有图像描述文本生成模型能够应用词性序列和句法树使生成的文本更符合语法规则,但文本多为简单句,在语言模型促进深度学习模型的可解释性方面研究甚少。将依存句法信息融合到深度学习模型以监督图像描述文本生成的同时,可使深度学习模型更具可解释性。图像结构注意力机制基于依存句法和图像视觉信息,用于计算图像区域间关系并得到图像区域关系特征;融合图像区域关系特征和图像区域特征,与文本词向量通过长短期记忆网络(LSTM),用于生成图像描述文本。在测试阶段,通过测试图像与训练图像集的内容关键词,计算2幅图像的内容重合度,间接提取与测试图像对应的依存句法模板;模型基于依存句法模板,生成多样的图像描述文本。实验结果验证了模型在改善图像描述文本多样性和句法复杂度方面的能力,表明模型中的依存句法信息增强了深度学习模型的可解释性。   相似文献   

5.
在自动驾驶领域,行人轨迹预测一直是研究热点之一,行人行为的不确定性给轨迹预测带来很大的挑战。目前大部分轨迹预测方法只专注于行人之间的信息交互,忽略了行人意图和场景中其他语义信息对行人轨迹的影响。为此,提出一种基于行人姿态的卷积编码器-解码器网络(PKCEDN)来预测目标行人轨迹的方法,所提方法包含基于卷积、长短时记忆(LSTM)网络的编码器-解码器模型和能够学习当前时刻与过去时刻轨迹相关性的注意力机制。所提方法在MOT16、MOT17和MOT20公开数据集上进行了相关测试,与Linear、LSTM、Social-LSTM、Social-生成对抗网络(GAN)、SR-LSTM和Msgtv等主流方法相比,在保证预测速度不降低的前提下,平均误差降低约36%。  相似文献   

6.
图像描述生成任务旨在基于输入图像生成对应的自然语言描述。现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布。已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用。针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果。DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能。为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO。在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.602 8%,召回率为0.323 4%,F-1值为0.356 7%,相较于基准方法提升明显。   相似文献   

7.
针对无人机航拍图像背景复杂、小尺寸目标较多等问题,提出了一种基于倒置残差注意力的无人机航拍图像小目标检测算法。在主干网络部分嵌入倒置残差模块与倒置残差注意力模块,利用低维向高维的特征信息映射,获得丰富的小目标空间信息和深层语义信息,提升小目标的检测精度;在特征融合部分设计多尺度特征融合模块,融合浅层空间信息和深层语义信息,并生成4个不同感受野的检测头,提升模型对小尺寸目标的识别能力,减少小目标的漏检;设计马赛克混合数据增强方法,建立数据之间的线性关系,增加图像背景复杂度,提升算法的鲁棒性。在VisDrone数据集上的实验结果表明:所提模型的平均精度均值比DSHNet模型提升了1.2%,有效改善了无人机航拍图像小目标漏检、误检的问题。  相似文献   

8.
针对面部表情识别中,传统机器学习方法特征提取较为复杂,浅层卷积神经网络识别率不高,以及深度卷积神经网络易带来梯度爆炸或弥散的问题,构建了残差网络嵌入注意力机制的多尺度深度可分离表情识别网络。通过多层多尺度深度可分离残差单元的叠加进行不同尺度的表情特征提取,使用CBAM注意力机制进行表情特征的筛选,提升有效表情特征权重的表达,削弱训练数据的噪声影响。所提网络模型在Fer-2103和CK+表情数据集分别取得了73.89%和97.47%的准确度,表明所提网络具有较强的泛化性。   相似文献   

9.
针对现有深度学习图像修复算法修复壁画时,存在特征提取不足及细节重构丢失等问题,提出了一种多尺度特征和注意力融合的生成对抗壁画修复深度学习模型。设计多尺度特征金字塔网络提取壁画中不同尺度的特征信息,增强特征关联性;采用自注意力机制及特征融合模块构建多尺度特征生成器,以获取丰富的上下文信息,提升网络的修复能力;引入最小化对抗损失与均方误差促进判别器的残差反馈,从而结合不同尺度的特征信息完成壁画修复。通过对真实敦煌壁画数字化修复的实验结果表明,所提算法能够有效保护壁画图像的边缘和纹理等重要特征信息,并且主观视觉效果及客观评价指标均优于比较算法。  相似文献   

10.
为进一步提升跨模态检索性能,提出自注意力相似度迁移跨模态哈希网络模型。设计了一种通道空间混合自注意力机制强化关注图像的关键信息,并使用共同注意力方法加强模态信息交互,提高特征学习质量;为在哈希空间重构相似关系,采用迁移学习的方法利用实值空间相似度引导哈希码的生成。在3个常用的数据集MIRFLICKR-25K、IAPR TC-12和MSCOCO上与深度跨模态哈希(DCMH)、成对关系引导的深度哈希(PRDH)、跨模态汉明哈希(CMHH)等优秀方法进行对比实验,结果显示哈希码长度为64 bit的条件下,所提模型在3个数据集图像检索文本任务的平均精确度均值(MAP)达到72.3%,文本检索图像任务的MAP达到70%,高于对比方法。  相似文献   

11.
当将人工智能技术应用于军事领域中的目标识别任务时,针对由红外图片采集的局限性而造成的训练数据不足的问题,提出了基于生成对抗网络以生成红外图像的方法,实现了数据集的扩充。对基本的生成对抗网络进行了改进,将网络的输入由随机噪声变为真实图片,使之实现了图片到图片的风格转换,即彩色图片转变为红外图片。经过网络模型的搭建和训练,实验结果表明,该方法能够有效生成清晰和高质量的红外图片,解决了由红外数据不足而造成的网络训练不充分的问题。  相似文献   

12.
针对大面积图像修复缺失严重时,需要完整且高质量训练样本的问题,提出了一种将残缺或含噪图像样本作为训练集的双生成器深度卷积生成对抗网络(DGDCGAN)模型。构建两个生成器和一个鉴别器以解决单一生成器收敛慢的问题,用残缺图像样本作为训练集,通过交叉计算、搜索损失区域类似的图像信息作为训练生成模型的样本,收敛速度更快。鉴别器损失函数改进为输出的Wasserstein距离,使用自适应估计算法优化生成器损失函数和鉴别器损失函数的模型参数,最小化两两图像之间的总距离差,使用鉴别模型和修复图像总距离变化均方差最小化两个指标优化修复结果。在4个公开数据集上进行主客观实验,结果表明:所提方法能使用残缺图像样本作为训练集,有效实现大面积失真图像的修复,且收敛速度和修复效果优于现有图像修复方法。   相似文献   

13.
  总被引:1,自引:0,他引:1  
针对航天器相对姿态估计问题,提出了一种用于单目视觉成像系统的姿态估计方法。在传统核回归方法的基础上,采用训练数据在姿态空间的相似性对视觉输入(图像特征)空间的核函数进行加权,从而学习得到输入变量(图像特征)与目标变量(姿态)的联合概率分布函数,称为接受函数。对于包含未知姿态航天器的图像,通过求取接受函数在姿态空间的最大值,得到目标航天器的姿态估计值。该方法仅需要训练数据学习模型,较其他基于视觉的方法限制更少.对比实验结果证明了该方法在姿态估计方面的优越性,卫星数据集上的实验结果验证了该方法用于航天器姿态估计的有效性。  相似文献   

14.
对缺少含有丰富情感标注信息的情感语音数据库问题,建立了一个包含语音和电声门图仪(EGG)信息的汉语双模情感语音数据库,并对其进行了标注和一致性检测.首先,根据情感语音数据库的特色制定了详细的标注规则和方法,由5名标注者按照制定的标注规则对情感语音数据库进行标注.其次,为了确保情感语音数据库的标注质量和测试标注规则的完整性,标注者在正式标注之前先进行了测试性标注,测试语音包含280条语音(7种情感×2名说话人×20条语音).最后,根据语音标注规则设计了相应的一致性检测算法.结果表明,在5ms的时间误差范围内,5名标注者对相同语音标注的一致性平均可以达到60%以上,当误差范围增大至8ms和10ms时,一致性平均可提高5%和8%.实验说明5名标注者对语音的理解较一致,制定的标注规则比较完整,情感语音数据库的质量也较高.   相似文献   

15.
针对由高斯模糊和泊松噪声引起的图像降质问题,提出了一种基于结构加权低秩近似的图像去模糊方法。首先,通过依次组合缩放、旋转、剪切和翻折等四种基本操作引入结构变换,以增加搜索空间内候选图像块的相似性。然后,构造新的目标函数,利用相似图像块的低秩性,在正则项中使用加权核范数(WNN)对结构变换后的图像块进行惩罚,以在去模糊的同时抑制泊松噪声。最后,基于半正定二次分裂(HQS)方法设计交替优化方案,用于求解目标函数,从泊松图像中去除模糊。实验结果表明:在多种泊松噪声强度下,所提方法取得的峰值信噪比(PSNR)和结构相似性(SSIM)都高于当前同类去模糊方法。   相似文献   

16.
为了提升航空发动机非线性模型预测控制(MPC)的实时性,将交替方向乘子法(ADMM)应用于模型预测控制的滚动优化中。基于状态空间模型构造预测方程,通过引入辅助变量和对偶变量,将二次型性能指标和发动机约束改写为适合ADMM算法求解的形式。在航空发动机部件级模型上开展的仿真结果表明,基于ADMM算法的单变量模型预测能够实现对指令信号的高性能跟踪和约束的有效管理。相比于内点法(IPM),ADMM算法在滚动优化过程中,在不同控制指令下,均具有更高的实时性,且在预测时域增加的情况下,计算耗时增加更少,验证了其在模型预测控制中应用的有效性。   相似文献   

17.
基于局部线性嵌入的高光谱影像特征提取算法   总被引:2,自引:0,他引:2  
特征提取能够消除冗余信息,提高高光谱数据处理的精度和计算效率,是分类等分析必要的预处理手段.传统特征提取算法基于线性变换,无法准确描述高、低维特征空间的关系,因此采用一种新型非线性特征提取算法,即局部线性嵌入(LLE,Locally Linear Em-bedding),挖掘高光谱影像的本征信息.针对分类问题,使用训练样本类别属性修正距离矩阵,并借鉴LLE计算未知样本低维映射的方法求解测试样本的特征向量,实现监督局部线性嵌入(SLLE,Supervised Locally Linear Embedding).使用机载可见光/红外成像光谱仪数据,与3种分类算法结合进行测试,实验结果表明:SLLE优于线性特征提取算法,能够解决高光谱影像的小样本分类问题.  相似文献   

18.
给出了拼音汉字转换的定义,并建立了一个带调拼音词句到汉字语句的自动转换系统。它由五个部分组成,自动分词模块,词法分析模块,句法和语义分析模块,语义修饰模块和显示模块。其中句法分析是系统的核心,在比较各种方法的基础上选择了扩充转移网络模型,使ATN的优点和音字转换的特点得到较好的结合,测试结果表明,系统的正确转换率达到97%。  相似文献   

19.
一种自适应的汉语普通话音节清/浊音分段方法   总被引:2,自引:0,他引:2  
采用离散小波变换(DWT)实现汉语普通话音节的清/浊音分段,算法根据信号性质自适应地确定离散小波变换的尺度,具有较好的非特定人性质,并且对不同采样率及环境噪声有较强的适应性.测试了算法在男、女声,不同采样率及不同信噪比下的清/浊音分段算法的性能.在无噪情况下正确率为99.44%,在信噪比为30dB、15dB及5dB时正确率均可达99.20%,实验结果证明了算法的有效性和对噪声及非特定人的顽健性.   相似文献   

20.
微博平台数据中含有大量反映用户情感喜恶的信息,对于涉及博文倾向性分析的应用尤为重要。现有的分析方法往往聚焦在博文情感的简单分类上,无法分析特定类型实体的微博倾向性。为解决微博倾向性分析问题,实现博文立场判定,采用半监督学习的方法,通过协同训练和主动学习,训练实体识别模型,并构建基于主成分分析的情感规则,提取句子的主成分,将口语化的文本规范化为指定格式。再利用指向性实体的正负面性、情感词的褒贬义及情感词充当的句子成分,实现情感分类的更深层次分析——立场判定。针对实际问题进行立场判定实验,在不同规模数据集上的自对比实验和他比实验显示,随着标注实体的博文数量增加,模型对博文立场判断的正确率持续提升,而且所提方法判断博文立场的正确率显著高于对比方法,相较已有研究方法分别提高了2.79%和10.00%。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号