首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于编解码双路卷积神经网络的视觉自定位方法
引用本文:贾瑞明,刘圣杰,李锦涛,王赟豪,潘海侠.基于编解码双路卷积神经网络的视觉自定位方法[J].北京航空航天大学学报,2019,45(10):1965-1972.
作者姓名:贾瑞明  刘圣杰  李锦涛  王赟豪  潘海侠
作者单位:北方工业大学 信息学院,北京,100144;北京航空航天大学 软件学院,北京,100083
基金项目:国家重点研发计划2017YFB0802300北京市教委面上项目KM201510009005北方工业大学学生科技活动项目110051360007
摘    要:为了从单张RGB图像估计出相机的位姿信息,提出了一种深度编解码双路卷积神经网络(CNN),提升了视觉自定位的精度。首先,使用编码器从输入图像中提取高维特征;然后,使用解码器提升特征的空间分辨率;最后,通过多尺度位姿预测器输出位姿参数。由于位置和姿态的特性不同,网络从解码器开始采用双路结构,对位置和姿态分别进行处理,并且在编解码之间增加跳跃连接以保持空间信息。实验结果表明:所提网络的精度与目前同类型算法相比有明显提升,其中相机姿态角度精度有较大提升。 

关 键 词:视觉自定位  编解码结构  卷积神经网络(CNN)  跳跃连接  双路网络
收稿时间:2019-02-13

A visual localization method based on encoder-decoder dual-stream CNN
Institution:1.School of Information Science and Technology, North China University of Technology, Beijing 100144, China2.College of Software, Beihang University, Beijing 100083, China
Abstract:In order to calculate the camera pose from a single RGB image, a deep encoder-decoder dual-stream convolutional neural network (CNN) is proposed, which can improve the accuracy of visual localization. The network first uses an encoder to extract advanced features from input images. Second, the spacialresolution is enhancedby a pose decoder.Finally, a multi-scale estimator is used to output pose parameters. Becauseof the differentperformance of position and orientation, the network adopts a dual-stream structure from the decoder to process the position and orientationseparately. To restore the spatial information, several skip connections are added to encoder-decoder architecture. The experimental results show that the accuracy of the network is obviously improved compared with the congener state-of-the-art algorithms, and the orientation accuracy of camera pose is improved dramatically. 
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《北京航空航天大学学报》浏览原始摘要信息
点击此处可从《北京航空航天大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号