首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
反卷积是图像去模糊的基本算法,针对传统反卷积算法在图像去模糊处理中实时性较弱问题,提出基于众核GPU的Iterative Deconvolve 3d反卷积算法的并行优化实现.所提算法将原算法中的核心运算放在GPU上并行实现,利用CPU和GPU协同工作模式,CPU负责串行任务GPU负责并行任务.实验表明:与传统的算法相比,在不影响图片处理效果的前提下,计算速度比CPU上的实现速度提高了近11倍,并具有良好的可扩展性.  相似文献   

2.
赖剑奇  李桦  张冉  常青 《航空学报》2018,39(9):121944-121953
为实现可压缩流问题的大规模高效数值求解,开展基于图形处理单元(GPU)的并行计算研究。在NVIDIA GTX 1070上建立了基于消息传递接口+统一计算设备架构(MPI+CUDA)的多GPU并行可压缩流求解器,该求解器基于结构网格有限体积法,空间离散采用AUSM+UP格式。采用一维区域分解法对计算网格进行划分,使得各GPU之间达到负载平衡。针对超声速进气道算例,对算法单GPU并行性能和多GPU可扩展性能进行分析。数值结果显示,单GPU并行计算可以获得37~46倍的加速比,极大地提高了计算效率;4块GPU并行计算加速比从47倍增加到143倍,并行效率维持在70%以上,说明并行算法具有良好的可扩展性。  相似文献   

3.
针对可编程GPU模型,提出了基于CPU-GPU的并行边缘强度加权融合算法,利用CPU和GPU协同工作模式达到图像融合的目的,其中CPU负责串行任务,而GPU负责并行任务。实验结果表明,并行边缘强度加权融合算法得到的融合图像有着较好的视觉效果,信息熵和QAB/F这两个评价指标均高于文中对比算法的相应指标;从运行时间上分析,基于CPU-GPU的融合方法所需要的运行时间远低于基于CPU方法所需要的运行时间,并且图像尺寸越大,加速比越高。  相似文献   

4.
针对天宫一号目标飞行器无控飞行轨道衰降数值预报需要快速确定轨道积分高精度计算模型中的空气动力,在发展基于修正Boettcher/Legge非对称桥函数的天宫一号空气动力特性当地化算法基础上,对当地化算法的运算流程及对应程序代码进行了整体分析,根据原程序热点代码集中、数据独立性强及传输需求少等特点,发展了多核处理单元的并行优化方法。引入CUDA架构的GPU设备同时,开展了系统、算法以及语句三个层次的并行优化,设计了GPU内存对齐访问方案,使用数据传输函数,将算法求解部分内循环经过展开与合并,整理为整体移植入核函数的一个循环,利用GPU较强的并行计算能力提升运算效率,对函数、循环、指令等代码语句进行级别优化。使用设计的并行计算方案对类天宫飞行器空气动力特性当地化串行算法程序进行CPU+GPU移植优化,达到了近5倍的并行加速比,且使单次求解中GPU数据传输时间缩减为原来的23%,证实了并行方案和优化设计手段的高效实用性。在类天宫飞行器空气动力特性GPU并行算法程序验证基础上,使用GPU并行程序对天宫飞行器轨道衰降飞行340~120 km过程的气动特性进行了不同迎角、侧滑角等飞行姿态计算分析,提供了大量可供轨道飞行力学数值预报的空气动力计算数据。  相似文献   

5.
MPI+OpenMP算法在三维可压缩流场计算中的应用   总被引:1,自引:0,他引:1  
在多核CPU集群并行体系结构下,采用MPI+OpenMP的混合并行算法,对可压缩流场进行数值模拟,并在计算时间上与MPI算法进行比较。流场计算的控制方程为Euler方程,空间离散采用Jameson中心差分格式,时间离散采用R-K法,并行模式采用Master/Slave模式。通过对M6机翼和某弹丸采用多种并行方法进行流场的数值模拟,得出MPI+OpenMP混合算法在一定条件下具有高效性的结论。  相似文献   

6.
GPU平台上的叶轮机械CFD加速计算   总被引:2,自引:1,他引:1  
通过数据并行的方式对一个成熟的叶轮机多块网格气动计算程序(MAP)进行了并行化处理,利用计算统一设备架构(CUDA)技术实现了在图形处理单元(GPU)上的并行计算.保留了原程序中的2阶空间迎风格式和隐式时间离散格式,并采用了隐式迭代对线性系统进行求解.经过2个叶轮机械算例的测试,与在传统的中央处理器(CPU)上运行的原程序相比,在计算结果完全一致的前提下,单GPU的计算速度最高可达单CPU计算速度的8.89倍,与四核并行的CPU计算相比可以得到2.39倍的加速.  相似文献   

7.
针对传统中值滤波算法的优缺点,结合椒盐噪声的特征,提出了一种有效的自适应中值滤波算法。首先依据椒盐噪声的特征,将图像像素分为噪声和信号,然后根据窗口内噪声点的个数自适应地确定滤波窗口的尺寸,仅对噪声像素进行中值滤波。但随着噪声密度和图像规模的增大,在CPU上执行的时间显著增加。分析并利用图形处理器(GPU)的并行处理特征,并在CUDA平台中实现了算法。实验结果表明,所提出的算法能够有效地去除椒盐噪声、保留边缘和细节,并且能显著缩短计算时间,随着噪声密度和图像规模的增大,最大加速比达到6 000倍。  相似文献   

8.
现代GPU不仅是功能强劲的图形处理引擎,也是具有强大计算性能和存储带宽的高度并行可编程器件,能够与CPU构建完整的异构处理系统。而将GPU用于图形处理以外的计算,一般称之为GPU通用计算(General-Purpose computing on Graphics Processing Unit,GPGPU)。对GPU通用计算的概念及分类、硬件架构及工作机制、软件环境及处理模型进行详细的研究,期望为GPU通用计算在航空嵌入式计算领域的进一步应用提供参考。  相似文献   

9.
Linux环境下MPI并行编程与算法实现研究   总被引:2,自引:0,他引:2  
并行计算实现求解一些复杂的问题,并行编程技术的进步使得并行计算逐步应用到很多领域。MPI是一种消息传递编程模型并可以被广泛使用的编写消息传递程序的标准,已扩展为一种优秀的并行程序设计语言。该文简要介绍了有关并行编程的基本概念与方法,深入讨论了MPI并行编程环境与并行编程模式,对MPI并行性进行了分析,给出了Linux环境下MPI编程环境的配置方法,最后结合一个实例详细描述了用MPI实现并行算法的方法。通过对实验程序的结果分析,在Linux机群环境下用MPI实现复杂的并行算法是简单的,并且能取得较好的性能。  相似文献   

10.
吴培灵  张征宇  孙维 《航空工程进展》2023,14(1):157-164,174
在风洞试验中,现有的基于CPU 的光流法求解荧光油膜运动速度场耗时过长,而基于GPU 的光流法存在GPU 资源利用不充分的问题。为此,提出基于荧光油膜图像分块和临界约束的GPU 荧光油膜运动路径实时测量方法。将荧光油膜时序图像按照GPU 的资源将整帧图像切割分块并行处理,创建其对应的光流并行计算策略,即充分利用GPU 的并行流水架构优势和共享内存实现各并行块的光流计算的硬件加速;同时结合块间临界约束条件,以各块的速度矩阵迭代差为标志控制其迭代计算次数。结果表明:本文方法在保证荧光油膜运动速度场计算精度的条件下,较传统的基于CPU 的光流法解算速度平均提升了2 789.5 倍,较整帧图像的GPU 光流法速度平均提升了10.09 倍,实时解算速度可达90 帧/秒。  相似文献   

11.
基于GPU的脉冲压缩并行化研究   总被引:1,自引:0,他引:1  
在雷达数字脉冲压缩实时信号处理中,常需要每秒完成几亿甚至几百亿次的运算,采用能够专注于执行高度线程化并行任务的GPU实现脉冲压缩具有重要意义.根据线性调频信号和匹配滤波器理论基础,提出了基于GPU的脉冲压缩并行化实现方法.测试结果表明,基于GPU的脉冲压缩并行化方法相对于CPU有百倍以上的加速比.  相似文献   

12.
一种DSMC方法的并行策略   总被引:1,自引:1,他引:0  
黄飞  苗文博  程晓丽  沈清 《航空学报》2014,35(4):968-974
为提高直接模拟蒙特卡罗(DSMC)仿真模拟的并行计算效率,基于消息传递接口(MPI)的并行环境,通过对比分析主从模式及对等模式两种程序设计模式下的并行效率,探讨了对等模式下非结构网格DSMC并行程序实现的关键技术及实施途径。提出了一种非结构网格下动态负载平衡DSMC仿真模拟的并行策略,设计了基于对等模式动态负载平衡的DSMC并行算法。最后以钝锥外形的高超声速绕流问题进行仿真模拟,验证本文并行算法的有效性,结果表明,本文设计的基于对等模式动态负载平衡的DSMC并行算法能够以高效的并行效率给出合理的结果。  相似文献   

13.
当前,由于有限元素法大都使用串行算法,处理时间较长。本文根据有限元素法的特点和采用的并行计算机结构,提出了一种并行有限元算法,能大大提高其处理速度,加快处理周期。且算法简单,实现方便。  相似文献   

14.
薄壳结构失稳临界载荷的并行计算   总被引:1,自引:1,他引:0  
以大型有限元分析软件为开发平台,研究了弹性结构屈曲分析的并行计算方法及软件实现,并针对大规模超级计算机的硬件环境编写了屈曲分析的并行求解程序;通过开发软件接口,将并行求解程序作为子模块嵌入串行有限元分析软件的求解序列中,并使其可直接调用;针对有限元前后处理器开发了风格一致的客户化界面,使并行计算的操作可视化。开发集成后的软件系统使串行有限元软件的前后处理能力与大规模并行机的高性能计算能力紧密结合,能够有效提高静力屈曲分析的规模和效率。   相似文献   

15.
A new approach using a multilayered feed forward neural network for pulse compression is presented. The 13 element Barker code was used as the signal code. In training this network, the extended Kalman filtering (EKF)-based learning algorithm which has faster convergence speed than the conventional backpropagation (BP) algorithm was used. This approach has yielded output peak signal to sidelobe ratios which are much superior to those obtained with the BP algorithm. Further, for use of this neural network for real time processing, parallel implementation of the EKF-based learning algorithm is indispensable. Therefore, parallel implementation has also been developed  相似文献   

16.
离子推力器羽流场模拟以及Mo+CEX沉积分析   总被引:3,自引:2,他引:1  
李娟  楚豫川  曹勇 《推进技术》2012,33(1):131-137
离子推力器工作产生的羽流会对航天器产生影响,严重时甚至会造成航天器无法正常工作,为了精确评估离子推力器羽流特性及其对航天器的作用,采用基于粒子轨道理论(PIC,Particle-In-Cell)的模型对复杂的航天器的离子推力器羽流进行了数值模拟,并结合最近几年发展起来的浸入式有限元(IFE,Immersed Finite Ele-ment),采用结构网格准确计算复杂边界电场。通过模拟,获得了Mo+CEX离子在卫星表面的最大可能沉积分布,定量分析了卫星表面Mo+CEX离子的最大可能沉积率,表明在垂直于推力器主束流方向的卫星组件的表面上容易产生较大的Mo+CEX离子污染沉积率,而平行于推力器主束流方向上Mo+CEX离子污染沉积率相对较小。  相似文献   

17.
为了满足机载座舱显控系统对图形引擎的性能要求,设计了一种基于半虚拟化的机载图形引擎实现方案,并在嵌入式平台上进行实现和测试.结果表明采用本文设计的虚拟化图形引擎,可以满足多个虚拟机同时使用GPU进行绘制的需求的同时,可以有效发挥多核CPU的性能,在提高了产品集成度的同时,显著提升了机载图形应用的性能。  相似文献   

18.
勾文进  张帅  郑耀 《推进技术》2019,40(11):2554-2561
为实现双股射流撞击雾化过程的高效数值求解并探究射流速度和撞击角度对雾化特性的影响规律,实现了移动粒子半隐式方法(MPS)GPU加速的双股射流撞击雾化模拟。GPU加速程序的最大加速比为16,取得了较好的加速效果。将GPU加速MPS方法应用于典型工况下的双股射流撞击雾化模拟,成功捕捉到了多尺度的液膜形成、液膜破碎成液丝继而破碎成液滴的瞬态过程,模拟得到的液膜破碎长度及雾化角度与试验较为吻合,误差分别为11.7%和0.5%,验证了GPU加速MPS方法在双股射流撞击雾化问题中处理能力。参数化分析了射流速度和撞击角度对液膜破碎长度、雾化角度及一次雾化液滴索尔直径的影响。结果表明撞击角度增加或者射流速度增加均会导致液膜破碎长度减小、雾化角度增加、一次雾化液滴索尔直径减小。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号