共查询到18条相似文献,搜索用时 187 毫秒
1.
基于GPU和隐式格式的CFD并行计算方法 总被引:1,自引:0,他引:1
从图形处理器(GPU)架构特点出发,提出了基于数据并行的隐式计算流体力学(CFD)求解方法,空间离散格式采用迎风Roe格式,计算网格适用于结构和非结构网格。采用统一计算设备架构(CUDA)技术实现了GPU上的隐式CFD并行计算。分别在Intel Core2 Quad3.0GHzCPU和NVIDIAGTX280 GPU上进行了计算,结果表明隐式格式计算速度是显式格式6倍以上,采用显式格式的计算加速比达到28倍,采用隐式格式计算加速比达到了28.7倍,同时计算加速比随计算规模的增加而增加。计算结果和实验结果较为吻合。 相似文献
2.
3.
为了提高间断伽辽金(discontinuous Galerkin, DG)有限元方法的计算效率,围绕求解Euler方程,构建了基于图形处理器(graphics processing unit, GPU)并行加速的隐式DG算法。算法结合Roe格式进行空间离散,采用人工黏性法处理激波等间断问题,时间推进选用下上对称高斯-赛德尔(lower-upper symmetric Gauss-Seidel, LU-SGS)隐式格式。为了克服传统隐式格式固有的数据关联依赖问题,借助于本文提出的面向任意网格的单元着色分组技术,先给出了LUSGS隐式格式的并行化改造,使得隐式时间推进能按颜色组别依次并行,由于同一颜色组内算法已不存在数据关联,可以据此实现并行化。在此基础上,再结合DG算法局部紧致等特点,基于统一计算设备架构(compute unified device architecture, CUDA)编程模型,设计了依据单元的核函数,并构建了对应的线程与数据结构,给出了DG有限元隐式GPU并行算法。最后,发展的算法通过了多个二维和三维典型流动算例考核与性能测试,展示出隐式算法GPU加速的效果,且获得... 相似文献
4.
5.
以圆管构型的声传播为分析对象,研究了基于图形处理器GPU的计算气动声学(Computational Aeroacous-tics,CAA)高阶有限差分算法的并行实现,并与CPU串行及MPI并行实现作了对比分析。首先介绍了管道简化模型的2.5维线化欧拉方程和GPU的编程模式以及调优参考准则,然后给出了相关物理量的空间离散方法的GPU实现。数值实验的结果表明,与CPU串行及MPI并行程序的结果相比,使用GPU的程序实现在达到与MPI并行同样的计算效率时,可以使用更少的计算资源。较之cluster上串行算法,工作站上GPU并行算法在使用不同网格规模的情况下可达到的3倍多的加速比。 相似文献
6.
为实现可压缩流问题的大规模高效数值求解,开展基于图形处理单元(GPU)的并行计算研究。在NVIDIA GTX 1070上建立了基于消息传递接口+统一计算设备架构(MPI+CUDA)的多GPU并行可压缩流求解器,该求解器基于结构网格有限体积法,空间离散采用AUSM+UP格式。采用一维区域分解法对计算网格进行划分,使得各GPU之间达到负载平衡。针对超声速进气道算例,对算法单GPU并行性能和多GPU可扩展性能进行分析。数值结果显示,单GPU并行计算可以获得37~46倍的加速比,极大地提高了计算效率;4块GPU并行计算加速比从47倍增加到143倍,并行效率维持在70%以上,说明并行算法具有良好的可扩展性。 相似文献
7.
在风洞试验中,现有的基于CPU 的光流法求解荧光油膜运动速度场耗时过长,而基于GPU 的光流法存在GPU 资源利用不充分的问题。为此,提出基于荧光油膜图像分块和临界约束的GPU 荧光油膜运动路径实时测量方法。将荧光油膜时序图像按照GPU 的资源将整帧图像切割分块并行处理,创建其对应的光流并行计算策略,即充分利用GPU 的并行流水架构优势和共享内存实现各并行块的光流计算的硬件加速;同时结合块间临界约束条件,以各块的速度矩阵迭代差为标志控制其迭代计算次数。结果表明:本文方法在保证荧光油膜运动速度场计算精度的条件下,较传统的基于CPU 的光流法解算速度平均提升了2 789.5 倍,较整帧图像的GPU 光流法速度平均提升了10.09 倍,实时解算速度可达90 帧/秒。 相似文献
8.
9.
p型多重网格间断Galekin有限元方法研究 总被引:1,自引:0,他引:1
在二维非结构网格上,使用p型多重网格间断Galerkin方法求解定常可压缩欧拉方程。p型多重网格方法主要特征是通过对不同阶次多项式的近似解进行递归迭代求解。文中高阶近似(p0)上使用显式格式,在最低阶近似(p=0)上选用隐式格式,而非显式格式,从而在保证精度和占用较小内存的情况下加速收敛到定常解。运用该方法对NACA0012跨音速无粘流动进行数值模拟,数值结果表明:p型多重网格方法同单重显式Runge-Kutta方法相比,收敛速度能够提高6倍左右,并且精度保持不变。 相似文献
10.
《载人航天》2020,(4)
针对天宫一号目标飞行器无控飞行轨道衰降数值预报需要快速确定轨道积分高精度计算模型中的空气动力,在发展基于修正Boettcher/Legge非对称桥函数的天宫一号空气动力特性当地化算法基础上,对当地化算法的运算流程及对应程序代码进行了整体分析,根据原程序热点代码集中、数据独立性强及传输需求少等特点,发展了多核处理单元的并行优化方法。引入CUDA架构的GPU设备同时,开展了系统、算法以及语句三个层次的并行优化,设计了GPU内存对齐访问方案,使用数据传输函数,将算法求解部分内循环经过展开与合并,整理为整体移植入核函数的一个循环,利用GPU较强的并行计算能力提升运算效率,对函数、循环、指令等代码语句进行级别优化。使用设计的并行计算方案对类天宫飞行器空气动力特性当地化串行算法程序进行CPU+GPU移植优化,达到了近5倍的并行加速比,且使单次求解中GPU数据传输时间缩减为原来的23%,证实了并行方案和优化设计手段的高效实用性。在类天宫飞行器空气动力特性GPU并行算法程序验证基础上,使用GPU并行程序对天宫飞行器轨道衰降飞行340~120 km过程的气动特性进行了不同迎角、侧滑角等飞行姿态计算分析,提供了大量可供轨道飞行力学数值预报的空气动力计算数据。 相似文献
11.
基于GPU的脉冲压缩并行化研究 总被引:1,自引:0,他引:1
在雷达数字脉冲压缩实时信号处理中,常需要每秒完成几亿甚至几百亿次的运算,采用能够专注于执行高度线程化并行任务的GPU实现脉冲压缩具有重要意义.根据线性调频信号和匹配滤波器理论基础,提出了基于GPU的脉冲压缩并行化实现方法.测试结果表明,基于GPU的脉冲压缩并行化方法相对于CPU有百倍以上的加速比. 相似文献
12.
跨声速风扇的流固耦合的颤振分析(英文) 总被引:5,自引:0,他引:5
发展了时间推进的叶片颤振的数值方法,采用了时间推进求解流体和固体相互作用的过程。气动模型是基于求解三维雷诺平均的N-S方程,采用了多块结构化网格的有限体积格式,对流和耗散通量的计算使用了二阶迎风格式和中心格式。在变形的动网格上流体运动的守恒型方程的求解采用双时间步,隐式格式和多重网格方法。叶片振动采用了振型叠加的线性气动弹性模型。该方法在气动弹性标准算例4进行了验证,并用于求解跨音速风扇的颤振问题。 相似文献
13.
针对可编程GPU模型,提出了基于CPU-GPU的并行边缘强度加权融合算法,利用CPU和GPU协同工作模式达到图像融合的目的,其中CPU负责串行任务,而GPU负责并行任务。实验结果表明,并行边缘强度加权融合算法得到的融合图像有着较好的视觉效果,信息熵和QAB/F这两个评价指标均高于文中对比算法的相应指标;从运行时间上分析,基于CPU-GPU的融合方法所需要的运行时间远低于基于CPU方法所需要的运行时间,并且图像尺寸越大,加速比越高。 相似文献
14.
15.
提出的虚拟黏性法是一种关于Navier-Stokes方程黏性项(黏性应力项和传热项)的隐式新方法。通过引入虚拟时间和虚拟黏性项,将隐式格式的构造大大简化,从而避免了大型复杂隐式差分方程组的常规求解。在虚拟时间推进过程中所需求解的方程组的系数矩阵是一个三对角矩阵,它具有计算简单且计算量小的优点。用模型方程和Navier-Stokes方程进行了数值仿真,研究各种参数对计算的影响,并在精度和效率上与显式方法进行比较,证实了算法的正确性和优势。最后分析了本文格式的适用范围。 相似文献
16.
17.
类升力体外形俯仰阻尼特性数值研究 总被引:1,自引:0,他引:1
采用有限差分方法求解薄层近似的非定常Navier-Stokes方程,定常流场采用交替方向隐式分解的NND格式,非定常流场采用四步Runge-Kutta方法,在保证时、空二阶精度前提下引入变系数残值光顺技术提高非定常流场计算效率,复杂带翼外形的空间网格通过求解抛物化的椭圆型方程生成,最后在Etkin理论下给出球锥及类升力体外形的俯仰阻尼导数计算结果。 相似文献