排序方式: 共有12条查询结果,搜索用时 500 毫秒
1.
在处理工程问题时,常常需要对线性或非线性方程组进行求解。对于实际应用中经常遇到的大型方程组进行求解则需要相当长的时间。使用图形处理器(GPU)代替传统的CPU,将多块GPU通过操作系统进行协调,并将PBi-CGstab方法和Inexact Newton方法进行适合多GPU并行的改造以此作为多GPU求解器的核心算法,加速求解大型线性和非线性方程组。本文的多GPU求解器在成倍扩展了单GPU求解器允许的计算规模的同时取得了令人满意的加速比。 相似文献
2.
针对视觉导航系统对小型化、超分辨成像和近程立体视觉的需求,研究了一种基于微端面光纤面板的大视场紧凑型仿生复眼成像系统。利用视轴发散的微小型透镜组进行大视场成像,并以切削斜端面的光纤面板进行图像传输,将大面阵(5120×5120像素)CMOS相机与光纤面板后端面直接耦合实现图像输出,可实现9个视场部分重叠子孔径图像同步实时输出和采集。在实时化拼接处理中,利用CUDA并行加速方法进行图像拼接,单帧的拼接耗时小于30ms。视场部分重叠复眼成像模式还可配置偏振片或滤光片构成全偏振或多光谱成像,在天空偏振光导航、无人机紧急避障、弹载侦察、近程引信以及水下无人潜航器导航等领域具有广泛的应用前景。 相似文献
3.
GPU平台上的叶轮机械CFD加速计算 总被引:2,自引:1,他引:1
通过数据并行的方式对一个成熟的叶轮机多块网格气动计算程序(MAP)进行了并行化处理,利用计算统一设备架构(CUDA)技术实现了在图形处理单元(GPU)上的并行计算.保留了原程序中的2阶空间迎风格式和隐式时间离散格式,并采用了隐式迭代对线性系统进行求解.经过2个叶轮机械算例的测试,与在传统的中央处理器(CPU)上运行的原程序相比,在计算结果完全一致的前提下,单GPU的计算速度最高可达单CPU计算速度的8.89倍,与四核并行的CPU计算相比可以得到2.39倍的加速. 相似文献
4.
针对集群系统的多节点多GPU环境,提出一种新型虚拟化GPU计算平台。该平台实现对集群系统所有节点上GPU资源的统一抽象与管理,构建公共GPU资源池。原有GPU应用程序可以不经任何修改而迁移到虚拟化GPU计算平台,并具备访问资源池内任何GPU的能力,编程人员无需显式针对多节点多GPU应用展开MPI编程。应用程序摆脱了单个节点上GPU资源的限制,并具备无差别地访问集群系统中任何可用GPU资源的能力,能有效提高系统总体资源利用率以及吞吐量。采用流水化通信技术,实现对虚拟化GPU计算平台的运行时开销以及节点间数据传输延迟的隐藏。实验表明:与非流水化通信相比,系统总体数据传输延迟降低了50%~70%,具备与节点机本地数据传输等同的通信性能。 相似文献
5.
三维磁流体力学(MHD)数值模拟是用来研究日冕和太阳风最常用的方法之一, 其中将计算得到的日冕电子数密度转化为日冕偏振亮度(Polarization Brightness, PB)是与观测对比的重要方法. 由于待转换电子数据网格密度、PB数据网格密度和计算模型的复杂度, 使得日冕偏振亮度的计算比较耗时, 利用单CPU计算无法达到近实时转换日冕偏振亮度的要求, 从而影响了数值模拟的验证效率. 本文在CPU/GPU环境下, 利用CUDA编程技术, 提出了一个日冕偏振亮度并行计算模型. 实验结果表明, 该模型比CPU上的串行模型计算速度提高了31.86倍, 达到了近实时模拟与观测数据比对的计算要求. 相似文献
6.
基于GPU的脉冲压缩并行化研究 总被引:1,自引:0,他引:1
在雷达数字脉冲压缩实时信号处理中,常需要每秒完成几亿甚至几百亿次的运算,采用能够专注于执行高度线程化并行任务的GPU实现脉冲压缩具有重要意义.根据线性调频信号和匹配滤波器理论基础,提出了基于GPU的脉冲压缩并行化实现方法.测试结果表明,基于GPU的脉冲压缩并行化方法相对于CPU有百倍以上的加速比. 相似文献
7.
8.
针对可编程GPU模型,提出了基于CPU-GPU的并行边缘强度加权融合算法,利用CPU和GPU协同工作模式达到图像融合的目的,其中CPU负责串行任务,而GPU负责并行任务。实验结果表明,并行边缘强度加权融合算法得到的融合图像有着较好的视觉效果,信息熵和QAB/F这两个评价指标均高于文中对比算法的相应指标;从运行时间上分析,基于CPU-GPU的融合方法所需要的运行时间远低于基于CPU方法所需要的运行时间,并且图像尺寸越大,加速比越高。 相似文献
9.
随着图像分辨率和场景信息获取实时性需求的提高,业界对双目立体匹配算法的效率提出了更高的要求。针对该问题,提出了将SAD与Census变换特征融合的结果作为初始匹配代价,利用SGM算法进行代价聚合,采用赢家通吃策略计算视差,通过左右一致性检验检测出遮挡点并填充,使用中值滤波剔除异常值,最终获取优化后的视差图。采用统一计算设备架构(CUDA)对算法实现并行计算,针对立体匹配比较耗时的问题,该算法最大化地利用共享内存、寄存器内存以及CUDA流,实现了不同核函数之间的并行,大大提升了执行效率。结果表明,该算法在Middlebury立体匹配平台上,平均误匹配率下降了8.05%;在NVIDIA GeForce GTX 1650平台上运行450×375分辨率的图像,比原始SGM算法快687倍,运行高分辨率图像时依然能够实现实时显示性能。 相似文献
10.
为实现可压缩流问题的大规模高效数值求解,开展基于图形处理单元(GPU)的并行计算研究。在NVIDIA GTX 1070上建立了基于消息传递接口+统一计算设备架构(MPI+CUDA)的多GPU并行可压缩流求解器,该求解器基于结构网格有限体积法,空间离散采用AUSM+UP格式。采用一维区域分解法对计算网格进行划分,使得各GPU之间达到负载平衡。针对超声速进气道算例,对算法单GPU并行性能和多GPU可扩展性能进行分析。数值结果显示,单GPU并行计算可以获得37~46倍的加速比,极大地提高了计算效率;4块GPU并行计算加速比从47倍增加到143倍,并行效率维持在70%以上,说明并行算法具有良好的可扩展性。 相似文献