共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
为了快速计算分析利用视频测量方法测得的高速风洞试验密度场在扰动流场作用下的实验数据,针对密度场的数值求解问题,经过光线偏折理论分析密度场得到的二阶偏微分方程,对其研究实现了CPU串行有限元法求解。在此基础上提出了基于GPU的快速有限元求解密度场的方法,该方法经过对串行有限元法求解过程效率分析后,将耗时的神经网络拟合、总刚度矩阵和总载荷向量的求解进行了基于GPU的并行加速。实验结果表明:在精度满足实际工程要求的前提下,相对于CPU串行求解方法,所提方法可大大提高求解效率,且随着网格剖分成倍加密,其加速比成倍增加。 相似文献
3.
基于分布式平台开展一种新的时域有限差分(FDTD)并行算法研究,该算法基于VC++、CUDA5.0平台开发,调用Intel MPI 4.1.0库进行测试,在上海交通大学高性能计算中心图形处理单元(GPU)集群、上海超级计算机中心的“魔方”商用超级计算机以及国家超级计算济南中心的“神威蓝光”国产超级计算机等平台开展软件调试。通过对纯CPU、GPU以及CPU和GPU的混合测试,线程调度水平、核心函数处理速度得到明显提升,同时减少了通信执行时间比例,提高了加速比和并行效率,最后以2×2微带阵列为验证模型进行拓扑优化测试,结果证明该算法准确、有效。 相似文献
4.
按区域惩罚划分的并行多目标遗传算法 总被引:2,自引:0,他引:2
解决多学科设计优化问题的多目标遗传算法通常面临着大计算量的挑战,提出了一种新型的并行化算法来提高其效率.全局个体均匀的分布在各个进程,首先从所有的进程中获取全局范围的Pareto最优解极值,并发送给每个进程,再由这些极值来构造各个进程自己的惩罚函数.通过惩罚函数给个体添加约束来划分各个进程的收敛区域,同时采取优化措施保证每个进程加速收敛并且收敛区域没有重叠和遗漏,这样每个进程只需收敛到特定的一段Pareto最优解,降低了计算量;同时由于进程间交换的数据量小,保证了效率的提高.通过与串行算法(NSGA2)和其他的并行化算法比较,显示了该算法的有效性和先进性. 相似文献
5.
LZMA(Lempel Ziv Markov-chain Algorithm)无损压缩算法在进行数据压缩时速度慢且占用大量的CPU(Central Processing Unit)资源,不能满足实时系统的要求.在改进算法的基础上,采用FPGA(Field Programmable Gate Array)设计了一个LZMA压缩算法硬件加速电路.该电路由LZ77压缩控制器、区间编码控制器和数据读出控制器组成,采用数据乒乓结构、高性能并行匹配结构和流水线处理结构等多种方法提高了LZMA压缩算法的速度,在支持标准LZMA压缩文件格式的同时,将压缩速度提升到近125 Mb/s,相比基于软件的LZMA算法加速10倍,每个时钟处理的相对数据加速近200倍.最后通过基于Virtex-6 FPGA的ML605开发平台验证了硬件加速电路的正确性和可行性. 相似文献
6.
现有无人机(UAV)影像三维重建方法在功耗、时效等方面无法满足移动终端对低功耗、高时效的需求。为此,在有限资源FPGA平台下,结合指令优化策略和软硬件协同优化方法,提出一种基于FPGA高吞吐量硬件优化架构的无人机航拍影像快速低功耗高精度三维重建方法。首先,构建多尺度深度图融合算法架构,增强传统FPGA相位相关算法对不可信区域的鲁棒性,如低纹理、河流等区域。其次,结合高并行指令优化策略,提出高性能软硬件协同优化方案,实现多尺度深度图融合算法架构在有限资源FPGA平台的高效运行。最后,将现有CPU方法、GPU方法与FPGA方法进行综合实验比较,实验结果表明:FPGA方法在重建时间消耗上与GPU方法接近,比CPU方法快近20倍,但功耗仅为GPU方法的2.23%。 相似文献
提出了一种基于Nvidia公司Fermi架构图形处理单元(GPU,Graphic Processing Unit)的分层低密度奇偶校验LDPC(Low-Density Parity-Check)码译码算法的译码器结构优化设计.利用GPU架构的并行性特点,采用帧间与层内双重并行的处理方式,充分利用流多处理器硬件资源,有效缓解了分层译码算法并行度受限的问题.此外,通过采取片上constant memory存储器压缩存储校验矩阵以及利用片外global memory存储器对译码迭代信息进行联合访问的优化方法,有效降低了访存延迟,提高了译码吞吐率.测试结果表明,通过采用多帧并行处理和存储器访问优化可以提升基于GPU的LDPC译码器吞吐率14.9~34.8倍. 相似文献
8.
提出了一种基于Nvidia公司Fermi架构图形处理单元(GPU,Graphic Processing Unit)的分层低密度奇偶校验LDPC(Low-Density Parity-Check)码译码算法的译码器结构优化设计.利用GPU架构的并行性特点,采用帧间与层内双重并行的处理方式,充分利用流多处理器硬件资源,有效缓解了分层译码算法并行度受限的问题.此外,通过采取片上constant memory存储器压缩存储校验矩阵以及利用片外global memory存储器对译码迭代信息进行联合访问的优化方法,有效降低了访存延迟,提高了译码吞吐率.测试结果表明,通过采用多帧并行处理和存储器访问优化可以提升基于GPU的LDPC译码器吞吐率14.9 ~34.8倍. 相似文献
9.
X射线动态数字图像降噪方法与快速实现 总被引:2,自引:2,他引:0
对于X射线动态数字成像系统,为了实现高帧频采集引起的数字摄影(DR,Digital Radiography)图像降质的恢复,采用Anscombe变换将NL-means降噪算法引入到DR图像的降噪中.为了解决NL-means降噪算法计算量大、运算速度慢的问题,利用可编程图形处理单元(GPU,Graphic Processing Unit)并行计算和高速浮点计算特性,将DR图像映射为GPU中的纹理,采用多线程并行计算,使得NL-means算法在GPU中加速执行.实验结果表明,NL-means能够有效抑制动态DR图像噪声.GPU加速方法可以在不损失图像信息的前提下,加速比可达2个数量级以上,满足了实时降噪的要求. 相似文献