排序方式: 共有14条查询结果,搜索用时 15 毫秒
1.
传统的高性能线性代数计算库如BLAS需要开发者具备丰富的性能优化经验,使用困难。TensorFlow、Pytorch等AI框架提供了简单的开发接口,促进了机器学习应用的发展。这些AI框架大量进行线性代数计算,但是不清楚其是否针对线性代数计算进行了性能优化。设计了一组线性代数计算测试程序,评估了AI框架对的线性代数计算的... 相似文献
2.
3.
4.
本文首先讨论了线性方程组 AX=b 的反问题的解的结构,并给出了在几种情形下 AX=b 的反问题的具体求法。最后证明了 AX=b 的反问题在实对称正定、半正定(负定、半负定)矩阵类无解的情形下,在实对称正定、半正定(负定、半负定)矩阵类中广义解的存在性,并给出了其求法。 相似文献
5.
针对弹道跟踪数据融合处理中的大计算量环节研究了快速算法。用样条函数表示弹道参数,建立了多测元的联合观测模型和弹道参数的非线性融合计算模型,给出了弹道参数的求解算法,分析了弹道参数融合计算中的大型矩阵运算问题,利用基础线性代数函数库提高了大型矩阵的运算速度。建立了样条模型计算的非线性约束优化模型,给出了确定样条节点位置的优化算法,通过分析样条模型的计算原理设计了并行算法,实现了样条模型的并行化计算。仿真结果表明,弹道参数融合计算和样条模型计算的效率都得到了显著提高,计算时间减少了65.47%,对缩短数据处理周期有重要意义。 相似文献
6.
7.
戴华 《南京航空航天大学学报》1990,(4)
本文讨论带Rayleigh商位移的QL方法的收敛性。给出了带Rayleigh商位移QL方法的收敛条件,并给出了带Rayleigh商位移QL方法不收敛的充分必要条件,证明了带Rayleigh商位移QL方法对任何不可约对称三对角矩阵总是有效的。 相似文献
8.
基于Pentium Pro的高性能BLAS的设计与实现 总被引:1,自引:1,他引:1
李忠泽 《北京航空航天大学学报》1998,24(4):454-457
支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对Pentium Pro的体系结构特点,提出了一些优化方法使得BLAS在Pentium Pro上计算性能达到最佳.测试表明,在200MHz的Pentium Pro上BLAS3的速度可达112Mflops. 相似文献
9.
戴华 《南京航空航天大学学报》1994,26(3):429-433
设,假定分别是的极分解。本文证明了其中是矩阵的Frobenius范数。并且将这个结果应用于矩阵正逼近问题的扰动分析。假定的正逼近. 相似文献
10.
利用SMP结构的多处理器结点通过高速网络构造高性能并行计算系统是当前的一种发展趋势.为了使BLAS在SMP结点上具有更高的效率,本文讨论了BLAS3的多线程化问题;同时以SUMMA作为并行计算的实例,说明提高结点机程序的性能对并行计算性能的影响.试验结果显示,在一定的条件下,多线程BLAS3在SMP平台上可以获得超线性加速比;结点计算性能的提高的同时必须提高网络有效带宽,才能充分发挥并行计算的效能. 相似文献