首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于Spark的国产化海量数据预处理和计算技术
引用本文:丁派克,曹芳芳,王晓玲.一种基于Spark的国产化海量数据预处理和计算技术[J].航天控制,2019,37(6):54-58.
作者姓名:丁派克  曹芳芳  王晓玲
作者单位:北京航天自动控制研究所,北京100854;北京航天自动控制研究所,北京100854;北京航天自动控制研究所,北京100854
摘    要:以提升航天大数据软件的数据处理性能为目的,以原有的MapReduce框架为基础,提出一种新的面向国产平台的基于Spark内存计算和数据预处理技术相结合的技术。将原软件框架的数据解析算法前移,采用Kafka消息队列对不规格数据进行分布式预处理。针对MapReduce框架消耗内存过大的问题,利用RDD调用机制与Spark内存计算的优势,采用一种基于Spark的快速处理框架,并在国产平台上进行了移植适配。经工程验证,新的基于Spark框架的数据处理性能较之前的MapReduce的数据处理性能有了显著提升,稳定实现了在面向全国产平台的大数据批处理技术的性能优化。

关 键 词:Spark  数据预处理  大数据
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号