一种基于Spark的国产化海量数据预处理和计算技术期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种基于Spark的国产化海量数据预处理和计算技术

引用本文：	丁派克,曹芳芳,王晓玲.一种基于Spark的国产化海量数据预处理和计算技术[J].航天控制,2019,37(6):54-58.

作者姓名：	丁派克曹芳芳王晓玲

作者单位：	北京航天自动控制研究所,北京100854;北京航天自动控制研究所,北京100854;北京航天自动控制研究所,北京100854

摘要：	以提升航天大数据软件的数据处理性能为目的,以原有的MapReduce框架为基础,提出一种新的面向国产平台的基于Spark内存计算和数据预处理技术相结合的技术。将原软件框架的数据解析算法前移,采用Kafka消息队列对不规格数据进行分布式预处理。针对MapReduce框架消耗内存过大的问题,利用RDD调用机制与Spark内存计算的优势,采用一种基于Spark的快速处理框架,并在国产平台上进行了移植适配。经工程验证,新的基于Spark框架的数据处理性能较之前的MapReduce的数据处理性能有了显著提升,稳定实现了在面向全国产平台的大数据批处理技术的性能优化。
关键词：	Spark 数据预处理大数据
本文献已被 CNKI 万方数据等数据库收录！