一种基于Spark的国产化海量数据预处理和计算技术 |
| |
引用本文: | 丁派克,曹芳芳,王晓玲.一种基于Spark的国产化海量数据预处理和计算技术[J].航天控制,2019,37(6):54-58. |
| |
作者姓名: | 丁派克 曹芳芳 王晓玲 |
| |
作者单位: | 北京航天自动控制研究所,北京100854;北京航天自动控制研究所,北京100854;北京航天自动控制研究所,北京100854 |
| |
摘 要: | 以提升航天大数据软件的数据处理性能为目的,以原有的MapReduce框架为基础,提出一种新的面向国产平台的基于Spark内存计算和数据预处理技术相结合的技术。将原软件框架的数据解析算法前移,采用Kafka消息队列对不规格数据进行分布式预处理。针对MapReduce框架消耗内存过大的问题,利用RDD调用机制与Spark内存计算的优势,采用一种基于Spark的快速处理框架,并在国产平台上进行了移植适配。经工程验证,新的基于Spark框架的数据处理性能较之前的MapReduce的数据处理性能有了显著提升,稳定实现了在面向全国产平台的大数据批处理技术的性能优化。
|
关 键 词: | Spark 数据预处理 大数据 |
本文献已被 CNKI 万方数据 等数据库收录! |
|