Loading...
1 为什么需要RDD 分布式计算需要: 分区控制 Shuffle控制 数据存储\序列化\发送 数据计算API 等一系列功能 这些功能, 不能简单的通过...
入门概念 Spark是什么 Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。Spark ...
1 kafka工作流程及文件存储机制 Kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。 topic是逻辑上...
1 Kafka概述 1.1 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 1....
1 压缩 1.1 压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络...