博客名称
动态日历
统计近10个月的博主文章和评论数目
Loading...
分类雷达图
Loading...
发布统计图
Loading...
分类统计图
Loading...
标签统计图
Loading...
时光机
新
时光机
这是一条默认的说说,如果你看到这条动态,请去后台新建独立页面,地址填写cross,自定义模板选择时光机。具体说明请参见主题的使用攻略。
April 4th, 2025 a 09:27 am
用户名
密码
登录
登录中...
文章
时光机
分类 BigData 下的文章
首页
BigData
PySparkCore(pyspark的RDD算子)API汇总
1 为什么需要RDD分布式计算需要:分区控制Shuffle控制数据存储\序列化\发送数据计算API等一系列功能这些功能, 不能简单的通过Python内置的...
panbh5500
2022 年 08 月 22 日
暂无评论
Spark简介、特点、框架模块及运行模式介绍
入门概念Spark是什么Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。Spark 最早...
panbh5500
2022 年 08 月 22 日
暂无评论
Kafka工作流程、文件存储机制与组成单位原理
1 kafka工作流程及文件存储机制Kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。topic是逻辑上的概...
panbh5500
2022 年 08 月 22 日
暂无评论
Kafka基本概述与三大命令
1 Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2 K...
panbh5500
2022 年 08 月 22 日
暂无评论
Hive文件压缩方法与特点
1 压缩1.1 压缩概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据...
panbh5500
2022 年 08 月 22 日
暂无评论
1
2
3
4
5
6
文章目录