pysparkSQL汇总（未完待续）

博主： panbh5500
发布时间：2022 年 08 月 22 日
438 次浏览
暂无评论
4722字数
分类： BigData

1 SparkSQL概述

1.1 SparkSQL简介

SparkSQL 是Spark的一个模块, 用于处理海量结构化数据。

SparkSQL是非常成熟的海量结构化数据处理框架，学习SparkSQL主要在2个点:

SparkSQL本身十分优秀, 支持SQL语言\性能强\可以自动优化\API简单\兼容HIVE等等
企业大面积在使用SparkSQL处理业务数据
- 离线开发
- 数仓搭建
- 科学计算
- 数据分析

特点：

融合性：SQL可以无缝集成在代码中, 随时用SQL处理数据
统一数据访问：一套标准API可读写不同数据源
Hive兼容：可以使用SparkSQL直接计算并生成Hive数据表
标准化连接：支持标准化JDBC\ODBC连接, 方便和各种数据库进行数据交互.

1.2 SparkSQL和Hive的异同

Hive和Spark 均是：“分布式SQL计算引擎”

均是构建大规模结构化数据计算的绝佳利器，同时SparkSQL拥有更好的性能。

目前，企业中使用Hive仍旧居多，但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级

1.3 Spark数据抽象

Pandas -- DataFrame

二维表数据结构
单机（本地）集合

SparkCore -- RDD

无标准数据结构，存储什么数据均可
分布式集合（分区）

SparkSQL -- DataFrame

二维表数据结构
分布式集合（分区）

SparkSQL For JVM -- DataSet

可用于Java、Scala语言

SparkSQL For Python\R -- DataSet

可用于Java、Scala、Python、R语言

发展历程：

14年最早的数据抽象是：SchemaRDD（内部存储二维表数据结构的RDD），SchemaRDD就是魔改的RDD，将RDD支持的存储数据，限定为二维表数据结构用以支持SQL查询。由于是魔改RDD，只是一个过渡产品，现已废弃。
15年发布DataFrame对象，基于Pandas的DataFrame（模仿）独立于RDD进行实现，将数据以二维表结构进行存储并支持分布式运行
16年发布DataSet对象，在DataFrame之上添加了泛型的支持，用以更好的支持Java和Scala这两个支持泛型的编程语言
16年，Spark2.0版本，将DataFrame和DataSet进行合并。其底层均是DataSet对象，但在Python和R语言到用时，显示为DataFrame对象。和老的DataFrame对象没有区别

1.4 DataFrame概述

假定有如下数据集：

DataFrame按二维表格存储

RDD按数组对象存储

1.5 SparkSession对象

在RDD阶段，程序的执行入口对象是： SparkContext，在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入口对象。

SparkSession对象可以：

用于SparkSQL编程作为入口对象
用于SparkCore编程，可以通过SparkSession对象中获取到SparkContext

from pyspark.sql import SparkSession

if __name__ == '__main__':
    # 构建SparkSession对象，这个对象是 构建者模式 ，通过builder方法来构建
    spark = SparkSession.builder.\
           appName('local[*]').\
           config('spark.sql.shuffle.partitions', '4').\
           getOrCreate()
    # appName 设置程序名称，config设置一些常用属性
    # 最后通过getOrCreate()方法，创建SparkSession对象

# coding:utf8
# SparkSQL 中的入口对象是SparkSession对象
from pyspark.sql import SparkSession
    if __name__ == '__main__':
        # 构建SparkSession对象, 这个对象是 构建器模式 通过builder方法来构建
        spark = SparkSession.builder.\
            appName("local[*]").\
            config("spark.sql.shuffle.partitions", "4").\
            getOrCreate()
        # appName 设置程序名称, config设置一些常用属性
        # 最后通过getOrCreate()方法 创建SparkSession对象
        df = spark.read.csv('../data/sql/stu_score.txt', sep=',', header=False)
        df2 = df.toDF('id', 'name', 'score')
        df2.printSchema()
        df2.show()
        df2.createTempView("score")
        # SQL 风格
        spark.sql("""
            SELECT * FROM score WHERE name='语文' LIMIT 5
        """).show()
        # DSL 风格
        df2.where("name='语文'").limit(5).show()

2 DataFrame入门

2.1 DataFrame的组成

DataFrame是一个二维表结构，那么表格结构就有无法绕开的三个点：

行
列
表结构描述

比如，在MySQL中的一张表：

由许多行组成
数据也被分成多个列
表也有表结构信息（列、列名、列类型、列约束等）

基于这个前提，DataFrame的组成如下：

在结构层面：
- StructType对象描述整个DataFrame的表结构
- StructField对象描述一个列的信息
在数据层面
- Row对象记录一行数据
- Column对象记录一列数据并包含列的信息

2.2 DataFrame的构建

2.2.1 基于RDD方式1 createDataFrame

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

spark = SparkSession.builder.appName("test").master("local[*]").getOrCreate()
sc = spark.sparkContext

'''
filePath:
zhangsan,21
lisi,23
wangwu,20
'''
# 构建rdd，得到[[zhangsan,21], [lisi,23], [wangwu,20]]这种数据形式
rdd = sc.textFile("filePath").map(lambda x:x.split(',')).map(lambda x:int(x(1)))

# 将rdd转化为DataFrame
# 参数1：被转换的RDD
# 参数2：指定列名，通过list的形式指定，按照顺序依次提供字符串名字即可
df = spark.createDataFrame(rdd, schema=['name', 'age'])

# 打印DataFrame的表结构
df.peintSchema()

# 打印df中的数据
# 参数1：表示展示出多少条数据，默认不传的话是20
# 参数2：表示是否对列进行截取，如果列的数据长度超过20个字符串长度，后续的内容不显示以...代替
# 如果给False表示不截断、全部显示，默认是True
df.show(20, False)

# 将DF对象转换成临时视图表，可供sql语句查询
df.createOrReplaceTempView("people")
spark.sql("SELECT * FROM people WHERE age<30").show()

2.2.2 基于RDD方式2 加入schema

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

spark = SparkSession.builder.appName("test").master("local[*]").getOrCreate()
sc = spark.sparkContext

'''
filePath:
zhangsan,21
lisi,23
wangwu,20
'''
# 构建rdd，得到[[zhangsan,21], [lisi,23], [wangwu,20]]这种数据形式
rdd = sc.textFile("filePath").map(lambda x:x.split(',')).map(lambda x:int(x(1)))

# 构建表结构的描述对象：StructType对象
# 三个参数分别为列名，类型，是否为空
schema = StructType().add("name", StringType(), nullable=True).add("age",IntergerType(), nullable=False)

# 将rdd转化为DataFrame
# 参数1：被转换的RDD
# 参数2：将创建的StructType对象传进去
df = spark.createDataFrame(rdd, schema=schema)

2.2.3 基于RDD方式3 RDD的toDF

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

spark = SparkSession.builder.appName("test").master("local[*]").getOrCreate()
sc = spark.sparkContext

'''
filePath:
zhangsan,21
lisi,23
wangwu,20
'''
# 构建rdd，得到[[zhangsan,21], [lisi,23], [wangwu,20]]这种数据形式
rdd = sc.textFile("filePath").map(lambda x:x.split(',')).map(lambda x:int(x(1)))

# toDF的方式构建DataFrame
df1 = rdd.toDF(["name", "age"])
df1.printSchema()
df1.show()

# toDF的方式2 通过StructType来构建
schema = StructType().add("name", StringType(), nullable=True).\
    add("age", IntegerType(), nullable=False)

df2 = rdd.toDF(schema=schema)
df2.printSchema()
df2.show()

2.2.4 基于Pandas的DataFrame构建

import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

# 0. 构建执行环境入口对象SparkSession
spark = SparkSession.builder.\
    appName("test").\
    master("local[*]").\
    getOrCreate()
sc = spark.sparkContext

# 基于Pandas的DataFrame构建SparkSQL的DataFrame对象
pdf = pd.DataFrame(
    {
        "id": [1, 2, 3],
        "name": ["张大仙", "王晓晓", "吕不为"],
        "age": [11, 21, 11]
    }
)

df = spark.createDataFrame(pdf)

df.printSchema()
df.show()

2.3 读取外部数据

通过SparkSQL的统一API进行数据读取构建DataFrame。统一API示例代码：

sparksession.read.format("text|csv|json|parquet|orc|avro|jdbc|......")
    .option("K", "V") # option可选
    .schema(StructType | String) # STRING的语法如.schema("name STRING", "age INT")
    .load("被读取文件的路径, 支持本地文件系统和HDFS")

text:

spark = SparkSession.builder.\
    appName("test").\
    master("local[*]").\
    getOrCreate()
sc = spark.sparkContext

# 构建StructType, text数据源, 读取数据的特点是, 将一整行只作为`一个列`读取, 默认列名是value 类型是String
schema = StructType().add("data", StringType(), nullable=True)
df = spark.read.format("text").\
    schema(schema=schema).\
    load("../data/input/sql/people.txt")

json:

# JSON 类型 一般不用写.schema, json自带, json带有列名 和列类型(字符串和数字)
df = spark.read.format("json").load("../data/input/sql/people.json")
df.printSchema()
df.show()

csv:

df = spark.read.format("csv")\
    .option("sep", ";")\ # 列分隔符
    .option("header", False)\ # 是否有CSV标头
    .option("encoding", "utf-8")\ # 编码
    .schema("name STRING, age INT, job STRING")\ # 指定列名和类型
    .load("../data/sql/people.csv") # 路径
df.printSchema()
df.show()

parquet:

parquet是Spark中常用的一种列式存储文件格式和Hive中的ORC差不多, 他俩都是列存储格式。parquet对比普通的文本文件的区别：

parquet 内置schema (列名\ 列类型\ 是否为空)
存储是以列作为存储格式
存储是序列化存储在文件中的(有压缩属性体积小)

Parquet文件不能直接打开查看，如果想要查看内容可以在PyCharm中安装如下插件来查看：

2.4 DSL风格入门API

DSL称之为：领域特定语言。

其实就是指DataFrame的特有API

DSL风格意思就是以调用API的方式来处理Data

比如：df.where().limit()

2.5 SQL风格入门API

SQL风格就是使用SQL语句处理DataFrame的数据

比如：spark.sql("SELECT * FROM xxx")

2.6 wordcount案例

# coding:utf8

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd
from pyspark.sql import functions as F


if __name__ == '__main__':
    # 0. 构建执行环境入口对象SparkSession
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    sc = spark.sparkContext

    # TODO 1: SQL 风格进行处理
    rdd = sc.textFile("../data/input/words.txt").\
        flatMap(lambda x: x.split(" ")).\
        map(lambda x: [x])

    df = rdd.toDF(["word"])

    # 注册DF为表格
    df.createTempView("words")

    spark.sql("SELECT word, COUNT(*) AS cnt FROM words GROUP BY word ORDER BY cnt DESC").show()


    # TODO 2: DSL 风格处理
    df = spark.read.format("text").load("../data/input/words.txt")

    # withColumn方法
    # 方法功能: 对已存在的列进行操作, 返回一个新的列, 如果名字和老列相同, 那么替换, 否则作为新列存在
    df2 = df.withColumn("value", F.explode(F.split(df['value'], " ")))
    df2.groupBy("value").\
        count().\
        withColumnRenamed("value", "word").\
        withColumnRenamed("count", "cnt").\
        orderBy("cnt", ascending=False).\
        show()

3 UDF

4 SparkSQL的运行流程

4.1 RDD执行流程回顾

代码 -> DAG调度器逻辑任务 -> Task调度器任务分配和管理监控 -> Worker干活

4.2 SparkSQL的自动优化

RDD的运行会完全按照开发者的代码执行，如果开发者水平有限，RDD的执行效率也会受到影响。而SparkSQL会对写完的代码，执行“自动优化”，以提升代码运行效率，避免开发者水平影响到代码执行效率。

这是因为RDD内含数据类型不限格式和结构，而DataFrame是二维表结构，可以被针对，SparkSQL的自动优化，依赖于Catalyst优化器。

4.3 Catalyst优化器

为了解决过多依赖Hive的问题，SparkSQL使用了一个新的SQL优化器替代Hive中的优化器，这个优化器就是Catalyst，整个SparkSQL的框架大致如下：

简单的说，API层即Spark会通过一些API接受SQL语句
收到SQL语句后，将其交给Catalyst，Catalyst负责解析SQL，生成执行计划等
Catalyst的输出应该是RDD的执行计划
最终交由集群运行

具体优化流程：

step1：解析SQL，并生成AST（抽象语法树）

step2：在AST中加入元数据信息，做这一步主要是为了一些优化，例如col = col 这样的条件，下图是一个简略图，便于理解

score.id -> id#1#L
为score.id生成id为1，类型是Long
score.math_score -> math_score#2#L
为score.math_score生成id为2，类型为Long
people.id -> id#3#L
为people.id生成id为3，类型为Long
people.age -> age#4#L
为people.age生成id为4，类型为Long

set3：对已经加入元数据的AST，输入优化器，进行优化，从两种常见的优化开始，简单介绍：

断言下推 Predicate Pushdown，将Filter 这种可以减小数据集的操作下推，放在Sacn的位置，这样可以减少操作时候的数据量。（又称谓词下推）

SELECT sum(v)
FROM(
    SELECT
        score_id,
        100+80+score.math_score AS v
    FROM people JOIN score
    WHERE people.id = score.id AND people.age > 10
)tmp
-- 如这个代码，正常流程是先JOIN然后WHERE，断言下推后，会先过滤age，然后JOIN，减少JOIN的数据量以提高性能

列值裁剪 Column Pruning，在断言下推后执行裁剪，由于people表之上的操作中用到了id列，所以可以把其他列裁剪掉，这样可以减少处理的数据量，从而优化处理速度。如下图，在scan前又加入了Filter，作为列裁剪用

step4：上面的过程生成的AST其实最终还没办法直接运行，这个AST叫做逻辑计划，结束后，需要生成物理计划，从而生成RDD来运行，在生成物理计划的时候，会经过成本模型对整个树再次执行优化，选择一个更好的计划；在生成物理计划之后，因为考虑到性能，所以会使用代码生成，在机器中运行。

可以使用queryExecution方法查看逻辑执行计划，使用explain方法查看物理执行计划。

spark.sql("SELECT name,age FROM people WHERE age>19").explain(True)

总结：

Catalyst的各种优化细节非常多，大方面的优化点有两个：

谓词下推（Predicate Pushdown）\断言下推：将逻辑判断提前，以减少shuffle阶段的数据量【行过滤，提前执行where】；
列值裁剪（Column Pruning）：将加载的列进行裁剪，尽量减少被处理数据的宽度【列过滤，提前规划select的组字段数量】。

4.4 SparkSQL的执行流程

提交SparkSQL代码
Catalyst优化
1. 生成原始AST语法树
2. 标记AST元数据
3. 进行断言下推和列值裁剪有以及其他方面的优化作用在AST上
4. 得到最终AST，生成执行计划
5. 将执行计划翻译为RDD代码
Driver执行环境入口构建（SparkSession）
DAG调度器规划逻辑任务
Task调度区分配逻辑任务到具体Executor上工作并监控管理任务
Worker干活

最后修改：2022 年 08 月 22 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱

地址

Xiaoxiao
大佬能不能给个联系方式请教一下,联系方式可以发邮箱
猪猪
大佬牛批，找了n多教程，就大佬的可以start，其它的一个看不...
巴涅波赫夫
模型直接用官方的，自己训练的准确率应该就上去了吧，理论上准确度...
Xiao
大佬，准确度比用yolo命令行出来的低了很多，是什么原因造成的...
君菇
大佬牛批

pysparkSQL汇总（未完待续）

panbh5500 • 2022 年 08 月 22 日

<h1>1  SparkSQL概述</h1><h2>1.1 SparkSQL简介</h2><p>SparkSQL 是Spark的一个模块, 用于处理海量结构化数据。</p><p>SparkSQL是非常成熟的 海量结构化数据处理框架，学习SparkSQL主要在2个点:</p><ul><li>SparkSQL本身十分优秀, 支持SQL语言\性能强\可以自动优化\API简单\兼容HIVE等等</li><li><p>企业大面积在使用SparkSQL处理业务数据</p><ul><li>离线开发</li><li>数仓搭建</li><li>科学计算</li><li>数据分析</li></ul></li></ul><p>特点：</p><ol><li><strong>融合性</strong>：SQL可以无缝集成在代码中, 随时用SQL处理数据</li><li><strong>统一数据访问</strong>：一套标准API可读写不同数据源</li><li><strong>Hive兼容</strong>：可以使用SparkSQL直接计算并生成Hive数据表</li><li><strong>标准化连接</strong>：支持标准化JDBC\ODBC连接, 方便和各种数据库进行数据交互.</li></ol><h2>1.2  SparkSQL和Hive的异同</h2><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/1.png" alt="" title="" style=""></p><p>Hive和Spark 均是：“分布式SQL计算引擎”</p><p>均是构建大规模结构化数据计算的绝佳利器，同时SparkSQL拥有更好的性能。</p><p>目前，企业中使用Hive仍旧居多，但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级</p><h2>1.3 Spark数据抽象</h2><p><strong>Pandas -- DataFrame</strong></p><ul><li>二维表数据结构</li><li>单机（本地）集合</li></ul><p><strong>SparkCore -- RDD</strong></p><ul><li>无标准数据结构，存储什么数据均可</li><li>分布式集合（分区）</li></ul><p><strong>SparkSQL -- DataFrame</strong></p><ul><li>二维表数据结构</li><li>分布式集合（分区）</li></ul><p><strong>SparkSQL For JVM -- DataSet</strong></p><ul><li>可用于Java、Scala语言</li></ul><p><strong>SparkSQL For Python\R -- DataSet</strong></p><ul><li>可用于Java、Scala、Python、R语言</li></ul><p><strong>发展历程：</strong></p><ul><li>14年最早的数据抽象是：SchemaRDD（内部存储二维表数据结构的RDD），SchemaRDD就是魔改的RDD，将RDD支持的存储数据，限定为二维表数据结构用以支持SQL查询。由于是魔改RDD，只是一个过渡产品，现已废弃。</li><li>15年发布DataFrame对象，基于Pandas的DataFrame（模仿）独立于RDD进行实现，将数据以二维表结构进行存储并支持分布式运行</li><li>16年发布DataSet对象，在DataFrame之上添加了泛型的支持，用以更好的支持Java和Scala这两个支持泛型的编程语言</li><li>16年，Spark2.0版本，将DataFrame和DataSet进行合并。其底层均是DataSet对象，但在Python和R语言到用时，显示为DataFrame对象。和老的DataFrame对象没有区别</li></ul><h2>1.4 DataFrame概述</h2><p>假定有如下数据集：</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/2.png" alt="" title="" style=""></p><p>DataFrame按二维表格存储</p><p>RDD按数组对象存储</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/3.png" alt="" title="" style=""></p><h2>1.5 SparkSession对象</h2><p>在RDD阶段，程序的执行入口对象是： SparkContext，在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入口对象。</p><p>SparkSession对象可以：</p><ul><li>用于SparkSQL编程作为入口对象</li><li>用于SparkCore编程，可以通过SparkSession对象中获取到SparkContext</li></ul><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/4.png" alt="" title="" style=""></p><pre><code class="lang-python">from pyspark.sql import SparkSession

if __name__ == '__main__':
    # 构建SparkSession对象，这个对象是 构建者模式 ，通过builder方法来构建
    spark = SparkSession.builder.\
           appName('local[*]').\
           config('spark.sql.shuffle.partitions', '4').\
           getOrCreate()
    # appName 设置程序名称，config设置一些常用属性
    # 最后通过getOrCreate()方法，创建SparkSession对象</code></pre><pre><code class="lang-python"># coding:utf8
# SparkSQL 中的入口对象是SparkSession对象
from pyspark.sql import SparkSession
    if __name__ == '__main__':
        # 构建SparkSession对象, 这个对象是 构建器模式 通过builder方法来构建
        spark = SparkSession.builder.\
            appName(&quot;local[*]&quot;).\
            config(&quot;spark.sql.shuffle.partitions&quot;, &quot;4&quot;).\
            getOrCreate()
        # appName 设置程序名称, config设置一些常用属性
        # 最后通过getOrCreate()方法 创建SparkSession对象
        df = spark.read.csv('../data/sql/stu_score.txt', sep=',', header=False)
        df2 = df.toDF('id', 'name', 'score')
        df2.printSchema()
        df2.show()
        df2.createTempView(&quot;score&quot;)
        # SQL 风格
        spark.sql(&quot;&quot;&quot;
            SELECT * FROM score WHERE name='语文' LIMIT 5
        &quot;&quot;&quot;).show()
        # DSL 风格
        df2.where(&quot;name='语文'&quot;).limit(5).show()</code></pre><h1>2 DataFrame入门</h1><h2>2.1 DataFrame的组成</h2><p>DataFrame是一个二维表结构， 那么表格结构就有无法绕开的三个点：</p><ul><li>行</li><li>列</li><li>表结构描述</li></ul><p>比如，在MySQL中的一张表：</p><ul><li>由许多行组成</li><li>数据也被分成多个列</li><li>表也有表结构信息（列、列名、列类型、列约束等）</li></ul><p>基于这个前提，DataFrame的组成如下：</p><ul><li><p>在结构层面：</p><ul><li>StructType对象描述整个DataFrame的表结构</li><li>StructField对象描述一个列的信息</li></ul></li><li><p>在数据层面</p><ul><li>Row对象记录一行数据</li><li>Column对象记录一列数据并包含列的信息</li></ul></li></ul><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/5.png" alt="" title="" style=""></p><h2>2.2 DataFrame的构建</h2><h3>2.2.1 基于RDD方式1 createDataFrame</h3><pre><code class="lang-python">from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

spark = SparkSession.builder.appName(&quot;test&quot;).master(&quot;local[*]&quot;).getOrCreate()
sc = spark.sparkContext

'''
filePath:
zhangsan,21
lisi,23
wangwu,20
'''
# 构建rdd，得到[[zhangsan,21], [lisi,23], [wangwu,20]]这种数据形式
rdd = sc.textFile(&quot;filePath&quot;).map(lambda x:x.split(',')).map(lambda x:int(x(1)))

# 将rdd转化为DataFrame
# 参数1：被转换的RDD
# 参数2：指定列名，通过list的形式指定，按照顺序依次提供字符串名字即可
df = spark.createDataFrame(rdd, schema=['name', 'age'])

# 打印DataFrame的表结构
df.peintSchema()

# 打印df中的数据
# 参数1：表示展示出多少条数据，默认不传的话是20
# 参数2：表示是否对列进行截取，如果列的数据长度超过20个字符串长度，后续的内容不显示以...代替
# 如果给False表示不截断、全部显示，默认是True
df.show(20, False)

# 将DF对象转换成临时视图表，可供sql语句查询
df.createOrReplaceTempView(&quot;people&quot;)
spark.sql(&quot;SELECT * FROM people WHERE age&lt;30&quot;).show()</code></pre><h3>2.2.2 基于RDD方式2 加入schema</h3><pre><code class="lang-python">from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

spark = SparkSession.builder.appName(&quot;test&quot;).master(&quot;local[*]&quot;).getOrCreate()
sc = spark.sparkContext

# 构建表结构的描述对象：StructType对象
# 三个参数分别为列名，类型，是否为空
schema = StructType().add(&quot;name&quot;, StringType(), nullable=True).add(&quot;age&quot;,IntergerType(), nullable=False)

# 将rdd转化为DataFrame
# 参数1：被转换的RDD
# 参数2：将创建的StructType对象传进去
df = spark.createDataFrame(rdd, schema=schema)</code></pre><h3>2.2.3 基于RDD方式3 RDD的toDF</h3><pre><code class="lang-python">from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

spark = SparkSession.builder.appName(&quot;test&quot;).master(&quot;local[*]&quot;).getOrCreate()
sc = spark.sparkContext

# toDF的方式构建DataFrame
df1 = rdd.toDF([&quot;name&quot;, &quot;age&quot;])
df1.printSchema()
df1.show()

# toDF的方式2 通过StructType来构建
schema = StructType().add(&quot;name&quot;, StringType(), nullable=True).\
    add(&quot;age&quot;, IntegerType(), nullable=False)

df2 = rdd.toDF(schema=schema)
df2.printSchema()
df2.show()</code></pre><h3>2.2.4 基于Pandas的DataFrame构建</h3><pre><code class="lang-python">import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

# 0. 构建执行环境入口对象SparkSession
spark = SparkSession.builder.\
    appName(&quot;test&quot;).\
    master(&quot;local[*]&quot;).\
    getOrCreate()
sc = spark.sparkContext

# 基于Pandas的DataFrame构建SparkSQL的DataFrame对象
pdf = pd.DataFrame(
    {
        &quot;id&quot;: [1, 2, 3],
        &quot;name&quot;: [&quot;张大仙&quot;, &quot;王晓晓&quot;, &quot;吕不为&quot;],
        &quot;age&quot;: [11, 21, 11]
    }
)

df = spark.createDataFrame(pdf)

df.printSchema()
df.show()</code></pre><h2>2.3 读取外部数据</h2><p>通过SparkSQL的统一API进行数据读取构建DataFrame。统一API示例代码：</p><pre><code class="lang-python">sparksession.read.format(&quot;text|csv|json|parquet|orc|avro|jdbc|......&quot;)
    .option(&quot;K&quot;, &quot;V&quot;) # option可选
    .schema(StructType | String) # STRING的语法如.schema(&quot;name STRING&quot;, &quot;age INT&quot;)
    .load(&quot;被读取文件的路径, 支持本地文件系统和HDFS&quot;)</code></pre><p>text:</p><pre><code class="lang-python">spark = SparkSession.builder.\
    appName(&quot;test&quot;).\
    master(&quot;local[*]&quot;).\
    getOrCreate()
sc = spark.sparkContext

# 构建StructType, text数据源, 读取数据的特点是, 将一整行只作为`一个列`读取, 默认列名是value 类型是String
schema = StructType().add(&quot;data&quot;, StringType(), nullable=True)
df = spark.read.format(&quot;text&quot;).\
    schema(schema=schema).\
    load(&quot;../data/input/sql/people.txt&quot;)</code></pre><p>json:</p><pre><code class="lang-python"># JSON 类型 一般不用写.schema, json自带, json带有列名 和列类型(字符串和数字)
df = spark.read.format(&quot;json&quot;).load(&quot;../data/input/sql/people.json&quot;)
df.printSchema()
df.show()</code></pre><p>csv:</p><pre><code class="lang-python">df = spark.read.format(&quot;csv&quot;)\
    .option(&quot;sep&quot;, &quot;;&quot;)\ # 列分隔符
    .option(&quot;header&quot;, False)\ # 是否有CSV标头
    .option(&quot;encoding&quot;, &quot;utf-8&quot;)\ # 编码
    .schema(&quot;name STRING, age INT, job STRING&quot;)\ # 指定列名和类型
    .load(&quot;../data/sql/people.csv&quot;) # 路径
df.printSchema()
df.show()</code></pre><p>parquet: </p><p>parquet是Spark中常用的一种列式存储文件格式和Hive中的ORC差不多, 他俩都是列存储格式。parquet对比普通的文本文件的区别：</p><ul><li>parquet 内置schema (列名\ 列类型\ 是否为空)</li><li>存储是以列作为存储格式</li><li>存储是序列化存储在文件中的(有压缩属性体积小)</li></ul><p>Parquet文件不能直接打开查看，如果想要查看内容可以在PyCharm中安装如下插件来查看：</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/6.png" alt="" title="" style=""></p><h2>2.4 DSL风格入门API</h2><p>DSL称之为：领域特定语言。 </p><p>其实就是指DataFrame的特有API </p><p>DSL风格意思就是以调用API的方式来处理Data </p><p>比如：df.where().limit()</p><h2>2.5 SQL风格入门API</h2><p>SQL风格就是使用SQL语句处理DataFrame的数据 </p><p>比如：spark.sql("SELECT * FROM xxx")</p><h2>2.6 wordcount案例</h2><pre><code class="lang-python"># coding:utf8

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd
from pyspark.sql import functions as F

if __name__ == '__main__':
    # 0. 构建执行环境入口对象SparkSession
    spark = SparkSession.builder.\
        appName(&quot;test&quot;).\
        master(&quot;local[*]&quot;).\
        getOrCreate()
    sc = spark.sparkContext

# TODO 1: SQL 风格进行处理
    rdd = sc.textFile(&quot;../data/input/words.txt&quot;).\
        flatMap(lambda x: x.split(&quot; &quot;)).\
        map(lambda x: [x])

df = rdd.toDF([&quot;word&quot;])

# 注册DF为表格
    df.createTempView(&quot;words&quot;)

spark.sql(&quot;SELECT word, COUNT(*) AS cnt FROM words GROUP BY word ORDER BY cnt DESC&quot;).show()

# TODO 2: DSL 风格处理
    df = spark.read.format(&quot;text&quot;).load(&quot;../data/input/words.txt&quot;)

# withColumn方法
    # 方法功能: 对已存在的列进行操作, 返回一个新的列, 如果名字和老列相同, 那么替换, 否则作为新列存在
    df2 = df.withColumn(&quot;value&quot;, F.explode(F.split(df['value'], &quot; &quot;)))
    df2.groupBy(&quot;value&quot;).\
        count().\
        withColumnRenamed(&quot;value&quot;, &quot;word&quot;).\
        withColumnRenamed(&quot;count&quot;, &quot;cnt&quot;).\
        orderBy(&quot;cnt&quot;, ascending=False).\
        show()</code></pre><h1>3 UDF</h1><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/7.png" alt="" title="" style=""></p><h1>4 SparkSQL的运行流程</h1><h2>4.1 RDD执行流程回顾</h2><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/8.png" alt="" title="" style=""></p><p>代码 -&gt; DAG调度器逻辑任务 -&gt; Task调度器任务分配和管理监控 -&gt; Worker干活</p><h2>4.2 SparkSQL的自动优化</h2><p>RDD的运行会完全按照开发者的代码执行， 如果开发者水平有限，RDD的执行效率也会受到影响。而SparkSQL会对写完的代码，执行“自动优化”， 以提升代码运行效率，避免开发者水平影响到代码执行效率。</p><p>这是因为<strong>RDD内含数据类型不限格式和结构</strong>，而<strong>DataFrame是二维表结构，可以被针对</strong>，SparkSQL的自动优化，依赖于Catalyst优化器。</p><h2>4.3 Catalyst优化器</h2><p>为了解决过多依赖Hive的问题，SparkSQL使用了一个新的SQL优化器替代Hive中的优化器，这个优化器就是Catalyst，整个SparkSQL的框架大致如下：</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/9.png" alt="" title="" style=""></p><ol><li>简单的说，API层即Spark会通过一些API接受SQL语句</li><li>收到SQL语句后，将其交给Catalyst，Catalyst负责解析SQL，生成执行计划等</li><li>Catalyst的输出应该是RDD的执行计划</li><li>最终交由集群运行</li></ol><p>具体优化流程：</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/10.png" alt="" title="" style=""></p><p>step1：解析SQL，并生成AST（抽象语法树）</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/11.png" alt="" title="" style=""></p><p>step2：在AST中加入元数据信息，做这一步主要是为了一些优化，例如col = col 这样的条件，下图是一个简略图，便于理解</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/12.png" alt="" title="" style=""></p><ul><li><p>score.id -&gt; id#1#L</p><p>为score.id生成id为1，类型是Long</p></li><li><p>score.math_score -&gt; math_score#2#L</p><p>为score.math_score生成id为2，类型为Long</p></li><li><p>people.id -&gt; id#3#L</p><p>为people.id生成id为3，类型为Long</p></li><li><p>people.age -&gt; age#4#L</p><p>为people.age生成id为4，类型为Long</p></li></ul><p>set3：对已经加入元数据的AST，输入优化器，进行优化，从两种常见的优化开始，简单介绍：</p><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/13.png" alt="" title="" style=""></p><ul><li><p>断言下推 Predicate Pushdown，将Filter 这种可以减小数据集的操作下推，放在Sacn的位置，这样可以减少操作时候的数据量。（又称谓词下推）</p><pre><code class="lang-sql">SELECT sum(v)
FROM(
    SELECT
        score_id,
        100+80+score.math_score AS v
    FROM people JOIN score
    WHERE people.id = score.id AND people.age &gt; 10
)tmp
-- 如这个代码，正常流程是先JOIN然后WHERE，断言下推后，会先过滤age，然后JOIN，减少JOIN的数据量以提高性能</code></pre></li><li>列值裁剪 Column Pruning，在断言下推后执行裁剪，由于people表之上的操作中用到了id列，所以可以把其他列裁剪掉，这样可以减少处理的数据量，从而优化处理速度。如下图，在scan前又加入了Filter，作为列裁剪用</li></ul><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/14.png" alt="" title="" style=""></p><p>step4：上面的过程生成的AST其实最终还没办法直接运行，这个AST叫做逻辑计划，结束后，需要生成物理计划，从而生成RDD来运行，在生成物理计划的时候，会经过成本模型对整个树再次执行优化，选择一个更好的计划；在生成物理计划之后，因为考虑到性能，所以会使用代码生成，在机器中运行。</p><p>可以使用queryExecution方法查看逻辑执行计划，使用explain方法查看物理执行计划。</p><pre><code class="lang-python">spark.sql(&quot;SELECT name,age FROM people WHERE age&gt;19&quot;).explain(True)</code></pre><p><strong>总结：</strong></p><p>Catalyst的各种优化细节非常多，大方面的优化点有两个：</p><ul><li>谓词下推（Predicate Pushdown）\断言下推：将逻辑判断提前，以减少shuffle阶段的数据量【行过滤，提前执行where】；</li><li>列值裁剪（Column Pruning）：将加载的列进行裁剪，尽量减少被处理数据的宽度【列过滤，提前规划select的组字段数量】。</li></ul><h2>4.4 SparkSQL的执行流程</h2><p><img src="http://cdn.halashuo.cn/static/word_images/archives76/15.png" alt="" title="" style=""></p><ol><li>提交SparkSQL代码</li><li><p>Catalyst优化</p><ol><li>生成原始AST语法树</li><li>标记AST元数据</li><li>进行断言下推和列值裁剪有以及其他方面的优化作用在AST上</li><li>得到最终AST，生成执行计划</li><li>将执行计划翻译为RDD代码</li></ol></li><li>Driver执行环境入口构建（SparkSession）</li><li>DAG调度器规划逻辑任务</li><li>Task调度区分配逻辑任务到具体Executor上工作并监控管理任务</li><li>Worker干活</li></ol>

pysparkSQL汇总（未完待续）

1 SparkSQL概述

1.1 SparkSQL简介

1.2 SparkSQL和Hive的异同

1.3 Spark数据抽象

1.4 DataFrame概述

1.5 SparkSession对象

2 DataFrame入门

2.1 DataFrame的组成

2.2 DataFrame的构建

2.2.1 基于RDD方式1 createDataFrame

2.2.2 基于RDD方式2 加入schema

2.2.3 基于RDD方式3 RDD的toDF

2.2.4 基于Pandas的DataFrame构建

2.3 读取外部数据

2.4 DSL风格入门API

2.5 SQL风格入门API

2.6 wordcount案例

3 UDF

4 SparkSQL的运行流程

4.1 RDD执行流程回顾

4.2 SparkSQL的自动优化

4.3 Catalyst优化器

4.4 SparkSQL的执行流程

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Java使用OnnxRuntime及OpenCV实现YoloV8目标检测

HDFS简介与Sheel操作命令大全

Springboot 整合 Elasticsearch

Java使用OnnxRuntime及OpenCV实现YoloV7目标检测

随机过程第一次总结

SpringBoot 整合 MyBatis 及 MyBatis-Plus 实现 MySQL 常用操作

Flink流处理与批处理的区别与示例

数学竞赛真题汇总(数学类 and 非数学类)

MGM(1,N)模型的推导

EM算法步骤介绍与示例

pysparkSQL汇总（未完待续）

1 SparkSQL概述

1.1 SparkSQL简介

1.2 SparkSQL和Hive的异同

1.3 Spark数据抽象

1.4 DataFrame概述

1.5 SparkSession对象

2 DataFrame入门

2.1 DataFrame的组成

2.2 DataFrame的构建

2.2.1 基于RDD方式1 createDataFrame

2.2.2 基于RDD方式2 加入schema

2.2.3 基于RDD方式3 RDD的toDF

2.2.4 基于Pandas的DataFrame构建

2.3 读取外部数据

2.4 DSL风格入门API

2.5 SQL风格入门API

2.6 wordcount案例

3 UDF

4 SparkSQL的运行流程

4.1 RDD执行流程回顾

4.2 SparkSQL的自动优化

4.3 Catalyst优化器

4.4 SparkSQL的执行流程

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

pysparkSQL汇总（未完待续）

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款