Structured API基本使用

转载:Structured API基本使用

1. 创建DataFrame和Dataset

1.1 创建DataFrame

Spark 中所有功能的入口点是 SparkSession,可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD,Hive 表或 Spark 数据源创建 DataFrame。示例如下:

val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()
val df = spark.read.json("/usr/file/json/emp.json")
df.show()

// 建议在进行 spark SQL 编程前导入下面的隐式转换,因为 DataFrames 和 dataSets 中很多操作都依赖了隐式转换
import spark.implicits._

可以使用 spark-shell 进行测试,需要注意的是 spark-shell 启动后会自动创建一个名为 sparkSparkSession,在命令行中可以直接引用即可:

2020-10-19-DVzNTk

1.2 创建Dataset

Spark 支持由内部数据集和外部数据集来创建 DataSet,其创建方式分别如下:

1. 由外部数据集创建

2. 由内部数据集创建

1.3 由RDD创建DataFrame

Spark 支持两种方式把 RDD 转换为 DataFrame,分别是使用反射推断和指定 Schema 转换:

1. 使用反射推断

2. 以编程方式指定Schema

1.4 DataFrames与Datasets互相转换

Spark 提供了非常简单的转换方法用于 DataFrame 与 Dataset 间的互相转换,示例如下:

2. Columns列操作

2.1 引用列

Spark 支持多种方法来构造和引用列,最简单的是使用 col()column() 函数。

2.2 新增列

2.3 删除列

2.4 重命名列

需要说明的是新增,删除,重命名列都会产生新的 DataFrame,原来的 DataFrame 不会被改变。

3. 使用Structured API进行基本查询

4. 使用Spark SQL进行基本查询

4.1 Spark SQL基本使用

4.2 全局临时视图

上面使用 createOrReplaceTempView 创建的是会话临时视图,它的生命周期仅限于会话范围,会随会话的结束而结束。

你也可以使用 createGlobalTempView 创建全局临时视图,全局临时视图可以在所有会话之间共享,并直到整个 Spark 应用程序终止后才会消失。全局临时视图被定义在内置的 global_temp 数据库下,需要使用限定名称进行引用,如 SELECT * FROM global_temp.view1

5. 参考资料

Spark SQL, DataFrames and Datasets Guide > Getting Started

最后更新于

这有帮助吗?