Spark SQL 常用聚合函数

转载:SparkSQL常用聚合函数

1. 简单聚合

1.1 数据准备

// 需要导入 spark sql 内置的函数包
import org.apache.spark.sql.functions._

val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate()
val empDF = spark.read.json("/usr/file/json/emp.json")
// 注册为临时视图,用于后面演示 SQL 查询
empDF.createOrReplaceTempView("emp")
empDF.show()

注:emp.json 可以从本仓库的resources 目录下载。

1.2 count

// 计算员工人数
empDF.select(count("ename")).show()

1.3 countDistinct

1.4 approx_count_distinct

通常在使用大型数据集时,你可能关注的只是近似值而不是准确值,这时可以使用 approx_count_distinct 函数,并可以使用第二个参数指定最大允许误差。

1.5 first & last

获取 DataFrame 中指定列的第一个值或者最后一个值。

1.6 min & max

获取 DataFrame 中指定列的最小值或者最大值。

1.7 sum & sumDistinct

求和以及求指定列所有不相同的值的和。

1.8 avg

内置的求平均数的函数。

1.9 数学函数

Spark SQL 中还支持多种数学聚合函数,用于通常的数学计算,以下是一些常用的例子:

1.10 聚合数据到集合

2. 分组聚合

2.1 简单分组

2.2 分组聚合

3. 自定义聚合函数

Scala 提供了两种自定义聚合函数的方法,分别如下:

  • 有类型的自定义聚合函数,主要适用于 DataSet;

  • 无类型的自定义聚合函数,主要适用于 DataFrame。

以下分别使用两种方式来自定义一个求平均值的聚合函数,这里以计算员工平均工资为例。两种自定义方式分别如下:

3.1 有类型的自定义函数

自定义聚合函数需要实现的方法比较多,这里以绘图的方式来演示其执行流程,以及每个方法的作用:

2020-10-19-xRp7Jg

关于 zero,reduce,merge,finish 方法的作用在上图都有说明,这里解释一下中间类型和输出类型的编码转换,这个写法比较固定,基本上就是两种情况:

  • 自定义类型 Case Class 或者元组就使用 Encoders.product 方法;

  • 基本类型就使用其对应名称的方法,如 scalaBytescalaFloatscalaShort 等,示例如下:

3.2 无类型的自定义聚合函数

理解了有类型的自定义聚合函数后,无类型的定义方式也基本相同,代码如下:

4. 参考资料

  1. Matei Zaharia, Bill Chambers . Spark: The Definitive Guide[M] . 2018-02

最后更新于

这有帮助吗?