Structured API基本使用
1. 创建DataFrame和Dataset
1.1 创建DataFrame
val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()
val df = spark.read.json("/usr/file/json/emp.json")
df.show()
// 建议在进行 spark SQL 编程前导入下面的隐式转换,因为 DataFrames 和 dataSets 中很多操作都依赖了隐式转换
import spark.implicits._
1.2 创建Dataset
1. 由外部数据集创建
2. 由内部数据集创建
1.3 由RDD创建DataFrame
1. 使用反射推断
2. 以编程方式指定Schema
1.4 DataFrames与Datasets互相转换
2. Columns列操作
2.1 引用列
2.2 新增列
2.3 删除列
2.4 重命名列
3. 使用Structured API进行基本查询
4. 使用Spark SQL进行基本查询
4.1 Spark SQL基本使用
4.2 全局临时视图
5. 参考资料
最后更新于