Spark：DataFrame API操作

在前面的文章中，我们已经学习了Spark的RDD和DataSet API。这些API提供了一种分布式计算的方法，用于处理大规模数据集。在本篇文章中，我们将学习Spark的DataFrame API，这是一种更高级的API，用于处理结构化的数据。

什么是DataFrame？

DataFrame是Spark中一种抽象的数据结构，类似于关系型数据库中的表，它包含一组以列形式组织的数据。与RDD和DataSet不同，DataFrame中的数据具有结构化的特点，每列都有固定的数据类型。这使得DataFrame可以使用SQL查询、过滤和转换等高级操作。

创建DataFrame

Spark提供了多种方法来创建DataFrame。我们可以从一个已存在的RDD、DataSet、CSV文件、数据库等来创建。下面是一个从RDD创建DataFrame的示例代码：

val spark = SparkSession.builder().appName("DataFrame API").getOrCreate()
val data = Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35))
val rdd = spark.sparkContext.parallelize(data)
val df = rdd.toDF("name", "age")

操作DataFrame

一旦创建了DataFrame，我们就可以对其进行各种操作。下面是一些常用的DataFrame操作示例：

显示数据

我们可以使用show()方法来显示DataFrame中的数据：

df.show()

该方法默认显示前20行数据，可以使用show(n)来指定显示前n行数据。

选择列

我们可以使用select()方法来选择需要的列：

df.select("name").show()

过滤数据

我们可以使用filter()方法来过滤数据，或者使用Spark SQL的表达式来过滤数据：

df.filter($"age" > 30).show()
df.filter("age > 30").show()

分组和聚合

DataFrame支持SQL的分组和聚合操作。例如，我们可以对数据按照某一列进行分组，并计算该列对应的平均值：

df.groupBy("name").avg("age").show()

排序

我们可以使用orderBy()方法对数据进行排序：

df.orderBy("age").show()

添加新列

我们可以使用withColumn()方法来添加新的列：

df.withColumn("isAdult", when($"age" >= 18, "yes").otherwise("no")).show()

删除列

我们可以使用drop()方法来删除列：

df.drop("age").show()

总结

本文介绍了Spark的DataFrame API，包括如何创建DataFrame以及对DataFrame进行一些常用的操作。DataFrame API提供了一种更高级的数据处理方式，它能够更方便地处理结构化的数据。除了上述介绍的操作，DataFrame还支持更多的高级功能，如连接、窗口函数等。希望本文能够帮助你更好地理解和应用Spark的DataFrame API。

本文来自极简博客，作者：星空下的梦，转载请注明原文链接：Spark：DataFrame API操作