博客
关于我
【SparkSQL】DataSet、DataFrame 介绍
阅读量:332 次
发布时间:2019-03-04

本文共 2200 字,大约阅读时间需要 7 分钟。

SparkSQL DataSet 和 DataFrame 介绍

目录

  • DataSet 介绍
    • DataSet 是什么?
    • DataSet 查询方式
    • DataSet 的底层实现
    • DataSet 转为 RDD
  • DataFrame 介绍
    • DataFrame 是什么?
    • DataFrame 的创建方式
    • DataFrame 的数据操作案例
  • DataFrame 与 DataSet 的区别
  • Row 对象

一、DataSet 介绍

1. DataSet 是什么?

DataSet 是一个强类型,并且类型安全的数据容器,提供了结构化查询API和类似 RDD 一样命令式API。它能够在编译时确保操作的类型安全性,适用于需要强类型操作的场景。

2. DataSet 查询方式

DataSet 提供了三种查询方式:

  • RDD 相似的强类型 API:支持通过对象字段直接操作。
  • 弱类型 API:支持通过字段名或 SQL 表达式查询。
  • SQL 查询:直接通过 SQL 表达式进行查询。
  • 3. DataSet 的底层实现

    DataSet 的底层实际上是基于 InternalRow(Catalyst Row)的 RDD。无论 DataSet 中存储的是什么类型的对象,最终都会通过 Encoder 和 Decoder 转换为 InternalRow 格式进行处理。

    4. DataSet 转为 RDD

    通过 dataset.rdd 可以将 DataSet 转换为 RDD。此时,RDD 中的元素类型为 InternalRow。以下是示例代码:

    val sourceRDD = spark.sparkContext.parallelize(Seq(person("a", 18, 98.0), person("b", 20, 97.0), person("c", 18, 100.0)))val dataset = sourceRDD.toDS()val typeRDD: RDD[person] = dataset.rdd

    二、DataFrame 介绍

    1. DataFrame 是什么?

    DataFrame 是 SparkSQL 中一个表示关系型数据库表的函数式抽抽象,专为处理大规模结构化数据设计。DataFrame 具有以下特点:

    • 支持强类型和弱类型操作。
    • 具有结构化的 Schema 信息。
    • 具有类似表的操作方式。

    2. DataFrame 的创建方式

    DataFrame 可以通过以下方式创建:

  • toDF():将集合转换为 DataFrame。
  • createDataFrame():直接读取数据源创建 DataFrame。
  • DataFrameReader:通过 SparkSQL 读取框架读取数据。
  • 3. DataFrame 的数据操作案例

    以下是查看北京 PM 数据的统计案例:

    val spark = SparkSession.builder().master("local[6]").getOrCreate()import spark.implicits._import org.apache.spark.sql.functions._val df = spark.read  .option("header", true)  .csv("dataset/BeijingPM20100101_20151231.csv")df.show()// 统计每年每月的 PM 值val aggregatedDF = df  .select("year", "month", "PM_Dongsi")  .where("PM_Dongsi != 'NA'")  .groupBy("year", "month")  .agg(count("month") as "count")  .sort("count", "desc")  .show()

    三、DataFrame 与 DataSet 的区别

  • 表达含义:DataFrame 表示一个支持函数式操作的表,DataSet 表示一个类似 RDD 的对象。
  • 存储类型:DataFrame 存储的是 Row 对象,而 DataSet 可以存储任何类型的对象。
  • 操作方式:DataFrame 和 DataSet 的操作方式相似,但 DataSet 的操作更安全,因为它基于强类型。
  • 类型安全:DataSet 的操作在编译时确保类型安全,而 DataFrame 的操作在运行时才能确保类型安全。

  • 四、Row 对象

    Row 对象表示 DataFrame 中的每一行数据。它支持以下操作:

  • 数据获取:通过字段位置或字段名获取数据。
  • 样例类匹配:用于匹配 Row 对象。
  • 转换为具体对象:通过 as 方法将 Row 转换为特定类对象。
  • 以下是示例代码:

    case class Person(name: String, age: Int)val row: Row = Row("Tom", 18)row match {  case Row(name, age) => println(s"姓名: $name,年龄: $age")}

    DataFrame 和 DataSet 是 SparkSQL 中的两大核心组件,分别适用于强类型和弱类型数据的处理。理解它们的区别是掌握 SparkSQL 的关键。

    转载地址:http://lweq.baihongyu.com/

    你可能感兴趣的文章
    Openlayers实战:选择feature,列表滑动,定位到相应的列表位置
    查看>>
    Openlayers实战:非4326,3857的投影
    查看>>
    Openlayers高级交互(1/20): 控制功能综合展示(版权、坐标显示、放缩、比例尺、测量等)
    查看>>
    Openlayers高级交互(10/20):绘制矩形,截取对应部分的地图并保存
    查看>>
    Openlayers高级交互(11/20):显示带箭头的线段轨迹,箭头居中
    查看>>
    Openlayers高级交互(12/20):利用高德逆地理编码,点击位置,显示坐标和地址
    查看>>
    Openlayers高级交互(13/20):选择左右两部分的地图内容,横向卷帘
    查看>>
    Openlayers高级交互(14/20):汽车移动轨迹动画(开始、暂停、结束)
    查看>>
    Openlayers高级交互(15/20):显示海量多边形,10ms加载完成
    查看>>
    Openlayers高级交互(16/20):两个多边形的交集、差集、并集处理
    查看>>
    Openlayers高级交互(17/20):通过坐标显示多边形,计算出最大幅宽
    查看>>
    Openlayers高级交互(18/20):根据feature,将图形适配到最可视化窗口
    查看>>
    Openlayers高级交互(19/20): 地图上点击某处,列表中显示对应位置
    查看>>
    Openlayers高级交互(2/20):清除所有图层的有效方法
    查看>>
    Openlayers高级交互(20/20):超级数据聚合,页面不再混乱
    查看>>
    Openlayers高级交互(3/20):动态添加 layer 到 layerGroup,并动态删除
    查看>>
    Openlayers高级交互(4/20):手绘多边形,导出KML文件,可以自定义name和style
    查看>>
    Openlayers高级交互(5/20):右键点击,获取该点下多个图层的feature信息
    查看>>
    Openlayers高级交互(6/20):绘制某点,判断它是否在一个电子围栏内
    查看>>
    Openlayers高级交互(7/20):点击某点弹出窗口,自动播放视频
    查看>>