您现在的位置是:主页 > news > 网站开发的目的 实习报告/seo服务套餐
网站开发的目的 实习报告/seo服务套餐
admin2025/6/1 0:08:06【news】
简介网站开发的目的 实习报告,seo服务套餐,医疗网站建站需求,php 网站开发框架ap1、是什么 SparkSQL是Spark的一个模块,用于处理结构化数据,提供了新的数据抽象DataFrame和Dataset 特点 兼容性 可以在同一个Spark任务中混合使用SQL处理和算子编程, SparkSQL中RDD可以进行算子编程,DF和DS可以支持SQL操作&#…
网站开发的目的 实习报告,seo服务套餐,医疗网站建站需求,php 网站开发框架ap1、是什么 SparkSQL是Spark的一个模块,用于处理结构化数据,提供了新的数据抽象DataFrame和Dataset
特点 兼容性 可以在同一个Spark任务中混合使用SQL处理和算子编程, SparkSQL中RDD可以进行算子编程,DF和DS可以支持SQL操作&#…
1、是什么
-
SparkSQL是Spark的一个模块,用于处理结构化数据,提供了新的数据抽象DataFrame和Dataset
特点
-
兼容性 可以在同一个Spark任务中混合使用SQL处理和算子编程, SparkSQL中RDD可以进行算子编程,DF和DS可以支持SQL操作,RDD、DF、DS之间可以互相转换。
-
统一的数据访问 SparkSQL可以使用相同的API访问各种常见的数据源
-
文本格式: text csv json
-
列式存储: parquet orc
-
数据库: jdbc
-
-
完全兼容Hive 可以使用SparkSQL读取已经存在的hive数据仓库,由于SparkSQL内部集成了Hive的所有功能模块,所以对Hive的库和表,UDF等完全兼容
-
提供标准数据库连接 SparkSQL提供JDBC\ODBC连接,用于提供客户端的远程访问
2、认识新的API
-
程序入口: SparkSession
-
数据抽象: DataFrame Dataset
package com.zch.spark.sql.exercise import org.apache.spark import org.apache.spark.sql import org.apache.spark.sql.{DataFrame, SparkSession} /*** Author: zhaoHui* Date: 2021/12/20* Time: 15:05* Description: */ object SparkSQL_Exercise_Demo01 {def main(args: Array[String]): Unit = {// 获取SparkSession对象val spark = new sql.SparkSession.Builder().appName("demo01").master("local[2]").getOrCreate() // 使用SparkSession,创建DataFrameval df:DataFrame = spark.read.format("json").load("C:\\Users\\Administrator\\Desktop\\employees.json") // 创建临时图标df.createTempView("t1") // 使用SQL语句val dataFrame = spark.sql("""|select * from `t1`|""".stripMargin) // 展示查询信息dataFrame.show() // 将查询结果以 Excel 保存到本地dataFrame.write.format("csv").save("C:\\Users\\Administrator\\Desktop\\test") } }
SparkSQL默认使用parquet作为输入输出格式也支持如下几个常用格式 文本格式: text csv json 列式存储: parquet orc 数据库: jdbc
-
SparkSQL 数据输入输出语法
-
输出为不同的格式
输出 dataFrame.write .format("指定输出格式") .mode(SaveMode) //设置输出的存储模式 .save("输出路径")
// json dataFrame.write.format("json").save("C:\\Users\\Administrator\\Desktop\\json") // parquet dataFrame.write.format("parquet").save("C:\\Users\\Administrator\\Desktop\\parquet") // orc dataFrame.write.format("orc").save("C:\\Users\\Administrator\\Desktop\\orc") // default dataFrame.write.save("C:\\Users\\Administrator\\Desktop\\default")