您现在的位置是:主页 > news > 网站开发的目的 实习报告/seo服务套餐

网站开发的目的 实习报告/seo服务套餐

admin2025/6/1 0:08:06news

简介网站开发的目的 实习报告,seo服务套餐,医疗网站建站需求,php 网站开发框架ap1、是什么 SparkSQL是Spark的一个模块,用于处理结构化数据,提供了新的数据抽象DataFrame和Dataset 特点 兼容性 可以在同一个Spark任务中混合使用SQL处理和算子编程, SparkSQL中RDD可以进行算子编程,DF和DS可以支持SQL操作&#…

网站开发的目的 实习报告,seo服务套餐,医疗网站建站需求,php 网站开发框架ap1、是什么 SparkSQL是Spark的一个模块,用于处理结构化数据,提供了新的数据抽象DataFrame和Dataset 特点 兼容性 可以在同一个Spark任务中混合使用SQL处理和算子编程, SparkSQL中RDD可以进行算子编程,DF和DS可以支持SQL操作&#…

1、是什么

  • SparkSQL是Spark的一个模块,用于处理结构化数据,提供了新的数据抽象DataFrame和Dataset

特点

  • 兼容性 可以在同一个Spark任务中混合使用SQL处理和算子编程, SparkSQL中RDD可以进行算子编程,DF和DS可以支持SQL操作,RDD、DF、DS之间可以互相转换。

  • 统一的数据访问 SparkSQL可以使用相同的API访问各种常见的数据源

    • 文本格式: text csv json

    • 列式存储: parquet orc

    • 数据库: jdbc

  • 完全兼容Hive 可以使用SparkSQL读取已经存在的hive数据仓库,由于SparkSQL内部集成了Hive的所有功能模块,所以对Hive的库和表,UDF等完全兼容

  • 提供标准数据库连接 SparkSQL提供JDBC\ODBC连接,用于提供客户端的远程访问

2、认识新的API

  • 程序入口: SparkSession

  • 数据抽象: DataFrame Dataset

    package com.zch.spark.sql.exercise
    ​
    import org.apache.spark
    import org.apache.spark.sql
    import org.apache.spark.sql.{DataFrame, SparkSession}
    ​
    /*** Author: zhaoHui* Date: 2021/12/20* Time: 15:05* Description: */
    object SparkSQL_Exercise_Demo01 {def main(args: Array[String]): Unit = {// 获取SparkSession对象val spark = new sql.SparkSession.Builder().appName("demo01").master("local[2]").getOrCreate()
    ​// 使用SparkSession,创建DataFrameval df:DataFrame = spark.read.format("json").load("C:\\Users\\Administrator\\Desktop\\employees.json")
    ​// 创建临时图标df.createTempView("t1")
    ​// 使用SQL语句val dataFrame = spark.sql("""|select * from `t1`|""".stripMargin)
    ​// 展示查询信息dataFrame.show()
    ​// 将查询结果以 Excel 保存到本地dataFrame.write.format("csv").save("C:\\Users\\Administrator\\Desktop\\test")
    ​}
    ​
    }
    ​
     SparkSQL默认使用parquet作为输入输出格式也支持如下几个常用格式
    文本格式: text csv json
    列式存储: parquet orc
    数据库:   jdbc
    ​
  • SparkSQL 数据输入输出语法

  • 输出为不同的格式

    输出 dataFrame.write .format("指定输出格式") .mode(SaveMode) //设置输出的存储模式 .save("输出路径")

    // json
    dataFrame.write.format("json").save("C:\\Users\\Administrator\\Desktop\\json")
    ​
    // parquet
    dataFrame.write.format("parquet").save("C:\\Users\\Administrator\\Desktop\\parquet")
    ​
    // orc
    dataFrame.write.format("orc").save("C:\\Users\\Administrator\\Desktop\\orc")
    ​
    // default
    dataFrame.write.save("C:\\Users\\Administrator\\Desktop\\default")