您现在的位置是:主页 > news > 南昌网站小程序开发/域名批量查询系统

南昌网站小程序开发/域名批量查询系统

admin2025/5/12 16:22:59news

简介南昌网站小程序开发,域名批量查询系统,提供邯郸做移动网站,免费在线观看韩国电视剧网站推荐一:概念介绍 spark是最基本的数据处理模型,最小的计算单元,易于后续的扩展。 二:IO基本实现原理 字节流: 字符流: 三:RDD和IO之间的关系 RDD数据只有在调用collect方法时,才会执行…

南昌网站小程序开发,域名批量查询系统,提供邯郸做移动网站,免费在线观看韩国电视剧网站推荐一:概念介绍 spark是最基本的数据处理模型,最小的计算单元,易于后续的扩展。 二:IO基本实现原理 字节流: 字符流: 三:RDD和IO之间的关系 RDD数据只有在调用collect方法时,才会执行…

一:概念介绍

spark是最基本的数据处理模型,最小的计算单元,易于后续的扩展。

二:IO基本实现原理

        字节流:

        字符流:

三:RDD和IO之间的关系 

        RDD数据只有在调用collect方法时,才会执行真正的业务逻辑操作。之前的封装全部都是功能的扩展。RDD是不保存数据的,但是IO可以临时保存一部分数据。

 四:spark特点

RDD通过不同的分区进行分配给不同的Task

 弹性:

        存储的弹性:内存和磁盘的自动切换

        容错的弹性:数据丢失可以自动恢复

        计算的弹性:计算出错重试机制

        分片弹性:可根据需要重新分片

分布式:数据存储在大数据集群不同节点上

数据集:RDD封装了计算逻辑,并不保存数据

数据抽象:RDD是一个抽象类,需要子类具体实现

不可变:RDD封装了计算逻辑,是不可以改变的,想要改变,只能产生新的RDD,在新的RDD里面封装计算逻辑

可分区、并行计算。

五:五大主要配置

        1:分区列表:RDD数据结构中存在分区列表,用于执行任务时并行计算,是实现分布式计算的重要属性。

        2:分区计算函数。每个分区会有计算(计算逻辑是相同的,数据不一致)

        3:RDD之间的依赖关系。RDD是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个RDD建立依赖关系。

         4:分区器(当数据为KV类型数据时,可以通过设定分区器自定义数据的分区),就是将RDD读取完数据之后,如何将指定的数据放到指定分区的规则。

        5:首选位置。计算数据时,可以根据计算节点的状态选择不同的节点位置进行计算。判断Task发送给哪个Exectuor,效率最优。

六:RDD创建

        1:内存创建,两种方法,parallelize和makerdd,makerdd底层仍然调用parallelize方法

        2:文件创建

        3:文件创建,能够显示数据结果来自于哪些文件

 七:RDD的并行度和分区

        分区和并行度是不一致的,主要是看分区之后,TASK和EXECUTOR的个数关系

         1:内存分区,分区数的设置以及相关数据的分配

         2:文件分区,分区数的设置以及相关数据的分配