Spark 的见解 & 优化 (三)

Shuffle 操作
牵扯到跨节点的网络传输以及 IO 操作，是复杂且昂贵的操作，所以后续对它的优化是重中之重

 In Spark, data is generally not distributed across partitions to be in the necessary place for a specific operation. During computations, 
 a single task will operate on a single partition - thus, to organize all the data for a single `reduceByKey` reduce task to execute, 
 Spark needs to perform an all-to-all operation. It must read from all partitions to find all the values for all keys, and then bring 
 together values across partitions to compute the final result for each key - this is called the shuffle

概括来说某个算子需要其他分区的结果集的时候，将其他分区的结果传递汇总的过程就称之为 Shuffle.所以说 sort,distinct,reduce,group,aggregate 等都会产生 Shuffle 操作。

窄/宽依赖

窄依赖：父 RDD 中，每个分区内的数据，都只会被子 RDD 中特定的分区所消费，父子分区消费关系为 1 对 1
宽依赖：父 RDD 的每个分区都可能被多个子 RDD 分区所消费，父子分区消费关系为 1 对 N
宽依赖和窄依赖如下图所示：

相对于宽依赖，窄依赖对优化很有优势，主要有以下几点：
1）窄依赖不会产生 Shuffle 操作，所以不会像宽依赖那样有昂贵的 IO 操作以及网络传输。
2）RDD 分区丢失的时候，窄依赖只要计算对应的子分区对应的父分区即可，而宽依赖的子分区的数据可能来源于多个父分区，会产生额外的冗余计算，极端情况下，可能全部父分区都要重新计算。

常用的窄依赖算子：
map,mapToPair,mapPartitions,filter,union,flatMap,flatMapToPair,mapValues,flatMapValues,join(父 RDD 是 hash-partitioned)
常用的宽依赖算子：
sort,distinct,reduce,group,aggregate,partitionBy,join(父 RDD 不是 hash-partitioned)

分区策略

为了保证数据的均匀分布，spark 有 2 种分区策略，一种是 hash 分区，一种是范围分区.

1)hash 分区(HashPartitioner),spark 的默认分区策略。

 // 部分代码
 public int getPartition(Object key) {
    int var3;
    if (key == null) {
        var3 = 0;
    } else {
        var3 = .MODULE$.nonNegativeMod(key.hashCode(), this.numPartitions());
    }

    return var3;
 }
 
 //scala代码
 def nonNegativeMod(x: Int, mod: Int): Int = { val rawMod = x % mod rawMod + (if (rawMod < 0) mod  else  0) }

取 key 的 hashCode，然后对分区个数取模，取模后的值就是数据将要进入的分区。如果该值小于 0，则该值再加上分区个数。

2)范围分区(RangePartitioner)

这个分区的主要逻辑：
2-1 抽样,先重整个 RDD 中抽取出样本数据，将样本数据排序(默认升序)，计算出每个分区的最大 key 值，形成一个 array[key]类型的数组变量 rangeBounds
2-2 确定边界,判断 key 在 rangeBounds 中所处的范围，给出该 key 值在下一个 RDD 中的分区 id 下标

  public int getPartition(Object key) {
    Object k = key;
    int partition = 0;
    if (.MODULE$.array_length(this.org$apache$spark$RangePartitioner$rangeBounds()) <= 128) {
        while(partition < .MODULE$.array_length(this.org$apache$spark$RangePartitioner$rangeBounds()) && this.org$apache$spark$RangePartitioner$ordering().gt(k, .MODULE$.array_apply(this.org$apache$spark$RangePartitioner$rangeBounds(), partition))) {
            ++partition;
       }
    } else {
        partition = BoxesRunTime.unboxToInt(this.org$apache$spark$RangePartitioner$binarySearch().apply(this.org$apache$spark$RangePartitioner$rangeBounds(), key));
    if (partition < 0) {
            partition = -partition - 1;
    }

    if (partition > .MODULE$.array_length(this.org$apache$spark$RangePartitioner$rangeBounds())) {
            partition = .MODULE$.array_length(this.org$apache$spark$RangePartitioner$rangeBounds());
    }
  }

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

[图片] 一、安装 docker 1.1 使用 brew cask 安装由于是 Mac 系统，直接使用 brew 最为方便 brew cask install docker 1.2 镜像替换为加速镜像 [图片] 如上图得两个镜像地址，填入后，点击 apply&restart 重启 docker https:/ ..

python 从 0 编写 spark 程序

[图片] 导读：从 0 开始搭建 spark 环境，了解 spark 里的 RDD 和 DataFrame，并用 python 编写 spark 程序，实现分布式数据读取，ML 训练。一、从 0 搭建 spark 1、从官网下载 spark 包，并解压到自定义目录，配置环境变量。 2、mater 启动：进入到 spa ..

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

佩奇排名（PageRank），又称网页排名、谷歌左侧排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以 Google 公司创办人拉里·佩奇（Larry Page）之姓来命名。Google 用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。概 ..

Spark SQL 操作 hive 过程 rename 过程时间长

[图片] Spark SQL 操作 hive 过程 rename 过程时间长情况简介 hive 版本：1.2.1，spark 版本：2.3.0 2 亿数据去重 spark 任务时间：12.5h（4h（去重）+2.5h（不知道 spark 在干嘛，driver 端没有日志，executor 也没有日志）+6h（Rnam ..

Spark Streaming 实时统计数据（累加器的应用）

[图片] Spark Streaming 实时统计数据（累加器的应用）如果代码缺失导致无法运行，请留言标识，我会补全的 ️ 场景描述从 kafka 中取实时数据，对数据进行清洗过滤，然后和当天的历史数据进行合并去重，对合并后的数据集进行汇总。将汇总结果写入 HBase，当时间到第二天的时候清除前一天历史数据，重新统 ..

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

[图片] 使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）上次咱们说到数据从 kafka 到 hive，也从 hive 非分区表到分区表的迁移。经过测试发现曲线救国的方法虽然 kafka 到 hive 快了，但是 hive 非分区表到分区表贼慢，再一次难受，不着急咱们慢慢来分析原因。分析日 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Spark 的见解 & 优化 (三)

相关帖子

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

python 从 0 编写 spark 程序

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

Spark SQL 操作 hive 过程 rename 过程时间长

Spark Streaming 实时统计数据（累加器的应用）

记一次数据类型不同导致的 sql join 异常

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

欢迎来到这里！

近期热议

推荐标签标签

最新标签

Spark 的见解 & 优化 (三)

相关帖子

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

python 从 0 编写 spark 程序

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

Spark SQL 操作 hive 过程 rename 过程时间长

Spark Streaming 实时统计数据（累加器的应用）

记一次数据类型不同导致的 sql join 异常

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签