跳转至

XLiu知识空间

Spark 调优

XLiu知识空间

主页
主页
- 梦想
- 标签
调度系统
调度系统
- 概念
- Yarn
  Yarn
- 工作流调度
  工作流调度
  - DophinScheduler
  - ArgoWorkflow
分布式共识/一致性
分布式共识/一致性
- 一致性
- 共识
代码内功
代码内功
- 设计原则
- 代码整洁之道
- 重构
- 设计模式
  设计模式
  - 导览
  - 创建型模式
    创建型模式
    
    （TODO）工厂模式
    
    抽象工厂
    
    单例
    
    构造者模式
  - 结构型模式
    结构型模式
    
    适配器模式
    
    桥接模式
    
    组合模式
    
    装饰模式
    
    外观模式
    
    享元模式
    
    代理模式
  - 行为型模式
    行为型模式
    
    职责链模式
    
    命令模式
    
    解释器模式
    
    迭代器模式
    
    中介者模式
    
    备忘录模式
    
    观察者模式
    
    状态模式
    
    策略模式
    
    模板方法
    
    访问者模式
  - 分布式应用设计模式
- 数据结构
  数据结构
  - 数组
  - 队列
  - 列表
  - 树
  - 散列
    散列
    
    基础
    
    分布式一致性Hash
  - 布隆过滤器
  - Ping-Pong-Buffer
- 算法
  算法
编程语言
编程语言
- Java
  Java
  - Effective java
  - 性能
    性能
    
    常见问题分析
    
    arthas性能分析
    
    cpu profiler
    
    jvm-profile分布式应用分析
  - Native
    Native
    
    概览
    
    JNI
    JNI
    
    原理
    
    示例
    
    JNR
  - JVM
    JVM
    
    即时编译Jit
    
    jvm规范
    
    字节码
  - Agent
  - 序列化
  - 反射
  - 注解
  - SPI
  - 进程
  - 测试
  - 类加载器
  - 命令行工具
  - 版本
- Python
  Python
  - 三方包
    三方包
    
    java和Python互相访问
数据查询
数据查询
- SQL系统对比
- SQL 基础知识
  SQL 基础知识
  - 基础
  - 索引
- 统一SQL-openLooKong-
- 统一SQL-Presto
  统一SQL-Presto
- 基准测试(TPC)
- MySQL
  MySQL
  - 基础
数据系统
数据系统
- 缓存系统
  缓存系统
  - Redis(done)
- 消息队列
  消息队列
  - Apache Pulsar
  - STOMP协议
- 数据管理
  数据管理
  - 数据集成
    数据集成
    
    数据同步
    
    CDC
    
    seatunnel
    
    chunjun
    
    tis
    
    bitsail
  - 数据集成框架(InLong)
- 数据湖
  数据湖
  - Apache Hudi
    Apache Hudi
    
    原理
    
    服务
    服务
    
    压缩（Compaction）
    
    聚簇（clustering）
    
    Spark使用
计算引擎
计算引擎
- Spark
  Spark
  - 概览
  - Spark SQL
    Spark SQL
    
    基础
    
    特性
    
    数据源
    
    CLI
  - Spark Graphx
  - Spark on Yarn
  - Spark Yarn RestAPI
  - Spark Metrics
  - Spark 调优 Spark 调优
    目录
    
    数据倾斜
    
    定位
    
    解决
    
    相关参数调优
    
    spark.shuffle.file.buffer
    
    spark.reducer.maxSizeInFlight
    
    spark.shuffle.io.maxRetries
    
    spark.shuffle.io.retryWait
    
    spark.shuffle.sort.bypassMergeThreshold
  - Spark Shuffle
- GPU编程
  GPU编程
  - 介绍
  - Cuda
    Cuda
    
    安装
    
    编程
  - Rocm
    Rocm
    
    编程
CS系统知识
CS系统知识
- 基础
- 网络
  网络
  - 基础
  - LVS
  - http
  - 内网穿透
  - 网络层协议
  - 传输层协议
- 操作系统
- Linux 知识
  Linux 知识
  - 基础
  - acls
  - bash
  - cgroup
  - chmod
  - chroot
  - firewall
  - ip
  - journald
  - log
  - namespace
  - network
  - proc
  - ramdisk
  - rsync
  - services
  - tuning
  - updatedb
  - 进程快照
  - yum
  - 零拷贝
- Linux Shell
  Linux Shell
  - basic
  - args
- OSLabCourse
  OSLabCourse
  - 大纲
  - 操作系统概述
机器学习
机器学习
- 图像视频
  图像视频
  - 图像特征
- 自然语言处理NLP
  自然语言处理NLP
  - 动手做聊天机器人(TODO)
- 示例案例
- 部署平台
  部署平台
  - kserve
Devops
Devops
- 概览
- 代码仓库
  代码仓库
  - Gitlab
- CI/CD
  CI/CD
  - 概览
  - Gitlab CI
  - Drone CI
  - Gitlab CD
  - argo cd
  - 版本自动发布
  - 制品库
- Ansible(部署)
- Prometheus(时序数据存储)
- Ansible(部署)
- 数据来源
  数据来源
  - 日志收集
  - 节点监控
- 部署
  部署
  - K8s集群交付
- 实战
Web服务
Web服务
- 实战
  实战
- 后端
  后端
  - servlet及容器(done)
  - 全局ID生成器(done)
  - 接口管理设计(done)
  - 缓存(done)
  - 操作日志
  - 数据库
  - Spring
    Spring
    
    SpringBoot
  - SpringCloud
    SpringCloud
    
    介绍
    
    网关
    
    服务发现
  - 分布式追踪
    分布式追踪
    
    概览
  - 模板引擎
  - 规则引擎
  - 状态机框架
  - 指标系统
  - MQTT
- 认证
- 授权
- 安全
工具
工具
- maven
  maven
  - 基础
  - 插件
- markdown
  markdown
  - 公式
  - 图
  - Typora
- mkdocs
- 开源协议声明

Spark 调优

数据倾斜

数据倾斜只会发生在shuffle过程中

定位

在WebUI上，查看stage各个task分配的数据量；
根据stage，确定对应的源码位置；

解决

分析key的数据分布情况

预先处理（一次处理，多次使用的场景）：将数据提前预处理（仍然有数据倾斜问题），得到的结果数据，不需要再使用shuffle；
两阶段聚合（局部聚合+全局聚合）：针对单次使用的场景，仅仅适用于聚合类的shuffle操作（不适合join）
将原本相同的key通过附加随机前缀的方式，变成多个不同的key；

相关参数调优

spark.shuffle.file.buffer

默认值：32k
参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。
调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如64k），从而减少shuffle write过程中溢写磁盘文件的次数，也就可以减少磁盘IO次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%~5%的提升。

spark.reducer.maxSizeInFlight

默认值：48m
参数说明：该参数用于设置shuffle read task的buffer缓冲大小，而这个buffer缓冲决定了每次能够拉取多少数据。
调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如96m），从而减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%~5%的提升。

spark.shuffle.io.maxRetries

默认值：3
参数说明：shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表了可以重试的最大次数。如果在指定次数之内拉取还是没有成功，就可能会导致作业执行失败。
调优建议：对于那些包含了特别耗时的shuffle操作的作业，建议增加重试最大次数（比如60次），以避免由于JVM的full gc或者网络不稳定等因素导致的数据拉取失败。在实践中发现，对于针对超大数据量（数十亿~上百亿）的shuffle过程，调节该参数可以大幅度提升稳定性。

spark.shuffle.io.retryWait

默认值：5s
参数说明：具体解释同上，该参数代表了每次重试拉取数据的等待间隔，默认是5s。
调优建议：建议加大间隔时长（比如60s），以增加shuffle操作的稳定性。

spark.shuffle.sort.bypassMergeThreshold

默认值：200
参数说明：如果shuffle read task的数量小于这个阈值（默认是200）且没有map端聚合，则shuffle write过程中不会进行排序操作，而是直接按照未经优化的HashShuffleManager的方式去写数据，但是最后会将每个task产生的所有临时磁盘文件都合并成一个文件，并会创建单独的索引文件。
调优建议：当你使用SortShuffleManager时，如果的确不需要排序操作，那么建议将这个参数调大一些，大于shuffle read task的数量。那么此时就会自动启用bypass机制，map-side就不会进行排序，减少了排序的性能开销。但是这种方式下，依然会产生大量的磁盘文件，因此shuffle write性能有待提高。