跳转至

XLiu知识空间

批量插入

XLiu知识空间

主页
主页
- 梦想
- 标签
调度系统
调度系统
- 概念
- Yarn
  Yarn
- 工作流调度
  工作流调度
  - DophinScheduler
  - ArgoWorkflow
分布式共识/一致性
分布式共识/一致性
- 一致性
- 共识
代码内功
代码内功
- 设计原则
- 代码整洁之道
- 重构
- 设计模式
  设计模式
  - 导览
  - 创建型模式
    创建型模式
    
    （TODO）工厂模式
    
    抽象工厂
    
    单例
    
    构造者模式
  - 结构型模式
    结构型模式
    
    适配器模式
    
    桥接模式
    
    组合模式
    
    装饰模式
    
    外观模式
    
    享元模式
    
    代理模式
  - 行为型模式
    行为型模式
    
    职责链模式
    
    命令模式
    
    解释器模式
    
    迭代器模式
    
    中介者模式
    
    备忘录模式
    
    观察者模式
    
    状态模式
    
    策略模式
    
    模板方法
    
    访问者模式
  - 分布式应用设计模式
- 数据结构
  数据结构
  - 数组
  - 队列
  - 列表
  - 树
  - 散列
    散列
    
    基础
    
    分布式一致性Hash
  - 布隆过滤器
  - Ping-Pong-Buffer
- 算法
  算法
编程语言
编程语言
- Java
  Java
  - Effective java
  - 性能
    性能
    
    常见问题分析
    
    arthas性能分析
    
    cpu profiler
    
    jvm-profile分布式应用分析
  - Native
    Native
    
    概览
    
    JNI
    JNI
    
    原理
    
    示例
    
    JNR
  - JVM
    JVM
    
    即时编译Jit
    
    jvm规范
    
    字节码
  - Agent
  - 序列化
  - 反射
  - 注解
  - SPI
  - 进程
  - 测试
  - 类加载器
  - 命令行工具
  - 版本
- Python
  Python
  - 三方包
    三方包
    
    java和Python互相访问
数据查询
数据查询
- SQL系统对比
- SQL 基础知识
  SQL 基础知识
  - 基础
  - 索引
- 统一SQL-openLooKong-
- 统一SQL-Presto
  统一SQL-Presto
- 基准测试(TPC)
- MySQL
  MySQL
  - 基础
数据系统
数据系统
- 缓存系统
  缓存系统
  - Redis(done)
- 消息队列
  消息队列
  - Apache Pulsar
  - STOMP协议
- 数据管理
  数据管理
  - 数据集成
    数据集成
    
    数据同步
    
    CDC
    
    seatunnel
    
    chunjun
    
    tis
    
    bitsail
  - 数据集成框架(InLong)
- 数据湖
  数据湖
  - Apache Hudi
    Apache Hudi
    
    原理
    
    服务
    服务
    
    压缩（Compaction）
    
    聚簇（clustering）
    
    Spark使用
计算引擎
计算引擎
- Spark
  Spark
  - 概览
  - Spark SQL
    Spark SQL
    
    基础
    
    特性
    
    数据源
    
    CLI
  - Spark Graphx
  - Spark on Yarn
  - Spark Yarn RestAPI
  - Spark Metrics
  - Spark 调优
  - Spark Shuffle
- GPU编程
  GPU编程
  - 介绍
  - Cuda
    Cuda
    
    安装
    
    编程
  - Rocm
    Rocm
    
    编程
CS系统知识
CS系统知识
- 基础
- 网络
  网络
  - 基础
  - LVS
  - http
  - 内网穿透
  - 网络层协议
  - 传输层协议
- 操作系统
- Linux 知识
  Linux 知识
  - 基础
  - acls
  - bash
  - cgroup
  - chmod
  - chroot
  - firewall
  - ip
  - journald
  - log
  - namespace
  - network
  - proc
  - ramdisk
  - rsync
  - services
  - tuning
  - updatedb
  - 进程快照
  - yum
  - 零拷贝
- Linux Shell
  Linux Shell
  - basic
  - args
- OSLabCourse
  OSLabCourse
  - 大纲
  - 操作系统概述
机器学习
机器学习
- 图像视频
  图像视频
  - 图像特征
- 自然语言处理NLP
  自然语言处理NLP
  - 动手做聊天机器人(TODO)
- 示例案例
- 部署平台
  部署平台
  - kserve
Devops
Devops
- 概览
- 代码仓库
  代码仓库
  - Gitlab
- CI/CD
  CI/CD
  - 概览
  - Gitlab CI
  - Drone CI
  - Gitlab CD
  - argo cd
  - 版本自动发布
  - 制品库
- Ansible(部署)
- Prometheus(时序数据存储)
- Ansible(部署)
- 数据来源
  数据来源
  - 日志收集
  - 节点监控
- 部署
  部署
  - K8s集群交付
- 实战
Web服务
Web服务
- 实战
  实战
- 后端
  后端
  - servlet及容器(done)
  - 全局ID生成器(done)
  - 接口管理设计(done)
  - 缓存(done)
  - 操作日志
  - 数据库
  - Spring
    Spring
    
    SpringBoot
  - SpringCloud
    SpringCloud
    
    介绍
    
    网关
    
    服务发现
  - 分布式追踪
    分布式追踪
    
    概览
  - 模板引擎
  - 规则引擎
  - 状态机框架
  - 指标系统
  - MQTT
- 认证
- 授权
- 安全
工具
工具
- maven
  maven
  - 基础
  - 插件
- markdown
  markdown
  - 公式
  - 图
  - Typora
- mkdocs
- 开源协议声明

批量插入

原理

bulk_insert按照以下原则提供了3种模式来满足不同的需求：

如果数据布局良好，排序将为我们提供良好的压缩和upsert性能。特别是记录键具有某种排序（时间戳等）特征，则排序将有助于在upsert期间裁剪大量文件，如果数据是按频繁查询的列排序的，那么查询将利用parquet谓词下推来裁剪数据，以确保更低的查询延迟。
写parquet文件是内存密集型操作。当将大量数据写入一个也被划分为1000个分区的表中时，如果不进行任何排序，写入程序可能必须保持1000个parquet写入器处于打开状态，同时会产生不可持续的内存压力，并最终导致崩溃。
在批量导入数据时，最好控制好少的文件个数，以避免以后后续写入和查询时的元数据开销。

3种开箱即用的模式为：PARTITION_SORT、GLOBAL_SORT、NONE

模式

GLOBAL_SORT（全局排序）

默认模式。

Hudi在输入分区中对记录进行全局排序，从而在索引查找过程中最大化使用键范围修剪的文件数量，以便提升upsert性能。

PARTITION_SORT（分区排序）

对给定spark分区内的记录进行排序：

但是给定的spark分区可能包含来自不同表分区的记录，因此即使我们在每个spark分区内进行排序，也可能会在产生大量文件，因为给定表分区的记录可能会分布在许多spark分区中；
写入时可能不会同时打开太多文件，因为我们在移动到下一个文件之前关闭了该文件；

NONE

不会对用户记录进行任何转换（如排序），将数据原样委托给写入器。

较大的内存开销：将大量数据写入分区为1000个分区的表中时，写入程序可能必须保持1000个parquet写入程序处于打开状态；
给定文件的最小-最大范围可能非常宽（未排序的记录），因此后续的upsert会在索引查找期间从大量文件中读取bloom filter（布隆过滤器）；
记录没有排序，并且每个写入器可以跨N个表分区获取记录，因此这种模式可能会导致在bulk_insert结束时产生大量文件。由于有大量的小文件，这也可能会影响upsert或查询性能。

配置

hoodie.bulkinsert.sort.mode：排序模式，NONE, GLOBAL_SORT（默认） , PARTITION_SORT
hoodie.bulkinsert.user.defined.partitioner.sort.columns：排序的列，逗号分隔多列；

性能测试

不同模式下简单benchmark性能差异如下

说明：该基准测试使用不同的排序模式将1000万条记录批量插入hudi，然后upsert100W个条记录（原始数据集大小的10%）。

NONE模式对批量导入性能最佳，因为它不涉及任何排序；
与NONE模式相比，GLOBAL_SORT相比NONE模式开销约为15%；
PARTITION_SORT相比NONE模式开销约为4%，因为也涉及到对记录的排序操作；
后面的upsert性能：GLOBAL_SORT相比NONE upsert性能高40%。PARTITION_SORT相比NONE模式有约5%的改进，这是由于大量小文件开销导致。