跳转至

XLiu知识空间

全局ID生成器(done)

XLiu知识空间

主页
主页
- 梦想
- 标签
调度系统
调度系统
- 概念
- Yarn
  Yarn
- 工作流调度
  工作流调度
  - DophinScheduler
  - ArgoWorkflow
分布式共识/一致性
分布式共识/一致性
- 一致性
- 共识
代码内功
代码内功
- 设计原则
- 代码整洁之道
- 重构
- 设计模式
  设计模式
  - 导览
  - 创建型模式
    创建型模式
    
    （TODO）工厂模式
    
    抽象工厂
    
    单例
    
    构造者模式
  - 结构型模式
    结构型模式
    
    适配器模式
    
    桥接模式
    
    组合模式
    
    装饰模式
    
    外观模式
    
    享元模式
    
    代理模式
  - 行为型模式
    行为型模式
    
    职责链模式
    
    命令模式
    
    解释器模式
    
    迭代器模式
    
    中介者模式
    
    备忘录模式
    
    观察者模式
    
    状态模式
    
    策略模式
    
    模板方法
    
    访问者模式
  - 分布式应用设计模式
- 数据结构
  数据结构
  - 数组
  - 队列
  - 列表
  - 树
  - 散列
    散列
    
    基础
    
    分布式一致性Hash
  - 布隆过滤器
  - Ping-Pong-Buffer
- 算法
  算法
编程语言
编程语言
- Java
  Java
  - Effective java
  - 性能
    性能
    
    常见问题分析
    
    arthas性能分析
    
    cpu profiler
    
    jvm-profile分布式应用分析
  - Native
    Native
    
    概览
    
    JNI
    JNI
    
    原理
    
    示例
    
    JNR
  - JVM
    JVM
    
    即时编译Jit
    
    jvm规范
    
    字节码
  - Agent
  - 序列化
  - 反射
  - 注解
  - SPI
  - 进程
  - 测试
  - 类加载器
  - 命令行工具
  - 版本
- Python
  Python
  - 三方包
    三方包
    
    java和Python互相访问
数据查询
数据查询
- SQL系统对比
- SQL 基础知识
  SQL 基础知识
  - 基础
  - 索引
- 统一SQL-openLooKong-
- 统一SQL-Presto
  统一SQL-Presto
- 基准测试(TPC)
- MySQL
  MySQL
  - 基础
数据系统
数据系统
- 缓存系统
  缓存系统
  - Redis(done)
- 消息队列
  消息队列
  - Apache Pulsar
  - STOMP协议
- 数据管理
  数据管理
  - 数据集成
    数据集成
    
    数据同步
    
    CDC
    
    seatunnel
    
    chunjun
    
    tis
    
    bitsail
  - 数据集成框架(InLong)
- 数据湖
  数据湖
  - Apache Hudi
    Apache Hudi
    
    原理
    
    服务
    服务
    
    压缩（Compaction）
    
    聚簇（clustering）
    
    Spark使用
计算引擎
计算引擎
- Spark
  Spark
  - 概览
  - Spark SQL
    Spark SQL
    
    基础
    
    特性
    
    数据源
    
    CLI
  - Spark Graphx
  - Spark on Yarn
  - Spark Yarn RestAPI
  - Spark Metrics
  - Spark 调优
  - Spark Shuffle
- GPU编程
  GPU编程
  - 介绍
  - Cuda
    Cuda
    
    安装
    
    编程
  - Rocm
    Rocm
    
    编程
CS系统知识
CS系统知识
- 基础
- 网络
  网络
  - 基础
  - LVS
  - http
  - 内网穿透
  - 网络层协议
  - 传输层协议
- 操作系统
- Linux 知识
  Linux 知识
  - 基础
  - acls
  - bash
  - cgroup
  - chmod
  - chroot
  - firewall
  - ip
  - journald
  - log
  - namespace
  - network
  - proc
  - ramdisk
  - rsync
  - services
  - tuning
  - updatedb
  - 进程快照
  - yum
  - 零拷贝
- Linux Shell
  Linux Shell
  - basic
  - args
- OSLabCourse
  OSLabCourse
  - 大纲
  - 操作系统概述
机器学习
机器学习
- 图像视频
  图像视频
  - 图像特征
- 自然语言处理NLP
  自然语言处理NLP
  - 动手做聊天机器人(TODO)
- 示例案例
- 部署平台
  部署平台
  - kserve
Devops
Devops
- 概览
- 代码仓库
  代码仓库
  - Gitlab
- CI/CD
  CI/CD
  - 概览
  - Gitlab CI
  - Drone CI
  - Gitlab CD
  - argo cd
  - 版本自动发布
  - 制品库
- Ansible(部署)
- Prometheus(时序数据存储)
- Ansible(部署)
- 数据来源
  数据来源
  - 日志收集
  - 节点监控
- 部署
  部署
  - K8s集群交付
- 实战
Web服务
Web服务
- 实战
  实战
- 后端
  后端
  - servlet及容器(done)
  - 全局ID生成器(done) 全局ID生成器(done)
    目录
    
    UUID
    
    Snowflake（Twitter）
    
    Leaf（美团）
    
    Leaf-segment数据库方案
    
    Leaf-snowflake方案
  - 接口管理设计(done)
  - 缓存(done)
  - 操作日志
  - 数据库
  - Spring
    Spring
    
    SpringBoot
  - SpringCloud
    SpringCloud
    
    介绍
    
    网关
    
    服务发现
  - 分布式追踪
    分布式追踪
    
    概览
  - 模板引擎
  - 规则引擎
  - 状态机框架
  - 指标系统
  - MQTT
- 认证
- 授权
- 安全
工具
工具
- maven
  maven
  - 基础
  - 插件
- markdown
  markdown
  - 公式
  - 图
  - Typora
- mkdocs
- 开源协议声明

Id Generator

参考：

[1]. Leaf——美团点评分布式ID生成系统

全局唯一ID应该具备的属性：

全局唯一性：不能出现重复的 ID 号，既然是唯一标识，这是最基本的要求；
趋势递增：在 MySQL InnoDB 引擎中使用的是聚集索引，由于多数 RDBMS 使用 B-tree 的数据结构来存储索引数据，在主键的选择上面我们应该尽量使用有序的主键保证写入性能；
单调递增：保证下一个 ID 一定大于上一个 ID，例如事务版本号、IM 增量消息、排序等特殊需求；
信息安全：如果 ID 是连续的，恶意用户的爬取工作就非常容易做了，直接按照顺序下载指定 URL 即可；如果是订单号就更危险了，竞争对手可以直接知道我们一天的单量。所以在一些应用场景下，会需要 ID 无规则、不规则。

UUID

UUID(Universally Unique Identifier)的标准型式包含32个16进制数字，以连字号分为五段，形式为8-4-4-4-12的36个字符，示例：550e8400-e29b-41d4-a716-446655440000，到目前为止业界一共有5种方式生成UUID。

优点：

性能非常高：本地生成，没有网络消耗。

缺点：

不易于存储：UUID太长，16字节128位，通常以36长度的字符串表示，很多场景不适用。
信息不安全：基于MAC地址生成UUID的算法可能会造成MAC地址泄露，这个漏洞曾被用于寻找梅丽莎病毒的制作者位置。
ID作为主键时在特定的环境会存在一些问题，比如做DB主键的场景下，UUID就非常不适用：
MySQL官方有明确的建议主键要尽量越短越好，36个字符长度的UUID不符合要求；
对MySQL索引不利：如果作为数据库主键，在InnoDB引擎下，UUID的无序性可能会引起数据位置频繁变动，严重影响性能。

Snowflake（Twitter）

Snowflake算法描述：指定机器 & 同一时刻 & 某一并发序列，是唯一的。据此可生成一个64 bits的唯一ID（long）。默认采用上图字节分配方式：

sign(1bit) 固定1bit符号标识，即生成的UID为正数。
delta seconds (精确到毫秒，41 位的长度可以使用 69 年) 单位：秒，最多可支持约70年
worker id (10 bits) 机器id，最多可支持约1024个。
sequence (12 bits) 每毫秒下的并发序列，12 bits可支持每毫秒 4096个并发。

优点：

毫秒数在高位，自增序列在低位，整个ID都是趋势递增的。
不依赖数据库等第三方系统，以服务的方式部署，稳定性更高，生成ID的性能也是非常高的。
可以根据自身业务特性分配bit位，非常灵活。

缺点：

强依赖机器时钟，如果机器上时钟回拨或者闰秒，会导致发号重复或者服务会处于不可用状态。

Leaf（美团）

Leaf-segment数据库方案

每次获取一个segment(step决定大小)号段的值。用完之后再去数据库获取新的号段，可以大大的减轻数据库的压力。

优点：

Leaf服务可以很方便的线性扩展，性能完全能够支撑大多数业务场景。
ID号码是趋势递增的8byte的64位数字，满足上述数据库存储的主键要求。
容灾性高：Leaf服务内部有号段缓存，即使DB宕机，短时间内Leaf仍能正常对外提供服务。
可以自定义max_id的大小，非常方便业务从原有的ID方式上迁移过来。

缺点：

ID号码不够随机，能够泄露发号数量的信息，不太安全。
TP999数据波动大，当号段使用完之后还是会hang在更新数据库的I/O上，tg999 数据会出现偶尔的尖刺。
DB 宕机会造成整个系统不可用。

Leaf-snowflake方案

workerId的生成：

通过zk的持久化节点，获取序号，并且通过本地文件缓存id，弱依赖ZK；

时间戳问题：

每隔一段时间(3s)上报自身系统时间写入ZK的 leaf_forever/${self}；
机器启动时，比较其他机器注册在zk上的时间，小于一定阈值，则认为时间没问题，成功启动，否则启动失败；
做一层重试，然后上报报警系统，更或者是发现有时钟回拨之后自动摘除本身节点并报警，通过比较当前时间和上次发号的时间；