flink rocksdb状态说明
文章目录
- 1.默认情况
- 2.flink中的状态
- 3.RocksDB
- 4.对比情况
- 5.使用
- 6.RocksDB架构
- 7.参考文章
- 8.总结
提示:以下主要考虑flink 状态永久存储 rocksdb情况,做一些简单说明
1.默认情况
当flink使用rocksdb存储状态时。无论是永久存储还是临时存储都可能会落盘写文件(如果没有配置存储时间,则默认是永久存储),rocksdb是flink内嵌的数据库,主要由flink自动存储管理状态数据。
2.flink中的状态
为了更好地理解 Flink 中的状态和状态后端,区分运行中状态和状态快照至关重要。运行中状态,也称为工作状态,是 Flink 作业正在处理的状态。它始终存储在本地内存中(有可能溢出到磁盘),并且当作业失败时可能会丢失,但不影响作业的可恢复性。状态快照,即检查点和保存点,存储在远程持久存储中,用于在作业失败时恢复本地状态。适合生产部署的状态后端取决于可扩展性、吞吐量和延迟要求。
3.RocksDB
RocksDB 是一个需要在集群上运行并由专门管理员管理的分布式数据库,这是一种常见的误解。RocksDB 是一个可嵌入的持久化键值存储,用于快速存储。它通过 Java 原生接口 (JNI) 与 Flink 交互。下图展示了 RocksDB 在 Flink 集群节点中的位置。更多细节将在后续章节中介绍。
4.对比情况
除了 RocksDBStateBackend 之外,Flink 还有另外两个内置状态后端:MemoryStateBackend 和 FsStateBackend。它们都是基于堆的,因为运行中的状态存储在 JVM 堆中。目前,我们先忽略 MemoryStateBackend,因为它仅用于本地开发和调试,不适用于生产环境。
使用 RocksDBStateBackend,运行中状态首先写入堆外/原生内存,然后在达到配置的阈值时刷新到本地磁盘。这意味着 RocksDBStateBackend 可以支持大于配置堆总容量的状态。RocksDBStateBackend 中可存储的状态量仅受整个集群