当前位置：首页 > news >正文

Flink Keyed State 详解之四

news 2025/11/1 1:48:55

Apache Flink State Backends 详解

1. 基本概念

State Backend（状态后端）是 Flink 用于存储和管理状态的组件。它决定了状态数据的存储位置、存储格式以及如何进行检查点操作。Flink 提供了多种状态后端实现，每种都有其特定的适用场景和优缺点。

2. 状态后端类型

2.1 MemoryStateBackend

MemoryStateBackend 是最简单的状态后端，将状态数据存储在 TaskManager 的 JVM 堆内存中，将检查点数据存储在 JobManager 的 JVM 堆内存中。

特点：

状态存储在 TaskManager 的堆内存中
检查点存储在 JobManager 的堆内存中
适用于小状态和本地开发测试
不适用于生产环境

适用场景：

本地开发和测试
状态非常小的应用程序
学习和演示目的

import org.apache.flink.runtime.state.memory.MemoryStateBackend;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;/*** MemoryStateBackend 配置示例*/
public class MemoryStateBackendExample {public static void configureMemoryStateBackend() {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 配置 MemoryStateBackend// 参数1: 检查点数据存储路径（可选）// 参数2: 是否异步快照（默认为 true）MemoryStateBackend memoryStateBackend = new MemoryStateBackend(null,  // 检查点存储路径true   // 异步快照);env.setStateBackend(memoryStateBackend);// 或者使用简单的配置方式// env.setStateBackend(new MemoryStateBackend());System.out.println("MemoryStateBackend configured");}
}

2.2 HashMapStateBackend

HashMapStateBackend 是 Flink 1.13+ 版本引入的状态后端，将状态数据存储在 TaskManager 的 JVM 堆内存中，但将检查点数据存储在分布式文件系统（如 HDFS、S3）中。

特点：

状态存储在 TaskManager 的堆内存中
检查点存储在分布式文件系统中
适用于中小规模状态
提供比 MemoryStateBackend 更好的可靠性

适用场景：

中小规模状态的应用程序
需要可靠检查点存储的场景
不需要状态非常大的场景

import org.apache.flink.runtime.state.hashmap.HashMapStateBackend;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.configuration.Configuration;/*** HashMapStateBackend 配置示例*/
public class HashMapStateBackendExample {public static void configureHashMapStateBackend() {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 配置 HashMapStateBackendHashMapStateBackend hashMapStateBackend = new HashMapStateBackend();env.setStateBackend(hashMapStateBackend);// 配置检查点存储路径env.getCheckpointConfig().setCheckpointStorage("hdfs://namenode:port/flink/checkpoints");System.out.println("HashMapStateBackend configured");}
}

2.3 EmbeddedRocksDBStateBackend

EmbeddedRocksDBStateBackend 使用 RocksDB 作为本地状态存储引擎，将状态数据存储在 TaskManager 本地磁盘上，将检查点数据存储在分布式文件系统中。

特点：

状态存储在本地 RocksDB 数据库中
检查点存储在分布式文件系统中
适用于大规模状态
支持增量检查点
需要额外的 RocksDB 依赖

适用场景：

大规模状态的应用程序
状态大小超过 JVM 堆内存的应用程序
需要高性能状态访问的场景

import org.apache.flink.contrib.streaming.state.EmbeddedRocksDBStateBackend;
import org.apache.flink.contrib.streaming.state.PredefinedOptions;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;/*** EmbeddedRocksDBStateBackend 配置示例*/
public class RocksDBStateBackendExample {public static void configureRocksDBStateBackend() {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 配置 EmbeddedRocksDBStateBackendEmbeddedRocksDBStateBackend rocksDBStateBackend = new EmbeddedRocksDBStateBackend();// 设置预定义选项（可选）rocksDBStateBackend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED);// 配置 RocksDB 选项（可选）// rocksDBStateBackend.setDbStoragePath("/path/to/rocksdb/storage");env.setStateBackend(rocksDBStateBackend);// 配置检查点存储路径env.getCheckpointConfig().setCheckpointStorage("hdfs://namenode:port/flink/checkpoints");System.out.println("EmbeddedRocksDBStateBackend configured");}
}

3. 状态后端配置方法

3.1 通过代码配置

import org.apache.flink.contrib.streaming.state.EmbeddedRocksDBStateBackend;
import org.apache.flink.runtime.state.hashmap.HashMapStateBackend;
import org.apache.flink.runtime.state.memory.MemoryStateBackend;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;/*** 状态后端配置示例*/
public class StateBackendConfigurationExample {public static void main(String[] args) {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 1. 配置 MemoryStateBackendconfigureMemoryStateBackend(env);// 2. 配置 HashMapStateBackendconfigureHashMapStateBackend(env);// 3. 配置 EmbeddedRocksDBStateBackendconfigureRocksDBStateBackend(env);}/*** 配置 MemoryStateBackend*/public static void configureMemoryStateBackend(StreamExecutionEnvironment env) {MemoryStateBackend memoryStateBackend = new MemoryStateBackend();env.setStateBackend(memoryStateBackend);System.out.println("MemoryStateBackend configured");}/*** 配置 HashMapStateBackend*/public static void configureHashMapStateBackend(StreamExecutionEnvironment env) {HashMapStateBackend hashMapStateBackend = new HashMapStateBackend();env.setStateBackend(hashMapStateBackend);env.getCheckpointConfig().setCheckpointStorage("file:///tmp/flink-checkpoints");System.out.println("HashMapStateBackend configured");}/*** 配置 EmbeddedRocksDBStateBackend*/public static void configureRocksDBStateBackend(StreamExecutionEnvironment env) {EmbeddedRocksDBStateBackend rocksDBStateBackend = new EmbeddedRocksDBStateBackend();env.setStateBackend(rocksDBStateBackend);env.getCheckpointConfig().setCheckpointStorage("hdfs://namenode:port/flink/checkpoints");System.out.println("EmbeddedRocksDBStateBackend configured");}
}

3.2 通过配置文件配置

在 flink-conf.yaml 文件中配置状态后端：

# MemoryStateBackend 配置
state.backend: memory# HashMapStateBackend 配置
state.backend: hashmap
state.checkpoints.dir: hdfs://namenode:port/flink/checkpoints# EmbeddedRocksDBStateBackend 配置
state.backend: rocksdb
state.checkpoints.dir: hdfs://namenode:port/flink/checkpoints
state.backend.rocksdb.local-directories: /tmp/rocksdb,/data/rocksdb# 通用状态后端配置
state.backend.incremental: true  # 启用增量检查点
state.backend.rocksdb.timer-service.factory: ROCKSDB  # 定时器服务工厂

4. RocksDB 高级配置

4.1 RocksDB 选项配置

import org.apache.flink.contrib.streaming.state.EmbeddedRocksDBStateBackend;
import org.apache.flink.contrib.streaming.state.RocksDBNativeMetricOptions;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.rocksdb.BlockBasedTableConfig;
import org.rocksdb.ColumnFamilyOptions;
import org.rocksdb.DBOptions;/*** RocksDB 高级配置示例*/
public class RocksDBAdvancedConfiguration {public static void configureAdvancedRocksDB() {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();EmbeddedRocksDBStateBackend rocksDBStateBackend = new EmbeddedRocksDBStateBackend();// 1. 配置 RocksDB 本地存储路径rocksDBStateBackend.setDbStoragePath("/data/flink/rocksdb");// 2. 配置 RocksDB 选项DBOptions dbOptions = new DBOptions().setIncreaseParallelism(4).setUseFsync(false).setCreateIfMissing(true);rocksDBStateBackend.setDbOptions(dbOptions);// 3. 配置列族选项ColumnFamilyOptions columnFamilyOptions = new ColumnFamilyOptions().setTableFormatConfig(new BlockBasedTableConfig().setBlockSize(4096).setBlockCacheSize(512 * 1024 * 1024));  // 512MBrocksDBStateBackend.setColumnFamilyOptions(columnFamilyOptions);// 4. 启用原生指标RocksDBNativeMetricOptions nativeMetricOptions = new RocksDBNativeMetricOptions().setMonitorBackgroundError(true).setMonitorNumImmutableMemTable(true).setMonitorMemTableFlushPending(true).setMonitorNumRunningFlushes(true).setMonitorNumRunningCompactions(true);rocksDBStateBackend.setNativeMetricOptions(nativeMetricOptions);env.setStateBackend(rocksDBStateBackend);System.out.println("Advanced RocksDB configuration completed");}
}

4.2 RocksDB 内存优化配置

import org.apache.flink.contrib.streaming.state.EmbeddedRocksDBStateBackend;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;/*** RocksDB 内存优化配置示例*/
public class RocksDBMemoryOptimization {public static void configureMemoryOptimizedRocksDB() {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();EmbeddedRocksDBStateBackend rocksDBStateBackend = new EmbeddedRocksDBStateBackend();// RocksDB 内存优化配置（在 flink-conf.yaml 中设置）/*# RocksDB 内存管理state.backend.rocksdb.memory.managed: true# 每个槽位的固定内存大小state.backend.rocksdb.memory.fixed-per-slot: 128mb# 内存高水位线state.backend.rocksdb.memory.high-prio-pool-ratio: 0.1# RocksDB 选项state.backend.rocksdb.block-cache-size: 256mbstate.backend.rocksdb.write-buffer-size: 64mbstate.backend.rocksdb.max-write-buffer-number: 3state.backend.rocksdb.min-write-buffer-number-to-merge: 2*/// 通过代码配置rocksDBStateBackend.setDbOptions(rocksDBStateBackend.getDbOptions().setIncreaseParallelism(4).setUseDirectReads(true).setUseDirectIoForFlushAndCompaction(true));env.setStateBackend(rocksDBStateBackend);System.out.println("Memory optimized RocksDB configuration completed");}
}

5. 状态后端选择指南

5.1 选择依据

选择合适的状态后端需要考虑以下因素：

状态大小：
- 小状态（< 100MB）：MemoryStateBackend 或 HashMapStateBackend
- 中等状态（100MB - 1GB）：HashMapStateBackend
- 大状态（> 1GB）：EmbeddedRocksDBStateBackend
性能要求：
- 高性能要求：HashMapStateBackend（堆内存访问快）
- 大状态场景：EmbeddedRocksDBStateBackend（支持增量检查点）
可靠性要求：
- 高可靠性要求：HashMapStateBackend 或 EmbeddedRocksDBStateBackend
- 本地测试：MemoryStateBackend
资源限制：
- JVM 堆内存有限：EmbeddedRocksDBStateBackend
- 磁盘空间充足：EmbeddedRocksDBStateBackend

5.2 状态后端对比表

特性	MemoryStateBackend	HashMapStateBackend	EmbeddedRocksDBStateBackend
状态存储位置	TaskManager 堆内存	TaskManager 堆内存	TaskManager 本地磁盘
检查点存储位置	JobManager 堆内存	分布式文件系统	分布式文件系统
适用状态大小	< 100MB	< 1GB	任意大小
性能	最高	高	中等
可靠性	低	高	高
增量检查点	不支持	不支持	支持
生产环境适用性	不适用	适用	适用

6. 完整使用示例

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.contrib.streaming.state.EmbeddedRocksDBStateBackend;
import org.apache.flink.runtime.state.hashmap.HashMapStateBackend;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;/*** 状态后端完整使用示例*/
public class StateBackendExample {public static void main(String[] args) throws Exception {// 创建执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 启用检查点env.enableCheckpointing(5000); // 每5秒进行一次检查点// 配置状态后端（根据需要选择）configureStateBackend(env, "rocksdb"); // 可选: "memory", "hashmap", "rocksdb"// 创建输入数据流DataStream<String> input = env.fromElements("user1", "user2", "user1", "user3", "user2", "user1", "user4");// 按用户分组并统计访问次数DataStream<String> visitCounts = input.keyBy(user -> user).map(new VisitCountFunction());visitCounts.print();env.execute("State Backend Example");}/*** 配置状态后端*/public static void configureStateBackend(StreamExecutionEnvironment env, String backendType) {switch (backendType.toLowerCase()) {case "memory":env.setStateBackend(new HashMapStateBackend());env.getCheckpointConfig().setCheckpointStorage("file:///tmp/flink-checkpoints");System.out.println("Configured Memory State Backend");break;case "hashmap":env.setStateBackend(new HashMapStateBackend());env.getCheckpointConfig().setCheckpointStorage("file:///tmp/flink-checkpoints");System.out.println("Configured HashMap State Backend");break;case "rocksdb":env.setStateBackend(new EmbeddedRocksDBStateBackend());env.getCheckpointConfig().setCheckpointStorage("file:///tmp/flink-checkpoints");System.out.println("Configured RocksDB State Backend");break;default:throw new IllegalArgumentException("Unknown state backend type: " + backendType);}}/*** 访问次数统计函数*/public static class VisitCountFunction extends RichMapFunction<String, String> {private ValueState<Integer> countState;@Overridepublic void open(Configuration parameters) {ValueStateDescriptor<Integer> descriptor = new ValueStateDescriptor<>("visit-count",Integer.class,0);countState = getRuntimeContext().getState(descriptor);}@Overridepublic String map(String user) throws Exception {// 获取当前计数Integer count = countState.value();// 增加计数count++;// 更新状态countState.update(count);// 输出结果return "User " + user + " has visited " + count + " times";}}
}

7. 最佳实践建议

7.1 状态后端选择建议

开发和测试阶段：
- 使用 HashMapStateBackend 进行本地测试
- 避免在生产环境中使用 MemoryStateBackend
生产环境：
- 小到中等状态：使用 HashMapStateBackend
- 大状态：使用 EmbeddedRocksDBStateBackend
- 考虑启用增量检查点以提高性能
资源规划：
- 为 RocksDB 预留足够的磁盘空间
- 合理分配 JVM 堆内存
- 监控状态大小和增长趋势