paimon实战 -- Flink 写入 Paimon 流程深度解析
简介
Flink 写入 Paimon(流式)的核心是把 Flink 的 Checkpoint 机制与 Paimon 的 Snapshot/Manifest 机制结合成一个端到端的两阶段提交(2PC)流程:Writer 在预提交阶段把数据写为临时文件并生成可提交的元数据(Committable),这些元数据被持久化到 Flink State;当全局 Checkpoint 完成后,Committer 将这些 Committable 应用到 Paimon(合并 Manifest、写 Snapshot),从而原子地使数据可见并保证 Exactly-Once。下面把流程、关键点、常见问题与实战建议讲清楚。

1. 总览与组件
主要组件:
-
Writer Operator(写入算子):多并行实例,接收数据、写 buffer -> 刷盘到临时文件、生成 Committable(文件元数据 / log offset)并在 checkpoint 时把它们发送到 Committer。
-
Committer Operator(提交算子):负责收集 Committable、持久化待提交队列、在 checkpoint 完成后执行最终 commit(将元数据写入 Manifest 与 Sna
