数据仓库面试题合集⑤
Kafka + Flink 实时数仓:面试高频问题解析 + 答题策略
实时数据处理是当前大数据面试中的“高频雷区”与“加分项”。本篇将聚焦 Kafka + Flink 构建实时链路中的核心技术点,帮助你在面试中答得全、答得深、答得稳。
📌 面试问法导读(真实场景)
-
“你们公司有做实时处理吗?数据链路是怎么构建的?”
-
“Flink 的 Checkpoint 怎么做的?Exactly-once 是怎么实现的?”
-
“维度表怎么关联的?有没有做缓存?”
-
“Kafka 消费怎么保障不丢、不重复?”
这些问题背后考察的是:架构理解能力 + 异常处理能力 + 生产实践经验。
① 实时数仓架构设计:链路要讲“清楚 + 稳定点 + 可扩展点”
面试题:
👉“你们实时链路怎么搭的?为什么这么设计?”
标准答法结构:
Kafka → Flink → Kafka/HBase/Doris 是常见路径。
-
Kafka 采集层:多 Topic 对应多个数据源/事实表。
-
Flink 实时处理层:标准化、过滤、维度关联、计算指标等。