当前位置: 首页 > news >正文

大数据学习(78)-spark streaming与flink

🍋🍋大数据学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


        Flink 和 Spark Streaming 都是用于实时流式数据处理的分布式计算框架,但两者的基本设计思想和内部执行机制有些不同。

        Flink 基于流的理念,采用了基于数据流模型的核心运行时引擎。它可以对无界和有界数据流进行有状态的计算。Flink 使用了链式操作来表达运算逻辑,并基于流水线的方式进行任务调度。

        Spark Streaming 则是通过微批处理的方式来实现对实时数据流的处理它将数据流切分成很小的批数据,然后提交给 Spark 执行批处理任务。Spark Streaming 基于 RDD 来表达运算逻辑,并通过 Spark 的任务调度机制进行调度。

        Flink 的内部把流处理算法表示为数据流图,并以流水线的方式持续运算。而 Spark Streaming 是将流任务拆解为一个个小批的 Spark 任务,这些批任务按时间顺序执行。

        两者在 fault tolerance 机制上也有区别。Flink 基于检查点机制实现了 exactly-once 语义。而 Spark Streaming 通过 Write ahead logs 实现了至少一次保证。

        Flink和Spark Streaming作为两种主流的流计算框架,在实现机制上存在显著区别。Flink是基于流的真正运行时,能够持续地对无界数据流进行计算,通过Operator Chains实现流式数据流水线化具备毫秒级的低延迟处理能力。它采用检查点机制实现Exactly-once语义,确保每条数据被精确处理一次,并支持事件时间处理,能够很好地处理乱序事件。此外,Flink支持丰富的流处理功能,如循环流、流Join等,但需要单独部署和运维。

        相比之下Spark Streaming则基于微批处理模型,将数据流离散为批进行处理,通过RDD拼接批结果来模拟流计算。其延迟一般在500毫秒以上,采用写前日志实现At-least-once语义,保证每条数据至少被处理一次。Spark Streaming基于批次时间处理,不支持水印和复杂的事件时间窗口操作。虽然其重启后需要重新计算,但可以直接基于Spark集群运行,资源利用更为经济。

        在选择Flink或Spark Streaming时,需考虑以下方面:若需要真正的流处理、低延迟、高精度以及复杂的流处理功能,Flink是更合适的选择;若采用微批方式也能满足需求,且希望与批处理统一学习和使用,共享Spark集群资源,团队更熟悉Spark,则Spark Streaming是可行的选项。Flink更适合低延迟、高精度的连续流处理,而Spark Streaming更偏向间断性数据流处理。

相关文章:

  • rust学习笔记16-206.反转链表(递归)
  • 用java代码开发一个安卓app,实现账号注册登录
  • 算法训练篇06--力扣611.有效三角形的个数
  • coze ai assistant Task5
  • 相机光学中一些疑难问题的解释
  • 共注意力机制及创新点深度解析
  • 小程序开发中的用户反馈收集与分析
  • Grid布局示例代码
  • ubuntu20如何升级nginx到最新版本(其它版本大概率也可以)
  • 基于carla的模仿学习(附数据集CORL2017)更新中........
  • 虚拟化加密恢复---惜分飞
  • Flink实时统计单词【入门】
  • MySQL -- 索引
  • IOS接入微信方法
  • 压力测试实战指南:JMeter 5.x深度解析与QPS/TPS性能优化
  • ABC395题解
  • 算法系列——有监督学习——4.支持向量机
  • VNA操作使用学习-01 界面说明
  • 洛谷每日1题-------Day25__P1424 小鱼的航程(改进版)
  • 【51单片机实物设计】基于51单片机的声控感光LED灯设计(可以在数码管显示光强或LCD显示年月日时分秒和光强)
  • 广东:十年后省级水网主骨架全面建成,与国家骨干网互联互通
  • AI观察|从万元到百万元,DeepSeek一体机江湖混战
  • 时隔近4年再出征!长三丙成功发射通信技术试验卫星十九号
  • 山东鄄城发生一起交通事故,造成4人死亡、2人受伤
  • 王毅集体会见加勒比建交国外长及代表
  • 国羽用冠军开启奥运周期,林丹:希望洛杉矶奥运取得更好成绩