当前位置: 首页 > news >正文

大数据学习(48) - Flink状态种类

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


状态的分类:

1)托管状态(Managed State)和原始状态(Raw State)

Flink的状态有两种:托管状态(Managed State)原始状态(Raw State)托管状态就是由Flink统一管理的,状态的存储访问、故障恢复和重组等一系列问题都由Flink实现,我们只要调接口就可以;而原始状态则是自定义的,相当于就是开辟了一块内存,需要我们自己管理,实现状态的序列化和故障恢复。

通常我们采用Flink托管状态来实现需求。

2)算子状态(Operator State)和按键分区状态(Keyed State)

接下来我们的重点就是托管状态(Managed State)。

我们知道在Flink中,一个算子任务会按照并行度分为多个并行子任务执行,而不同的子任务会占据不同的任务槽(task slot)。由于不同的slot在计算资源上是物理隔离的,所以Flink能管理的状态在并行任务间是无法共享的,每个状态只能针对当前子任务的实例有效。

而很多有状态的操作(比如聚合、窗口)都是要先做keyBy进行按键分区的。按键分区之后,任务所进行的所有计算都应该只针对当前key有效,所以状态也应该按照key彼此隔离。在这种情况下,状态的访问方式又会有所不同。

基于这样的想法,我们又可以将托管状态分为两类:算子状态按键分区状态。

另外,也可以通过富函数类(Rich Function)来自定义Keyed State,所以只要提供了富函数类接口的算子,也都可以使用Keyed State。所以即使是map、filter这样无状态的基本转换算子,我们也可以通过富函数类给它们“追加”Keyed State。比如RichMapFunction、RichFilterFunction。在富函数中,我们可以调用.getRuntimeContext()获取当前的运行时上下文(RuntimeContext),进而获取到访问状态的句柄;这种富函数中自定义的状态也是Keyed State。从这个角度讲,Flink中所有的算子都可以是有状态的

无论是Keyed State还是Operator State,它们都是在本地实例上维护的,也就是说每个并行子任务维护着对应的状态,算子的子任务之间状态不共享。

相关文章:

  • 【Spring+MyBatis】_图书管理系统(上篇)
  • Java并发编程面试题:内存模型(6题)
  • 中药细粒度图像分类
  • Vulkan 学习(14)---- 描述符集
  • 社群效应与开源AI智能名片2+1链动模式S2B2C商城小程序在流量变现中的应用探索
  • 什么是3D视觉无序抓取?
  • 153~173笔记
  • 基于SpringBoot的鲜花商城
  • 通用评估系统(五)- 前端部分总体说明
  • qt QOpenGLTexture详解
  • 算法【贪心经典题目专题4】
  • 用AI写SQL2——递归查询WITH RECURSIVE
  • 科技云报到:科技普惠潮流渐起,“开源”将带我们走向何方?
  • 北京海百川科技有限公司:以智能体技术助力特殊教育行业
  • Python中如何进行数据库连接?
  • [题解]2024CCPC重庆站-小 C 的神秘图形
  • 智能马达保护器:为工业电机安全运行保驾护航
  • HepG2细胞复苏实验以及六孔板种植细胞实验
  • JavaEE基础 Tomcat与Http (下)
  • 【Prometheus】prometheus结合domain_exporter实现域名监控
  • 中国空间站首批在轨繁育果蝇即将返回地球,有望获得多项科学成果
  • 五一“拼假”催热超长假期,热门酒店民宿一房难求
  • 习近平访问金砖国家新开发银行
  • 众信旅游:去年盈利1.06亿元,同比增长228.18%
  • 美国政府将暂时恢复部分受影响留学生的合法身份,并将制订新标准
  • 美联储官员:货币政策不会立即改变,金融市场波动或致美国经济增长承压