当前位置: 首页 > wzjs >正文

网站开发jsp网站搭建服务

网站开发jsp,网站搭建服务,抖音广告推广怎么收费,怎么用word做网站Apache Flink 的 DataStream API 是用于 处理无限(流)或有限(批)数据流的核心编程模型,适用于事件驱动、实时分析、ETL 等场景。相比 Flink Table API,DataStream API 提供了更强的灵活性和底层控制能力。 …

Apache Flink 的 DataStream API 是用于 处理无限(流)或有限(批)数据流的核心编程模型,适用于事件驱动、实时分析、ETL 等场景。相比 Flink Table API,DataStream API 提供了更强的灵活性和底层控制能力。


一、基本概念

1.1 DataStream

DataStream 是 Flink 中的核心抽象,用于表示一个元素流(event stream),可以是:

  • 无限流(unbounded):例如传感器数据、Kafka 日志等。

  • 有限流(bounded):例如读取的文件或已结束的 Kafka topic。

1.2 类型

  • DataStream<T>:表示非键控的数据流。

  • KeyedStream<K, T>:对 DataStream 使用 .keyBy(...) 进行分区后得到的键控流。

  • SingleOutputStreamOperator<T>:表示有后续操作(如 map/filter)后的流。


二、核心组件和操作

2.1 数据源(Sources)

通过 StreamExecutionEnvironment 创建流数据来源:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();DataStream<String> stream = env.fromElements("a", "b", "c");
DataStream<String> kafkaStream = env.addSource(new FlinkKafkaConsumer<>(...));

2.2 转换操作(Transformations)

常用操作包括:

操作说明
map一对一转换
flatMap一对多转换
filter过滤数据
keyBy按 key 分区
reduce增量聚合
window定义窗口
process更底层的流处理接口

示例:

DataStream<String> words = stream.flatMap((String line, Collector<String> out) -> {for (String word : line.split(" ")) out.collect(word);
}).returns(Types.STRING);

2.3 窗口操作(Windowing)

Flink 的窗口机制可用于将无限流“划分”为有限数据组:

stream.keyBy(value -> value.key).window(TumblingEventTimeWindows.of(Time.seconds(10))).reduce((v1, v2) -> ...);
  • 支持类型:

    • 滚动窗口(Tumbling)

    • 滑动窗口(Sliding)

    • 会话窗口(Session)

2.4 时间语义

支持 3 种时间语义:

  • 处理时间(Processing Time)

  • 事件时间(Event Time)

  • 摄取时间(Ingestion Time)

配合 Watermark 使用事件时间:

stream.assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness(...));

三、状态管理(State Management)

DataStream API 支持保存状态用于:

  • 聚合

  • 去重

  • CEP 等复杂场景

使用 KeyedProcessFunctionRichFunction 可以访问状态 API:

ValueState<Integer> state;@Override
public void open(Configuration parameters) {state = getRuntimeContext().getState(new ValueStateDescriptor<>("myState", Integer.class));
}

四、容错与一致性

Flink 提供:

  • 精确一次(Exactly-once)或至少一次(At-least-once)语义

  • 基于 Checkpointing 实现

env.enableCheckpointing(10000); // 每 10 秒做一次 checkpoint

五、连接操作(Stream Joins)

支持不同类型流之间的连接:

  • connect: 将两个不同类型流合并处理

  • union: 合并同类型流

  • interval join: 基于时间范围连接两个流

  • CoProcessFunction: 对 connect 的结果使用不同逻辑处理两个流


六、输出(Sinks)

支持输出到:

  • Kafka

  • Redis

  • HDFS

  • MySQL / JDBC

  • ElasticSearch 等

示例:

stream.addSink(new FlinkKafkaProducer<>(...));

七、DataStream 和 Table API 的对比

特性DataStream APITable API / SQL
灵活性高(更底层)中(更偏向声明式)
使用场景自定义复杂逻辑、状态处理结构化数据处理、简洁分析
容错一致性支持支持
状态控制细粒度控制抽象封装

八、示例:从 Kafka 读取并统计词频

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();DataStream<String> input = env.addSource(new FlinkKafkaConsumer<>("topic", new SimpleStringSchema(), props));input.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {for (String word : value.split(" ")) {out.collect(new Tuple2<>(word, 1));}}
})
.keyBy(t -> t.f0)
.sum(1)
.print();env.execute();

http://www.dtcms.com/wzjs/825584.html

相关文章:

  • 建设网站外国人可搜到网站建设的公司有发展吗
  • 自动下单网站开发wordpress 在线购物
  • 做网站调用无广告视频官网网站建设需求文档
  • 企业网站怎么建站四川建筑职业技术学院就业网
  • 深圳网站建设服务平台怎么加php网站登陆源码
  • dedecms 网站地图wordpress查询
  • 网站网络推广公司百度竞价排名展示方式
  • 新乡做网站公电商平台开发报价
  • 鄱阳做网站邯郸专业网站建设报价
  • 宁波北仑做公司网站智慧团建怎么转团关系
  • 怎么注册网站账号哪些园林网站可以做外链
  • 淮南营销型网站建设怎么样爱用系统的设计理念
  • 品牌排名网站大一html网页制作期末源代码
  • 企业网站模板素材佛山网络公司培训
  • asp班级网站建设宝安网站优化
  • 餐饮网站建设推广永州网站建设
  • 淘宝客优惠券网站建设教程微网站网站模板建站
  • 贵阳国家经济技术开发区门户网站建站之星至尊版
  • 有一个域名做网站wordpress图片上传后显示不出来
  • 广西网站建设开发外包最简单的网页制作
  • 现在还有做系统的网站吗深圳网站建设网络公司
  • 雄安做网站要多少钱u盘装WordPress
  • 天津建设工程协会网站网页模版
  • 网站seo的主要优化内容响应式网站怎么做
  • 做网站 需要工信部备案吗国外ui界面设计网站
  • 柳州网站建设公司哪家好厦门建设网站的公司
  • 自己做平台网站马可波罗网站如何做产品推广
  • 游戏开发比网站开发2023企业所得税最新政策
  • 简述新建站点的步骤吴江建网站优荐苏州聚尚网络
  • 相亲网站怎么做页面模板够30条