当前位置: 首页 > wzjs >正文

萌宝宝投票网站怎么做百度seo 优化

萌宝宝投票网站怎么做,百度seo 优化,合肥专业做网站公司有哪些,wordpress放置备案号Apache Flink 的 DataStream API 是用于 处理无限(流)或有限(批)数据流的核心编程模型,适用于事件驱动、实时分析、ETL 等场景。相比 Flink Table API,DataStream API 提供了更强的灵活性和底层控制能力。 …

Apache Flink 的 DataStream API 是用于 处理无限(流)或有限(批)数据流的核心编程模型,适用于事件驱动、实时分析、ETL 等场景。相比 Flink Table API,DataStream API 提供了更强的灵活性和底层控制能力。


一、基本概念

1.1 DataStream

DataStream 是 Flink 中的核心抽象,用于表示一个元素流(event stream),可以是:

  • 无限流(unbounded):例如传感器数据、Kafka 日志等。

  • 有限流(bounded):例如读取的文件或已结束的 Kafka topic。

1.2 类型

  • DataStream<T>:表示非键控的数据流。

  • KeyedStream<K, T>:对 DataStream 使用 .keyBy(...) 进行分区后得到的键控流。

  • SingleOutputStreamOperator<T>:表示有后续操作(如 map/filter)后的流。


二、核心组件和操作

2.1 数据源(Sources)

通过 StreamExecutionEnvironment 创建流数据来源:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();DataStream<String> stream = env.fromElements("a", "b", "c");
DataStream<String> kafkaStream = env.addSource(new FlinkKafkaConsumer<>(...));

2.2 转换操作(Transformations)

常用操作包括:

操作说明
map一对一转换
flatMap一对多转换
filter过滤数据
keyBy按 key 分区
reduce增量聚合
window定义窗口
process更底层的流处理接口

示例:

DataStream<String> words = stream.flatMap((String line, Collector<String> out) -> {for (String word : line.split(" ")) out.collect(word);
}).returns(Types.STRING);

2.3 窗口操作(Windowing)

Flink 的窗口机制可用于将无限流“划分”为有限数据组:

stream.keyBy(value -> value.key).window(TumblingEventTimeWindows.of(Time.seconds(10))).reduce((v1, v2) -> ...);
  • 支持类型:

    • 滚动窗口(Tumbling)

    • 滑动窗口(Sliding)

    • 会话窗口(Session)

2.4 时间语义

支持 3 种时间语义:

  • 处理时间(Processing Time)

  • 事件时间(Event Time)

  • 摄取时间(Ingestion Time)

配合 Watermark 使用事件时间:

stream.assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness(...));

三、状态管理(State Management)

DataStream API 支持保存状态用于:

  • 聚合

  • 去重

  • CEP 等复杂场景

使用 KeyedProcessFunctionRichFunction 可以访问状态 API:

ValueState<Integer> state;@Override
public void open(Configuration parameters) {state = getRuntimeContext().getState(new ValueStateDescriptor<>("myState", Integer.class));
}

四、容错与一致性

Flink 提供:

  • 精确一次(Exactly-once)或至少一次(At-least-once)语义

  • 基于 Checkpointing 实现

env.enableCheckpointing(10000); // 每 10 秒做一次 checkpoint

五、连接操作(Stream Joins)

支持不同类型流之间的连接:

  • connect: 将两个不同类型流合并处理

  • union: 合并同类型流

  • interval join: 基于时间范围连接两个流

  • CoProcessFunction: 对 connect 的结果使用不同逻辑处理两个流


六、输出(Sinks)

支持输出到:

  • Kafka

  • Redis

  • HDFS

  • MySQL / JDBC

  • ElasticSearch 等

示例:

stream.addSink(new FlinkKafkaProducer<>(...));

七、DataStream 和 Table API 的对比

特性DataStream APITable API / SQL
灵活性高(更底层)中(更偏向声明式)
使用场景自定义复杂逻辑、状态处理结构化数据处理、简洁分析
容错一致性支持支持
状态控制细粒度控制抽象封装

八、示例:从 Kafka 读取并统计词频

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();DataStream<String> input = env.addSource(new FlinkKafkaConsumer<>("topic", new SimpleStringSchema(), props));input.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {for (String word : value.split(" ")) {out.collect(new Tuple2<>(word, 1));}}
})
.keyBy(t -> t.f0)
.sum(1)
.print();env.execute();

http://www.dtcms.com/wzjs/446998.html

相关文章:

  • 口碑好的聊城网站建设成都网站优化及推广
  • 做网站如何来钱百度新版本更新下载
  • 少儿类网站怎么做凡客建站
  • 十大品牌排行榜前十名西安seo排名外包
  • 全国医院网站建设百度小说排行榜2019
  • 成都制作手机网站seo优化是什么职业
  • 建设工程方面的资料在哪个网站下载比较方便搜外seo
  • 青岛网站建设订做关键词推广操作
  • 村级网站建设系统百度关键词价格排行榜
  • 做编程的 网站有哪些域名是什么意思
  • 做网站广告收入青岛做网站推广公司
  • 做网站建设销售怎么制作自己的个人网站
  • 免费稳定的网站空间今天的热搜榜
  • 小游戏链接点开即玩重庆百度seo公司
  • 58同城天门网站建设企业网站seo哪里好
  • 邓州微网站开发搜狗站长
  • 深圳二维码网站建设近两年网络营销成功案例
  • 绵阳网络公司网站建设包头网站建设推广
  • 延吉网站开发怎么让百度收录
  • 上海做网页公司seo常用方法
  • 网络营销网站建设知识郑州seo外包v1
  • 重庆今日头条seo软件
  • wordpress备份整站百度发作品入口在哪里
  • Editplus做网站太原seo管理
  • 单页面的网站模板免费下载打开百度网页
  • 推荐上海网站建设企业网站的推广形式有
  • 深圳做电商网站seo排名优化排行
  • 仿网站源码是怎么弄的网站怎么推广效果好一点呢
  • 上海网站建设公司指南成都网站优化排名推广
  • 谷歌云 阿里云 做网站西安霸屏推广