当前位置: 首页 > news >正文

flume整合Kafka和spark-streaming核心编程

flume整合Kafka

需求1:利用flume监控某目录中新生成的文件,将监控到的变更数据发送给kafka,kafka将收到的数据打印到控制台:

1.查看topic

 2.编辑flume-Kafka.conf,并启动flume

 3.启动Kafka消费者

 4.新增测试数据

 5.查看Kafka消费者控制台

 需求2:Kafka生产者生成的数据利用Flume进行采集,将采集到的数据打印到Flume的控制台上。

1编辑kafka-flume.conf,并启动flume

 2.启动Kafka生产者,并在生产者种写入数据

 3.查看flume采集的数据

 DStream转换

DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。

Transform

Transform 允许 DStream 上执行任意的 RDD-to-RDD 函数。即使这些函数并没有在 DStream的 API 中暴露出来,通过该函数可以方便的扩展 Spark API。该函数每一批次调度一次。其实也就是对 DStream 中的 RDD 应用转换。

代码案例

 

 

 join

两个流之间的 join 需要两个流的批次大小一致,这样才能做到同时触发计算。计算过程就是对当前批次的两个流中各自的 RDD 进行 join,与两个 RDD 的 join 效果相同

代码案例

 

相关文章:

  • eclipse怎么导入junit4
  • vscode和git 踩坑
  • deepseek-r1-671B满血版,全栈式智能创作平台 - 多模态大模型赋能未来创作
  • JavaScript { message } = toRefs(obj) 中的 { message }的语法格式
  • 伟世通与火山引擎深度合作 前沿AI智能座舱解决方案亮相上海车展
  • 如何在Linux用libevent写一个聊天服务器
  • 提示js方法未定义,但是确实<textarea>标签未闭合。
  • AI网络渗透kali应用(gptshell)
  • 华为VRP系统简介配置TELNET远程登录!
  • AI 工程师崛起:科技浪潮下的新兴力量
  • Flink 数据清洗与字段标准化最佳实践
  • 【高中数学/古典概率】从1~2000中随机抽一个数,问取到的数既不被8整除,又不被12整除的概率是多少?
  • 计算机网络核心知识点全解析(面试通关版)
  • 全面解析 MCP(Model Context Protocol):AI 大模型的“万能连接器”
  • 15. LangChain多模态应用开发:融合文本、图像与语音
  • 4月25日星期五今日早报简报微语报早读
  • cuda 安装两个版本
  • React 中什么时候用事件总线
  • 影楼精修-手部青筋祛除算法解析
  • Kafka和Spark-Streaming
  • 媒体:不能让追求升学率,成为高中不双休的借口
  • 中南财经政法大学法学院党委副书记易育去世,终年45岁
  • 外交部亚洲司司长刘劲松就日本民用飞机侵闯我钓鱼岛领空向日方提出严正交涉
  • “彩虹滑道”项目两男童相撞飞跌出去,景区:工作人员误判导致
  • “名额5分钟抢完”,一场花费上万元:越野赛凭什么这么火?
  • 马克思主义理论研究教学名师系列访谈|薛念文:回应时代课题,才能彰显强大生命力