当前位置: 首页 > news >正文

如何进行电子商务网站推广?无锡市网站

如何进行电子商务网站推广?,无锡市网站,网络公司需要什么资质,做公司网站的多少钱用Spark-Streaming从Kafka读取数据 在大数据处理领域,Spark-Streaming和Kafka都是明星技术。今天咱们就来聊聊怎么用Spark-Streaming从Kafka读取数据并做处理,就算你是小白,也保证能看懂!先讲讲从Kafka获取数据的两种方式。早期有…

用Spark-Streaming从Kafka读取数据

  • 在大数据处理领域,Spark-Streaming和Kafka都是明星技术。今天咱们就来聊聊怎么用Spark-Streaming从Kafka读取数据并做处理,就算你是小白,也保证能看懂!
  • 先讲讲从Kafka获取数据的两种方式。早期有个ReceiverAPI,它需要专门的Executor接收数据,再发给其他Executor计算。想象一下,接收数据的人速度特别快,计算的人跟不上,数据就堆在计算的节点上,最后内存都被占满,这就是 ReceiverAPI 的问题,所以现在它不太常用了。
  • 后来出现了DirectAPI,它让计算的Executor自己主动去Kafka拿数据,速度自己能掌控,就像你自己去超市拿东西,想要多少、什么时候拿都自己决定,是不是方便多了?现在主流用的就是DirectAPI这种方式。
  • 下面进入实操环节。假设我们要通过SparkStreaming从Kafka读取数据,简单计算后打印到控制台。
  • 第一步,得在项目里导入依赖。就像搭积木,得先把要用的积木都准备好。在项目的配置文件里加上这段代码:
  • <dependency>
  •     <groupId>org.apache.spark</groupId>
  •     <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
  •     <version>3.0.0</version>
  • </dependency>
  • 这就把和Kafka交互的“工具”准备好了
  • 第二步,开始写代码。在代码里,先创建一个Spark配置,告诉程序要在哪里运行,叫什么名字,就像给它安排好“工作地点”和“名字牌”。然后创建一个StreamingContext,设置数据处理的时间间隔。接着定义Kafka的参数,比如Kafka集群的地址、消费者组ID,还有数据的反序列化方式,这就像是告诉程序去哪里找Kafka,属于哪个“消费小组”,以及怎么把数据“翻译”成能看懂的格式。
  • 准备好这些,就能通过KafkaUtils创建DStream来读取Kafka的数据啦。读取后,提取出数据里我们需要的部分,这里是value。再用熟悉的wordCount计算逻辑,把数据按空格切开、统计词频,最后打印出来。代码都写好后,启动程序,让它开始工作。
  • 接下来,还得启动Kafka集群,就像把工厂的机器都打开。再开启Kafka生产者,让它产生数据,这些数据就是我们要处理的“原材料”。一切准备就绪,运行程序,就能看到Spark-Streaming成功接收Kafka的数据并处理啦!
  • 最后,如果想看看消费进度,用kafka-consumer-groups.sh这个命令就行,它能清楚地告诉你数据处理到什么程度了。
http://www.dtcms.com/a/556879.html

相关文章:

  • C#上位机框架完整案例
  • 建德网站优化公司房管局网上备案查询
  • 业务架构、应用架构、数据架构、技术架构
  • 当机器人走进养老院:Hello Robot移动操作机器人的生态化探索
  • 《Linux系统编程之开发工具》【编译器 + 自动化构建器】
  • 机器人、具身智能的起步——线性系统理论|【四】实现
  • Redis - set zset (常用命令/内部编码/应用场景)
  • 十八、OpenCV中的滤波与卷积
  • .NetCoreMVC 开发网页使用sass
  • 大型机械网站建设公司拍卖网站建设需求
  • MySql修炼2(力扣):收了6只妖
  • springCloud二-SkyWalking-安装部署-术语介绍
  • 【Linux】多路转接select
  • Python基础语法4
  • 网站后台管理要求软文怎么优化网站
  • RAG的检索与排序增强实现原理
  • 【计算机网络】物理层设备核心考点精讲:物理层设备(中继器/集线器)全解析
  • C++虚函数机制与重写规范:从原理到实践
  • vben admin 实现实时监听表格复选框
  • 建站合作设计教育网站
  • 基于ArcGIS的动物迁移生态廊道规划案例 | 人与万物,共生共荣
  • 网站开发小程序做网站优化多少钱
  • 扩散模型入门:原理、训练与生成全解析
  • 使用 GitLab CI/CD 为 Linux 构建 RPM 包(二)
  • 图的邻接表实现及遍历
  • 使用仓颉语言实现 nanoid:一个安全的唯一 ID 生成器
  • 语义模型 - 从 Transformer 到 Qwen
  • 前端零基础速成前端开发路线
  • 《系统规划与管理师教程(第2版)》方法篇 第10章 云原生系统规划 知识点总结
  • 有没有让人做问卷的网站中国深圳航空公司官方网站