当前位置: 首页 > news >正文

2024.9.26 Spark学习

资料:

Spark基础入门-第一章-1.1-Spark简单介绍_哔哩哔哩_bilibili


(1)基础知识

Apache Spark 是用于大规模数据(large-scale data)处理的统一分析引擎。

分布式处理数据

PySpark模块

  • Spark 和 Hadoop 有区别,不能完全取代 Hadoop

 Spark 在内存中的运算速度比 Hadoop 的 MapReduce 快 100 倍

  • 代码简单,API丰富,便于使用
df = spark.read.json("logs.json")
  • 运行方式

Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone 的独立运行模式,同时也可以运行在云 Kubernetes(Spark 2.3 开始支持)上。

对于数据源而言,Spark支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

 

(2)Spark安装

相关文章:

  • 钉钉 钉钉打卡 钉钉定位 2024 免费试用 保用
  • 使用 Rust 和 wasm-pack 开发 WebAssembly 应用
  • ubuntu数据硬盘故障导致系统启动失败
  • Kafka集群扩容(新增一台kafka节点)
  • Windows 10 on ARM, version 22H2 (updated Sep 2024) ARM64 AArch64 中文版、英文版下载
  • 缓存穿透 问题(缓存空对象)
  • 513. 找树左下角的值
  • 常见场景题3(面试)
  • Netty简介
  • 时序数据库 TDengine 的入门体验和操作记录
  • java 框架组件
  • 24暑假实习信息、25秋招提前批信息,地信、测绘、遥感、地质相关岗位招聘汇总
  • C++——输入三个整数,按照由小到大的顺序输出。用指针方法处理。
  • ubuntu错误GPG error: http://repo.mysql.com/apt/ubuntu noble InRelease
  • Contact Form 7最新5.9.8版错误修复方案
  • Redisson 总结
  • QT窗口无法激活弹出问题排查记录
  • Stylized Smooth Clouds 卡通风格化云朵包
  • 《ChatGPT:强大的人工智能聊天机器人》
  • PG逻辑订阅功能
  • 侧记|青年为何来沪创新创业?从这一天寻找答案
  • 广西百色通报:极端强对流天气致墙体倒塌,3人遇难7人受伤
  • 被取消总统候选人资格,金文洙:将采取政治法律措施讨回公道
  • 国际足联女子世界杯再次扩军,2031年起增至48支球队
  • 庆祝上海总工会成立100周年暨市模范集体劳动模范和先进工作者表彰大会举行,陈吉宁寄予这些期待
  • 2025年度上海市住房城乡建设管理委工程系列中级职称评审工作启动