Spark简介以及K8S部署
一、Spark简介
Apache Spark 是一个快速、通用的大规模数据处理引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。
核心特性
1、高速处理
与传统 MapReduce 对比
Spark 比 Hadoop MapReduce 快 10-100 倍
原因:内存计算、DAG 执行引擎、查询优化
2、易用性
多种语言支持
3、通用性
一个栈解决多种数据处理需求:
├── Spark SQL (SQL 查询)
├── Spark Streaming (流处理)
├── MLlib (机器学习)
└── GraphX (图计算)
二、Spark 部署方式
| 部署方式 | 适用场景 | 核心优势 | 局限性 |
|---|---|---|---|
| Standalone | 小型集群/测试环境 | 简单易部署,无需依赖外部组件 | 资源管理和调度能力弱,缺乏动 |
