当前位置：首页 > news >正文

学习spark总结

news 2025/11/5 7:31:14

一、Spark Core

• 核心功能：基于内存计算的分布式计算框架，提供RDD弹性分布式数据集，支持转换（如map、filter）和动作（如collect、save）操作。

• 关键特性：高容错性（Lineage机制）、高效内存管理、支持多种部署模式（本地/集群）。

二、Spark SQL

• 数据处理：支持结构化数据（JSON/Parquet等）处理，通过DataFrame/Dataset API简化操作。

• 组件集成：可与Hive兼容，通过Spark SQL查询Hive表，支持ANSI SQL语法。

• 性能优势：优化器（Catalyst）自动优化执行计划，提升查询效率。

三、Spark Streaming

• 流处理模型：基于微批处理（Micro-Batch），将实时流分割为小批次处理，支持Kafka、Flume等数据源。

• 关键概念：DStream（离散流）、窗口操作（Window）、状态管理（如updateStateByKey）。

• 容错机制：通过检查点（Checkpoint）确保故障恢复时的 Exactly-Once 语义。

四、Kafka 集成

• 数据源：作为分布式消息队列，为Spark Streaming提供高吞吐量、持久化的实时数据。

• 消费模式：基于Direct API（非Receiver方式），直接从Kafka分区读取数据，保证高效且精准一次消费。

• 集成场景：常用于日志采集、实时监控等需要高可靠性的流处理场景。

五、Flume 集成

• 数据采集：轻量级日志收集框架，支持多源数据（如文件、网络端口）采集，汇聚到HDFS/Spark等系统。

• 与Spark结合：Flume可将数据写入Kafka，再由Spark Streaming消费；或直接通过Flume Sink将数据发送至Spark Streaming。

• 特点：配置灵活、可靠性高，适合构建复杂的日志采集管道。

查看全文

http://www.dtcms.com/a/160642.html

常见锁策略

关系型数据库PostgreSQL vs MySQL 深度对比：专业术语+白话解析+实战案例

Customizing Materials Management with SAP ERP Operations

AI日报 - 2025年04月28日

（26）VTK C++开发示例 ---将点坐标写入PLY文件

Java多线程实现顺序执行

界面打印和重定向同时实现

CodeGeeX 免费的国产AI编程助手

HikariCP 6.3.0 完整配置与 Keepalive 优化指南

SAP-pp 怎么通过底表的手段查找BOM的全部ECN变更历史

【实战篇】数字化打印——打印格式设计器的功能说明

（25）VTK C++开发示例 --- 将点坐标写入.xyz文件

复盘笔记1

JavaScript性能优化实战：从瓶颈定位到极致提速

UE5 在旋转A的基础上执行旋转B

UE5 NDisplay 单主机打包运行

Java8 后接口的用法总结

Kubernetes/KubeSphere 安装踩坑记：从 context deadline exceeded 到成功部署的完整排障笔记

如何排查服务器中存在的后门程序

纯净IP的优势：稳定性与安全性的结合

Spring框架的ObjectProvider用法-笔记

STM32F103_HAL库+寄存器学习笔记21 - CAN接收过滤器：CPU减负神器，提升系统效率的第一道防线

Java——封装（面向对象）

迅雷精简绿色融合版【高速下载版】12.1.9.2870【11.2.2.1716】【20250426】

检查 NetCDF Fortran的版本

【Java-Day 2】Java开发利器：IntelliJ IDEA入门教程（安装、配置、项目创建、调试）

零基础学习Linux shell编程语法

机器学习 | 基于回归模型的交通需求预测案例分析及代码示例

【工具】scMultiMap基于单细胞多模态数据实现增强子与靶基因的细胞类型特异性映射

基于STM32、HAL库的TSC2046IPWR触摸屏控制器驱动程序设计

一、Spark Core

二、Spark SQL

三、Spark Streaming

四、Kafka 集成

五、Flume 集成

相关文章：