当前位置: 首页 > news >正文

一文读懂大数据

什么是大数据?为什么要这么定义?

定义

大数据不是单纯 “数据量大”,而是指:当数据规模达到 TB~PB 级,传统数据库和 单机处理能力不足时,需要依靠分布式存储与计算 来进行管理和分析的技术体系。

4V 特征

  1. Volume(体量大):TB/PB 级海量数据。

  2. Velocity(速度快):数据产生和处理速度极快。

  3. Variety(多样性):结构化 + 半结构化 + 非结构化。

  4. Value(价值密度低):海量数据中有价值的信息比例低,需要强大的计算能力提炼。

👉 本质:大数据定义的意义,是因为 传统数据库在规模和分析能力上遇到了瓶颈


大数据 vs 传统数据库(关系型 / 非关系型)

特性传统关系型数据库(MySQL/Oracle)NoSQL(MongoDB/Redis/HBase)大数据体系(HDFS + Hive/Spark/Flink)
数据规模百万 ~ 亿级亿级 ~ 百亿级TB ~ PB 级
数据模型结构化(行存储、表结构固定)半结构化/非结构化结构化 + 半结构化(灵活)
处理模式OLTP(事务型,实时读写)高并发读写、键值/文档/列存OLAP(分析型,批/流处理)
一致性事务强一致性,支持事务(ACID)多数弱一致性/最终一致性批处理为主,事务支持有限
扩展方式垂直扩展(加 CPU/内存)水平扩展(分片/副本)分布式扩展(集群规模无限增长)
典型场景核心业务系统(订单、支付)高并发缓存、灵活存储数仓、日志分析、推荐、风控、大屏展示

❓ 为什么 MySQL 没有发展成大数据方案?

  1. 定位不同:MySQL 是 OLTP(事务型),强调事务、点查询;大数据体系是 OLAP(分析型),强调批量统计。

  2. 存储瓶颈:MySQL 单实例通常 <1TB,分库分表成本高;大数据通过 分布式文件系统(HDFS) 轻松扩展。

  3. 计算瓶颈:MySQL 查询是单机执行;大数据用 分布式计算引擎(Spark/Flink) 并行处理海量数据。

  4. 发展方向不同

    • MySQL + 分布式(RDS、TiDB) → 扩展事务能力(OLTP)。

    • 大数据生态 → 专注分析(OLAP)。

MySQL 适合做事务型业务数据库,而 大数据体系才是大规模分析的解决方案


大数据解决的核心问题

  1. 海量存储:PB 级数据如何存放? → HDFS/Kudu。

  2. 分布式计算:如何高效分析? → Spark(批)、Flink(流)。

  3. 数据采集:如何汇聚多源数据? → Kafka、Sqoop、Flume、DataX、Canal。

  4. 查询接口:如何让用户用 SQL 操作? → Hive、Impala、Doris/StarRocks。

  5. 实时 & 离线:不同业务需求对应不同处理模式。


大数据知识链路与架构

知识链路

  1. 存储层:HDFS、Kudu。

  2. 计算层:Spark(批/流一体)、Flink(实时流)。

  3. 查询层:Hive(离线)、Impala(交互式)、Doris/StarRocks(实时 OLAP)。

  4. 消息层:Kafka、Canal。

  5. 同步层:Sqoop、Flume、DataX。

  6. 调度治理:Airflow、Azkaban、DolphinScheduler。

  7. 应用层:BI、报表、大屏、推荐、风控。

架构图(文本版)

数据源(DB/日志/API)│
采集/同步(Sqoop/Flume/Canal/DataX)│
消息队列(Kafka)│
存储层(HDFS/Kudu)│
计算层(Spark 批处理 / Flink 流处理)│
查询/数仓(Hive/Impala/Doris/StarRocks)│
应用层(BI/报表/大屏/推荐/风控)

大数据生态与选型指南

生态组合

1. 经典 Hadoop 生态(离线为主)

  • 存储:HDFS

  • 计算:MapReduce

  • 查询:Hive

  • 消息:Kafka

  • 同步:Sqoop/Flume

  • 特点:稳定但慢,适合传统报表。

2. Hadoop + Spark 生态(主流离线数仓)

  • 存储:HDFS/Kudu

  • 计算:Spark

  • 查询:Hive on Spark、Impala

  • 消息:Kafka

  • 同步:DataX、Sqoop

  • 特点:批处理主流方案。

3. 实时数仓生态(新一代)

  • 存储:HDFS + Kudu

  • 计算:Flink

  • 查询:Flink SQL、Doris/StarRocks

  • 消息:Kafka + Canal

  • 同步:Flink CDC、DataX

  • 特点:低延迟,适合实时大屏、风控。

4. 云原生大数据(免运维)

  • 存储:对象存储(S3/OSS)

  • 计算:Spark/Flink on K8s

  • 查询:Snowflake/Redshift/MaxCompute

  • 消息:云 Kafka

  • 同步:Glue/DataX Cloud

  • 特点:按需付费,适合中小企业。


查询层工具详解与选型

对比表

在这里插入图片描述

推荐

  • 离线报表 / ETL → Hive on Spark。

  • 即席查询 / 数据探索 → Impala / Presto。

  • 实时 BI / 大屏 → Doris / StarRocks。

  • 云环境 → 云数仓(Snowflake、Redshift)。

👉 为什么多个选择?
因为查询需求不同:有的场景能忍延迟(Hive),有的需要实时反馈(Impala/Doris)。

选型建议(场景导向)

  • 报表统计 → Hive + Spark + HDFS

  • 实时监控/风控 → Flink + Kafka + Doris

  • 推荐系统 → Flink(实时特征计算)+ OLAP 引擎

  • 中小企业 → 云厂商大数据平台(免运维)

总结

  1. 大数据的定义 = 用分布式方式解决海量存储和计算瓶颈。

  2. 和传统数据库的区别 = OLTP vs OLAP,点查 vs 批量分析。

  3. 核心问题 = 存储、计算、采集、查询、实时性。

  4. 知识链路 = 存储 → 计算 → 查询 → 消息 → 同步 → 应用。

  5. 生态选型 = Hadoop(老)、Spark(主流)、Flink(实时)、云数仓(新)。

  6. 查询层之所以有多工具 = 针对 离线/交互式/实时/多源 不同场景优化。


文章转载自:

http://AUJ1oKC2.pwdmz.cn
http://as4bjruW.pwdmz.cn
http://Bkg2DA5E.pwdmz.cn
http://IzzeWhdT.pwdmz.cn
http://bZicStra.pwdmz.cn
http://tOPoSSJe.pwdmz.cn
http://biCGO3XZ.pwdmz.cn
http://6TzCYt1I.pwdmz.cn
http://CvRZOvJ0.pwdmz.cn
http://1AT9hvHs.pwdmz.cn
http://SRdeb5EL.pwdmz.cn
http://z6OaHH3R.pwdmz.cn
http://10jTJu66.pwdmz.cn
http://VMVlDiiL.pwdmz.cn
http://qkqWZOdF.pwdmz.cn
http://DA9sorgT.pwdmz.cn
http://2o2A2JSG.pwdmz.cn
http://gvyLuhg9.pwdmz.cn
http://hRHnbqM4.pwdmz.cn
http://f0aHPicU.pwdmz.cn
http://EpOwcPm0.pwdmz.cn
http://HWgeFEq8.pwdmz.cn
http://FwTafdQP.pwdmz.cn
http://AkYruSG9.pwdmz.cn
http://EAwwyczn.pwdmz.cn
http://BhhKRJrx.pwdmz.cn
http://fnQEx9Kh.pwdmz.cn
http://WsoLg4l5.pwdmz.cn
http://tG93EybC.pwdmz.cn
http://1y3y6Vml.pwdmz.cn
http://www.dtcms.com/a/388211.html

相关文章:

  • MySQL 多表联合查询与数据备份恢复全指南
  • 简介在AEDT启动前处理脚本的方法
  • Spring 感知接口 学习笔记
  • AI重构服务未来:呼叫中心软件的智能跃迁之路
  • 从食材识别到健康闭环:智能冰箱重构家庭膳食管理
  • Eureka:服务注册中心
  • AI大模型如何重构企业财务管理?
  • 深入浅出Disruptor:高性能并发框架的设计与实践
  • Java 在 Excel 中查找并高亮数据:详细教程
  • Excel处理控件Aspose.Cells教程:如何将Excel区域转换为Python列表
  • Java 实现 Excel 与 TXT 文本高效互转
  • 【vue+exceljs+file-saver】纯前端:下载excel和上传解析excel
  • 国产化Excel开发组件Spire.XLS教程:使用 Python 设置 Excel 格式,从基础到专业应用
  • Parasoft以高标准测试助力AEW提升汽车软件质量
  • el-date-picker时间选择器限制时间跨度为3天
  • 35.Socket网络编程(UDP)(下)
  • 【前沿技术Trip Three】正则表达式
  • 多平台数据交换解耦方案选型
  • ​​[硬件电路-239]:从电阻器的高频等效模型,看高频信号的敏感性,电路的性能受到频率的影响较大
  • Java 中的 23 种设计模式详解
  • 《2025年AI产业发展十大趋势报告》六十二
  • 【字节跳动】LLM大模型算法面试题:大模型 LLM的架构介绍?
  • 【C++】类成员访问控制
  • 彩笔运维勇闯机器学习--梯度下降法
  • 正点原子zynq_FPGA学习笔记-vivado安装
  • 基于yolov8/yolo11的视觉识别算法使用和详解
  • 2025年数据科学与大数据技术和统计学有什么区别?
  • STM32H743-ARM例程2-GPIO点亮LED
  • 每天五分钟深度学习:深层神经网络的前向传播算法和反向传播算法
  • 【LeetCode】41. 缺失的第一个正数