当前位置：首页 > news >正文

系统架构-大数据架构设计

news 2025/10/27 14:24:47

基础介绍

三大挑战：

如何处理非结构化和半结构化数据
如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模
数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

架构特征：

鲁棒性（稳定性）和容错性
低延迟读取和更新能力
横向扩容
通用性
延展性
即席查询能力（高效的用户查询）
最少维护能力
可调试性

Lambda架构

设计目的在于提供一个能满足大数据系统关键性的架构，整合了离线计算与实时计算。

Lambda架构分解为三层：批处理层、加速层和服务层

批处理层（离线）：产生批处理结果视图，结果认为是精准且全量的，但处理时延较高

加速层：处理最近的增量数据流。在接收到新的数据后会不断更新视图

服务层：合并批处理层产出的视图和加速层产出的实时视图，最终得到数据集，响应用户的查询请求

优点：容错性好、查询灵活度高、易伸缩、易扩展，读写分离

缺点：全场景覆盖带来的编码开销，针对具体场景的离线处理开销很大

事件溯源与Lambda架构：

整个系统以事件为驱动
事件是核心，事件保存在某种存储上
业务数据只是一些由事件产生的视图

Kappa架构

在lambda架构的基础上进行优化，删除了Batch Layer（批处理层），将数据通道以消息队列进行替代。当需要进行离线分析或再次计算时，则将数据湖的数据再次经过消息队列重播一次。

优点：将实时和离线代码统一起来，避免了Lambda架构中与离线数据合并的问题

缺点：消息中间件缓存的数据量和回溯数据有性能瓶颈；非常依赖实时计算系统的能力；抛弃了离线计算更加稳定可靠的特定

Kappa+架构：让流计算框架Spark直接读取HDFS（Hadoop）里的数据仓库数据（历史/离线数据），一并实现实时计算和历史数据计算。

查看全文

http://www.dtcms.com/a/196311.html

【2025 技术指南】如何创建和配置国际版 Apple ID

一个可拖拉实现列表排序的WPF开源控件

nt!MiInitializePfn函数分析之nt!MiPfPutPagesInTransition函数的关键一步

区块链基本理解

淘宝商品主图标题api接口（附API接口文档）

实验6分类汇总

uniapp-商城-61-后台新增商品（添加商品到数据库）

C# DataGrid功能总览

04_决策树

力扣-比特位计数（统计一个数二进制下1的个数）

【部署】读取excel批量导入dify的QA知识库

Linux 的 UDP 网络编程 -- 回显服务器，翻译服务器

SpringBoot启动流程深入分析

自定义类、元组、字典和结构体对比——AutoCAD C# 开发中建立不同对象之间的联系

【发票提取表格】批量PDF电子发票提取明细保存到Excel表格，批量提取ODF电子发票明细，行程单明细，单据明细保存到表格，使用步骤、详细操作方法和注意事项

python 自动化教程

Conda 完全指南：从环境管理到工具集成

探索C++对象模型：（拷贝构造、运算符重载）成员函数的深度解读（中篇）

PYTHON训练营DAY28

18.自动化生成知识图谱的多维度质量评估方法论

R语言数据框（datafram）数据的构建及简单分析

SAP学习笔记 - 开发12 - CAP 之开发准备，添加服务

MySQL刷题相关简单语法集合

2023年全国青少年信息素养大赛-图形化编程复赛真题—打气球

PIC16F18877 的主时钟设置方法

第八节第四部分：认识泛型、泛型类、泛型接口

php fiber 应用

OpenCV透视变换

Java 应用如何实现 HTTPS：加密数据传输的实用指南

Ankr：Web3基础设施的革新者

基础介绍

Lambda架构

Kappa架构

相关文章：