当前位置: 首页 > news >正文

系统架构-大数据架构设计

基础介绍

三大挑战:

  1. 如何处理非结构化和半结构化数据
  2. 如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模
  3. 数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

架构特征:

  1. 鲁棒性(稳定性)和容错性
  2. 低延迟读取和更新能力
  3. 横向扩容
  4. 通用性
  5. 延展性
  6. 即席查询能力(高效的用户查询)
  7. 最少维护能力
  8. 可调试性 

Lambda架构 

设计目的在于提供一个能满足大数据系统关键性的架构,整合了离线计算与实时计算。

Lambda架构分解为三层:批处理层、加速层和服务层

批处理层(离线):产生批处理结果视图,结果认为是精准且全量的,但处理时延较高

加速层:处理最近的增量数据流。在接收到新的数据后会不断更新视图

服务层:合并批处理层产出的视图和加速层产出的实时视图,最终得到数据集,响应用户的查询请求

优点:容错性好、查询灵活度高、易伸缩、易扩展,读写分离

缺点:全场景覆盖带来的编码开销,针对具体场景的离线处理开销很大

事件溯源与Lambda架构:

  • 整个系统以事件为驱动
  • 事件是核心,事件保存在某种存储上
  • 业务数据 只是一些由事件产生的视图

Kappa架构 

在lambda架构的基础上进行优化,删除了Batch Layer(批处理层),将数据通道以消息队列进行替代。当需要进行离线分析或再次计算时,则将数据湖的数据再次经过消息队列重播一次。

优点:将实时和离线代码统一起来,避免了Lambda架构中与离线数据合并的问题

缺点:消息中间件缓存的数据量和回溯数据有性能瓶颈;非常依赖实时计算系统的能力;抛弃了离线计算更加稳定可靠的特定

Kappa+架构:让流计算框架Spark直接读取HDFS(Hadoop)里的数据仓库数据(历史/离线数据),一并实现实时计算和历史数据计算。

相关文章:

  • 【2025 技术指南】如何创建和配置国际版 Apple ID
  • 一个可拖拉实现列表排序的WPF开源控件
  • nt!MiInitializePfn函数分析之nt!MiPfPutPagesInTransition函数的关键一步
  • 区块链基本理解
  • 淘宝商品主图标题api接口(附API接口文档)
  • 实验6分类汇总
  • uniapp-商城-61-后台 新增商品(添加商品到数据库)
  • C# DataGrid功能总览
  • 04_决策树
  • 力扣-比特位计数(统计一个数二进制下1的个数)
  • 【部署】读取excel批量导入dify的QA知识库
  • Linux 的 UDP 网络编程 -- 回显服务器,翻译服务器
  • SpringBoot启动流程深入分析
  • 自定义类、元组、字典和结构体对比——AutoCAD C# 开发中建立不同对象之间的联系
  • 【发票提取表格】批量PDF电子发票提取明细保存到Excel表格,批量提取ODF电子发票明细,行程单明细,单据明细保存到表格,使用步骤、详细操作方法和注意事项
  • python 自动化教程
  • Conda 完全指南:从环境管理到工具集成
  • 探索C++对象模型:(拷贝构造、运算符重载)成员函数的深度解读(中篇)
  • PYTHON训练营DAY28
  • 18.自动化生成知识图谱的多维度质量评估方法论
  • 15年全程免费,内蒙古准格尔旗实现幼儿园到高中0学费
  • 东部沿海大省浙江,为何盯上内河航运?
  • 打击网络侵权盗版!四部门联合启动“剑网2025”专项行动
  • 牛市早报|持续推进城市更新行动意见印发,证监会强化上市公司募资监管
  • 耗资10亿潮汕豪宅“英之园”将强拆?区政府:非法占用集体土地
  • 马上评丨火车穿村而过多人被撞身亡,亡羊补牢慢不得