当前位置: 首页 > news >正文

【大数据技术】大数据技术概念及概述

1. 大数据概念

数据

  • 是实时或观察的结果
  • 是对客观事务的逻辑归纳
  • 是用于表示客观事物的未经加工的原始素材

数据的产生

  • 对客观事务的计量和记录尝试的数据
单位换算
1 byte8 bit
1 k1024 byte
1 mb1024 k
1 g1024 m
1 t1024 g
1 p1024 t
1 e1024 p
1 z1024 e
1 y1024 z
1 b1024 y
1 n1024 b
1 d1024 n

1.1 大数据的特点(5V 特征)

在这里插入图片描述

1.2 大数据应用场景

  1. 电商领域

    • 精准广告位
    • 个性化推荐
    • 大数据杀熟
  2. 传媒领域

    • 精准营销
    • 猜你喜欢
    • 交互推荐
  3. 金融领域

    • 信用评估
    • 风险管控
    • 客户细分
    • 精细化营销
  4. 交通领域

    • 拥堵预测
    • 智能红绿灯
    • 导航最优规划
  5. 电信领域

    • 基站选址优化
    • 舆情监控
    • 客户用户画像
  6. 安防领域

    • 犯罪预防
    • 天网监控
  7. 医疗领域

    • 智慧医疗
    • 疾病预防
    • 病原追踪

1.3 流程

在这里插入图片描述

1.3.1 明确分析目的和思路

  1. 目的是整个分析流程的七点:

    为数据的收集、处理及分析提供清晰的指引方向

  2. 思路是使分析框架体系化:

    先分析什么,后分析什么,使各分析点质检具有逻辑联系

    保证分析维度的完整性,分析结果的有效性以及正确性

  3. 数据分析方法论:营销管理相关理论

    用户行为理论、PEST分析法、5W2H分析法等

数据分析方法论主要用来知道数据分析师进行一次完整的数据分析,它更多的是指数据分析思路

数据分析法则是指具体的分析方法,例如:对比分析、交叉分析、相关分析、回归分析、聚类分析等

用户行为理论

在这里插入图片描述

1.3.2 数据收集

  1. 数据从无到有的过程

    如:传感器收集气象数据、埋点收集用户行为数据

  2. 数据传输搬运的过程

    如:采集数据库数据到数据分析平台

在这里插入图片描述

1.3.3 数据处理

  1. 收集到的数据进行加工整理,形成适合数据分析的样式

    主要包括数据清洗、数据转化、数据提取、数据计算

  2. 保证数据的一致性和可靠性

1.3.4 数据分析

  1. 用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程

    需要掌握各种数据分析方法,还要熟悉数据分析软件的曹祖

  2. 数据挖掘本质是一种高级的数据分析方法

    数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律

1.3.5 数据展现

  1. 数据通过表格和图形的方式来呈现

1.3.6 报告撰写

  1. 数据分析报告是对整个数据分析过程的一个总结与呈现
  2. 把数据分析的起因、过程、结果及建议完整的呈现出来,供决策者参考
  3. 需要有明确的结论,最好有建议或解决方案

1.4 大数据部门组织架构

在这里插入图片描述

2. 分布式技术

2.1 为什么需要分布式技术

  • 科学技术的发展推动下

    应用和系统架构的变迁:单机单一架构迈向多机分布式架构

    • 单一架构

    在这里插入图片描述

    • 分布式架构

      在这里插入图片描述

  • 数据大爆炸,海量数据处理场景面临问题

    1. 如何存储?

      多台集齐分布式存储

    2. 如何计算?

      多台集齐分布式计算

2.2 分布式系统概述

  • 分布式系统是一个硬件或软件组件分布在不同的网络计算机上

  • 彼此质检仅仅通过消息传递进行通信和协调的系统

  • 一群互相独立计算机集合共同对外提供服务

  • 对于系统的用户来说,就像是一台计算机在提供服务一样

在这里插入图片描述

2.3 分布式(Distributed)与集群(Cluster)

  • 分布式与集群式两种概念

分布式:

  • 多台机器
  • 每台机器上部署不同组件

集群:

  • 多台集齐
  • 每台集群部署相同组件

2.4 负载均衡(Load Balance)

  • 将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行
  • 解决了单个无法处理所有任务,多个一起处理的问题

在这里插入图片描述

2.5 故障转移

  • 当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们的工作
  • 故障转移系统也称之为容错系统,所谓容错指的是可以容忍错误的发生
  • 故障转移的核心是设置备份 出现故障时,主备切换
  • 主备切换的前提是数据状态保持一致

在这里插入图片描述

2.6 伸缩性(Scalability)

  • 伸缩性也叫做弹性,可扩展性

  • 指系统可以根据需求动态的扩容、缩容

    比如双十一业务高峰期间,增加服务器;业务低峰期,减少服务器

http://www.dtcms.com/a/98535.html

相关文章:

  • QT音乐播放器(1):数据库保存歌曲
  • Vue Kubernetes项目 局部布局面包屑 el-breadcrumb
  • Matlab教程004:Matlab矩阵的拼接重构重排以及矩阵的运算
  • 测试测试 测试
  • Kubernetes》k8s》Containerd 、ctr 、cri、crictl
  • 每日一题 MySQL基础知识----(四)
  • Java 大视界 -- Java 大数据机器学习模型在电商商品推荐冷启动问题中的解决策略(160)
  • [Python学习日记-88] 并发编程之多进程 —— 队列与生产者消费者模型
  • 赛博威智慧导购平台,融合AI激活一线导购效能,破局增长瓶颈
  • 目标识别与双目测距(1)环境搭建:Ubuntu+yolov5+pcl库
  • JAVA学习*工厂模式
  • Python容器详解:从字符串到字典的完整指南
  • CPT204 Advanced Obejct-Oriented Programming 高级面向对象编程 Pt.4 泛型
  • 4.训练篇2-毕设篇
  • Share01-WinCC文件越用越大?
  • 【学习笔记】文件上传漏洞--js验证、mime验证、.user.ini、短标签、过滤、文件头
  • 大数据Spark(五十五):Spark框架及特点
  • Leetcode 两数相除
  • 海量数据处理
  • 下载和初步上手Vue3路由
  • NOIP2007提高组.矩阵取数游戏
  • 思维链技术(Chain-of-Thought, CoT)
  • 双卡 RTX 5090 深度体验:AI 推理框架选择与性能限制实测
  • HCIP(RSTP+MSTP)
  • 【STL】list
  • React程序打包与部署
  • JAVASE-day14
  • 蓝桥杯备考:多米诺骨牌
  • 【Linux】GDB调试指南
  • 基于YALMIP+CPLEX的带储能微电网调度问题最优求解matlab仿真