当前位置: 首页 > news >正文

系统集成项目管理工程师第六章:数据工程(精简版)

系统集成项目管理工程师第六章:数据工程(精简版)

一、数据采集与预处理(3个核心)

  1. 数据类型(易混点)

    • 结构化:表、CSV(二维表)
    • 半结构化:日志、XML、Email(有标记)
    • 非结构化:图、音视频、报表图形(⚠️必考点,别错归结构化)
  2. 采集方法(记2个重点)

    • 传感器:需信号转换,应用最广
    • 网络采集:含API+爬虫
  3. 预处理(口诀+方法)

    • 步骤:口诀“分检修”(分析→检测→修正)
    • 缺失处理:占比小→删除;相似对象→热卡填补
    • 异常处理:分箱法(入箱修均值)、回归法(拟合直线)

二、数据存储与备份(计算题/选择高频)

  1. 存储关键考点

    • 介质:光盘(只读+抗电磁+易复制,⚠️真题必选)
    • 形式:块存储(快速高效,开发首选,真题B对)
  2. 备份(口诀+恢复要求)

    • 结构口诀:DAS直连,LAN混网(占网络,缺点),SERVERFREE不依赖服务器
    • 策略对比(核心是恢复):
      策略备份内容恢复需几份缺点
      完全全部数据1占资源
      差分首次全备后累积变化2(全+最后)-
      增量前次后新增全+所有增量中间丢则失效
  3. 容灾2指标(记定义)

    • RPO:丢数据量(P=Point)
    • RTO:恢复时间(T=Time)

三、数据模型与仓库(口诀定乾坤)

  1. 数据模型(“虚概萝莉”流程)

    • 概念模型:用户视角(如“教师实体”)
    • 逻辑模型:主流关系模型(表格,需完整性约束)
    • 物理模型:实际存储设计
  2. 数据仓库(5特征记2个)

    • 面向主题、时变性(有时间标记)

四、数据集成与挖掘(操作类考点)

  1. 集成(方法+接口)

    • 方法:复制集成支持增量(⚠️“只能全量”错)
    • Web服务口诀:“欧弟无语I服了U”(SOAP传消息,WSDL用XML描述,UDDI管注册)
  2. 挖掘(口诀+任务)

    • 任务口诀:“总关测距离”(总结→关联→分类预测→聚类→孤立点)
    • 流程:口诀“对准挖苹果”(确定对象→准备→挖掘→评估→应用)

五、数据安全(脱敏是重点)

  1. 敏感数据等级:口诀“宫保鸡绝死”(L1公开→L2保密→L3机密→L4绝密→L5私密)
  2. 脱敏原则:口诀“不用荷包自负”(不可逆→保持特征→引用完整→规避融合风险→自动化→可重复)
http://www.dtcms.com/a/516939.html

相关文章:

  • [lc-rs] 双指针
  • 建设网站的目的98建筑网站
  • 招远建网站中山网站优化营销
  • unity基础学习笔记<下>
  • [人工智能-大模型-40]:模型层技术 - 无监督式学习、学习的目标、收敛条件、评估依据 - 通俗易懂
  • 大模型微调(四):人类反馈强化学习(RLHF)
  • 自动化实战 Playwright破解滑块验证码的完整实战指南
  • 网站建设公司上海做网站公司哪家好云南网站做的好的公司哪家好
  • sql 按照前端传的数组里的值进行自定义排序
  • 网站备案更换主体电子商务后悔死了
  • Python_封装案例
  • 查找5个搜索引擎作弊的网站普通网站建设的缺陷
  • 卫浴网站模板获取网站开发语言
  • 网站的盈利点企业建站的作用是什么
  • 哪里有网站建设培训班二级a做爰片免费网站
  • kmp需要技能
  • 大岭山网站仿做杭州家装口碑比较好的公司
  • 【Pycharm】Debug展示完整Tensor
  • [iOS] 计算器仿写
  • 北京专业网站制作公司家在深圳龙光城
  • Blender学习-基础移动
  • wordpress的文章采集湖北优化网站建设
  • 如何做防水网站电子商务电商网站设计
  • 宁波建网站哪家wordpress调用昵称
  • 深入理解 C++ 红黑树:平衡二叉搜索树的理论精髓​
  • 手机网站建设计中国建筑人才网官网登录
  • rust python 混合编程注意点
  • 做正品的网站申请个人网站有什么用
  • 潍坊网页网站制作怎么做的网站收录快
  • 江象网站建设成都网站建设优化推