系统集成项目管理工程师第六章:数据工程(精简版)
系统集成项目管理工程师第六章:数据工程(精简版)
一、数据采集与预处理(3个核心)
-
数据类型(易混点)
- 结构化:表、CSV(二维表)
- 半结构化:日志、XML、Email(有标记)
- 非结构化:图、音视频、报表图形(⚠️必考点,别错归结构化)
-
采集方法(记2个重点)
- 传感器:需信号转换,应用最广
- 网络采集:含API+爬虫
-
预处理(口诀+方法)
- 步骤:口诀“分检修”(分析→检测→修正)
- 缺失处理:占比小→删除;相似对象→热卡填补
- 异常处理:分箱法(入箱修均值)、回归法(拟合直线)
二、数据存储与备份(计算题/选择高频)
-
存储关键考点
- 介质:光盘(只读+抗电磁+易复制,⚠️真题必选)
- 形式:块存储(快速高效,开发首选,真题B对)
-
备份(口诀+恢复要求)
- 结构口诀:DAS直连,LAN混网(占网络,缺点),SERVERFREE不依赖服务器
- 策略对比(核心是恢复):
策略 备份内容 恢复需几份 缺点 完全 全部数据 1 占资源 差分 首次全备后累积变化 2(全+最后) - 增量 前次后新增 全+所有增量 中间丢则失效
-
容灾2指标(记定义)
- RPO:丢数据量(P=Point)
- RTO:恢复时间(T=Time)
三、数据模型与仓库(口诀定乾坤)
-
数据模型(“虚概萝莉”流程)
- 概念模型:用户视角(如“教师实体”)
- 逻辑模型:主流关系模型(表格,需完整性约束)
- 物理模型:实际存储设计
-
数据仓库(5特征记2个)
- 面向主题、时变性(有时间标记)
四、数据集成与挖掘(操作类考点)
-
集成(方法+接口)
- 方法:复制集成支持增量(⚠️“只能全量”错)
- Web服务口诀:“欧弟无语I服了U”(SOAP传消息,WSDL用XML描述,UDDI管注册)
-
挖掘(口诀+任务)
- 任务口诀:“总关测距离”(总结→关联→分类预测→聚类→孤立点)
- 流程:口诀“对准挖苹果”(确定对象→准备→挖掘→评估→应用)
五、数据安全(脱敏是重点)
- 敏感数据等级:口诀“宫保鸡绝死”(L1公开→L2保密→L3机密→L4绝密→L5私密)
- 脱敏原则:口诀“不用荷包自负”(不可逆→保持特征→引用完整→规避融合风险→自动化→可重复)