计算机专业课《大数据技术》课程导览:开启数据智能时代
课程定位
《大数据技术》是计算机科学与技术、人工智能等专业的核心课程,聚焦海量数据的采集、存储、处理与分析技术。课程以分布式系统理论为基础,结合行业主流框架,培养学生解决实际数据密集型问题的能力。
技术体系全景
-
数据存储层
- 分布式文件系统:$HDFS$(Hadoop Distributed File System)
- NoSQL数据库:$Cassandra$、$HBase$
- 云存储技术:$Amazon S3$、$Azure Blob Storage$
-
计算引擎层
- 批处理框架:$MapReduce$(基础模型)
$$ \text{Map}(k1,v1) \rightarrow \text{list}(k2,v2) \ \text{Reduce}(k2,\text{list}(v2)) \rightarrow \text{list}(v3) $$ - 流处理框架:$Spark Streaming$、$Flink$
- 交互式查询:$Presto$、$Impala$
- 批处理框架:$MapReduce$(基础模型)
-
数据分析层
- 数据挖掘工具:$MLlib$(Spark机器学习库)
- 可视化平台:$Tableau$、$Power BI$
核心能力培养
-
分布式系统设计
- CAP定理:$ \text{一致性}(Consistency) \cap \text{可用性}(Availability) \cap \text{分区容错}(Partition\ tolerance) $ 三选二