第1章 数据分析简介
第1章 数据分析简介
1.1 数据分析
-
当今世界对信息技术依赖日深,每天产生和存储海量数据,来源于自动检测系统、传感器、科学仪器,以及银行取钱、买东西、写博客、发微博等日常行为。
-
数据与信息在形式上不同:数据是无形式可言的字节流,难理解其本质;信息是对数据集处理后提炼出的可用于其他场合的结论。
-
从原始数据中抽取信息的这个过程叫作数据分析。
-
数据分析目的:抽取不易推断的信息,一旦理解信息,可研究数据产生系统的运行机制,对系统可能响应和演变作出预测。
-
发展历程:数据分析最初用作数据保护,现已发展成为数据建模的方法论,蜕变为一门真正学科。
-
模型:将所研究系统转化为数学形式,一旦建立数学或逻辑模型,可预测在给定输入下系统的输出,精度不同。
-
数据分析目标:不止于建模,更重要的是其预测能力。
-
预测能力:取决于建模技术质量及选择优质数据集的能力。
-
预处理工作:数据搜寻、数据提取、数据准备等属于数据分析范畴,对最终结果有重要影响。
-
数据可视化:在数据分析各阶段,有各种数据可视化方法。理解数据的最好方法莫过于将其做成可视化图形,传达数字中蕴含(有时隐藏)的信息。已有多种可视化模式(类型多样的图表)。
-
数据分析产出:模型和图形化展示,据此可预测所研究系统的响应。
-
测试阶段:用已知输出结果的数据集对模型进行测试,数据不用于生成模型,而是检验系统能否重现实际观察到的输出,掌握模型误差,了解其有效性和局限。
-
部署:新模型胜出后进行,根据模型预测结果实现相应决策,同时防范模型预测到的潜在风险。
-
意义:了解数据分析及实际操作方法,对工作中做出可靠决策有益,可检验假说,加深对系统理解。
1.2 数据分析师的知识范畴
-
数据分析学科研究问题面广,数据分析过程用到多种工具和方法,对计算、数学和统计思维要求高。
-
优秀的数据分析师必须具备多个学科的知识和实际应用能力,熟练掌握作为数据分析方法基础的学科很有必要。
-
根据应用领域和研究项目,分析师可能需掌握其他相关学科知识,以更好地理解研究对象及所需数据。
-
大型项目:最好组建由相关领域专家组成的团队,各尽其能。
-
小型项目:优秀分析师可胜任,但需善于识别问题,了解解决问题所需学科知识和技能,及时学习,或向专家请教。
-
简言之:分析师不仅要知道怎么搜寻数据,更应懂得怎么寻找处理数据的方法。
1.2.1 计算机科学
-
从事任何领域数据分析工作,掌握计算机科学知识是基本要求,具备良好知识及实践经验才能熟练掌握数据分析必备工具。
-
数据分析各步骤离不开计算机技术,如计算软件(IDL、Matlab等)和编程语言(C++、Java、Python等)。
-
高效处理海量数据需特定技能。
-
数据研究和抽取:要求分析师掌握各种常见格式处理技巧。
-
数据存储格式:数据通常以结构化形式存储于文件或数据库中,格式多样,常见有XML、JSON、XLS、CSV等。
-
数据库数据获取:需掌握SQL数据库查询语言,或使用专门软件。
-
特定类型任务:若拿到的是文本文件(文档、日志)或网页,需要从文件中抽取图表、测量值、访客量或HTML表格,即数据抓取,需专业知识。
-
因此,学习信息技术知识很有必要,以掌握当代计算机科学基础上发展起来的方法。
-
各种工具,比如软件和编程语言。数据