当前位置: 首页 > news >正文

数据分析概述and环境配置

一:数据分析概述

从原始数据中抽取出有价值的信息的这个过程我们就称之为数据分析。

定义1:数据分析是有针对性的收集、加工、整理数据并采用统计、挖掘等技术对数据进行探索、分析、呈现和解释的科学。

定义2:数据分析是通过收集、整理和分析数据,从中提取有价值的信息和洞察,以支持决策和优化过程的活动。(GPT-4o)

定义3:数据分析是通过系统性的收集、整理、处理、检验和解释数据,从中提取有价值的信息、形成结论并支持决策的过程,其核心是利用统计、算法和逻辑方法揭示数据背后的规律、趋势或关联。(DeepSeek)

二:数据分析相关库

2.1 经典的三种方法

NumPy:支持常见的数组和矩阵操作,通过ndarray类实现了对多维数组的封装,提供了操作这些数组的方法和函数。由于 NumPy 内置了并行运算功能,当使用多核 CPU 时,NumPy 会自动做并行计算。

Pandas:pandas 的核心是其特有的数据结构DataFrameSeries,这使得 pandas 可以处理包含不同类型数据的表格和时间序列,这一点是 NumPy 的ndarray做不到的。使用 pandas,可以轻松顺利的加载各种形式的数据,然后对数据进行切片、切块、重塑、清洗、聚合、呈现等操作。

Matplotlib:matplotlib 是一个包含各种绘图模块的库,能够根据我们提供的数据创建高质量的图表。此外,matplotlib 还提供了 pylab 模块,这个模块包含了很多像 MATLAB 一样的绘图组件。

2.2 其他补充 

SciPy:完善了 NumPy 的功能,封装了大量科学计算的算法,包括线性代数、统计检验、稀疏矩阵、信号和图像处理、最优化问题、快速傅里叶变换等。

Scikit-learn:scikit-learn 最初是 SciPy 的一部分,提供了大量机器学习可能用到的工具,包括数据预处理、监督学习(分类、回归)、无监督学习(聚类)、模式选择、交叉检验等。


Polars:一个高性能的数据分析库,旨在提供比 pandas 更快的数据操作。它支持大规模数据处理,并能够利用多核 CPU 来加速计算,在处理大规模数据集时可以用来替代 pandas。


Seaborn:seaborn 是基于 matplotlib 的图形可视化工具,直接使用 matplotlib 虽然可以定制出漂亮的统计图表,但是总体来说还不够简单方便,seaborn 相当于是对 matplotlib 做了封装,让用户能够以更简洁有效的方式做出各种有吸引力的统计图表。


Statsmodels:包含了经典统计学和计量经济学算法的库,帮助帮助用户完成数据探索、回归分析、假设检验等任务。

PySpark:Apache Spark(大数据处理引擎)的 Python 版本,用于大规模数据处理和分布式计算,能够在分布式环境中高效地进行数据清洗、转化和分析。


Tensorflow:TensorFlow 是一个开源的深度学习框架,由 Google 开发,主要面向深度学习任务,常用于构建和训练机器学习模型(尤其是复杂的神经网络模型)。

Keras:Keras 是一个高层次的神经网络 API,主要用于构建和训练深度学习模型。Keras 适合深度学习初学者和研究人员,因为它让构建和训练神经网络变得更加简单。

PyTorch:PyTorch 是一个开源的深度学习框架,由 Facebook 开发,广泛用于研究和生产环境。PyTorch 是深度学习研究中的热门框架,在计算机视觉、自然语言处理等领域得到了广泛应用。

NLTK / SpaCy:自然语言处理(NLP)库。

三:环境配置

在数据分析部分,我们使用可以使用jupyter notebook。

当然也可以使用jupyterlab,按照官方的说法,JupyterLab 是下一代的 Notebook,提供了更友好的界面和更强大的功能,我们也推荐大家使用 JupyterLab。

安装jupyterlab方法:

pip install jupyterlab

安装数据分析三大神器:

pip install numpy pandas matplotlib

 启动jupyterlab:

jupyter lab

我以下使用的是jupyter notebook与上述方法都相同。

界面就是这个样子。

 当然,其实如果不习惯使用jupyter,使用pycharm当然是更好的选择。

相关文章:

  • 驱动开发学习20250523
  • Unity 打包程序全屏置顶无边框
  • Docker端口映射与容器互联
  • 从 Docker 到 runC
  • 微信小程序:列表项上同样的css样式在IOS上字体大小不一样
  • uniapp uts 插件开发指南
  • 电路图识图基础知识-电气符号(二)
  • Nginx-配置详解
  • 【论文精读】2023 CVPRW--EAVSR现实世界视频超分辨率(RealWorld VSR)
  • 响应面法(Response Surface Methodology ,RSM)
  • 鸿蒙Ability对比Android的Fragment
  • CSS2相关知识点
  • IvorySQL-WASM:免安装的数据库探索之旅
  • 【沉浸式求职学习day47】【JSP详解】
  • [Datagear] [SQL]实现分组统计同时带汇总行的两种方式对比分析
  • 深入理解会话管理:Cookie、Session与JWT的对比与应用
  • windows 下用yolov5 训练模型 给到opencv 使用
  • leetcode:2469. 温度转换(python3解法,数学相关算法题)
  • 一、ZooKeeper:分布式系统中的隐形协调大师
  • Seismic source model -- Brune model ( ω^2 model)
  • 网站变灰/推广普通话手抄报内容怎么写
  • 网站开发建设挣钱吗/官网站内推广内容
  • 专业做网站套餐/长沙营销型网站建设
  • ckplayer 视频网站/百度登录页
  • 网站建设 网站制作/seo交流群
  • 外包网站有哪些/电子制作网站