零基础上手Python数据分析 (1):Windows环境配置与开发工具,开启数据科学之旅!
—— 工欲善其事,必先利其器:迈出Python数据分析的第一步
为什么要选择 Python 进行数据分析?
在数据科学领域,Python 已经成为事实上的标准语言,这并非偶然。 它拥有众多优势,使其在数据分析领域脱颖而出:
- 简洁易学: Python 语法清晰简洁,接近自然语言,即使没有任何编程基础,也能相对快速地入门。 这大大降低了学习门槛,让你能更快地专注于数据分析本身,而不是被复杂的编程语法所困扰。
- 强大的库生态系统: Python 拥有丰富且强大的第三方库,尤其在数据分析、科学计算、机器学习等领域,例如:
- Pandas: 提供高效的数据结构 (DataFrame, Series) 和数据分析工具,用于数据清洗、处理、转换和分析。
- NumPy: 提供高性能的数值计算功能,是很多科学计算库的基础。
- Matplotlib & Seaborn: 强大的数据可视化库,用于创建各种静态、动态、交互式图表。
- Scikit-learn: 全面的机器学习库,包含各种常用的机器学习算法。
- … 以及更多专注于特定领域的库,几乎涵盖了数据分析的方方面面。
- 开源免费,社区活跃: Python 是开源免费的,这意味着你可以免费使用和学习。 同时,Python 拥有庞大而活跃的社区,遇到问题可以很容易地找到解决方案和帮助。 丰富的学习资源和社区支持,让你的学习之路不再孤单。
- 跨平台性: Python 可以在 Windows、macOS、Linux 等多种操作系统上运行,这意味着你在一台电脑上编写的代码,可以轻松地在其他平台上运行,具有很好的可移植性。
总而言之,Python 凭借其易用性、强大的功能和活跃的社区,成为了数据分析的最佳选择之一。 选择 Python,你将站在巨人的肩膀上,更高效地进行数据分析工作。
🚀 第一步:安装 Anaconda,一站式搞定 Python 环境
对于初学者,我们强烈推荐使用 Anaconda 来安装和管理 Python 环境。 Anaconda 是一个开源的 Python 发行版本,它预装了 Python 解释器、常用的数据科学库(例如 NumPy, Pandas, Matplotlib 等)以及包管理工具 conda。 使用 Anaconda,你可以省去手动安装各种库的繁琐步骤,一次安装即可拥有进行数据分析所需的大部分工具,极大地简化了环境配置过程。
为什么推荐 Anaconda?
- 一站式安装,省时省力: Anaconda 预装了大量常用的数据科学库,避免了新手手动安装各种库的麻烦,节省大量时间和精力。
- 包管理工具 conda: conda 可以方便地管理 Python 包和环境。 你可以使用 conda 轻松安装、更新、卸载各种 Python 包,还可以创建和管理不同的 Python 环境,避免不同项目之间的库版本冲突。
- 环境隔离: conda 环境可以实现项目之间的环境隔离。 这意味着你可以为不同的项目创建独立的 Python 环境,每个环境可以安装不同版本的库,互不干扰,有效解决项目依赖冲突问题。
- 跨平台兼容性: Anaconda 支持 Windows、macOS、Linux 等多个操作系统,保证了学习和工作的环境一致性。
下面,我们来一步步教你如何在 Windows 系统上安装 Anaconda:
(请注意:以下步骤以 Windows 10 系统为例,其他 Windows 版本步骤类似。 安装过程中请确保你的电脑已连接互联网。)
步骤 1:访问 Anaconda 官网
打开你的浏览器,访问 Anaconda 官网:https://www.anaconda.com/
(建议:使用 Chrome、Edge 或 Firefox 等主流浏览器访问,避免使用老旧浏览器)
步骤 2:下载 Anaconda 安装包
在 Anaconda 官网首页,通常会有一个明显的 “Free Download” 或 “Download” 按钮,点击该按钮。 你将被引导到 Anaconda 的下载页面。
在下载页面,你会看到 Anaconda 针对不同操作系统(Windows, macOS, Linux)的安装包。 请确保选择 Windows 选项卡,并根据你的 Windows 系统版本(64-Bit 或 32-Bit)选择对应的安装包。
(如何查看 Windows 系统版本?)
- Windows 10: 右键点击 “此电脑” (或 “我的电脑”) 图标,选择 “属性”。 在弹出的 “系统” 窗口中,查看 “系统类型” 一栏,即可看到你的系统是 64 位还是 32 位操作系统。
通常情况下,现代电脑都使用 64 位操作系统,建议选择 64-Bit 安装包。 如果你的电脑比较老旧,或者不确定系统版本,可以选择 32-Bit 安装包。
点击你选择的安装包链接,开始下载 Anaconda 安装程序。 安装包文件通常比较大,可能需要一些时间下载,请耐心等待。
步骤 3:运行 Anaconda 安装程序
下载完成后,找到你下载的 Anaconda 安装包文件 (通常是以 .exe
为后缀的文件),双击运行安装程序。
你可能会看到 Windows 的用户账户控制 (UAC) 提示,询问是否允许此应用对你的设备进行更改,请点击 “是” (Yes) 允许安装程序运行。
Anaconda 安装程序将启动,进入安装向导界面。
步骤 4:开始安装
在 Anaconda 安装向导界面,首先会显示欢迎界面,点击 “Next” (下一步) 继续。
步骤 5:阅读许可协议
接下来会显示 Anaconda 的许可协议,请仔细阅读协议内容。 如果同意协议条款,请选择 “I Agree” (我同意) ,然后点击 “Next” (下一步) 继续。
步骤 6:选择安装类型
在 “Choose Installation Type” (选择安装类型) 界面,你可以选择 “Just Me” (仅为我安装) 或 “All Users” (为所有用户安装)。
- Just Me (推荐): 只为当前用户安装 Anaconda。 这是推荐的选项,尤其当你的电脑是个人使用时。
- All Users: 为电脑上的所有用户安装 Anaconda。 如果你的电脑是多人共用,并且需要所有用户都能使用 Anaconda,可以选择此选项。 选择此选项可能需要管理员权限。
通常情况下,选择 “Just Me” 即可。 选择完成后,点击 “Next” (下一步) 继续。
步骤 7:选择安装路径
在 “Choose Install Location” (选择安装路径) 界面,你可以选择 Anaconda 的安装路径。 默认情况下,Anaconda 会安装在你的用户目录下的 anaconda3
文件夹中 (例如 C:\Users\YourUserName\anaconda3
)。
建议使用默认安装路径,除非你有特殊需求需要更改安装路径。 请确保你的磁盘有足够的可用空间来安装 Anaconda (建议至少预留 5GB 以上的可用空间)。
点击 “Next” (下一步) 继续。
步骤 8:高级安装选项
在 “Advanced Installation Options” (高级安装选项) 界面,有两个选项:
- Add Anaconda3 to my PATH environment variable (不推荐勾选): 将 Anaconda 添加到系统环境变量 PATH 中。 不建议初学者勾选此选项。 勾选此选项可能会导致与其他 Python 环境冲突,尤其当你电脑上已经安装了其他 Python 版本时。 我们后续会介绍更安全的环境管理方式。
- Register Anaconda3 as my default Python 3.x (推荐勾选): 将 Anaconda 的 Python 3.x 版本注册为系统默认的 Python 版本。 建议勾选此选项。 这样可以确保当你从命令行或其他程序中调用
python
命令时,默认使用的是 Anaconda 的 Python 版本。
建议只勾选 “Register Anaconda3 as my default Python 3.x” 选项,保持 “Add Anaconda3 to my PATH environment variable” 选项不勾选。
选择完成后,点击 “Install” (安装) 开始安装 Anaconda。
步骤 9:等待安装完成
Anaconda 安装程序将开始安装过程,这可能需要几分钟到十几分钟不等,取决于你的电脑配置。 请耐心等待安装完成。 在安装过程中,你会看到安装进度条。
步骤 10:安装完成
当安装进度条达到 100% 时,表示 Anaconda 安装完成。 点击 “Next” (下一步) 继续。
步骤 11:完成设置 (可选)
在 “Completing Anaconda Setup” (完成 Anaconda 设置) 界面,你可以选择是否了解 Anaconda Cloud 和 Anaconda Navigator。 这两个选项是可选的,你可以根据自己的兴趣选择是否勾选。
点击 “Finish” (完成) 按钮,关闭安装向导。
恭喜你! 至此,你已经成功在 Windows 系统上安装了 Anaconda,也就意味着你已经拥有了 Python 环境! 🎉
🛠️ 第二步:验证 Python 环境是否安装成功
安装完成后,我们需要验证 Python 环境是否安装成功。 最简单的方法是打开 命令提示符 (Command Prompt) 或 PowerShell,输入 python --version
命令,查看 Python 版本信息。
如何打开命令提示符 (Command Prompt)?
- 方法一: 在 Windows 搜索栏 (通常位于屏幕左下角) 输入 “cmd” 或 “命令提示符”,然后点击 “命令提示符” 应用。
- 方法二: 按下 Win + R 组合键,打开 “运行” 对话框,输入 “cmd”,点击 “确定”。
如何打开 PowerShell?
- 方法一: 在 Windows 搜索栏 输入 “PowerShell”,然后点击 “Windows PowerShell” 应用。
- 方法二: 右键点击 Windows “开始” 按钮 (屏幕左下角 Windows 图标),在弹出的菜单中选择 “Windows PowerShell” 或 “Windows PowerShell (管理员)”。
打开命令提示符或 PowerShell 后,输入以下命令并按下 Enter 键:
python --version
如果安装成功,你将看到类似下面的输出,显示 Python 的版本号 (例如 Python 3.9.7
,版本号可能略有不同,但只要显示 Python 3.x.x
就表示安装成功):
Python 3.9.7
如果命令提示符或 PowerShell 提示 “‘python’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。”, 则表示 Python 没有正确安装或没有添加到系统环境变量 PATH 中 (如果你在安装时没有勾选 “Add Anaconda3 to my PATH environment variable” 选项,这是正常的)。 不过不用担心,我们推荐使用 Anaconda Prompt 或 Anaconda PowerShell Prompt 来进行后续操作,它们会自动配置好 Anaconda 的环境。
更推荐使用 Anaconda Prompt 或 Anaconda PowerShell Prompt
Anaconda 还提供了两个专门的命令行工具: Anaconda Prompt 和 Anaconda PowerShell Prompt。 这两个工具在启动时会自动激活 Anaconda 的 base 环境,无需手动配置环境变量,更加方便易用,尤其对于初学者。
如何打开 Anaconda Prompt 或 Anaconda PowerShell Prompt?
- 在 Windows “开始” 菜单中,找到 “Anaconda3 (64-bit)” 文件夹 (或类似的文件夹名称,取决于你的 Anaconda 版本),展开该文件夹,你将看到 “Anaconda Prompt (anaconda3)” 和 “Anaconda PowerShell Prompt (anaconda3)” 两个快捷方式。 点击其中任何一个即可打开对应的命令行工具。
打开 Anaconda Prompt 或 Anaconda PowerShell Prompt 后,再次输入 python --version
命令,应该就能看到正确的 Python 版本信息了。
💻 第三步:选择你的 Python 开发工具
有了 Python 环境,还需要选择合适的 开发工具 来编写和运行 Python 代码。 对于数据分析,我们主要推荐以下两种工具:
- Jupyter Notebook: 交互式笔记本,非常适合数据探索、可视化和学习。
- Visual Studio Code (VS Code): 强大的代码编辑器,适合编写更复杂的 Python 脚本和项目。
你可以根据自己的需求和偏好选择其中一种或两种工具都使用。 对于初学者,强烈推荐先从 Jupyter Notebook 入手,因为它更直观、交互性更强,更适合学习和数据探索。
Jupyter Notebook:交互式数据分析利器
Jupyter Notebook (简称 Notebook) 是一种交互式的计算环境,它以 网页 的形式呈现,允许你创建和共享包含 代码、文本、公式、可视化结果 等的文档 (即 Notebook 文件)。 Notebook 文件以 .ipynb
为扩展名。
Jupyter Notebook 的优势:
- 交互式执行代码: 你可以将代码分成一个个 代码单元格 (Cell),逐个运行,并立即看到代码的输出结果 (包括文本、图表等)。 这种交互式的执行方式非常适合数据探索、调试和学习。
- 代码、文本、可视化结果整合: Notebook 可以将代码、Markdown 格式的文本 (用于编写文档和注释)、数学公式、图片、视频、可视化图表等内容整合在一个文档中,使得数据分析过程更加清晰、易懂、可重复。
- 可视化友好: Jupyter Notebook 与 Matplotlib、Seaborn 等数据可视化库集成良好,可以方便地在 Notebook 中直接显示各种图表。
- 易于分享和协作: Notebook 文件可以轻松分享给他人,也可以导出为 HTML、PDF 等多种格式,方便协作和展示分析结果。
如何启动 Jupyter Notebook?
- 打开 Anaconda Prompt 或 Anaconda PowerShell Prompt。
- 在命令行中输入
jupyter notebook
命令,并按下 Enter 键。
jupyter notebook
Jupyter Notebook 将会在你的默认浏览器中自动打开 (通常是 Chrome、Edge 或 Firefox)。 如果浏览器没有自动打开,你可以复制命令行中显示的 URL 地址,粘贴到浏览器地址栏中打开。
Jupyter Notebook 启动后,你将看到一个文件管理器界面,显示当前目录下的文件和文件夹。 你可以点击右上角的 “New” 按钮,选择 “Python 3 (ipykernel)” 创建一个新的 Python 3 Notebook 文件。
创建一个新的 Notebook 文件后,你将看到一个空白的 Notebook 编辑界面。 界面主要由 菜单栏、工具栏 和 代码单元格 组成。
在 Jupyter Notebook 中运行 “Hello, World!”
-
在 Notebook 编辑界面的第一个代码单元格中,输入以下 Python 代码:
print("Hello, World! Welcome to Python Data Analysis!")
-
点击工具栏上的 “Run” 按钮 (或按下 Shift + Enter 快捷键) 运行代码单元格。
你将在代码单元格下方看到代码的输出结果:
Hello, World! Welcome to Python Data Analysis!
恭喜你! 你已经在 Jupyter Notebook 中成功运行了你的第一个 Python 程序 “Hello, World!” 🎉 接下来,你可以在 Notebook 中继续学习 Python 语法、数据分析库的使用,进行数据探索和可视化。
至此,你已经成功运行了你的第一个 Python 程序 “Hello, World!” 🎉