【第一章:人工智能基础】01.Python基础及常用工具包-(3)常用数据科学工具包
第一章 人工智能基础
第一部分:Python基础及常用工具包
第三节:常用数据科学工具包
内容:NumPy、Pandas基础操作与数据处理
一、NumPy:高性能数值计算库
1. NumPy 简介
NumPy(Numerical Python)是 Python 中用于科学计算的核心库,主要提供多维数组对象(ndarray)及对其进行快速操作的工具。
2. 创建数组
import numpy as npa = np.array([1, 2, 3])
b = np.zeros((2, 3)) # 创建全零数组
c = np.ones((2, 2)) # 创建全一数组
d = np.arange(0, 10, 2) # 创建等差数组 [0 2 4 6 8]
e = np.linspace(0, 1, 5) # 创建等间距数组 [0. 0.25 0.5 0.75 1.]
3. 常用属性与方法
属性/方法 | 功能 |
---|---|
a.shape | 数组形状 |
a.dtype | 数据类型 |
a.reshape((m, n)) | 改变形状 |
np.mean(a) / np.sum(a) | 均值 / 求和 |
np.dot(a, b) | 矩阵乘法 |
a.T | 转置 |
a = np.array([[1, 2], [3, 4]])
print(a.shape) # 输出 (2, 2)
print(a.T) # 输出转置矩阵
4. 逻辑操作与筛选
a = np.array([1, 2, 3, 4, 5])
print(a[a > 3]) # 输出大于 3 的元素 [4 5]
二、Pandas:强大的数据处理库
1. Pandas 简介
Pandas 是一个用于数据分析的工具,提供了两种核心数据结构:
-
Series:一维带标签的数组
-
DataFrame:二维带标签的表格数据结构(类似 Excel 表)
2. 创建 Series 和 DataFrame
import pandas as pd# 创建 Series
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])# 创建 DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie'],'age': [25, 30, 35]
}
df = pd.DataFrame(data)
3. DataFrame 常用操作
操作 | 示例 | 说明 |
---|---|---|
查看头部 | df.head() | 显示前五行 |
查看数据类型 | df.dtypes | 各列类型 |
选择列 | df['age'] | 获取单列数据 |
条件筛选 | df[df['age'] > 28] | 年龄大于28的行 |
描述统计 | df.describe() | 平均数、标准差、最大值等 |
排序 | df.sort_values('age') | 按 age 升序排序 |
print(df.head())
print(df[df['age'] > 28])
4. 缺失值处理与数据清洗
df = pd.DataFrame({'A': [1, 2, None],'B': [4, None, 6]
})print(df.isnull()) # 检测缺失值
print(df.dropna()) # 删除缺失值行
print(df.fillna(0)) # 用0填充缺失值
三、NumPy 与 Pandas 的配合使用
NumPy 和 Pandas 可无缝结合:
import numpy as np
import pandas as pddata = np.random.rand(3, 4)
df = pd.DataFrame(data, columns=['A', 'B', 'C', 'D'])
print(df)
四、小结
-
NumPy 提供了高效的矩阵/向量计算能力,是 AI 编程的底层基础;
-
Pandas 提供了方便的数据读取、清洗、分析接口,是数据科学工作流的关键工具;
-
熟练掌握这两个工具包,有助于处理大多数人工智能项目中的数据预处理与特征工程任务。