当前位置：首页 > news >正文

2.1.1（数据处理规范）

news 2025/11/5 0:17:19

打开2.1.1

import pandas as pd

# 加载数据集并显示数据集的前五行 1分

file_path = 'auto-mpg.csv'

data = pd.__________(file_path)

---

data = pd.read_csv(file_path)

# 检查缺失值并删除缺失值所在的行 2分

print("\n检查缺失值:")

print(data.__________().sum())

data = data.__________()

---

print(data.isnull().sum())
data = data.dropna()

代码解释：

isnull()，定位和处理数据中的缺失值。

# 将 'horsepower' 列转换为数值类型，并处理转换中的异常值

data['horsepower'] = pd.to_numeric(data['horsepower'], errors='coerce')

data = data. (subset=['horsepower'])

---

data = data.dropna(subset=['horsepower'])

代码解释:

1. 为什么转换数据类型后需要 dropna()？

pd.to_numeric(errors='coerce') 的作用是：

尝试将列转换为数值类型。

遇到无法转换的值（如字符串 "?"、"NaN" 等）时，将其强制转换为 NaN。

因此，转换后的数据中可能会新增 NaN，需要用 dropna() 删除这些无效行。

# 对数值型数据进行标准化处理 1分

numerical_features = ['displacement', 'horsepower', 'weight', 'acceleration']
scaler = StandardScaler()
data[numerical_features] = scaler.__________(data[numerical_features])

---

data[numerical_features] = scaler.fit_transform(data[numerical_features])

代码解释：

# 选择特征和目标变量 2分

selected_features = ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin']

代码解释：

X = data[selected_features]

代码解释：

X = data[selected_features]

y = data['mpg']

代码解释：

y：从 DataFrame data 中提取名为 mpg 的列，作为目标变量（也称为因变量或标签）

# 划分数据集为训练集和测试集 1分

X_train, X_test, y_train, y_test = __________(X, y, test_size=0.2, random_state=42)

---

X_train, X_test, y_train, y_test =train_test_split(X, y, test_size=0.2, random_state=42)

代码解释：

# 保存清洗和处理后的数据

cleaned_data.__________('2.1.1_cleaned_data.csv', index=False)

---

cleaned_data.to_csv('2.1.1_cleaned_data.csv', index=False)

查看全文

http://www.dtcms.com/a/201137.html

Google设置app-ads.txt

Linux串口绑定

Chromium 浏览器核心生命周期剖析：从 BrowserProcess 全局管理到 Browser 窗口实例

IOS 创建多环境Target，配置多环境

Windows 安装显卡驱动

leetcode hot100刷题日记——4.盛最多水的容器

python重庆旅游系统-旅游攻略

DeepSeek 如何实现 128K 上下文窗口？

物流项目第一期（登录业务）

深入理解 Vue2 与 Vue3 响应式系统：丢失场景、原因及解决方案

【成品设计】基于STM32和LoRa远程通信控制系列项目

[IMX] 04.定时器 - Timer

三维云展展示效果升级

day 30

开发指南116-font-size: 0的使用

Linux-进程信号

存储系统03——数据缓冲evBuffer

ebpf程序入门编写

frida 配置

OCframework编译Swift

【C++]string模拟实现

C++编程this指针练习

【科研项目】大三保研人科研经历提升

Python元组全面解析：从入门到精通

【基础】Windows开发设置入门8：Windows 子系统 (WSL)操作入门

深入解析Java四大引用类型：从强引用到虚引用的内存管理艺术

软件设计师E-R模型考点分析——求三连

STM32实战指南：DHT11温湿度传感器驱动开发与避坑指南

关于ECMAScript的相关知识点！

认识常规贴片电阻

# 加载数据集并显示数据集的前五行 1分

# 检查缺失值并删除缺失值所在的行 2分

# 将 'horsepower' 列转换为数值类型，并处理转换中的异常值

# 对数值型数据进行标准化处理 1分

# 选择特征和目标变量 2分

# 划分数据集为训练集和测试集 1分

# 保存清洗和处理后的数据

相关文章：