当前位置: 首页 > news >正文

2.1.1(数据处理规范)

打开2.1.1

import pandas as pd

# 加载数据集并显示数据集的前五行 1分

file_path = 'auto-mpg.csv'

data = pd.__________(file_path)

---

data = pd.read_csv(file_path)

# 检查缺失值并删除缺失值所在的行  2分

print("\n检查缺失值:")

print(data.__________().sum())  

data = data.__________()

---

print(data.isnull().sum())  
data = data.dropna()

代码解释:

 isnull(),定位和处理数据中的缺失值。

# 将 'horsepower' 列转换为数值类型,并处理转换中的异常值 

data['horsepower'] = pd.to_numeric(data['horsepower'], errors='coerce')

data = data.       (subset=['horsepower'])

---

data = data.dropna(subset=['horsepower'])

代码解释:

1. 为什么转换数据类型后需要 dropna()

pd.to_numeric(errors='coerce') 的作用是:

尝试将列转换为数值类型。

遇到无法转换的值(如字符串 "?"、"NaN" 等)时,将其强制转换为 NaN

因此,转换后的数据中可能会新增 NaN,需要用 dropna() 删除这些无效行。

# 对数值型数据进行标准化处理 1分

numerical_features = ['displacement', 'horsepower', 'weight', 'acceleration']
scaler = StandardScaler()
data[numerical_features] = scaler.__________(data[numerical_features])

---

data[numerical_features] = scaler.fit_transform(data[numerical_features])

代码解释:

# 选择特征和目标变量 2分

selected_features = ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin']

代码解释:

X = data[selected_features]

代码解释:

X = data[selected_features]

y = data['mpg']

代码解释:

y:从 DataFrame data 中提取名为 mpg 的列,作为目标变量(也称为因变量标签)

# 划分数据集为训练集和测试集 1分

X_train, X_test, y_train, y_test = __________(X, y, test_size=0.2, random_state=42)

---

X_train, X_test, y_train, y_test =train_test_split(X, y, test_size=0.2, random_state=42)

代码解释:

# 保存清洗和处理后的数据

cleaned_data.__________('2.1.1_cleaned_data.csv', index=False)

---

cleaned_data.to_csv('2.1.1_cleaned_data.csv', index=False)

相关文章:

  • Google设置app-ads.txt
  • Linux串口绑定
  • Chromium 浏览器核心生命周期剖析:从 BrowserProcess 全局管理到 Browser 窗口实例
  • IOS 创建多环境Target,配置多环境
  • Windows 安装显卡驱动
  • leetcode hot100刷题日记——4.盛最多水的容器
  • python重庆旅游系统-旅游攻略
  • DeepSeek 如何实现 128K 上下文窗口?
  • 物流项目第一期(登录业务)
  • 深入理解 Vue2 与 Vue3 响应式系统:丢失场景、原因及解决方案
  • 【成品设计】基于STM32和LoRa远程通信控制系列项目
  • [IMX] 04.定时器 - Timer
  • 三维云展展示效果升级​
  • day 30
  • 开发指南116-font-size: 0的使用
  • Linux-进程信号
  • 存储系统03——数据缓冲evBuffer
  • ebpf程序入门编写
  • frida 配置
  • OCframework编译Swift
  • 又有明星分析师晋升管理层:“白金分析师”武超则已任中信建投证券党委委员
  • 自然资源部:适应存量时代城市更新发展,严控增量盘活存量
  • 文化破冰,土耳其亚美尼亚合拍摄影大师阿拉·古勒传记片
  • 牛市早报|上市公司重大资产重组新规出炉,4月经济数据将公布
  • 以色列称“将立即允许恢复”人道主义物资进入加沙
  • 世卫大会中国代表团:中国深入参与全球卫生治理,为构建人类卫生健康共同体贡献中国力量