当前位置: 首页 > news >正文

2.1.3

# Load the data

file_path = 'finance数据集.csv'
data = pd.__________(file_path)

---

data = pd.read_csv(file_path)

# 识别数值列用于箱线图

numeric_cols = data.select_dtypes(include=['float64', 'int64']).__________

---

numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns

代码解释:

select_dtypes筛选数据类型

箱线图,查看数据分布是否有异常值

数值列,columns(键盘打出col后点击“ Tab”按键)

# 使用IQR处理异常值

Q1 = data[numeric_cols].__________(0.25)

Q3 = data[numeric_cols].quantile(0.75)

---

Q1 = data[numeric_cols].quantile(0.25)

代码解释:类似于一个箱子,

# 检查重复值

duplicates = data_cleaned.duplicated()

num_duplicates = duplicates.sum()

scaler = MinMaxScaler()

data_cleaned[numeric_cols] = scaler.__________(data_cleaned[numeric_cols])

---

data_cleaned[numeric_cols] = scaler.fit_transform(data_cleaned[numeric_cols])

代码解释:

# 将SeriousDlqin2yrs设为目标变量
target_variable = '__________'

---

target_variable = 'SeriousDlqin2yrs'

# 定义特征和目标

X = data_cleaned.drop(columns=[__________])
y = data_cleaned[__________]

---

X = data_cleaned.drop(columns=[target_variable])
y = data_cleaned[target_variable]

代码解释:target_variable 通常指的是目标变量(也称为因变量、标签或响应变量)

# 划分数据

X_train, X_test, y_train, y_test = __________(X, y, test_size=0.2, random_state=42)

---
X_train, X_test, y_train, y_test =train_test_split(X, y, test_size=0.2, random_state=42)

代码解释:划分数据集train_test_split

# 保存清洗后的数据到CSV

cleaned_file_path = '2.1.3_cleaned_data.csv'
data_cleaned.to_csv(cleaned_file_path, index=False)

相关文章:

  • 【基于栈的 Vue3 路由历史管理:优雅处理多系统间的导航】
  • 使用python进行船舶轨迹跟踪
  • 符合Python风格的对象(对象表示形式)
  • 使用HtmlAgilityPack采集墨迹天气中的天气数据
  • 简单神经网络(ANN)实现:从零开始构建第一个模型
  • python项目参考文献
  • 用Python玩转人工智能——数字识别技术 之二
  • QT软件安装
  • 高效完成任务:制定标准与限时完成的双重法宝
  • 三层固定实体架构:高效实现图上的检索增强生成(RAG)
  • 2024 山东省ccpc省赛
  • 【持续更新中】架构面试知识学习总结
  • 回溯法理论基础 LeetCode 77. 组合 LeetCode 216.组合总和III LeetCode 17.电话号码的字母组合
  • 在RK3588上使用NCNN和Vulkan加速ResNet50推理全流程
  • 一阶线性方程 线性方程
  • 设计模式Java
  • C语言指针深入详解(一):内存和地址、指针变量和地址、指针变量类型的意义、指针运算
  • Makefile变量冲突与包含关系解析
  • 多商户商城系统源码解析:开发直播电商APP的技术底层实战详解
  • Android 14 解决打开app出现不兼容弹窗的问题
  • 上市公司重大资产重组新规九要点:引入私募“反向挂钩”,压缩审核流程
  • 新华时评:博物馆正以可亲可近替代“高冷范儿”
  • 白玉兰奖征片综述丨海外剧创作趋势观察:跨界·融变·共生
  • 牛市早报|持续推进城市更新行动意见印发,证监会强化上市公司募资监管
  • “AD365特应性皮炎疾病教育项目”启动,助力提升认知与规范诊疗
  • 四川甘孜炉霍县觉日寺管委会主任呷玛降泽被查