当前位置: 首页 > news >正文

Sklearn 机器学习 房价预估 拆分训练集和测试集

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖

在这里插入图片描述

本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】


在这里插入图片描述

Sklearn 机器学习 房价预估:拆分训练集和测试集全流程解析

在机器学习建模中,训练集(Training Set)测试集(Test Set) 的划分是第一步且极其关键。
无论是做房价预测、销售预测还是用户行为分析,这一步都决定了模型评估结果是否可信。

本文将用 两个案例 演示完整的数据集拆分流程:

  1. 模拟房价数据集(适合初学者快速理解)
  2. 真实 California Housing 数据集(适合实战)

📌 一、为什么要拆分训练集和测试集

在机器学习中,如果用同一份数据同时训练和测试模型,会出现 过拟合(Overfitting)
模型在训练数据上表现很好,但在真实场景中效果差。

拆分数据的意义:

  1. 训练集:用于训练模型,学习数据规律
  2. 测试集:用于检验模型在未见过数据上的表现

📍 核心思想:测试集要像“真实世界数据”,帮助评估模型泛化能力。


📊 二、案例一:模拟房价数据集拆分

1. 准备模拟数据(扩充为100条样本)

import pandas as pd
import numpy as np# 固定随机种子,保证结果可复现
np.random.seed(42)# 生成100条模拟数据
n_samples = 100
data = {'面积': np.random.randint(60, 220, size=n_samples),     # 60-220㎡'卧室数': np.random.randint(1, 6, size=n_samples),      # 1-5个卧室'位置评分': np.random.randint(4, 11, size=n_samples),   # 4-10分'价格': 0.8*np.random.randint(60, 220, size=n_samples) \+ 0.5*np.random
http://www.dtcms.com/a/341160.html

相关文章:

  • Pydantic介绍(基于Python类型注解的数据验证和解析库)(BaseModel、校验邮箱校验EmailStr、BaseSettings)
  • SeaweedFS深度解析(五):裸金属集群部署(上)
  • Java 集合超详细教程
  • 循环神经网络(RNN)、LSTM 与 GRU (一)
  • 基于深度学习的订单簿异常交易检测与短期价格影响分析
  • 【深度学习】PyTorch中间层特征提取与可视化完整教程:从零开始掌握Hook机制与特征热力图
  • lua入门以及在Redis中的应用
  • 【ElasticSearch实用篇-03】QueryDsl高阶用法以及缓存机制
  • Java程序启动慢,DNS解析超时
  • 基于STM32的APP遥控视频水泵小车设计
  • K8S-Pod资源对象——标签
  • 【AI学习100天】Day08 使用Kimi每天问100个问题
  • 【指纹浏览器系列-绕过cdp检测】
  • 数据预处理:机器学习的 “数据整容术”
  • nginx-下载功能-状态统计-访问控制
  • 【数据结构】线性表——顺序表
  • 循环神经网络(RNN, Recurrent Neural Network)
  • Effective C++ 条款52:写了placement new也要写placement delete
  • 使用acme.sh自动申请AC证书,并配置自动续期,而且解决华为云支持问题,永久免费自动续期!
  • Spring Boot 定时任务与 xxl-job 灵活切换方案
  • 层在init中只为创建线性层,forward的对线性层中间加非线性运算。且分层定义是为了把原本一长个代码的初始化和运算放到一个组合中。
  • B站 韩顺平 笔记 (Day 24)
  • C++ std::optional 深度解析与实践指南
  • 当 AI 开始 “理解” 情绪:情感计算如何重塑人机交互的边界
  • linux报permission denied问题
  • Advanced Math Math Analysis |01 Limits, Continuous
  • uniapp打包成h5,本地服务器运行,路径报错问题
  • PyTorch API 4
  • 使数组k递增的最少操作次数
  • 路由器的NAT类型