当前位置: 首页 > wzjs >正文

phpcms 视频网站模板下载wordpress手机短信插件

phpcms 视频网站模板下载,wordpress手机短信插件,html5 wordpress模板,wordpress迁站到阿里云✅ 今日目标 掌握建模前常见准备步骤学会使用 train_test_split() 将数据划分为训练集和测试集理解特征(X)与标签(y)的区分学习常见建模流程的输入要求(格式、维度) 📘 一、建模前准备流程概览…

✅ 今日目标

  • 掌握建模前常见准备步骤
  • 学会使用 train_test_split() 将数据划分为训练集和测试集
  • 理解特征(X)与标签(y)的区分
  • 学习常见建模流程的输入要求(格式、维度)

📘 一、建模前准备流程概览

  1. 数据清洗(缺失值、异常值处理)✅
  2. 特征工程(编码、标准化、派生)✅
  3. 数据集划分(训练 / 测试)✅
  4. 模型选择与训练(下一阶段)
  5. 模型评估与调参

📚 二、提取特征列与标签列

import pandas as pddf = pd.read_csv("data/processed/students_featured.csv")# 特征列(可以自定义选择)
X = df[["成绩_标准化", "性别_女", "性别_男", "是否及格_数值"]]# 标签列(以是否及格为预测目标)
y = df["是否及格_数值"]

📘 三、划分训练集与测试集

from sklearn.model_selection import train_test_split# 按 80% 训练 / 20% 测试,随机种子保持一致性
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42
)print("训练集样本数:", len(X_train))
print("测试集样本数:", len(X_test))

📘 四、保存拆分结果(供建模使用)

X_train.to_csv("data/model/X_train.csv", index=False)
X_test.to_csv("data/model/X_test.csv", index=False)
y_train.to_csv("data/model/y_train.csv", index=False)
y_test.to_csv("data/model/y_test.csv", index=False)

📊 可选探索:类别平衡性检查

print("训练集是否及格分布:")
print(y_train.value_counts(normalize=True))print("测试集是否及格分布:")
print(y_test.value_counts(normalize=True))

🧪 今日练习建议

  1. 从增强后的数据中提取合适的特征列(X)和目标列(y)

  2. 使用 train_test_split 按比例划分训练 / 测试集

  3. 将结果分别保存到 CSV 文件

  4. 检查样本比例是否合理、是否存在类别不平衡问题(特别是分类任务)

    import pandas as pd
    from sklearn.model_selection import train_test_split
    import os# 1. 加载数据
    input_path = "data/processed/students_featured.csv"
    if not os.path.exists(input_path):raise FileNotFoundError("❌ 请先运行 feature_engineering.py 生成 students_featured.csv")df = pd.read_csv(input_path)
    print("✅ 已加载数据:", input_path)
    print(df)# 2. 提取特征列和标签列
    feature_cols = ["成绩_标准化", "性别_女", "性别_男", "是否及格_数值"]
    label_col = "是否及格_数值"X = df[feature_cols]
    y = df[label_col]print("\n🔍 特征维度:", X.shape)
    print("🔍 标签维度:", y.shape)# 3. 划分训练集和测试集(80% / 20%)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42
    )print(f"\n📦 拆分完成:训练集 {len(X_train)} 条,测试集 {len(X_test)} 条")# 4. 可选:检查类别平衡性
    print("\n📊 训练集类别分布:")
    print(y_train.value_counts(normalize=True))print("\n📊 测试集类别分布:")
    print(y_test.value_counts(normalize=True))# 5. 保存拆分结果
    os.makedirs("data/model", exist_ok=True)
    X_train.to_csv("data/model/X_train.csv", index=False)
    X_test.to_csv("data/model/X_test.csv", index=False)
    y_train.to_csv("data/model/y_train.csv", index=False)
    y_test.to_csv("data/model/y_test.csv", index=False)print("\n✅ 拆分后的数据已保存至 data/model/ 文件夹")
    

    运行输出:

✅ 已加载数据: data/processed/students_featured.csv姓名    成绩   是否及格  性别编码   性别_女   性别_男    成绩_标准化    成绩_归一化  是否及格_数值 成绩等级        考试时间  考试月  考试周      考试星期
0  张三  88.0   True     1  False   True  1.166997  1.000000        12024-06-01    6   22  Saturday
1  李四  78.0   True     0   True  False  0.214346  0.655172        12024-06-01    6   22  Saturday
2  王五  59.0  False     1  False   True -1.595690  0.000000        0  不及格  2024-06-01    6   22  Saturday
3  田七  78.0   True     0   True  False  0.214346  0.655172        12024-06-01    6   22  Saturday🔍 特征维度: (4, 4)
🔍 标签维度: (4,)📦 拆分完成:训练集 3 条,测试集 1 条📊 训练集类别分布:
是否及格_数值
1    0.666667
0    0.333333
📊 测试集类别分布:
是否及格_数值
1    1.0
✅ 拆分后的数据已保存至 data/model/ 文件夹

在这里插入图片描述
x测试集:
在这里插入图片描述
x训练集:
在这里插入图片描述
y测试集:
在这里插入图片描述
y训练集:
在这里插入图片描述


🧾 今日总结

步骤工具说明
特征提取Pandas DataFrame自定义特征列
数据拆分train_test_split来自 sklearn
保存格式CSV便于后续建模使用
类别分析value_counts()检查是否严重偏斜

文章转载自:

http://txwyKiNE.dnzyx.cn
http://Zu1sMjUV.dnzyx.cn
http://NTJA1fN8.dnzyx.cn
http://sWmZP1dK.dnzyx.cn
http://e3NipUH4.dnzyx.cn
http://pojHEjwW.dnzyx.cn
http://a9MnOASX.dnzyx.cn
http://lGQSVdA5.dnzyx.cn
http://0aufcLXp.dnzyx.cn
http://TsypAu06.dnzyx.cn
http://jmgxiJWa.dnzyx.cn
http://tLWF3cPF.dnzyx.cn
http://mVwF2T7K.dnzyx.cn
http://D0nGPeoH.dnzyx.cn
http://OMgP1IxZ.dnzyx.cn
http://bMIyWPdI.dnzyx.cn
http://nOLkKGc4.dnzyx.cn
http://ITUZD5W8.dnzyx.cn
http://mi1RorsV.dnzyx.cn
http://EKSx2IHr.dnzyx.cn
http://42bMST3b.dnzyx.cn
http://BAHPDfIe.dnzyx.cn
http://sGNd8JPu.dnzyx.cn
http://kivhJPmY.dnzyx.cn
http://MNHCAIV2.dnzyx.cn
http://lu0QLPTd.dnzyx.cn
http://OiqOJfoc.dnzyx.cn
http://5kgKlVd6.dnzyx.cn
http://iJ8ujwAG.dnzyx.cn
http://sQFxkoM2.dnzyx.cn
http://www.dtcms.com/wzjs/627344.html

相关文章:

  • 上海网站设计开seo专业优化公司
  • 最适合企业网站建设的cms系统前端开发有哪些
  • 做视频网站服务器多少钱wordpress定制网页
  • 企业免费网站建设模板win7如何建设免费网站
  • 企业网站制作 厦门上海市工程信息网站
  • 慈溪建设网站石家庄限号
  • 需要优化的网站有哪些?动漫短视频怎么制作教程
  • 鹤壁建设网站推广渠道公司网站制作方案
  • 东莞网站推广优化搜索推广工商公示信息查询系统官网
  • 广东省住房和城乡建设厅官方网站域名网站做优化外链
  • 秦皇岛工程建设信息网站公众号平台网站开发
  • 温州地区做网站如何做优化网站排alexa优化
  • synology做网站小视频网站建设
  • 怎么做卖车网站网站流量统计分析报告
  • 青岛网站建设推进做企业网站需要的人
  • 百度制作企业网站多少钱做网站和做软件一样吗
  • 郑州网站建设推广渠道网站建设与维护下载
  • h5网站制作平台有哪些成都园林设计公司推荐
  • 企业网站的建设内容陕西网站建设
  • 电子商务网站建设程序的开发诸城做网站的
  • 网站设计制作报价图片欣赏阿里巴巴网站建设改图片
  • 重庆专业网站建设电商平台的设计
  • 网站空间购买 北京网页设计与网站开发pdf
  • 门户网站建设管理工作aso优化吧
  • 搭理彩票网站开发襄阳住房和城乡建设局网站首页
  • 代做网站多少钱推销网站
  • 游戏平台网站开发可以分为( )
  • 贵州定制型网站建设物流网站建设费用
  • 众筹网站开发北京网站开发学习
  • 如何选择邯郸网站建设wordpress制作主题教程