当前位置: 首页 > wzjs >正文

html5网站演示太原百度快速优化

html5网站演示,太原百度快速优化,app开发企业在选择上一般优先开发,怎么看一家网站是谁做的✅ 今日目标 理解特征工程在数据分析和机器学习中的意义掌握常见特征类型的处理方式:数值型、类别型、时间型学习特征提取、转换、标准化、独热编码(One-Hot Encoding)等核心操作为后续建模任务做好特征准备工作 📚 一、什么是特…

✅ 今日目标

  • 理解特征工程在数据分析和机器学习中的意义
  • 掌握常见特征类型的处理方式:数值型、类别型、时间型
  • 学习特征提取、转换、标准化、独热编码(One-Hot Encoding)等核心操作
  • 为后续建模任务做好特征准备工作

📚 一、什么是特征工程?

特征工程是将原始数据转换为模型可学习的“特征向量”的过程,是机器学习效果好坏的核心因素之一。

常见任务包括:

  • 缺失值处理(已学)
  • 异常值处理(已学)
  • 数值归一化、标准化
  • 类别变量编码(如性别)
  • 日期拆解(年月日、周几等)
  • 派生变量(如是否及格、高分标签)

📘 二、类别变量编码(以“性别”为例)

1. Label Encoding(标签编码)

from sklearn.preprocessing import LabelEncoderdf = pd.read_csv("data/students_cleaned.csv")
le = LabelEncoder()
df["性别编码"] = le.fit_transform(df["性别"])
print(df[["性别", "性别编码"]].drop_duplicates())

⚠️ 只适用于有序类别;对无序分类不推荐(会引入数值大小误导)


2. One-Hot Encoding(独热编码)

df_onehot = pd.get_dummies(df, columns=["性别"])
print(df_onehot.head())

📘 三、数值特征转换

1. 标准化(Standardization)

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
df["成绩标准化"] = scaler.fit_transform(df[["成绩"]])

2. 归一化(MinMax)

from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()
df["成绩归一化"] = scaler.fit_transform(df[["成绩"]])

📘 四、派生特征举例

# 是否及格(True/False → 1/0)
df["是否及格"] = df["成绩"] >= 60
df["是否及格数值"] = df["是否及格"].astype(int)# 成绩分段
df["成绩等级"] = pd.cut(df["成绩"], bins=[0, 60, 80, 100], labels=["不及格", "良", "优"])

📘 五、时间特征提取(如加入考试时间)

df["考试时间"] = pd.to_datetime("2024-06-01")
df["考试月"] = df["考试时间"].dt.month
df["考试周"] = df["考试时间"].dt.isocalendar().week
df["考试星期"] = df["考试时间"].dt.day_name()

🧪 今日练习建议(可生成脚本:feature_engineering.py

  1. 对性别进行标签编码和 One-Hot 编码

  2. 对成绩做归一化和标准化

  3. 派生字段:“是否及格数值”、“成绩等级”

  4. 添加时间字段并提取月、周、星期等信息

  5. 查看不同特征对模型潜在价值的分析(可选)

    代码示例:

    import pandas as pd
    import numpy as np
    from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler
    import os# 加载数据
    data_path = "data/students_cleaned.csv"
    if not os.path.exists(data_path):raise FileNotFoundError("❌ 缺少数据文件:students_cleaned.csv,请先运行清洗脚本")df = pd.read_csv(data_path)
    print("✅ 原始数据预览:")
    print(df)# ================== 一、类别编码 ==================print("\n🔢 LabelEncoder 编码 '性别':")
    le = LabelEncoder()
    df["性别编码"] = le.fit_transform(df["性别"])
    print(df[["性别", "性别编码"]].drop_duplicates())print("\n🧊 One-Hot 编码 '性别':")
    df = pd.get_dummies(df, columns=["性别"])
    print(df)# ================== 二、数值特征转换 ==================print("\n📐 标准化成绩(StandardScaler):")
    scaler_std = StandardScaler()
    df["成绩_标准化"] = scaler_std.fit_transform(df[["成绩"]])print("\n📏 归一化成绩(MinMaxScaler):")
    scaler_minmax = MinMaxScaler()
    df["成绩_归一化"] = scaler_minmax.fit_transform(df[["成绩"]])# ================== 三、派生特征 ==================print("\n✅ 添加是否及格字段(布尔 + 数值):")
    df["是否及格"] = df["成绩"] >= 60
    df["是否及格_数值"] = df["是否及格"].astype(int)print("\n🎯 成绩等级分段:")
    df["成绩等级"] = pd.cut(df["成绩"], bins=[0, 60, 80, 100], labels=["不及格", "良", "优"])# ================== 四、时间特征处理 ==================print("\n🗓️ 添加考试时间字段:")
    df["考试时间"] = pd.to_datetime("2024-06-01")
    df["考试月"] = df["考试时间"].dt.month
    df["考试周"] = df["考试时间"].dt.isocalendar().week
    df["考试星期"] = df["考试时间"].dt.day_name()# ================== 五、保存结果 ==================os.makedirs("data/processed", exist_ok=True)
    output_path = "data/processed/students_featured.csv"
    df.to_csv(output_path, index=False)print(f"\n✅ 特征工程完成,已保存至:{output_path}")
    

    运行结果:

    ✅ 原始数据预览:姓名 性别    成绩   是否及格
    0  张三  男  88.0   True
    1  李四  女  78.0   True
    2  王五  男  59.0  False
    3  田七  女  78.0  False🔢 LabelEncoder 编码 '性别':性别  性别编码
    01
    10🧊 One-Hot 编码 '性别':姓名    成绩   是否及格  性别编码   性别_女   性别_男
    0  张三  88.0   True     1  False   True
    1  李四  78.0   True     0   True  False
    2  王五  59.0  False     1  False   True
    3  田七  78.0  False     0   True  False📐 标准化成绩(StandardScaler):📏 归一化成绩(MinMaxScaler):✅ 添加是否及格字段(布尔 + 数值):🎯 成绩等级分段:🗓️ 添加考试时间字段:✅ 特征工程完成,已保存至:data/processed/students_featured.csv
    

    students_featured.csv数据如图所示:
    在这里插入图片描述


🧾 今日总结

特征类型操作建议
数值型标准化 / 归一化 / 分段
类别型Label / OneHot 编码
时间型拆分年月日、周几、节假日等
衍生型等级、标签、数值映射

特征工程是数据科学的核心内容之一,好的特征往往胜过复杂模型。

http://www.dtcms.com/wzjs/378476.html

相关文章:

  • 平顶山做网站优化北京网站制作设计
  • 做h5小程序的网站乐陵seo外包
  • 系统优化助手优化网站的方法有哪些
  • 如何做旅游计划的网站可以搜索国外网站的搜索引擎
  • 汽车网站建设毕业论文百度指数批量获取
  • 深圳网站建设网站制作营销型网站方案
  • 本地wordpress 上传网络营销乐云seo
  • 喀什网站建设百度投诉中心24人工客服电话
  • 崇安网站建设免费网站建设模板
  • 网站建设管理 自查 报告公司要做seo
  • 做电力 公司网站厦门人才网官网招聘
  • 网站哪个公司做seo模板建站
  • 百度推广在哪里seo推广排名
  • 旅游网--个人网站建设 论文福州百度网站排名优化
  • 网站如何做会员通用关键词搜索次数查询
  • 在印度做外贸需要什么网站电商网络推广是什么
  • 营销策划与运营团队河北seo推广方案
  • 网站建设有什么方法连接数据库企业网站seo优化
  • 建设党建工作网站策划网络营销成功案例3篇
  • 网站为什么不被收录佛山百度快照优化排名
  • 做导航网站怎么盈利国内十大搜索引擎网站
  • wordpress ua标识安卓网站推广优化怎样
  • 网站的seo优化报告百度优化seo
  • 义乌北苑编程网站开发公司微信公众号平台官网
  • 做网站好还是做app好房地产最新消息
  • 嘉兴在线 官网商品标题seo是什么意思
  • 网站点击量作用如何在百度搜索排名靠前
  • 网站产品说明书模板网站首页制作
  • 上海建筑设计公司都有哪些郑州seo询搜点网络效果佳
  • 提高网站的权重的最佳方法企业推广策划书