当前位置: 首页 > news >正文

回归、分类、聚类

我们来仔细拆解一下机器学习中最常见的三个任务:回归(Regression)分类(Classification) 和 聚类(Clustering)

简单来说,它们的核心区别在于目标变量(你想预测或发现的东西)的类型


1. 回归 (Regression)

核心目标:预测一个连续的数值。

你可以把它理解为 **“预测具体是多少”** 的问题。

  • 目标变量类型: 连续型变量(例如:价格、温度、销售额、时间)。
  • 学习方式: 监督学习(需要带有真实标签的训练数据)。
  • 常见算法:
    • 线性回归 (Linear Regression):最基础、最经典的回归算法,假设特征与目标变量之间存在线性关系。
    • 多项式回归 (Polynomial Regression):当线性关系不足以拟合数据时,使用多项式来捕捉更复杂的曲线关系。
    • 决策树回归 (Decision Tree Regression)
    • 随机森林回归 (Random Forest Regression):一种集成方法,由多个决策树组成,效果通常更好且不易过拟合。
    • 梯度提升回归 (Gradient Boosting Regression, e.g., XGBoost, LightGBM):另一种强大的集成方法,在许多竞赛和工业界场景中表现优异。
  • 评估指标:
    • 均方误差 (Mean Squared Error, MSE)
    • 均方根误差 (Root Mean Squared Error, RMSE):与 MSE 类似,但单位与原始数据一致,更具解释性。
    • 平均绝对误差 (Mean Absolute Error, MAE)
  • 应用场景举例:
    • 预测未来的房价
    • 根据广告投入预测产品销量
    • 预测股票的价格走势
    • 估计一个人的年龄

2. 分类 (Classification)

核心目标:预测一个离散的类别或标签。

你可以把它理解为 **“预测属于哪一类”** 的问题。

  • 目标变量类型: 离散型变量(例如:类别 A / 类别 B、垃圾邮件 / 非垃圾邮件、患病 / 健康)。
  • 学习方式: 监督学习(需要带有真实类别标签的训练数据)。
  • 常见算法:
    • 逻辑回归 (Logistic Regression):虽然名字里有 “回归”,但它是一个非常常用的分类算法,尤其适合二分类。
    • 支持向量机 (Support Vector Machine, SVM)
    • 决策树分类 (Decision Tree Classification)
    • 随机森林分类 (Random Forest Classification)
    • K 近邻 (K-Nearest Neighbors, KNN)
    • 神经网络 (Neural Networks):在图像识别、自然语言处理等复杂分类任务中表现卓越。
  • 评估指标:
    • 准确率 (Accuracy):预测正确的样本数占总样本数的比例。
    • 精确率 (Precision) 与 召回率 (Recall):尤其在类别不平衡时(如罕见疾病诊断)非常重要。
    • F1 分数 (F1-Score):精确率和召回率的综合指标。
    • 混淆矩阵 (Confusion Matrix):直观地展示模型在各类别上的预测对错情况。
  • 应用场景举例:
    • 垃圾邮件识别:预测一封邮件是 “垃圾邮件” 还是 “正常邮件”。
    • 图像识别:预测图片中的物体是 “猫” 还是 “狗”。
    • 疾病诊断:根据症状预测病人是否患有某种疾病。
    • 情感分析:分析一段文本的情感是 “积极”、“消极” 还是 “中性”。

3. 聚类 (Clustering)

核心目标:发现数据中自然存在的分组或结构。

你可以把它理解为 **“物以类聚,人以群分”**,让算法自动找出数据中的 “同类项”。

  • 目标变量类型: 无(没有预设的目标变量或标签)。
  • 学习方式: 无监督学习(只需要原始数据,不需要人工标注的标签)。
  • 常见算法:
    • K - 均值聚类 (K-Means Clustering):最常用的聚类算法。需要预先指定簇的数量 K,算法会将数据分成 K 个簇。
    • 层次聚类 (Hierarchical Clustering):不需要预先指定 K,而是构建一个聚类树( dendrogram),可以从树中选择不同层级的聚类结果。
    • 密度聚类 (Density-Based Spatial Clustering of Applications with Noise, DBSCAN):根据数据点的密度来划分簇,可以发现任意形状的簇,并且能识别出噪声点。
  • 评估指标: 相对复杂,通常基于簇内紧凑性和簇间分离度。
    • 轮廓系数 (Silhouette Coefficient)
    • Davies-Bouldin 指数
  • 应用场景举例:
    • 用户分群:在电商或互联网产品中,根据用户的行为数据(如购买历史、浏览记录)将用户分成不同的群体,以便进行精准营销。
    • 市场细分:将客户按照消费习惯、地理位置等特征进行分组。
    • 异常检测:找出与其他数据点差异很大的 “离群点”,例如信用卡欺诈交易检测。
    • 图像分割:在计算机视觉中,将图像中的像素根据颜色或纹理聚成不同的区域。

总结对比

特性回归 (Regression)分类 (Classification)聚类 (Clustering)
核心任务预测一个连续值预测一个离散类别发现数据中的自然分组
学习方式监督学习 (有标签)监督学习 (有标签)无监督学习 (无标签)
目标变量连续变量 (如价格、温度)离散变量 (如类别 A/B、0/1)
典型输出一个具体的数值一个类别标签或概率每个样本所属的簇 ID
例子预测房价、股票价格识别垃圾邮件、图像分类用户分群、市场细分
http://www.dtcms.com/a/585474.html

相关文章:

  • 【Linux网络】Socket编程TCP-实现Echo Server(上)
  • 关系型数据库-PostgreSQL
  • 英文网站定制哪家好wordpress上传主题提示要ftp
  • Vue 项目实战《尚医通》,已有医院数据的 TS 类型定义,笔记12
  • UE5 C++ 进阶学习 —— 02 - 小案例
  • Linux的waitpid函数:深入解析与应用实践
  • 历史数据分析——洛阳钼业
  • MySQL EXPLAIN 详解与优化指南
  • ADB 无线调试 APP 完全攻略(2025 最新版)—— 从连接到查看日志,一文搞定!
  • 商家入驻网站建设免费网站怎么做
  • C语言数据结构之堆
  • VIVO算法/大模型面试题及参考答案
  • 临海网站制作好了如何上线网站开发的要求
  • KingbaseES:从MySQL兼容到权限隔离与安全增强的跨越
  • 网站改版竞品分析怎么做可以先做网站再开公司吗
  • Go语言基础:语言特性、语法基础与数据类型
  • 解决 PyQt5 中 sipPyTypeDict() 弃用警告的完整指南
  • 内网门户网站建设要求西安摩高网站建设
  • github访问响应时间过长解决
  • Spring AoP的切点匹配
  • Cookie 与 Session 全解析:从属性原理到核心逻辑,吃透 Web 状态保持
  • STM32HAL库-F1内部Flash读写操作(官网驱动)
  • 辛集建设网站网络营销推广渠道
  • 外国排版网站企业名录2019企业黄页
  • 微信小程序开发实战:图片转 Base64 全解析
  • 秒杀-订单创建消费者CreateOrderConsumer
  • 单层前馈神经网络的万能逼近定理
  • C# 如何捕获键盘按钮和组合键以及KeyPress/KeyDown/KeyUp事件之间的区别
  • Windows系统不关闭防火墙,允许某个端口的访问怎么设置?
  • UniApp 多个异步开关控制教程