机器学习中的分类和回归问题
1. 分类问题
机器学习中的分类问题是一种监督学习任务,其核心目标是将数据样本分配到预定义的离散类别中,例如判断邮件是否为垃圾邮件、识别图像中的物体类型等。
- 分类通过已知标签的训练数据(如带类别标注的样本)学习特征与类别之间的映射关系,形成分类模型(分类器)。新数据输入时,模型根据其特征预测其所属类别
- 分类需要标签数据作为“正确答案”指导模型训练,与无监督学习的聚类(无标签数据分组)形成对比
1.1. 输出形式
- 离散类别标签:例如二分类中的“是/否”(垃圾邮件检测),多分类中的“猫/狗/鸟”(图像识别)
- 概率输出:部分算法(如逻辑回归)还会输出样本属于某类的概率(如“垃圾邮件概率为90%”)
1.2. 应用场景与分类类型
- 金融:信用评分(预测用户是否违约)、欺诈检测
- 医疗:疾病诊断(根据症状分类疾病类型)
- 自然语言处理:情感分析(文本分为正面/负面/中性)、新闻主题分类
- 计算机视觉:人脸识别、手写数字分类(如MNIST数据集)
1.3. 分类任务类型
类型 | 描述 | 示例 |
---|---|---|
二分类 | 仅区分两个类别 | 垃圾邮件 vs 正常邮件 |
多分类 | 区分三个及以上互斥类别 | 手写数字0-9识别 |
多标签分类 | 单个样本可同时属于多个类别 | 一篇新闻同时属于“科技”和“政治” |
序数分类 | 类别具有顺序关系(如评级A/B/C/D) | 学生成绩分级 |
1.4. 关键算法与模型
- 传统算法:逻辑回归(概率映射)、决策树(特征分割规则)、支持向量机(最大化分类间隔)等
- 集成方法:随机森林(多决策树投票)、梯度提升树(GBDT/XGBoost)
- 深度学习:神经网络(如卷积神经网络用于图像分类)
1.5. 评估指标
- 准确率(Accuracy):正确预测样本占总样本的比例,适用于类别均衡的数据
- 精确率(Precision)与召回率(Recall):关注模型在特定类别上的性能(如疾病诊断需高召回率减少漏诊)
- F1分数:精确率与召回率的调和平均,综合衡量模型表现
- ROC-AUC曲线:评估模型在不同阈值下的分类能力,适用于二分类
2. 回归问题
回归问题是机器学习中一种监督学习任务,其核心目标是预测连续的数值输出,而非离散的类别标签。例如,预测房价、气温、销售额等连续值。其名称源于统计学中的“回归效应”,由高尔顿在研究父母与子女身高关系时提出,描述数据向平均值靠近的趋势,后被扩展为预测连续值的统称。
- 核心目标:建立特征与目标值之间的数学关系(如线性方程、多项式函数等),最小化预测值与真实值之间的误差。
2.1. 典型应用场景
- 金融领域:股票价格预测、风险评估(如预测企业违约概率)
- 医疗领域:疾病风险评分(如糖尿病患病概率)、药物剂量疗效预测
- 工业制造:设备故障时间预测、产品质量控制(如预测零件尺寸误差)
- 交通与能源:交通流量预测、电力需求分析
2.3. 输入与输出
- 输入:一组特征(数值型或可数值化的数据),如房屋面积、年龄、历史股价等
- 输出:连续值(如房价为325.6万元、气温为28.5℃等)。
2.4. 关键算法
- 线性回归:通过拟合直线(或超平面)建立线性关系
- 支持向量回归(SVR):利用核函数处理非线性数据,最大化误差容忍范围内的预测稳定性
- 神经网络回归:通过多层非线性变换拟合复杂函数关系
- 随机森林回归:集成多棵决策树的预测结果以降低方差
2.5. 关键评估指标
- 均方误差(MSE):预测值与真实值的平均平方差,对异常值敏感。
- 平均绝对误差(MAE):误差绝对值的平均,更鲁棒但忽略误差方向。
- R²分数:解释模型对数据变异的拟合程度,取值0~1,越接近1越好。
- 均方根误差(RMSE):MSE的平方根,与目标值单位一致,直观反映误差大小。
3. 分类和回归问题对比
维度 | 回归问题 | 分类问题 |
---|---|---|
输出类型 | 连续数值(如温度、价格) | 离散类别标签(如“是/否”) |
评估指标 | 均方误差(MSE)、R²分数 | 准确率、F1分数、ROC-AUC |
损失函数 | 均方误差(MSE) | 交叉熵(Cross-Entropy) |
应用场景 | 预测具体数值(如股票价格) | 判断类别归属(如垃圾邮件识别) |
注:此文为AI生成后编辑。