机器学习(1) 监督学习和无监督学习
一、监督学习(Supervised Learning)
1. 定义(Definition)
监督学习(Supervised Learning) 是一种机器学习方法,
其中模型从带有标签(labelled data)的数据中学习输入与输出之间的映射关系。
公式表示:
x→y
目标是学习一个函数 f(x) ≈ y,
使得当给定新的输入 x′ 时,模型能预测出对应的输出 y′。
在监督学习中:
输入(Input):特征(features),通常用 x 表示
输出(Output):目标值或标签(target/label),用 y 表示
目标(Goal):通过训练数据学得一个映射函数 f(x)
2. 主要任务类型(Main Task Types)
(1)回归(Regression)
定义:
当输出变量 y 是连续值(continuous value)时,这类问题称为回归问题。
任务目标:
学习一个映射函数 f(x),使得输入 x 能预测出连续的数值结果。
常见例子(Examples):
预测房价(Predicting house prices)
预测气温(Forecasting temperature)
股票价格预测(Stock price prediction)
常见算法(Common Algorithms):
线性回归(Linear Regression)
多项式回归(Polynomial Regression)
支持向量回归(SVR, Support Vector Regression)
决策树回归(Decision Tree Regression)
随机森林回归(Random Forest Regression)
(2)分类(Classification)
定义:
当输出变量 y 是离散的类别(discrete categories)时,这类问题称为分类问题。
任务目标:
学习一个映射函数 f(x),预测样本属于哪个类别(class),结果是固定的几类。
常见例子(Examples):
肿瘤诊断(Tumor classification: benign or malignant)
垃圾邮件识别(Spam email detection)
图像识别(Image recognition: cat/dog)
情感分析(Sentiment analysis: positive/negative)
分类类型(Types of Classification):
二分类(Binary Classification):输出只有两种类别,例如“是否患病”。
多分类(Multi-class Classification):输出有三种或更多类别,例如“预测动物种类”。
常见算法(Common Algorithms):
逻辑回归(Logistic Regression)
K近邻算法(K-Nearest Neighbors, KNN)
决策树(Decision Tree)
随机森林(Random Forest)
支持向量机(Support Vector Machine, SVM)
神经网络(Neural Networks)
3. 监督学习的关键要素(Key Elements of Supervised Learning)
英文 | 中文 | 说明 |
---|---|---|
Training Data | 训练数据 | 已知输入和输出的数据,用于训练模型 |
Label (Target) | 标签(目标值) | 训练集中每个样本对应的正确答案 |
Model | 模型 | 学习输入与输出映射关系的函数 |
Loss Function | 损失函数 | 衡量预测值与真实值之间差距的函数 |
Optimization | 优化 | 通过调整模型参数最小化损失函数的过程 |
4. 小结(Summary)
类别 | 输出类型 | 典型任务 | 常见算法 |
---|---|---|---|
回归(Regression) | 连续值 | 房价预测、温度预测 | 线性回归、SVR、随机森林回归 |
分类(Classification) | 离散类别 | 肿瘤良恶性预测、图像识别 | 逻辑回归、KNN、SVM、神经网络 |
二、无监督学习(Unsupervised Learning)
1. 定义(Definition)
无监督学习(Unsupervised Learning) 是一种没有标签(unlabeled data)的机器学习方法。
模型只给定输入数据 xxx,而没有对应的输出 yyy,
目标是让模型自动发现数据中的结构、模式或关系(patterns and structures)。
公式表示:
仅输入 xxx,没有 yyy:
核心思想:
让算法“自己找规律”,而不是我们告诉它正确答案。
2. 无监督学习的常见任务类型(Main Types of Unsupervised Learning)
(1)聚类(Clustering)
定义:
聚类是指根据数据之间的相似性(similarity)将样本自动分组(clustered into groups)。
算法会把相似的数据点放在同一个簇(cluster)中,而把差异较大的数据放在不同簇里。
关键点:
不需要标签数据(no labels)
模型自动分组(auto grouping)
输出每个样本所属的簇编号(cluster ID)
常见算法(Common Algorithms):
K均值聚类(K-Means Clustering)
层次聚类(Hierarchical Clustering)
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
高斯混合模型(Gaussian Mixture Model, GMM)
常见例子(Examples):
谷歌新闻(Google News):根据新闻中出现的关键词自动分组相似新闻
DNA分类:根据基因特征自动将个体划分为不同人群类型
客户分群(Customer Segmentation):根据购买习惯自动划分用户群体
(2)异常检测(Anomaly Detection)
定义:
异常检测用于识别数据中**不符合常规模式(outliers or rare patterns)**的样本。
这类方法在训练时没有明确标签,只是根据数据分布发现“看起来不正常”的数据点。
常见算法(Common Algorithms):
高斯分布建模(Gaussian Model)
局部异常因子(Local Outlier Factor, LOF)
Isolation Forest(孤立森林)
One-Class SVM(单类支持向量机)
常见例子(Examples):
信用卡欺诈检测(Credit card fraud detection)
工业设备异常监测(Detecting machine failures)
网络入侵检测(Network intrusion detection)
(3)降维(Dimensionality Reduction)
定义:
降维是将高维数据集(high-dimensional data)转换为低维表示(low-dimensional representation),
同时尽量保留重要信息(preserve important information)。
作用:
数据可视化(Data visualization)
降噪(Noise reduction)
加快模型训练速度(Speed up training)
避免“维度灾难(curse of dimensionality)”
常见算法(Common Algorithms):
主成分分析(PCA, Principal Component Analysis)
线性判别分析(LDA, Linear Discriminant Analysis)
t-SNE(t-distributed Stochastic Neighbor Embedding)
自编码器(Autoencoder)
常见例子(Examples):
压缩高维神经网络输入特征
在二维或三维图上可视化高维数据
从成千上万个基因中提取最主要特征用于分析
3. 无监督学习的特点(Characteristics)
特点 | 说明 |
---|---|
无标签数据(Unlabeled Data) | 模型只依赖输入特征,无需已知答案 |
目标是发现结构(Discover Patterns) | 寻找潜在的群组、模式或异常点 |
通常是探索性分析(Exploratory Analysis) | 用于理解数据的内部结构 |
结果可能需要人工解释(Need Human Interpretation) | 因为没有“正确答案”,结果常需要人为判断意义 |
4. 小结(Summary)
类型 | 英文名称 | 主要目标 | 示例 |
---|---|---|---|
聚类 | Clustering | 将数据自动分组 | 新闻分组、客户分群 |
异常检测 | Anomaly Detection | 发现不正常的数据点 | 欺诈检测、入侵检测 |
降维 | Dimensionality Reduction | 压缩高维数据,保留主要特征 | PCA数据可视化 |