当前位置: 首页 > news >正文

机器学习(1) 监督学习和无监督学习

一、监督学习(Supervised Learning)

1. 定义(Definition)

监督学习(Supervised Learning) 是一种机器学习方法,
其中模型从带有标签(labelled data)的数据中学习输入与输出之间的映射关系。

公式表示:
x→y
目标是学习一个函数 f(x) ≈ y,
使得当给定新的输入 x′ 时,模型能预测出对应的输出 y′。

在监督学习中:

  • 输入(Input):特征(features),通常用 x 表示

  • 输出(Output):目标值或标签(target/label),用 y 表示

  • 目标(Goal):通过训练数据学得一个映射函数 f(x)

2. 主要任务类型(Main Task Types)

(1)回归(Regression)

定义:
当输出变量 y 是连续值(continuous value)时,这类问题称为回归问题

任务目标:
学习一个映射函数 f(x),使得输入 x 能预测出连续的数值结果。

常见例子(Examples):

  • 预测房价(Predicting house prices)

  • 预测气温(Forecasting temperature)

  • 股票价格预测(Stock price prediction)

常见算法(Common Algorithms):

  • 线性回归(Linear Regression)

  • 多项式回归(Polynomial Regression)

  • 支持向量回归(SVR, Support Vector Regression)

  • 决策树回归(Decision Tree Regression)

  • 随机森林回归(Random Forest Regression)

(2)分类(Classification)

定义:
当输出变量 y 是离散的类别(discrete categories)时,这类问题称为分类问题

任务目标:
学习一个映射函数 f(x),预测样本属于哪个类别(class),结果是固定的几类。

常见例子(Examples):

  • 肿瘤诊断(Tumor classification: benign or malignant)

  • 垃圾邮件识别(Spam email detection)

  • 图像识别(Image recognition: cat/dog)

  • 情感分析(Sentiment analysis: positive/negative)

分类类型(Types of Classification):

  • 二分类(Binary Classification):输出只有两种类别,例如“是否患病”。

  • 多分类(Multi-class Classification):输出有三种或更多类别,例如“预测动物种类”。

常见算法(Common Algorithms):

  • 逻辑回归(Logistic Regression)

  • K近邻算法(K-Nearest Neighbors, KNN)

  • 决策树(Decision Tree)

  • 随机森林(Random Forest)

  • 支持向量机(Support Vector Machine, SVM)

  • 神经网络(Neural Networks)

3. 监督学习的关键要素(Key Elements of Supervised Learning)

英文中文说明
Training Data训练数据已知输入和输出的数据,用于训练模型
Label (Target)标签(目标值)训练集中每个样本对应的正确答案
Model模型学习输入与输出映射关系的函数
Loss Function损失函数衡量预测值与真实值之间差距的函数
Optimization优化通过调整模型参数最小化损失函数的过程

4. 小结(Summary)

类别输出类型典型任务常见算法
回归(Regression)连续值房价预测、温度预测线性回归、SVR、随机森林回归
分类(Classification)离散类别肿瘤良恶性预测、图像识别逻辑回归、KNN、SVM、神经网络

二、无监督学习(Unsupervised Learning)

1. 定义(Definition)

        无监督学习(Unsupervised Learning) 是一种没有标签(unlabeled data)的机器学习方法。
模型只给定输入数据 xxx,而没有对应的输出 yyy,
目标是让模型
自动发现数据中的结构、模式或关系(patterns and structures)

公式表示:
仅输入 xxx,没有 yyy:

核心思想:
让算法“自己找规律”,而不是我们告诉它正确答案。

2. 无监督学习的常见任务类型(Main Types of Unsupervised Learning)

(1)聚类(Clustering)

定义:
聚类是指根据数据之间的相似性(similarity)将样本自动分组(clustered into groups)。
算法会把相似的数据点放在同一个簇(cluster)中,而把差异较大的数据放在不同簇里。

关键点:

  • 不需要标签数据(no labels)

  • 模型自动分组(auto grouping)

  • 输出每个样本所属的簇编号(cluster ID)

常见算法(Common Algorithms):

  • K均值聚类(K-Means Clustering)

  • 层次聚类(Hierarchical Clustering)

  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

  • 高斯混合模型(Gaussian Mixture Model, GMM)

常见例子(Examples):

  • 谷歌新闻(Google News):根据新闻中出现的关键词自动分组相似新闻

  • DNA分类:根据基因特征自动将个体划分为不同人群类型

  • 客户分群(Customer Segmentation):根据购买习惯自动划分用户群体

(2)异常检测(Anomaly Detection)

定义:
异常检测用于识别数据中**不符合常规模式(outliers or rare patterns)**的样本。
这类方法在训练时没有明确标签,只是根据数据分布发现“看起来不正常”的数据点。

常见算法(Common Algorithms):

  • 高斯分布建模(Gaussian Model)

  • 局部异常因子(Local Outlier Factor, LOF)

  • Isolation Forest(孤立森林)

  • One-Class SVM(单类支持向量机)

常见例子(Examples):

  • 信用卡欺诈检测(Credit card fraud detection)

  • 工业设备异常监测(Detecting machine failures)

  • 网络入侵检测(Network intrusion detection)

(3)降维(Dimensionality Reduction)

定义:
降维是将高维数据集(high-dimensional data)转换为低维表示(low-dimensional representation),
同时尽量保留重要信息(preserve important information)

作用:

  • 数据可视化(Data visualization)

  • 降噪(Noise reduction)

  • 加快模型训练速度(Speed up training)

  • 避免“维度灾难(curse of dimensionality)”

常见算法(Common Algorithms):

  • 主成分分析(PCA, Principal Component Analysis)

  • 线性判别分析(LDA, Linear Discriminant Analysis)

  • t-SNE(t-distributed Stochastic Neighbor Embedding)

  • 自编码器(Autoencoder)

常见例子(Examples):

  • 压缩高维神经网络输入特征

  • 在二维或三维图上可视化高维数据

  • 从成千上万个基因中提取最主要特征用于分析

3. 无监督学习的特点(Characteristics)

特点说明
无标签数据(Unlabeled Data)模型只依赖输入特征,无需已知答案
目标是发现结构(Discover Patterns)寻找潜在的群组、模式或异常点
通常是探索性分析(Exploratory Analysis)用于理解数据的内部结构
结果可能需要人工解释(Need Human Interpretation)因为没有“正确答案”,结果常需要人为判断意义

4. 小结(Summary)

类型英文名称主要目标示例
聚类Clustering将数据自动分组新闻分组、客户分群
异常检测Anomaly Detection发现不正常的数据点欺诈检测、入侵检测
降维Dimensionality Reduction压缩高维数据,保留主要特征PCA数据可视化
http://www.dtcms.com/a/495811.html

相关文章:

  • 问卷调查网站赚钱设计与网站建设案例
  • 杭州建设网站官网企业邮箱在哪里看
  • 如何选择做pc端网站备份wordpress数据库
  • CMake 编译中去掉警告/W3重写 cl: 命令行 warning D9025 :正在重写“/W3”(用“/w”)“
  • 工业上位机,用Python+Qt还是C#+WPF?​
  • 表白网站想学软件开发报什么专业
  • 网站未续费到期后打开会怎样好看的模板
  • TC3xx芯片】TC3xx芯片的SCU之WDT
  • 【OpenHarmony】医疗传感器模块架构
  • 「日拱一码」119 CP2K
  • 台阶仪在表面计量学的应用:基于表面纹理最大高度S±3σ的表征研究
  • 大型企业应该如何选择RPA?
  • 杭州哪里做网站好建设网站公司哪儿济南兴田德润有活动吗
  • 引流人脉推广软件莆田seo外包公司
  • SeC - 视频对象分割/AI抠像/视频绿幕抠像/视频一键换背景 支持50系显卡 一键整合包下载
  • 【ROS2】gdb、coredump 调试ROS2程序
  • h5页面生成青岛网站seo公司
  • PRNet:原始信息即全部所需
  • 【文档】部署 MySQL-Exporter
  • 南宁网站seo服务绛帐做网站
  • 10.17 枚举中间|图论
  • if条件语句 三目运算符 汇编分析
  • LeetCode 401 - 二进制手表
  • 【Leetcodenowcode数据结构】顺序表的应用
  • 软考高项论文考试攻略2:从备考到写作的专业指南
  • vue2和vue3函数式调用组件学习记录
  • 廊坊市固安县建设局网站中小企业网络设计论文
  • 3D打印技术在金属材料上的应用现状
  • 网站数据库丢失注册公司网站需要什么资料
  • 重生之我在大学自学鸿蒙开发第九天-《分布式流转》