2025年7月8日学习笔记——模式识别与机器学习绪论
2025年7月8日学习笔记——模式识别与机器学习绪论
- 一.监督模式识别和非监督模式识别
- 1.监督模式识别
- 2.非监督模式识别
- 二.模式识别系统举例
- 1.语音识别
- 三.模式识别系统的典型构成
- 处理监督模式识别问题的一般步骤:
- **处理非监督模式识别问题的一般步骤**
- **1. 分析问题**
- **2. 原始特征获取**
- **3. 特征提取与选择**
- **4. 聚类分析**
- **5. 结果解释**
- **流程对比(监督 vs 非监督)**
- **关键区别**
一.监督模式识别和非监督模式识别
1.监督模式识别
已知要划分的类别,并且能够获得一定数量的类别已知的的训练样本,这种情况下建立的分类器的问题,属于监督学习的问题。
2.非监督模式识别
1.非监督模式识别(聚类):
(1)根据样本特征将样本聚成几个类,使同一个类的样本在一定意义上是相似的——得到的类别也是聚类
(2)发现数据中存在的线性或非线性的结构关系(例如高维数据中存在的某种低维结构,或者能够体现数据间某种内在关系的低维表示。
(1)事先不知道要划分的是什么类别
(2)没有已知的样本用作训练
(3)不知道有多少类别
满足以上任意一条都是非监督模式识别
二.模式识别系统举例
1.语音识别
1.(1)语音通过信号采集进入计算机,成为数字化的时间序列信号。
(2)预处理原始语音信号——按照一定的时窗分割成一些小的片段,将连续的语音分成相对孤立的音素,以这样的音素作为识别的基本单位。
(3)音素经过信号处理后,提取特征向量。
2.最经典分类器:隐马尔可夫模型
一段自然的语音是由一系列连续的因素构成的,而不是一个个相互独立的因素。在语音识别系统中并不是对每一个因素样本进行分类,而是用一个更高一层的马尔可夫模型把相邻的音素联合起来。
三.模式识别系统的典型构成
一个模式识别系统通常包括原始数据的获取和预处理、特征提取与选择、分类或者聚类、后处理四个主要部分。
处理监督模式识别问题的一般步骤:
-
分析问题
- 深入研究应用领域的问题
- 分析是否属于模式识别问题
- 将研究目标表示为特定类别
- 分析给定/可观测数据中与分类相关的因素
-
原始特征获取
- 设计实验获取已知样本
- 对样本进行观测和预处理
- 获取可能与分类相关的观测向量(原始特征)
-
特征提取与选择
- 采用算法对特征进行再提取和选择
- 优化特征表示以提升分类效果
-
分类器设计
- 选择合适的分类器方法
- 使用已知样本训练分类器
-
分类决策
- 评估分类器性能
- 对未知样本实施相同处理流程:
- 观测 → 预处理 → 特征提取与选择
- 使用训练好的分类器进行分类
- 必要时结合领域知识进行后处理
以下是按照顺序提取的两张图片中的完整文字内容,并进行了结构化整理:
处理非监督模式识别问题的一般步骤
1. 分析问题
- 深入研究应用领域的问题
- 分析研究目标能否通过寻找适当的聚类实现
- 如果可能,猜测可能的或希望的类别数目
- 分析给定数据或可观测数据中哪些因素可能与聚类有关
2. 原始特征获取
- 设计实验,得到待分析的样本
- 对样本实施观测和预处理
- 获取可能与样本聚类有关的观测向量(原始特征)
3. 特征提取与选择
- 采用算法对特征进行再次提取和选择
- 优化特征以提升聚类效果
4. 聚类分析
- 选择合适的非监督模式识别方法(如K-means、层次聚类等)
- 用样本进行聚类分析
5. 结果解释
- 评估聚类性能(如轮廓系数、肘部法则)
- 分析聚类结果与研究目标的关系
- 结合领域知识验证合理性
- 对新样本应用聚类结果进行分类
流程对比(监督 vs 非监督)
步骤 | 监督模式识别 | 非监督模式识别 |
---|---|---|
问题分析 | 明确定义类别标签 | 猜测可能的类别数量 |
特征处理 | 提取与分类相关的特征 | 提取与聚类相关的特征 |
核心方法 | 分类器训练(如SVM、决策树) | 聚类分析(如K-means、DBSCAN) |
结果验证 | 使用标注数据评估准确率 | 通过指标和领域知识解释合理性 |
关键区别
- 输入数据:非监督学习无需标注数据,直接探索数据内在结构
- 目标:监督学习预测已知类别,非监督学习发现未知分组
- 评估:监督学习有明确指标,非监督学习依赖解释性分析
💡 应用场景:客户细分、异常检测、基因序列分组等无标签数据场景。