当前位置：首页 > news >正文

人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等）

news 来源：原创 2025/6/28 16:24:20

1、什么是机器学习？

机器学习（Machine Learning, ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。

基本思想：
通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。

基本概念：

模型：模型是对现实世界现象的一种抽象表示，用于描述输入数据和输出结果之间的关系。
训练：使用特定算法调整模型参数的过程，目的是最小化模型在给定数据集上的误差。
特征：输入到模型中的变量，这些变量被认为是影响最终输出的重要因素。
标签：对于监督学习任务，每个训练样本都关联有一个目标值或标签，它是模型试图预测的内容。

与传统编程的区别：

传统编程：输入规则 + 数据 → 输出结果（如计算器）。
机器学习：输入数据 + 结果 → 输出规则（模型），即“从数据中自动学习规则”。

2、机器学习的分类

根据学习方式的不同，机器学习主要分为以下几类。

1、监督学习（Supervised Learning）

定义：使用带有标签的数据（输入+正确答案）训练模型，模型根据这些样本来学习映射规则，使其能够预测新数据的标签。
任务类型：
- 分类（Classification）：输出离散值（如垃圾邮件检测）。
- 回归（Regression）：输出连续值（如房价预测、股票价格预测）。
典型算法：
- 线性回归、逻辑回归、支持向量机（SVM）、决策树、随机森林、神经网络等。

2、无监督学习（Unsupervised Learning）

定义：仅提供输入数据而不提供对应的输出标签，模型需自行发现数据内部结构或分布规律。
任务类型：
- 聚类（Clustering）：将数据划分为相似群体（如客户细分）。
- 降维（Dimensionality Reduction）：压缩数据维度（如主成分分析PCA）。
- 关联规则学习：找出数据集中项目间的有趣关系，例如购物篮分析。
典型算法：
- K均值聚类、层次聚类、自编码器、生成对抗网络（GAN）、主成分分析(PCA)、独立成分分析(ICA)等。

3、半监督学习（Semi-Supervised Learning）

定义：介于监督学习和非监督学习之间，结合少量有标签数据和大量无标签数据进行训练，降低标注成本。
应用场景：当获取大量标记数据成本高昂时尤为有用，比如医学影像分析。
常见方法：自训练、协同训练等。

4、强化学习（Reinforcement Learning）

定义：通过与环境的交互试错，学习最优策略以最大化长期奖励。
核心概念：
- 智能体（Agent）：执行动作的主体。
- 奖励（Reward）：环境反馈的即时收益。
- 策略（Policy）：动作选择的规则。
应用示例：
- 游戏AI（如AlphaGo）、机器人路径规划、自动驾驶。
常见算法：Q-learning、Deep Q-Networks(DQN)、策略梯度方法等。

5、深度学习（Deep Learning）

定义：属于机器学习的一个子领域，使用深层神经网络自动提取数据特征。
优势：
- 无需人工设计特征（如图像的边缘、纹理）。
- 擅长处理非结构化数据（如图像、语音、文本）。
典型模型：
- 卷积神经网络（CNN）、循环神经网络（RNN）、Transformer（如GPT、BERT）。

3、机器学习的核心概念

1、数据与特征

数据：机器学习的基石，质量直接影响模型性能。
- 特征（Features）：描述数据的属性（如图像的像素值、文本的词频）。输入到模型中的变量，这些变量被认为是影响最终输出的重要因素。
- 标签（Labels）：监督学习中的目标输出（如分类结果）。对于监督学习任务，每个训练样本都关联有一个目标值或标签，它是模型试图预测的内容。
数据预处理：清洗噪声、标准化、特征工程（如PCA降维）。

2、模型与算法

模型（Model）：模型是对现实世界现象的一种抽象表示，是对数据规律的数学抽象，用于描述输入数据和输出结果之间的关系。
算法（Algorithm）：训练模型的具体方法，如梯度下降优化参数。

3、训练与评估

训练：使用特定算法调整模型参数的过程，目的是最小化模型在给定数据集上的误差。
训练过程：
1. 输入训练数据（特征+标签）。
2. 通过损失函数（如均方误差）衡量预测误差。
3. 使用优化算法（如随机梯度下降SGD）调整模型参数。
评估指标：
- 分类任务：准确率、召回率、F1值。
- 回归任务：均方误差（MSE）、R²值。

4、过拟合与欠拟合

过拟合（Overfitting）：模型在训练集表现好但测试集差（过度记忆数据噪声）。
- 解决方法：正则化（L1/L2）、交叉验证、增加数据量。
欠拟合（Underfitting）：模型无法捕捉数据规律（过于简单）。
- 解决方法：增加模型复杂度、优化特征工程。

4、机器学习主要步骤和工作流程

1、主要步骤

1、数据收集与预处理

清洗数据（去噪、处理缺失值）。
特征提取（如文本向量化、图像归一化）。
2、模型选择与训练
根据任务选择算法（如分类选随机森林，回归选线性回归）。
划分训练集/验证集/测试集（如70%训练、15%验证、15%测试）。
3、模型评估与调优
使用交叉验证避免数据偏差
调整超参数（如学习率、树深度）。
4、部署与监控
将模型集成到生产环境（如API服务）。
持续监控模型性能（如数据漂移检测）。

2、工作流程

问题定义：确定你要解决的问题类型（分类、回归、聚类等）。
数据收集：收集相关领域的数据集，确保数据质量。
数据预处理：包括清洗、转换、归一化等步骤，使数据适合模型训练。
特征工程：选择或创建有助于提高模型性能的特征。
模型选择：基于问题性质选择合适的算法。
模型训练：使用训练数据调整模型参数。
模型评估：采用交叉验证等技术评估模型表现，选择适当的评价指标（准确率、召回率、F1分数等）。
模型优化：通过超参数调优、正则化等手段改进模型性能。
部署应用：将训练好的模型集成到实际业务流程中。

5、工具和技术栈

编程语言：Python是最常用的语言之一，因其丰富的库支持。
库与框架：
- Scikit-learn：提供简单有效的数据挖掘和数据分析工具。
- TensorFlow/Keras、PyTorch：强大的深度学习框架。
- Pandas、Numpy：用于数据操作的基础库。
- Matplotlib、Seaborn：可视化工具。
云计算平台：AWS、Google Cloud、Azure等提供了便捷的计算资源和服务。

6、典型算法与应用场景

在这里插入图片描述

7、机器学习的挑战

1、数据问题

数据质量差（噪声、缺失值）。
数据偏见（训练集不均衡导致模型歧视）。

2、计算资源

深度学习需要大量算力（如GPU集群）。

3、模型可解释性

黑箱模型（如神经网络）难以解释决策逻辑。

4、伦理与安全

数据隐私保护：随着GDPR等法规出台，如何在保证用户隐私的同时有效利用数据成为重要议题。（如人脸识别滥用）。
对抗攻击（微小扰动误导模型）。

8、未来趋势

1、自动化（AutoML）

降低机器学习门槛，减少人工干预，实现从数据准备到模型部署的全流程自动化。

2、小样本学习（Few-Shot Learning）

在少量数据上快速学习（如医疗罕见病诊断）。

3、联邦学习（Federated Learning）

分布式训练保护数据隐私（如跨机构联合建模）。

4、生成式AI

结合深度学习生成高质量内容（如Stable Diffusion文生图）。

9、总结

机器学习是人工智能的核心技术，通过数据驱动的方式赋予计算机学习能力。其核心在于从数据中发现规律并构建模型，广泛应用于医疗、金融、自动驾驶等领域。尽管面临数据质量、计算资源等挑战，但随着AutoML、生成式AI等技术的发展，机器学习的应用边界将持续扩展。对于初学者，建议从监督学习和无监督学习入手，逐步掌握深度学习与强化学习，同时注重实践项目经验的积累。

向阳而生，Dare To Be！！！