Python-机器学习概述
一、人工智能三大概念
-
人工智能(AI)
-
定义:使用计算机模拟或代替人类智能的研究领域
-
目标:像人类一样思考(理性推理)、行动(决策执行)
-
别名:仿智
-
-
机器学习(ML)
-
定义:从数据中自动学习规律(模型),并用模型预测新数据
-
核心:基于模型自动学习(非人工规则编程)
-
示例:房价预测模型
y = ax + b
(a、b为模型参数)
-
-
深度学习(DL)
-
定义:模拟人脑神经元的深度神经网络,通过多层结构学习复杂规律
-
特点:从机器学习发展而来,适合图像、语音等复杂任务
-
-
三者关系
机器学习是实现人工智能的一种途径,深度学习是机器学习的一种方法
二、机器学习的应用领域与发展史
应用领域
-
计算机视觉(CV):图像/视频理解(如人脸识别)
-
自然语言处理(NLP):文本分析、机器翻译
-
数据挖掘:从大数据中发现隐藏规律
发展史
-
1956年:AI元年
-
2012年:AlexNet引爆深度学习(CV领域)
-
2017年:Transformer框架推动NLP发展
-
2022年:ChatGPT开启AIGC时代
三要素
-
数据:模型训练的基础
-
算法:解决问题的数学方法
-
算力:硬件支持(CPU/GPU/TPU)
-
CPU:适合I/O密集型任务
-
GPU:适合计算密集型任务(如神经网络训练)
-
三、机器学习常用术语
术语 | 说明 | 示例 |
---|---|---|
样本 | 数据集中的一行数据(一条记录) | 西瓜数据集中的一条 |
特征 | 描述样本的属性(一列数据) | 西瓜的色泽、根蒂 |
标签 | 待预测的目标值 | 西瓜是否是好瓜(0/1) |
训练集 | 用于训练模型的数据(70-80%) |
|
测试集 | 用于评估模型的数据(20-30%) |
|
四、机器学习算法分类
1. 监督学习(数据含标签)
-
回归:预测连续值(如房价)
-
分类:预测离散类别(如是否垃圾邮件)
2. 无监督学习(数据无标签)
-
聚类:按样本相似性分组(如用户分群)
3. 半监督学习
-
少量标注数据 + 大量未标注数据,降低标注成本
4. 强化学习
-
智能体通过环境交互获取奖励(如AlphaGo、自动驾驶)
-
四要素:Agent, Environment, Action, Reward
五、机器学习建模流程
-
数据预处理:处理缺失值、异常值
-
特征工程(核心耗时步骤):
-
特征提取 → 特征预处理 → 特征降维 → 特征选择 → 特征组合
-
-
模型训练:选择算法(如线性回归、决策树)
-
模型评估:
-
回归:均方误差(MSE)
-
分类:准确率、召回率
-
六、特征工程详解
目标:提升模型效果,是影响模型上限的关键
原则:数据和特征 > 模型算法
步骤 | 作用 |
---|---|
特征提取 | 从原始数据构造特征向量(如文本转词向量) |
特征预处理 | 标准化/归一化,消除特征量纲影响(如MinMax缩放) |
特征降维 | 降低特征维度,保留主要信息(如PCA) |
特征选择 | 筛选与任务相关的特征子集(不修改原始数据) |
特征组合 | 合并特征(如乘法/加法),增强表达能力(如组合“面积×位置”预测房价) |
七、模型拟合问题
问题 | 表现 | 原因 | 解决方案 |
---|---|---|---|
欠拟合 | 训练集和测试集效果均差 | 模型过于简单 | 增加特征、增强模型复杂度 |
过拟合 | 训练集效果好,测试集效果差 | 模型复杂/数据噪声多 | 简化模型、正则化、增加数据量 |
核心概念
-
泛化能力:模型在新数据上的表现(最终目标)
-
奥卡姆剃刀原则:相同效果下,选择更简单的模型
八、开发环境
-
工具:
scikit-learn
(Python库)-
特点:
-
基于NumPy/SciPy/matplotlib
-
开源,支持分类/回归/聚类等算法
-
-
安装:
pip install scikit-learn
-
官网:https://scikit-learn.org
-
关键总结
-
学习方式:
-
规则编程(人工定义逻辑) → 机器学习(自动学习模型)
-
-
核心链路:
数据 → 特征工程 → 模型训练 → 评估优化
-
避坑指南:
-
优先解决特征工程,再优化模型
-
模型选择:简单模型优先,避免过拟合
-