当前位置：首页 > news >正文

Python-机器学习概述

news 2025/8/27 13:52:17

一、人工智能三大概念

人工智能（AI）
- 定义：使用计算机模拟或代替人类智能的研究领域
- 目标：像人类一样思考（理性推理）、行动（决策执行）
- 别名：仿智
机器学习（ML）
- 定义：从数据中自动学习规律（模型），并用模型预测新数据
- 核心：基于模型自动学习（非人工规则编程）
- 示例：房价预测模型 y = ax + b（a、b为模型参数）
深度学习（DL）
- 定义：模拟人脑神经元的深度神经网络，通过多层结构学习复杂规律
- 特点：从机器学习发展而来，适合图像、语音等复杂任务
三者关系

机器学习是实现人工智能的一种途径，深度学习是机器学习的一种方法

二、机器学习的应用领域与发展史

应用领域

计算机视觉（CV）：图像/视频理解（如人脸识别）
自然语言处理（NLP）：文本分析、机器翻译
数据挖掘：从大数据中发现隐藏规律

发展史

1956年：AI元年
2012年：AlexNet引爆深度学习（CV领域）
2017年：Transformer框架推动NLP发展
2022年：ChatGPT开启AIGC时代

三要素

数据：模型训练的基础
算法：解决问题的数学方法
算力：硬件支持（CPU/GPU/TPU）
- CPU：适合I/O密集型任务
- GPU：适合计算密集型任务（如神经网络训练）

三、机器学习常用术语

术语	说明	示例
样本	数据集中的一行数据（一条记录）	西瓜数据集中的一条
特征	描述样本的属性（一列数据）	西瓜的色泽、根蒂
标签	待预测的目标值	西瓜是否是好瓜（0/1）
训练集	用于训练模型的数据（70-80%）	`x_train`, `y_train`
测试集	用于评估模型的数据（20-30%）	`x_test`, `y_test`

四、机器学习算法分类

1. 监督学习（数据含标签）

回归：预测连续值（如房价）
分类：预测离散类别（如是否垃圾邮件）

2. 无监督学习（数据无标签）

聚类：按样本相似性分组（如用户分群）

3. 半监督学习

少量标注数据 + 大量未标注数据，降低标注成本

4. 强化学习

智能体通过环境交互获取奖励（如AlphaGo、自动驾驶）
四要素：Agent, Environment, Action, Reward

五、机器学习建模流程

数据预处理：处理缺失值、异常值
特征工程（核心耗时步骤）:
- 特征提取 → 特征预处理 → 特征降维 → 特征选择 → 特征组合
模型训练：选择算法（如线性回归、决策树）
模型评估：
- 回归：均方误差（MSE）
- 分类：准确率、召回率

六、特征工程详解

目标：提升模型效果，是影响模型上限的关键

原则：数据和特征 > 模型算法

步骤	作用
特征提取	从原始数据构造特征向量（如文本转词向量）
特征预处理	标准化/归一化，消除特征量纲影响（如MinMax缩放）
特征降维	降低特征维度，保留主要信息（如PCA）
特征选择	筛选与任务相关的特征子集（不修改原始数据）
特征组合	合并特征（如乘法/加法），增强表达能力（如组合“面积×位置”预测房价）

七、模型拟合问题

问题	表现	原因	解决方案
欠拟合	训练集和测试集效果均差	模型过于简单	增加特征、增强模型复杂度
过拟合	训练集效果好，测试集效果差	模型复杂/数据噪声多	简化模型、正则化、增加数据量

核心概念

泛化能力：模型在新数据上的表现（最终目标）
奥卡姆剃刀原则：相同效果下，选择更简单的模型

八、开发环境

工具：scikit-learn（Python库）
- 特点：
  - 基于NumPy/SciPy/matplotlib
  - 开源，支持分类/回归/聚类等算法
- 安装：pip install scikit-learn
- 官网：https://scikit-learn.org

关键总结

学习方式：
- 规则编程（人工定义逻辑） → 机器学习（自动学习模型）
核心链路：

数据 → 特征工程 → 模型训练 → 评估优化
避坑指南：
- 优先解决特征工程，再优化模型
- 模型选择：简单模型优先，避免过拟合

http://www.dtcms.com/a/352514.html

相关文章：

ruoyi-vue（十二）——定时任务，缓存监控，服务监控以及系统接口

Python 轻量级的 ORM（对象关系映射）框架 - Peewee 入门教程

CentOS 7 升级 OpenSSH 10.0p2 完整教程（含 Telnet 备份）

性能瓶颈定位更快更准：ARMS 持续剖析能力升级解析

告别繁琐运维，拥抱自动化：EKS Auto Mode 实战指南

C代码学习笔记（二）

RK3506 开发板：嵌入式技术赋能多行业转型升级

大数据时代UI前端的智能化升级路径：基于用户行为数据的预测性分析

PMP项目管理知识点-⑨项⽬资源管理

大模型应用编排工具Dify之插件探索

【LeetCode - 每日1题】求对角线最长矩形的面积

Claude 的优势深度解析：大模型竞争格局中的隐藏护城河

NX773HSA19美光固态闪存D8BJND8BJQ

inline内联函数

TensorFlow 深度学习：使用 feature_column 训练心脏病分类模型

【软考论文】论可观测性架构技术的应用

【资源】Github资源整理

C6.3:发射结交流电阻

Vue3 + Element Plus实现表格多行文本截断与智能Tooltip提示

【黑客技术零基础入门】2025最新黑客工具软件大全，零基础入门到精通，收藏这篇就够了！

【数据结构】单链表详解

Java基础 8.26

【7】SQL 语句基础应用

基于SpringBoot的演唱会网上订票系统的设计与实现（代码+数据库+LW）

自由学习记录（89）

一份兼容多端的HTML邮件模板实践与详解

美妆品牌如何用 DAM 管理海量产品图片？

开脑洞，末日降临，堡垒求生，ARMxy系列BL410能做什么？

vagrant怎么在宿主机管理虚拟机镜像box(先搁置)

中国移动云电脑一体机-创维LB2004_瑞芯微RK3566_2G+32G_开ADB安装软件教程