当前位置: 首页 > news >正文

Python-机器学习概述

​一、人工智能三大概念​

  1. ​人工智能(AI)​

    • 定义:使用计算机模拟或代替人类智能的研究领域

    • 目标:像人类一样思考(理性推理)、行动(决策执行)

    • 别名:仿智

  2. ​机器学习(ML)​

    • 定义:从数据中​​自动学习规律​​(模型),并用模型预测新数据

    • 核心:基于模型自动学习(非人工规则编程)

    • 示例:房价预测模型 y = ax + b(a、b为模型参数)

  3. ​深度学习(DL)​

    • 定义:模拟人脑神经元的​​深度神经网络​​,通过多层结构学习复杂规律

    • 特点:从机器学习发展而来,适合图像、语音等复杂任务

  4. ​三者关系​

机器学习是实现人工智能的一种途径,深度学习是机器学习的一种方法


​二、机器学习的应用领域与发展史​

​应用领域​
  • ​计算机视觉(CV)​​:图像/视频理解(如人脸识别)

  • ​自然语言处理(NLP)​​:文本分析、机器翻译

  • ​数据挖掘​​:从大数据中发现隐藏规律

​发展史​
  • ​1956年​​:AI元年

  • ​2012年​​:AlexNet引爆深度学习(CV领域)

  • ​2017年​​:Transformer框架推动NLP发展

  • ​2022年​​:ChatGPT开启AIGC时代

​三要素​
  • ​数据​​:模型训练的基础

  • ​算法​​:解决问题的数学方法

  • ​算力​​:硬件支持(CPU/GPU/TPU)

    • CPU:适合I/O密集型任务

    • GPU:适合计算密集型任务(如神经网络训练)


​三、机器学习常用术语​

术语

说明

示例

​样本​

数据集中的一行数据(一条记录)

西瓜数据集中的一条

​特征​

描述样本的属性(一列数据)

西瓜的色泽、根蒂

​标签​

待预测的目标值

西瓜是否是好瓜(0/1)

​训练集​

用于训练模型的数据(70-80%)

x_train, y_train

​测试集​

用于评估模型的数据(20-30%)

x_test, y_test


​四、机器学习算法分类​

1. ​​监督学习​​(数据含标签)
  • ​回归​​:预测连续值(如房价)

  • ​分类​​:预测离散类别(如是否垃圾邮件)

2. ​​无监督学习​​(数据无标签)
  • ​聚类​​:按样本相似性分组(如用户分群)

3. ​​半监督学习​
  • 少量标注数据 + 大量未标注数据,降低标注成本

4. ​​强化学习​
  • 智能体通过​​环境交互​​获取奖励(如AlphaGo、自动驾驶)

  • 四要素:Agent, Environment, Action, Reward


​五、机器学习建模流程​

  1. ​数据预处理​​:处理缺失值、异常值

  2. ​特征工程​​(核心耗时步骤):

    • 特征提取 → 特征预处理 → 特征降维 → 特征选择 → 特征组合

  3. ​模型训练​​:选择算法(如线性回归、决策树)

  4. ​模型评估​​:

    • 回归:均方误差(MSE)

    • 分类:准确率、召回率


​六、特征工程详解​

​目标​​:提升模型效果,是影响模型上限的关键

​原则​​:数据和特征 > 模型算法

步骤

作用

​特征提取​

从原始数据构造特征向量(如文本转词向量)

​特征预处理​

标准化/归一化,消除特征量纲影响(如MinMax缩放)

​特征降维​

降低特征维度,保留主要信息(如PCA)

​特征选择​

筛选与任务相关的特征子集(不修改原始数据)

​特征组合​

合并特征(如乘法/加法),增强表达能力(如组合“面积×位置”预测房价)


​七、模型拟合问题​

问题

表现

原因

解决方案

​欠拟合​

训练集和测试集效果均差

模型过于简单

增加特征、增强模型复杂度

​过拟合​

训练集效果好,测试集效果差

模型复杂/数据噪声多

简化模型、正则化、增加数据量

​核心概念​
  • ​泛化能力​​:模型在​​新数据​​上的表现(最终目标)

  • ​奥卡姆剃刀原则​​:相同效果下,选择更简单的模型


​八、开发环境​

  • ​工具​​:scikit-learn(Python库)

    • 特点:

      • 基于NumPy/SciPy/matplotlib

      • 开源,支持分类/回归/聚类等算法

    • 安装:pip install scikit-learn

    • 官网:https://scikit-learn.org


​关键总结​

  1. ​学习方式​​:

    • 规则编程(人工定义逻辑) → 机器学习(自动学习模型)

  2. ​核心链路​​:

    数据 → 特征工程 → 模型训练 → 评估优化

  3. ​避坑指南​​:

    • 优先解决特征工程,再优化模型

    • 模型选择:简单模型优先,避免过拟合

http://www.dtcms.com/a/352514.html

相关文章:

  • ruoyi-vue(十二)——定时任务,缓存监控,服务监控以及系统接口
  • Python 轻量级的 ORM(对象关系映射)框架 - Peewee 入门教程
  • CentOS 7 升级 OpenSSH 10.0p2 完整教程(含 Telnet 备份)
  • 性能瓶颈定位更快更准:ARMS 持续剖析能力升级解析
  • 告别繁琐运维,拥抱自动化:EKS Auto Mode 实战指南
  • C代码学习笔记(二)
  • RK3506 开发板:嵌入式技术赋能多行业转型升级
  • 大数据时代UI前端的智能化升级路径:基于用户行为数据的预测性分析
  • PMP项目管理知识点-⑨项⽬资源管理
  • 大模型应用编排工具Dify之插件探索
  • 【LeetCode - 每日1题】求对角线最长矩形的面积
  • Claude 的优势深度解析:大模型竞争格局中的隐藏护城河
  • NX773HSA19美光固态闪存D8BJND8BJQ
  • inline内联函数
  • TensorFlow 深度学习:使用 feature_column 训练心脏病分类模型
  • 【软考论文】论可观测性架构技术的应用
  • 【资源】Github资源整理
  • C6.3:发射结交流电阻
  • Vue3 + Element Plus实现表格多行文本截断与智能Tooltip提示
  • 【黑客技术零基础入门】2025最新黑客工具软件大全,零基础入门到精通,收藏这篇就够了!
  • 【数据结构】单链表详解
  • Java基础 8.26
  • 【7】SQL 语句基础应用
  • 基于SpringBoot的演唱会网上订票系统的设计与实现(代码+数据库+LW)
  • 自由学习记录(89)
  • 一份兼容多端的HTML邮件模板实践与详解
  • 美妆品牌如何用 DAM 管理海量产品图片?
  • 开脑洞,末日降临,堡垒求生,ARMxy系列BL410能做什么?
  • vagrant怎么在宿主机管理虚拟机镜像box(先搁置)
  • 中国移动云电脑一体机-创维LB2004_瑞芯微RK3566_2G+32G_开ADB安装软件教程