当前位置：首页 > news >正文

Scikit-learn Python机器学习 - 什么是机器学习

news 2025/8/29 7:16:24

锋哥原创的Scikit-learn Python机器学习视频教程：

2026版 Scikit-learn Python机器学习视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili

课程介绍

本课程主要讲解基于Scikit-learn的Python机器学习知识，包括机器学习概述，特征工程(数据集，特征抽取，特征预处理，特征降维等)，分类算法(K-临近算法，朴素贝叶斯算法，决策树等)，回归与聚类算法(线性回归，欠拟合，逻辑回归与二分类，K-means算法)等。

什么是机器学习

机器学习是从数据中自动分析获取模型(规则)，并利用模型对未知数据进行预测。

一、核心定义：与传统编程的区别

要理解机器学习，最简单的方法是与传统编程进行对比。

传统编程：我们编写明确的规则和指令，输入数据，计算机执行后输出结果。
- 模式：规则 + 数据 → 答案
- 例子：编写一个程序来排序名单。我们告诉计算机明确的排序规则（按字母顺序A-Z），输入名字列表，程序输出排序后的列表。
机器学习：我们输入数据和这些数据对应的结果（答案），计算机自己从中学习出隐含的规则或模式。然后，我们可以用这个学到的“模型”来对新的数据做出预测或判断。
- 模式：数据 + 答案 → 规则（模型）
- 例子：训练一个机器来识别猫的图片。我们不给它编写“猫有尖耳朵、胡须”等规则，而是给它成千上万张图片（数据），并告诉它哪些是猫，哪些不是（答案）。机器学习算法会自己分析这些图片，找出区分猫和非猫的复杂模式（例如，某种特定的纹理、形状组合），最终形成一个“猫识别模型”。之后，当你给它一张新的图片时，它就能用这个学到的模型来判断里面是否有猫。

一句话总结：机器学习是一种让计算机通过数据来自动学习和改进，而无需显式编程的方法。

二、一个简单的比喻：教孩子认动物

想象一下你教一个孩子认识“狗”。

传统编程方法：你会给他一本厚厚的规则书，上面写着：“狗有四条腿、有毛、会摇尾巴、发出汪汪声……” 孩子需要记住所有这些规则，然后去匹配。
机器学习方法：你会指着路上各种各样的狗（大的、小的、不同颜色的、不同品种的）说：“看，这些都是狗。” 也会指着猫、汽车、树说：“这些不是狗。” 经过多次例子，孩子的大脑（天然的神经网络）会自己归纳出“狗”这个概念的核心特征。以后他看到一只从未见过的品种的狗，大概率也能认出来。

机器学习就是在用计算机模拟这个“通过例子学习”的过程。

三、机器学习的主要类型

根据学习方式的不同，机器学习通常分为三大类：

监督学习
- 核心：训练数据是有标签的，即每个样本都带有“正确答案”。
- 目标：学习输入数据（特征）和输出标签（答案）之间的映射关系，以便对新的、未见过的数据做出预测。
- 好比：学生做带答案的练习题。通过练习，学习解题方法，最终为了应对没有答案的考试。
- 常见任务：
  - 分类：预测离散的类别。例如：垃圾邮件识别（是/否）、图像识别（猫/狗/汽车）。
  - 回归：预测连续的数值。例如：预测房价、预测气温。
无监督学习
- 核心：训练数据是没有标签的，只有数据本身，没有“正确答案”。
- 目标：发现数据中内在的、隐藏的模式或结构。
- 好比：给学生一堆不同的积木，但不告诉他们要拼什么，让他们自己发现积木之间如何分类和组合。
- 常见任务：
  - 聚类：将数据分成不同的组（簇），组内的数据点彼此相似。例如：客户分群、新闻主题分组。
  - 降维：在保留重要信息的同时，减少数据的变量数量，使其更容易可视化和处理。例如：将3D数据压缩到2D平面显示。
强化学习
- 核心：一个智能体通过与环境不断交互，根据其行动获得的奖励或惩罚来学习最佳策略。
- 目标：学习一系列行动，以最大化长期累积奖励。
- 好比：训练狗做动作。它做了正确的动作，你就给零食（奖励）；做错了，就没有零食（惩罚）。狗通过不断尝试，学会为了获得最多零食而应该采取的行动序列。
- 常见应用：AlphaGo（学习下围棋）、自动驾驶、机器人控制。