当前位置: 首页 > news >正文

初探机器学习与深度学习

本文以水果摊销量预测为例,揭示机器学习通过数据训练模型的核心逻辑,对比传统编程规则驱动模式。解析分类(疾病诊断)与回归(房价预测)两大任务的技术本质,类比前端开发中的类型定义与图表拟合。深入探讨深度学习自动提取特征的能力,突破人工定义局限,并梳理AI从规则逻辑、专家系统、深度学习到大模型通才时代的四次技术跃迁。

一、引子:生活中的预测需求

"清晨的水果摊前,你发现隔壁老王总能在闭店前精准清货。

他的秘密不是经验,而是一套数据预测系统——这正是机器学习的核心能力。"

二、机器学习是什么?

类比解释:

"机器学习就像教孩子认水果:

  1. 你反复展示苹果和橘子的例子(输入数据)

  2. 孩子总结出‘圆形+红色=苹果’的规律(模型训练)

  3. 当看到新水果时,孩子能正确分类(预测应用)

▲ 传统编程是‘规则→结果’,机器学习是‘数据→规律’"

三、两大核心任务详解

1. 分类问题:分门别类的艺术

生活场景:

医院化验单的阴阳性判断(是/否)、快递分拣系统(省份/城市)

技术本质:

"给数据打标签的筛子"

  • 输入:带有特征的数据(如化验指标值)

  • 输出:有限个明确类别(阳性/阴性)

前端开发者共鸣点:

"就像用TypeScript定义枚举类型:

type WeatherType = 'Sunny' | 'Rainy' | 'Cloudy';

只不过机器学习能自动推导出分类规则"

2. 回归问题:数值预测的奥秘

生活场景:

二手房价格评估、股票走势预测

技术本质:

"寻找变量间的数学关系"

  • 输入:特征数据(如房屋面积、地段)

  • 输出:连续数值(如每平米单价)

前端类比:

"类似用Chart.js拟合数据趋势线,但机器学习能处理多维复杂关系"

四、深度学习:让机器自己找规律

深度学习是机器学习的一种方法,核心是不需要为了增加模型正确率而人为加工数据,反而是模型自己提取“特征量”自己学习,这个区别于其他方法的不同

传统机器学习痛点:"就像强迫人类用公式描述‘苹果甜度’:

  • 需要手动定义:糖度≥13%、酸度≤0.5%...(特征工程)

  • 遇到榴莲直接失效(复杂特征难量化)"

深度学习突破:"赋予机器‘自主学习’能力:

  1. 输入原始数据(如苹果照片)

  2. 神经网络自动提取关键特征(颜色渐变、纹理走向)

  3. 输出分类/回归结果

它的划时代性就来自于他可以自己提取最适合的特征量,例如各种图像识别和语音识别等领域都依着大幅度改善,甚至已经超越了人类

五、AI发展简史:4次技术跃迁

时间轴图示:

1950s 逻辑时代 → 1980s 知识时代 → 2010s 数据时代 → 2020s 通才时代 └─ 规则编程 → 专家系统 → 深度学习 → 大模型涌现

1. 第一次跃迁:逻辑时代(1950s-1970s)

技术符号:if (condition) { action }

  • 突破:用代码规则模拟人类推理

    • 代表作:IBM深蓝(1997击败国际象棋冠军)

  • 局限:

// 遇到规则外情况直接崩溃 if (棋局状态 === '国际象棋') { 执行走法(); } else { throw new Error('未知游戏类型'); // 遇到围棋直接报错 }

2. 第二次跃迁:知识时代(1980s-2000s)

技术符号:知识库 = [{症状: '发烧', 诊断: '流感'}, ...]

  • 突破:将专家经验转化为结构化规则

    • 代表作:MYCIN医疗诊断系统(准确率69%)

  • 局限:

  • // 维护成本随规则数量指数增长 const 诊断规则库 = [ { 症状: '咳嗽', 诊断: '感冒' }, { 症状: '流涕', 诊断: '过敏' }, // 新增1000条规则后系统开始卡顿... ];

3. 第三次跃迁:数据时代(2010s-2019)

技术符号:神经网络.自动提取特征()

  • 突破:用数据代替人工规则

    • 代表作:AlexNet(2012图像识别错误率骤降)

  • 开发者痛点:

// 如同需要为不同屏幕尺寸写多套CSS const 猫狗分类器 = 训练模型(专用数据集); // 想识别鸟类?得重新收集数据再训练!

4. 第四次跃迁:通才时代(2020s-至今)

技术符号:大模型.处理(任意模态输入)

  • 突破:单一模型解决多领域任务

    • 代表作:GPT-4(文本/代码/图像多模态理解)

  • 技术特性:

  • // 通用接口示例 const 大模型API = { 输入: ['文本', '图片', '语音', '视频'], 输出: ['生成', '推理', '翻译', '编程'], 核心能力: '通过提示词(Prompt)控制行为' }; const 需求文档 = '帮我用React生成登录页面'; const 代码 = await 大模型.生成(需求文档);

相关文章:

  • 嵌入式机器学习平台Edge Impulse图像分类 – 快速入门
  • 利用“Flower”实现联邦机器学习的实战指南
  • vector的大小
  • redis数据结构-05 (LPUSH、RPUSH、LPOP、RPOP)
  • 【今日三题】素数回文(模拟) / 活动安排(区间贪心) / 合唱团(动态规划)
  • 特励达力科LeCroy推出Xena Freya Z800 800GE高性能的800G以太网测试平台
  • 【英语笔记(一)】概述词类的作用与语义:名词、代词、数词、代词、动词.....,副词、不定式、分词、形容词等语义在句子中的作用;讲解表语、定语等
  • Linux网络基础 -- 局域网,广域网,网络协议,网络传输的基本流程,端口号,网络字节序
  • python打卡day22@浙大疏锦行
  • Java SE(11)——内部类
  • 无锁秒杀系统设计:基于Java的高效实现
  • VMware安装CentOS Stream10
  • Three.js + React 实战系列 - 联系方式提交表单区域 Contact 组件✨(表单绑定 + 表单验证)
  • Yocto 项目中的 glibc 编译失败全解析:原因、原理与修复策略
  • 深入剖析 MyBatis 位运算查询:从原理到最佳实践
  • RabbitMQ的工作队列模式和路由模式有什么区别?
  • BGP联盟
  • 无侵入式弹窗体验_探索 Chrome 的 Close Watcher API
  • 什么是中央税
  • 基于Flask、Bootstrap及深度学习的水库智能监测分析平台
  • 中国-拉共体成员国重点领域合作共同行动计划(2025-2027)
  • 港股持续拉升:恒生科技指数盘中涨幅扩大至6%,恒生指数涨3.3%
  • 教育部基础教育教指委:稳步推进中小学人工智能通识教育
  • 今起公开发售,宁德时代将于5月20日在港股上市
  • 当创业热土遇上年轻气息,上海南汇新城发展如何再发力?
  • 国家主席习近平会见斯洛伐克总理菲佐