当前位置: 首页 > news >正文

机器学习第六讲:向量/矩阵 → 数据表格的数学表达,如Excel表格转数字阵列

机器学习第六讲:向量/矩阵 → 数据表格的数学表达,如Excel表格转数字阵列

资料取自《零基础学机器学习》。
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、生活化比喻:数据世界的乐高积木 🧱

比喻场景1
假设学校图书馆有三种数据记录方式:

单本书信息
向量→书架单层(1行数据)
整排书架
矩阵→整个书库(多行多列)
温度记录表
列向量→周气温走势(单列测量值)

二、Excel表格转化演示 💻(教材第六章经典案例2

例:3月电子产品销售表

产品销量单价(元)
手机1202999
耳机85599
充电宝200129

转化为矩阵表示

Excel表格
数字阵列
矩阵内容:
[[120, 2999],
[85, 599],
[200, 129]]

数学表示
M = [ 120 2999 85 599 200 129 ] M = \begin{bmatrix} 120 & 2999 \\ 85 & 599 \\ 200 & 129 \\ \end{bmatrix} M= 120852002999599129


三、核心运算规则解析 ⚡️

  1. 加法运算:要求同维度矩阵
矩阵 A:
[[1,2],
[3,4]]
矩阵 A + 矩阵 B = 矩阵 C:
[[6,8],
[10,12]]
矩阵 B:
[[5,6],
[7,8]]
  1. 标量乘法:数乘每个元素
# 如数据整体涨价10%
价格矩阵 = [[2999],[599],[129]]
新价格 = 1.1 * 价格矩阵  # [[3298.9],[658.9],[141.9]]
  1. 矩阵乘法:行乘列的奇妙规则3
2x3
3x1
总收入矩阵:2x1
产品矩阵
计算
价格矩阵
结果
展示

四、数据科学中的现实价值 📊

数据形态向量/矩阵形式应用场景
学生成绩单行向量班级平均分计算
医院化验报告列向量健康指标趋势分析
电商用户画像用户×商品矩阵推荐系统构建
城市交通流量时间×路口流量矩阵智能信号灯控制

五、图像处理的魔法揭秘 🖼️

原理
每个图片本质上都是像素值矩阵,例如:

原图
红蓝绿三通道矩阵
红色矩阵(数值0-255)
绿色矩阵
蓝色矩阵

代码示例(教材第六章代码片段4):

import numpy as np
# 创建100x100像素的红色方块矩阵 
red_block = np.ones((100,100)) * 255
green_block = np.zeros((100,100))
blue_block = np.zeros((100,100))

六、易犯错误警示牌 🚨(注意事项5

  1. 尺寸错误:试图相加3×2和2×3矩阵
3x2 + 2x3
错误加法
程序报错
  1. 空值污染:Excel中的N/A未处理直接运算
原始数据:[120, null, 200]
错误计算:sum = 120 + null + 200 → NaN
  1. 内存爆炸:处理100万×100万维度的超大型矩阵时需要先做数据分块

七、核心要义总结 💎

向量与矩阵是用数学语言精确描述多维数据的基础工具,如同建筑的砖瓦构成数据科学大厦(教材第六章核心结论1

(典型案例:Netflix用户-影片评分矩阵是推荐算法的关键输入数据🎬)

目录:总目录
上篇文章:机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励
下篇文章:机器学习第七讲:概率统计 → 预测可能性,下雨概率70%就是典型应用



  1. 《零基础学机器学习》第六章第一节"数据矩阵表达",P.265 ↩︎ ↩︎

  2. 《零基础学机器学习》第六章案例6-2"零售数据转化",P.278-280 ↩︎

  3. 《零基础学机器学习》第六章运算规则推导,P.289-293 ↩︎

  4. 《零基础学机器学习》第六章代码附录,P.317 ↩︎

  5. 《零基础学机器学习》第六章注意事项,P.308 ↩︎

相关文章:

  • 配置Hadoop集群环境-使用脚本命令实现集群文件同步
  • 皇冠CAD(CrownCAD)建模教程:配电开关
  • React Agent:从零开始构建 AI 智能体|React Flow 实战・智能体开发・低代码平台搭建
  • Docker私有仓库实战:官方registry镜像实战应用
  • -MAC桢-
  • 车联网大数据:从数据到场景的闭环实践
  • 配置文件介绍xml、json
  • 嵌入式软件开发常见warning之 warning: implicit declaration of function
  • 【RabbitMQ】应用问题、仲裁队列(Raft算法)和HAProxy负载均衡
  • 面试题 - Kafka、RabbitMQ、RocketMQ如何选型?
  • 运用数组和矩阵对数据进行存取和运算——NumPy模块 之五
  • 【prometheus+Grafana篇】基于Prometheus+Grafana实现windows操作系统的监控与可视化
  • 解决IDEA无法运行git的问题
  • WSL-Ubuntu 中安装 Git LFS 记录
  • 力扣HOT100之二叉树:104. 二叉树的最大深度
  • 力扣-138.随机链表的复制
  • Aware和InitializingBean接口以及@Autowired注解失效分析
  • linux-驱动开发之设备树详解(RK平台为例)
  • 《Python星球日记》 第58天:Transformer 与 BERT
  • 快解析为TPDDNS用户提供免费替换服务
  • “降息潮”延续,多家民营银行下调存款利率
  • 中山大学人类学系原系主任冯家骏逝世,享年95岁
  • 侧记|青年为何来沪创新创业?从这一天寻找答案
  • 冯德莱恩:欧美贸易谈判前不会前往美国会见特朗普
  • 早期投资人蜂巧资本清仓泡泡玛特套现超22亿港元,称基金即将到期
  • 梅花奖在上海|第六代“杨子荣”是怎样炼成的?