Datawhale人工智能的数学基础 202510第4次作业
课程地址:https://git hub.com/datawhalechina/math-for-ai
第三章《解析几何》
3.1 范数
1. 从抽象到几何
-
第二章学的向量、线性空间比较抽象。
-
这一章要把它们可视化,就像在平面或空间中画箭头一样。
💡例子:
向量v = (3, 4)可以在坐标系中画成一个从原点指向点 (3,4) 的箭头。
2. 内积:几何的“尺子和量角器”
-
内积是一个运算,输入两个向量,输出一个实数。
-
它帮助我们定义:
-
长度(范数)
-
距离(度量)
-
夹角
-
💡例子:
在二维空间中,向量a = (1,2)和b = (3,1)的内积(点积)为:
a·b = 1*3 + 2*1 = 5
这个值可以用来计算它们之间的夹角。
3. 范数(长度)
-
向量的范数就是它的“长度”。
-
公式:
||v|| = √(v·v)
💡例子:
向量v = (3,4)的长度为:
||v|| = √(3² + 4²) = 5
4. 度量(距离)
-
两个向量之间的距离 = 它们差向量的长度。
-
公式:
d(v,w) = ||v - w||
💡例子:
v = (1,2),w = (4,6)
v - w = (-3, -4)
距离 =√((-3)² + (-4)²) = 5
5. 夹角与正交投影
-
用内积可以计算两个向量的夹角。
-
正交投影就像“光照下的影子”,把一个向量投影到另一个方向上。
-
这在后续的主成分分析(PCA)和极大似然估计中非常重要。
💡例子:
太阳光垂直照下来,你在平地上的影子就是你的正交投影。
3.2 内积
1. 内积的几何意义
内积 = 几何的“测量工具”
-
长度:向量自己的内积开根号
-
夹角:通过两个向量的内积计算
-
正交:内积为零表示垂直
💡生活例子:
就像尺子可以量长度,量角器可以量角度一样,内积就是向量的“多功能测量工具”
2. 点积 - 最熟悉的内积
公式:xᵀy = x₁y₁ + x₂y₂ + ... + xₙyₙ
💡具体例子:
向量a = [1, 2],b = [3, 1]
点积 =1×3 + 2×1 = 3 + 2 = 5
注意:点积只是内积的一种特殊形式!
3. 一般内积的三大条件
条件1:双线性(双重线性)
对每个参数都保持线性:
text
⟨λx + ψy, z⟩ = λ⟨x, z⟩ + ψ⟨y, z⟩ ⟨x, λy + ψz⟩ = λ⟨x, y⟩ + ψ⟨x, z⟩
💡理解技巧:
就像乘法分配律:(a+b)×c = a×c + b×c
内积对两个参数都满足这样的分配律
条件2:对称性
⟨x, y⟩ = ⟨y, x⟩
-
顺序可以交换
-
对应矩阵A必须对称
条件3:正定性
-
⟨x, x⟩ > 0当x ≠ 0 -
⟨0, 0⟩ = 0
💡几何意义:
向量的长度必须是正数(零向量除外)
4. 非点积的内积例子
给定公式:
⟨x, y⟩ = x₁y₁ - (x₁y₂ + x₂y₁) + 2x₂y₂
💡具体计算:
取x = [1, 2],y = [3, 1]
⟨x, y⟩ = 1×3 - (1×1 + 2×3) + 2×2×1
= 3 - (1 + 6) + 4 = 3 - 7 + 4 = 0
这个内积与点积不同,但满足所有内积条件!
🔢 对称正定矩阵
1. 内积的矩阵表示
在基B下,内积可写成:
⟨x, y⟩ = x̂ᵀ A ŷ
其中矩阵A的元素:Aᵢⱼ = ⟨bᵢ, bⱼ⟩
2. 正定矩阵的判断
例3.4中的两个矩阵:
text
A₁ = [9 6] A₂ = [9 6][6 5] [6 3]
A₁是正定的证明:
xᵀA₁x = 9x₁² + 12x₁x₂ + 5x₂²
= (3x₁ + 2x₂)² + x₂² > 0(平方和必为正)
A₂不是正定的证明:
取 x = [2, -3]ᵀ
xᵀA₂x = 9×4 + 12×(-6) + 3×9 = 36 - 72 + 27 = -9 < 0
📝 正定矩阵的性质
性质1:零空间只有零向量
-
如果
x ≠ 0,则Ax ≠ 0 -
因为
xᵀAx > 0要求Ax不能为零
性质2:对角线元素都是正数
-
aᵢᵢ = eᵢᵀAeᵢ > 0 -
每个基向量与自己的内积必须为正
💡记忆技巧:
正定矩阵就像“正数”的矩阵版本:
所有“自乘”结果都为正
对角线元素都是正数
🎯 关键定理
定理3.5:双线性函数是内积 ⇔ 存在对称正定矩阵A使得 ⟨x, y⟩ = x̂ᵀ A ŷ
这意味着:研究内积 = 研究对称正定矩阵
3.3 向量长度和距离
1. 内积诱导的范数(向量长度)
公式:‖x‖ = √⟨x, x⟩
💡几何意义:
就像用尺子量长度,内积就是我们的"数学尺子"
重要说明:
-
不是所有范数都来自内积
-
曼哈顿范数就是反例
-
但内积诱导的范数最符合几何直觉
2. 柯西-施瓦兹不等式
公式:|⟨x, y⟩| ≤ ‖x‖·‖y‖
💡直观理解:
两个向量的"相似度"不会超过它们长度的乘积
就像两个人的合作效果不会超过各自能力的乘积
几何意义:
-
限制了夹角余弦值的范围:
-1 ≤ cosθ ≤ 1 -
保证三角不等式成立
🔢 具体计算示例
例3.5:不同内积下的向量长度
情况1:标准点积
向量 x = [1, 1]ᵀ
text
‖x‖ = √(1² + 1²) = √2 ≈ 1.414
情况2:矩阵定义的内积
内积矩阵:A = [[1, -0.5], [-0.5, 1]]
text
⟨x, x⟩ = 1² - (1×1 + 1×1)/2 + 1² = 1 - 1 + 1 = 1 ‖x‖ = √1 = 1
💡对比发现:
同一个向量在不同内积下长度不同!
这就像用不同单位的尺子测量同一物体
📐 距离和度量
1. 距离的定义
公式:d(x, y) = ‖x - y‖ = √⟨x-y, x-y⟩
💡几何意义:
两点之间的距离 = 连接它们向量的长度
2. 欧氏距离
-
使用点积作为内积时得到的距离
-
就是我们最熟悉的"直线距离"
3. 度量的三大性质
性质1:正定性
-
d(x, y) ≥ 0 -
d(x, y) = 0 ⇔ x = y
💡理解:距离不能为负,只有同一点距离为零
性质2:对称性
d(x, y) = d(y, x)
💡理解:从A到B的距离 = 从B到A的距离
性质3:三角不等式
d(x, y) + d(y, z) ≥ d(x, z)
💡生活例子:
绕路走一定比直走远
北京→上海→广州的距离 ≥ 北京→广州的距离
🔄 内积与度量的关系
重要对比
| 内积 (⟨x, y⟩) | 度量 (d(x, y)) |
|---|---|
| 衡量相似度 | 衡量差异度 |
| 值越大越相似 | 值越大越不同 |
| 满足双线性、对称、正定 | 满足正定、对称、三角不等式 |
💡记忆技巧:
内积像"吸引力" - 越大越好
距离像"排斥力" - 越小越好
3.4 向量夹角和正交
1. 向量夹角的定义
核心公式:cosω = ⟨x, y⟩ / (‖x‖·‖y‖)
💡几何意义:
夹角余弦值 = 两向量的"相似度"指标
值越接近1,方向越相似;越接近-1,方向越相反
数学保证:
-
由柯西-施瓦兹不等式保证:
-1 ≤ cosω ≤ 1 -
在
[0, π]范围内,角度与余弦值一一对应
2. 夹角计算示例
例3.6:标准点积下的夹角
向量:x = [1, 1]ᵀ, y = [1, 2]ᵀ
计算过程:
text
⟨x, y⟩ = 1×1 + 1×2 = 3 ‖x‖ = √(1² + 1²) = √2 ‖y‖ = √(1² + 2²) = √5 cosω = 3/(√2 × √5) = 3/√10 ≈ 0.9487 ω = arccos(3/√10) ≈ 0.32 rad ≈ 18°
💡直观理解:
这两个向量的方向比较接近,夹角很小
⊥ 正交性:垂直的推广
1. 正交的定义
-
正交:
⟨x, y⟩ = 0⇔x ⊥ y -
单位正交:正交 + 两个都是单位向量 (
‖x‖ = ‖y‖ = 1)
2. 重要性质
-
零向量与所有向量正交
-
正交是内积的概念,不同内积下正交性不同
3. 例3.7:不同内积下的正交性
情况1:标准点积
向量:x = [1, 1]ᵀ, y = [-1, 1]ᵀ
text
⟨x, y⟩ = 1×(-1) + 1×1 = 0 ∴ x ⊥ y,夹角90°
情况2:矩阵定义的内积
内积矩阵:A = [[2, 0], [0, 1]]
text
⟨x, y⟩ = [1,1] × [[2,0],[0,1]] × [-1,1]ᵀ= [2,1] × [-1,1]ᵀ = -2 + 1 = -1‖x‖ = √([1,1]A[1,1]ᵀ) = √3 ‖y‖ = √([-1,1]A[-1,1]ᵀ) = √3cosω = -1/(√3 × √3) = -1/3 ω ≈ 1.91 rad ≈ 109.5°
💡关键发现:
同一个向量对在不同内积下可能正交,也可能不正交!
正交性依赖于所选的内积
🔄 正交矩阵
1. 定义
方阵 A 是正交矩阵当且仅当:
text
A Aᵀ = I = Aᵀ A A⁻¹ = Aᵀ
2. 重要性质
性质1:保持长度不变
text
‖Ax‖² = (Ax)ᵀ(Ax) = xᵀAᵀAx = xᵀIx = xᵀx = ‖x‖²
性质2:保持夹角不变
text
cos∠(Ax, Ay) = (Ax)ᵀ(Ay)/(‖Ax‖‖Ay‖)= xᵀAᵀAy/(‖x‖‖y‖)= xᵀIy/(‖x‖‖y‖)= xᵀy/(‖x‖‖y‖)= cos∠(x, y)
💡几何意义:
正交矩阵对应的变换就像"刚体运动":
不拉伸、不压缩(保持长度)
不扭曲(保持夹角)
只有旋转和反射
🎯 学习要点总结
1. 夹角计算三步法
-
计算内积
⟨x, y⟩ -
计算各自长度
‖x‖,‖y‖ -
求比值:
cosω = ⟨x, y⟩/(‖x‖‖y‖)
2. 正交性要点
-
正交 ⇔ 内积为零
-
正交性依赖于内积的选择
-
零向量与所有向量正交
3. 正交矩阵特性
-
逆 = 转置
-
保持向量长度
-
保持向量夹角
-
对应旋转/反射变换
💡 应用提示
在机器学习中:
-
夹角用于衡量特征向量的相似性
-
正交性用于设计不相关的特征
-
正交矩阵用于坐标变换、数据降维
在几何中:
-
正交基简化计算
-
正交变换保持几何结构
3.5 正交基
1. 正交基 vs 标准正交基
正交基 (Orthogonal Basis)
-
条件:所有基向量两两正交
-
数学表达:
⟨bᵢ, bⱼ⟩ = 0(当i ≠ j) -
不要求向量长度为1
标准正交基 (Orthonormal Basis, ONB)
-
条件1:所有基向量两两正交 (
⟨bᵢ, bⱼ⟩ = 0,i ≠ j) -
条件2:所有基向量长度为1 (
⟨bᵢ, bᵢ⟩ = 1) -
是正交基的"完美版本"
💡记忆技巧:
正交 = 互相垂直
标准 = 长度标准化为1
🔄 Gram-Schmidt正交化过程
基本思想
把一组任意基变成正交基的方法
步骤简化版:
-
取第一个向量,保持原样(或单位化)
-
第二个向量减去它在第一个向量方向的投影
-
第三个向量减去它在第一、二个向量方向的投影
-
重复直到所有向量都正交
数学实现:
通过Gauss消元法在增广矩阵 [B̃B̃ᵀ | B̃] 上进行
💡直观理解:
就像"修剪树枝" - 把每个向量中与其他向量"重叠"的部分去掉
📚 具体示例分析
例3.8:ℝ²中的正交基
给定的正交基:
text
b₁ = (1/√2)[1, 1]ᵀ b₂ = (1/√2)[1, -1]ᵀ
验证标准正交性:
验证正交性:
text
⟨b₁, b₂⟩ = (1/√2)(1/√2) + (1/√2)(-1/√2)= 1/2 - 1/2 = 0 ∴ b₁ ⊥ b₂
验证单位长度:
text
‖b₁‖ = √[(1/√2)² + (1/√2)²] = √[1/2 + 1/2] = 1 ‖b₂‖ = √[(1/√2)² + (-1/√2)²] = √[1/2 + 1/2] = 1
✅ 这确实是一个标准正交基
对比:ℝⁿ中的标准基
-
就是我们熟悉的:
e₁ = [1, 0, 0,...],e₂ = [0, 1, 0,...], ... -
在标准点积下,这是最自然的正交基
🎯 正交基的巨大优势
优势1:坐标计算极其简单
在标准正交基 {b₁, b₂, ..., bₙ} 下,向量 v 的坐标为:
text
v = ⟨v, b₁⟩b₁ + ⟨v, b₂⟩b₂ + ... + ⟨v, bₙ⟩bₙ
💡理解:
每个坐标分量 = 向量在对应基方向上的"投影长度"
优势2:内积计算简化
如果 x = ∑αᵢbᵢ, y = ∑βᵢbᵢ,则:
text
⟨x, y⟩ = α₁β₁ + α₂β₂ + ... + αₙβₙ
就像标准点积一样简单!
优势3:范数计算简单
text
‖x‖² = α₁² + α₂² + ... + αₙ²
🔮 后续应用预告
第10章:主成分分析 (PCA)
-
使用正交基进行数据降维
-
找到"最重要"的方向(主成分)
第12章:支持向量机
-
在特征空间中使用正交基
-
简化分类边界的计算
💡 学习要点总结
1. 正交基的三级标准
| 类型 | 正交性 | 单位长度 | 名称 |
|---|---|---|---|
| 任意基 | ❌ | ❌ | 普通基 |
| 正交基 | ✅ | ❌ | 正交基 |
| 标准正交基 | ✅ | ✅ | ONB |
2. Gram-Schmidt过程
-
输入:线性无关的向量组
-
输出:正交基(可进一步单位化)
-
核心:逐步消除向量间的"重叠"
3. 计算技巧
-
在正交基下,坐标 = 投影
-
内积 = 坐标分量的点积
-
范数 = 坐标分量的平方和
