当前位置: 首页 > news >正文

深度学习总结(4)

张量积

张量积(tensor product)或点积(dot product)是最常见且最有用的张量运算之一。注意,不要将其与逐元素乘积(*运算符)弄混。在NumPy中,使用np.dot函数来实现张量积,因为张量积的数学符号通常是一个点(dot)​。

x = np.random.random((32,))
y = np.random.random((32,))
z = np.dot(x, y)

数学符号中的点(•)表示点积运算。

z = x•y

从数学角度来看,点积运算做了什么?我们首先看一下两个向量x和y的点积。计算过程如下。

def naive_vector_dot(x, y):
    assert len(x.shape) == 1---- (本行及以下1) x和y都是NumPy向量
    assert len(y.shape) == 1
    assert x.shape[0] == y.shape[0]
    z = 0.
    for i in range(x.shape[0]):
        z += x[i] * y[i]
    return z

可以看到,两个向量的点积是一个标量,而且只有元素个数相同的向量才能进行点积运算。你还可以对一个矩阵x和一个向量y做点积运算,其返回值是一个向量,其中每个元素是y和x每一行的点积。实现过程如下。

def naive_matrix_vector_dot(x, y):
    assert len(x.shape) == 2---- x是一个NumPy矩阵
    assert len(y.shape) == 1---- y是一个NumPy向量
    assert x.shape[1] == y.shape[0]---- x的第1维与y的第0维必须大小相同!
    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):----这个运算返回一个零向量,其形状与x.shape[0]相同
        for j in range(x.shape[1]):
            z[i] += x[i, j] * y[j]
    return z

你还可以重复使用前面写过的代码,从中可以看出矩阵−向量点积与向量−向量点积之间的关系。

def naive_matrix_vector_dot(x, y):
    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):
        z[i] = naive_vector_dot(x[i, :], y)
    return z

注意,只要两个张量中有一个的ndim大于1,dot运算就不再是对称(symmetric)的。也就是说,dot(x, y)不等于dot(y, x)。当然,点积可以推广到具有任意轴数的张量。最常见的应用可能是两个矩阵的点积。对于矩阵x和y,当且仅当x.shape[1] == y.shape[0]时,你才可以计算它们的点积(dot(x, y))​。点积结果是一个形状为(x.shape[0], y.shape[1])的矩阵,其元素是x的行与y的列之间的向量点积。简单实现如下

def naive_matrix_dot(x, y):
    assert len(x.shape) == 2---- (本行及以下1) x和y都是NumPy矩阵
    assert len(y.shape) == 2
    assert x.shape[1] == y.shape[0]---- x的第1维与y的第0维必须大小相同!
    z = np.zeros((x.shape[0], y.shape[1]))----这个运算返回一个特定形状的零矩阵
    for i in range(x.shape[0]):----遍历x的所有行……
        for j in range(y.shape[1]):----……然后遍历y的所有列
            row_x = x[i, :]
            column_y = y[:, j]
            z[i, j] = naive_vector_dot(row_x, column_y)
    return z

为了便于理解点积的形状匹配,可以将输入张量和输出张量像图2-5中那样排列,利用可视化来帮助理解。在图2-5中,x、y和z都用矩形表示(元素按矩形排列)​。由于x的行和y的列必须具有相同的元素个数,因此x的宽度一定等于y的高度。如果你打算开发新的机器学习算法,可能经常要画这种图。

在这里插入图片描述

更一般地说,可以对更高阶的张量做点积运算,只要其形状匹配遵循与前面2阶张量相同的原则。

(a, b, c, d)(d,)(a, b, c)
(a, b, c, d)(d, e)(a, b, c, e)

以此类推。

张量变形

另一个需要了解的张量运算是张量变形(tensor reshaping)​。虽然前面第一个神经网络例子的Dense层中没有用到它,但我们将数据输入神经网络之前,在预处理数据时用到了这种运算。

train_images = train_images.reshape((60000, 28 * 28))

张量变形是指重新排列张量的行和列,以得到想要的形状。变形后,张量的元素个数与初始张量相同。下面这个简单的例子可以帮助我们理解张量变形。

>>> x = np.array([[0., 1.],
                  [2., 3.],
                  [4., 5.]])
>>> x.shape
(3, 2)
>>> x = x.reshape((6, 1))
>>> x
array([[ 0.],
       [ 1.],
       [ 2.],
       [ 3.],
       [ 4.],
       [ 5.]])
>>> x = x.reshape((2, 3))
>>> x
array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.]])

常见的一种特殊的张量变形是转置(transpose)​。矩阵转置是指将矩阵的行和列互换,即把x[i, :]变为x[:, i]。

>>> x = np.zeros((300, 20))----创建一个形状为(300, 20)的零矩阵
>>> x = np.transpose(x)
>>> x.shape
(20, 300)

张量运算的几何解释

对于张量运算所操作的张量,其元素可看作某个几何空间中的点的坐标,因此所有的张量运算都有几何解释。以加法为例,假设有这样一个向量:

A = [0.5, 1]

它是二维空间中的一个点(见图2-6)​。常见的做法是将向量描绘成由原点指向这个点的箭头,如图2-7所示。

在这里插入图片描述

假设有另外一个点:B = [1, 0.25],我们将它与前面的A相加。从几何角度来看,这相当于将两个向量的箭头连在一起,得到的位置表示两个向量之和对应的向量(见图2-8)​。如你所见,将向量B与向量A相加,相当于将A点复制到一个新位置,这个新位置相对于A点初始位置的距离和方向由向量B决定。如果将相同的向量加法应用于平面上的一组点(一个物体)​,就会在新位置上创建整个物体的副本(见图2-9)​。因此,张量加法表示将物体沿着某个方向平移一段距离(移动物体,但不使其变形)​。

在这里插入图片描述

一般来说,平移、旋转、缩放、倾斜等基本的几何操作都可以表示为张量运算。下面看几个例子。平移(translation)​。如前所示,在一个点上加一个向量,会使这个点在某个方向上移动一段距离。如果将操作应用于一组点(比如一个二维物体)​,就叫作“平移”​(见图2-9)​。旋转(rotation)​。要将一个二维向量逆时针旋转theta角(见图2-10)​,可以通过与一个2×2矩阵做点积运算来实现。这个矩阵为R = [​[cos(theta), -sin(theta)],[sin(theta), cos(theta)]​]。
在这里插入图片描述

缩放(scaling)​。要将图像在垂直方向和水平方向进行缩放(见图2-11)​,可以通过与一个2×2矩阵做点积运算来实现。这个矩阵为S=[​[horizontal_factor, 0], [0,vertical_factor]​]。​(注意,这样的矩阵叫作“对角线矩阵”​,因为它只有在从左上到右下的“对角线”上的元素不为零。​)线性变换(linear transform)​。与任意矩阵做点积运算,都可以实现一次线性变换。注意,前面所说的缩放和旋转,都属于线性变换。仿射变换(affine transform)​。仿射变换(见图2-12)是一次线性变换(通过与某个矩阵做点积运算来实现)与一次平移(通过向量加法来实现)的组合。你可能已经发现,这正是Dense层所实现的y = W•x + b运算!一个没有激活函数的Dense层就是一个仿射层。

在这里插入图片描述

带有relu激活函数的Dense层。关于仿射变换的一个重要结论是,重复应用多次仿射变换,仍相当于一次仿射变换(所以可以在一开始就应用这个仿射变换)​。我们用两个仿射变换来试一下:affine2(affine1(x)) = W2•(W1•x + b1) + b2 = (W2•W1)•x +(W2•b1 + b2)。这相当于是一次仿射变换,其线性变换部分是矩阵W2•W1,平移部分是向量W2•b1 + b2。因此,一个完全由没有激活函数的Dense层组成的多层神经网络等同于一个Dense层。这种“深度”神经网络其实就是一个线性模型!这就是需要用到激活函数的原因,比如relu(其效果见图2-13)​。由于激活函数的存在,一连串Dense层可以实现非常复杂的非线性几何变换,从而为深度神经网络提供非常丰富的假设空间。第3章将更详细地介绍这一点。

在这里插入图片描述

http://www.dtcms.com/a/121794.html

相关文章:

  • LVGL开发指南
  • 如何构建并优化提示词?
  • 【LeetCode 热题100】73:矩阵置零(详细解析)(Go语言版)
  • 调用百度api实现黑白图像上色
  • Prompt_Engineering提示词工程(一)
  • Python脚本:批量修改文件修改时间2.0(带UI界面+随机时间偏移)
  • Java面试黄金宝典43
  • Apache Parquet Java 库 反序列化漏洞 CVE-2025-30065
  • 分布式文件存储系统FastDFS
  • Linux 入门指令(1)
  • spring boot 中 WebClient 与 RestTemplate 的对比总结
  • Unity中基于2.5D的碰撞系统
  • 数据库中的事务
  • 柑橘病虫害图像分类数据集OrangeFruitDaatset-8600
  • 开发一个环保回收小程序需要哪些功能?环保回收小程序
  • Java程序的基本规则
  • PS教学记录
  • Java 常用安全框架的 授权模型 对比分析,涵盖 RBAC、ABAC、ACL、基于权限/角色 等模型,结合框架实现方式、适用场景和优缺点进行详细说明
  • 信用卡欺诈检测实战教程:从数据预处理到模型优化全解析
  • 什么是声波,声波的传播距离受哪些因素影响?
  • 【RL系列】StepFun之Open-Reasoner-Zero
  • 机器学习 Day09 KNN算法
  • 大数据专业学习路线
  • 某团某点评mtgsig1.2 H5guard加密算法剖析
  • 深入解析Java中的栈:从JVM原理到开发实践
  • 基于IDEA+SpringBoot+Mave+Thymeleaf的系统实现
  • 量子计算入门:开启未来计算的次元之门
  • 华为数字芯片机考2025合集4已校正
  • 【安卓】APP生成器v1.0,生成属于你的专属应用
  • FRP练手:hello,world实现