矩阵方程$Ax=b$的初步理解.
对于矩阵方程 A x = b A\textbf{\textit{x}}=\textbf{\textit{b}} Ax=b,可能就是一学而过,也可能也就会做做题,但是从如何直观地理解它呢?
这个等式可以用多种理解方式,这里就从向量变换角度浅谈一下。其中的 A A A是矩阵,可以理解为变换系数,而对于 x \textbf{\textit{x}} x和 b \textbf{\textit{b}} b而言,则是向量.向量 x \textbf{\textit{x}} x经过矩阵 A A A的变换,变成了向量 b \textbf{\textit{b}} b,这是最简单直观的理解。可是要深入剖析,就需要深入理解向量。下面的内容是我昨天解决了之前关于向量的一个困惑点,今天早上又思考了一下矩阵方程 A x = b A\textbf{\textit{x}}=\textbf{\textit{b}} Ax=b切实意义后写出来的,很新鲜,但是缺少图片讲解。当然,下面分析只是我深入理解线性代数的学习过程,出现错误在所难免,仅供参考.
在此之前,先说一说向量方面的困惑点。高中时期做题,对于 A B → \overrightarrow{AB} AB而言,求解其向量坐标的方法就是 B B B点坐标减去 A A A点坐标,然后得到了一个类似点坐标的坐标,其实就是向量坐标。当时只知道这么去做,但是这么去做的原因并不清楚。深入理解需要从物理中位移矢量角度讲解比较好,但这里就不涉及了。
昨天看书的时候,又看到了向量方程的定义,摘要到下面。
R 2 \mathbb{R}^2 R2中的向量
仅含一列的矩阵成为列向量,或简称向量。包含两个元素的向量如下所示.
u = [ 3 − 1 ] , v = [ 0.2 − 0.3 ] , w = [ w 1 w 2 ] \textbf{\textit{u}}= \begin{bmatrix} \begin{align*} &3\\ -&1 \end{align*} \end{bmatrix} , \textbf{\textit{v}}= \begin{bmatrix} \begin{align*} &0.2\\ -&0.3 \end{align*} \end{bmatrix} , \textbf{\textit{w}}= \begin{bmatrix} \begin{align*} &w_1\\ &w_2 \end{align*} \end{bmatrix} u=[−31],v=[−0.20.3],w=[w1w2]
其中 w 1 w_1 w1, w 2 w_2 w2表示任意实数.所有两个元素的向量的集记为 R 2 \mathbb{R}^2 R2, R \mathbb{R} R表示向量中的元素是实数,而指数 2 2 2表示每个向量包含两个元素。
深入理解加黄的这句话之前,先说一说我所了解的知识.之前学概率论的时候,又重新学习了集合相关内容.集合中有 R n \mathbb{R}^n Rn的表述方式,而单单讨论集合中的 R \mathbb{R} R的话,就代表实数域,高中时期就学过,不过当时 R \textbf{R} R表示的,而大学书中,经常用 R \mathbb{R} R来表示,其实是一样的(至少目前我是这么认为的)。大学学概率论分析集合的时候,有了一种突破性见解,就是集合可以抽象成坐标系。所以对于实数域 R \mathbb{R} R而言,可以直接抽象成 x x x轴,如果增加一个维度,则对于平面 R 2 \mathbb{R}^2 R2来说,其含义是 R × R \mathbb{R}\times\mathbb{R} R×R,也就是两个实数域 R \mathbb{R} R的笛卡尔积(笛卡尔积是在离散数学中学的,但当时不知道有什么应用,后来才知道,在组建坐标系的时候很有用处,如果不清楚笛卡尔积的话可以去了解一下)。如果我们将两个 R \mathbb{R} R分别对应 x 、 y x、y x、y轴,那么对于笛卡尔坐标系,在平面中其点坐标实际上就是 x 、 y x、y x、y轴对应点( x x x, y y y)(也就是对应实数域集合中的笛卡尔积)。其实深入理解,还需要再去说函数、映射等等,这并不在今天的讨论中。如果看不懂上面说的,只需要知道,实数域集合可以抽象成坐标轴就行。
在此基础之上,我们再来看看概念中加黄的话 R \mathbb{R} R表示向量中的元素是实数,而指数 2 2 2表示每个向量包含两个元素。 如果按照之前的抽象,这里其实可以将坐标轴中的 x 、 y x、y x、y轴抽象成向量(思考一下,我们画坐标轴的时候,总会在 x 、 y x、y x、y的正方向画个箭头,不就代表着方向吗?)。为了方便,我们就仅讨论正交的笛卡尔坐标系。
笛卡尔坐标系下的任意一点坐标,可以用两种方法解释,第一种就是上述概率论中,将实数域集合抽象成坐标轴,然后坐标轴上所有的 x , y x,y x,y点,通过笛卡尔积的计算方式,建立起笛卡尔坐标系中所有的点坐标.整个平面是通过一个一个点组合而成的。注意,我们之前强调了是实数域,包括所有有理数和无理数,所有点的组合就是完整平面。
另一个解释方法就是将坐标系抽象成向量,为了方便讲解向量构成的平面,这里默认向量的起点是坐标轴原点,沿 x , y x,y x,y正方向规定向量方向为正,负方向则规定方向为负。所以,此时坐标轴上,并不会再用集合中点的笛卡尔积的方式构建平面了,而是采用基础的向量的加法、减法方式构建。我们先来看 x x x轴上的点 A A A所组成的向量 O A → \overrightarrow{OA} OA,由于起点为原点,所以向量的 x x x坐标就是以其终点 A A A的 x x x坐标为主,这么来看的话,其实在 x x x轴上,可以任意伸缩的向量 O A → \overrightarrow{OA} OA的向量坐标,其实就是 A A A的 x x x坐标,这么来看,将原点默认为向量起点的话,可以将复杂的向量问题转化为点的问题。那么平面中任意一点 B B B的点坐标,可以通过其与坐标原点 O O O组成的向量 O B → \overrightarrow{OB} OB分解,分解为沿 x , y x,y x,y轴方向的子向量 O B X → \overrightarrow{OB_X} OBX和 O B y → \overrightarrow{OB_y} OBy,由于笛卡尔坐标系是正交系,所以对应的 x 、 y x、y x、y值所组成的数值对 ( x , y ) (x,y) (x,y)就是 O B → \overrightarrow{OB} OB的向量坐标,而由于其起点为原点,所以向量坐标就是 B B B点坐标。加黄话中强调了元素是实数,所以对于平面中所有的点,都能通过这种方式构建,自然组成了 R 2 \mathbb{R}^2 R2平面。(对于 R 2 \mathbb{R}^2 R2具体解释,由于参考资料有限,我也不清楚具体细节,只能从简思考)
通过上面解释,我们知道了,从向量角度构建的坐标系,以坐标原点为向量起点的好处。但不过,并没有解释为何 O A → \overrightarrow{OA} OA的向量坐标是以 A A A点坐标减 O O O点坐标,一开始也说了"深入理解需要从物理中位移矢量角度讲解比较好,但这里就不涉及了。 ",所以具体原因自己查阅。那么如何解释 A B → \overrightarrow{AB} AB形成原因呢?从分解角度来讲,我们仍然可以将 A B → \overrightarrow{AB} AB分解到 x 、 y x、y x、y轴上,然后做简单的加减运算就好。另一方面,我们也可以将其与坐标原点建立起来关系,就是 A B → = O B → − O A → \overrightarrow{AB}=\overrightarrow{OB}-\overrightarrow{OA} AB=OB−OA,然后再按照我们上述的基础分解角度,再通过简单加减运算,也就得到了 A B → \overrightarrow{AB} AB的向量坐标了.当然,我们也可以将默认的向量起点坐标原点换成 A A A点,这样也就能直接解释了。
上面的内容就是我昨天明白了的内容,这也只是深入线性代数的基础。在此基础上,再来说说今天明白了的 A x = b A\textbf{\textit{x}}=\textbf{\textit{b}} Ax=b。
还是先从线性方程组入手说明。对于初中的二元一次方程组
{ x + y = 1 2 x + y = 3 \left\{\begin{matrix} \begin{align*} x+y&=1\\ 2x+y&=3 \end{align*} \end{matrix}\right. {x+y2x+y=1=3
可以很容易地解出来,而且也可通过图像直观地看出来,其解为对应直线的交点。当然,图像所对应的坐标系是集合所组成的笛卡尔坐标系。那么我们可否直接将其中的 x 、 y x、y x、y视为向量,从而获得其向量组成的笛卡尔坐标系下的图像呢?我们来分析一下。如果 x 、 y x、y x、y是向量,那么向量加向量,肯定也等于向量,但不幸的是,等号右侧是一个数,标量,并不是向量。但不过可以通过一种巧妙的方式,将其转化为向量,也就是 A x = b A\textbf{\textit{x}}=\textbf{\textit{b}} Ax=b的方式。其中 A A A是系数矩阵,也就是
[ 1 1 2 1 ] \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ \end{bmatrix} [1211]
而变量 x , y x,y x,y用向量方式表示
[ x y ] \begin{bmatrix} \textbf{\textit{x}}\\ \textbf{\textit{y}}\\ \end{bmatrix} [xy]
等号右侧也为向量
[ 1 3 ] \begin{bmatrix} 1 \\ 3\\ \end{bmatrix} [13]
综合来看的话,就是
[ 1 1 2 1 ] [ x y ] = [ 1 3 ] \begin{bmatrix} 1 & 1 \\ 2 & 1 \\ \end{bmatrix} \begin{bmatrix} \textbf{\textit{x}}\\ \textbf{\textit{y}}\\ \end{bmatrix}= \begin{bmatrix} 1 \\ 3\\ \end{bmatrix} [1211][xy]=[13]
这是显而易见的,因为书上就是这么讲的。而一开始我所讲解的向量的理解,这里向量坐标 ( x , y ) ′ (\textbf{\textit{x}},\textbf{\textit{y}})' (x,y)′(这里的 ′ ' ′是转置的意思,也就是将列向量变为行向量,这里是为了与上面表达一致),其实就是 R 2 \mathbb{R}^2 R2向量空间中,以原点为起点,坐标为 ( x , y ) (x,y) (x,y)的点所组成的向量(这里应该贴个图片,方便理解,但是没有制作),自然,向量坐标 ( 1 , 3 ) ′ (1,3)' (1,3)′则是原点与点坐标 ( 1 , 3 ) (1,3) (1,3)所组成的向量。向量 ( x , y ) ′ (\textbf{\textit{x}},\textbf{\textit{y}})' (x,y)′经过矩阵 A A A的系列作用,变成了向量 ( 1 , 3 ) ′ (1,3)' (1,3)′,由于起点是坐标原点,其实也就是将集合域笛卡尔坐标系下的点 ( x , y ) (x,y) (x,y),经过一定的变换,变成了点 ( 1 , 3 ) (1,3) (1,3)。其实也可以分解向量 ( x , y ) ′ (\textbf{\textit{x}},\textbf{\textit{y}})' (x,y)′到 x , y x,y x,y轴上,分析矩阵 A A A对子向量 ( x , 0 ) ′ (\textbf{\textit{x}},\textbf{\textit{0}})' (x,0)′和 ( 0 , y ) ′ (\textbf{\textit{0}},\textbf{\textit{y}})' (0,y)′的作用,其作用后的子向量,叠加后一定是 ( 1 , 3 ) ′ (1,3)' (1,3)′。
明白了上述问题,对于学习线性代数,或许会有很大很大的帮助。思考维度增加,见解也就不同。但是想要深入理解线性代数,单纯看些文章、博客肯定是远远不够的,需要很多的积累,而且必须有自己独立的思考。每个人学习层次、掌握的知识不同,理解线性代数的方式、方法肯定也不同。上面我写的内容也仅限于我自己的理解,肯定也会有误,但是否适合你,我也不清楚,所以最后想要真正理解线性代数,还是需要考你自己。
通过图片形式表示的方式更加直观,但确实没太有时间制作。据说mit的线性代数Strang教师对 A x = b A\textbf{\textit{x}}=\textbf{\textit{b}} Ax=b有独到见解,不过我没听过,大家有机会可以去看看他的理解。