矩阵空间的子空间
在数学里面经常可以提出这样一些问题:它们叙述起来很简单,答案看起来也很显然,但是要仔细证明却非常困难。即使是线性代数这样的「入门课」中也不缺少这样的问题:
问题: 设域 \(\mathbb{F}\) 上的所有 \(n\) 阶矩阵构成的向量空间为 \({\rm Mat}_n(\mathbb{F})\),\(M\) 是 \({\rm Mat}_n(\mathbb{F})\) 的一个子空间。
- 如果 \(M\) 中所有矩阵关于矩阵乘法两两可以交换,那么 \(M\) 的维数最大是多少?
- 如果 \(M\) 中所有矩阵的秩都不超过 \(r\),这里 \(0<r<n\),那么 \(M\) 的维数最大是多少?
- 如果 \(M\) 中所有矩阵都是幂零的,那么 \(M\) 的维数最大是多少?
- 如果 \(M\) 中所有非零矩阵都是可逆矩阵,那么 \(M\) 的维数最大是多少?
我是在几年前一个偶然的时刻自己想到了这几个问题,那个时候我已经本科毕业了,不是初学线性代数的新手了,但是苦思冥想了很久,结果一个也没做出来。我当时很惊讶,这么有趣而不平凡的问题居然在我身边潜伏了那么久而没有注意到。长久以来我们一直都是把各种习题集做的滚瓜烂熟,然后考试拿个高分就自以为学的很好了,很少自己去发现问题。我可以肯定的讲这几个问题在任何本科线性代数的教材中都没有提到,但是教材上不讲并不是我们无视它们的理由。于是我开始查阅资料,发现这四个问题的确是有难度的问题,要完全弄懂并不容易,但是这种探索本身就是一种令人难忘而愉悦的经历。
接下来将依次介绍前三个问题的解答,它们综合使用了各种各样的线性代数的技巧,这些技巧如果一步步拆开来,其实也很普通。总之这三个问题是对读者基本功的一次很好的检验。至于第四个问题嘛 … 不会做很正常,会做才不正常。
注: 问题的提法中对域 \(\mathbb{F}\) 没有什么限制,实际上前三个问题的答案确实与域无关,只有第四个问题是例外。但是如果要让证明对任何域 \(\mathbb{F}\) 都适用那就要花不少心思,旁生不少枝节。为了让文章读起来不那么晦涩,我适当放宽了域的条件,这样证明简明很多。
交换子空间的最大维数
如果 \(M\) 中的矩阵两两可以交换,我们来猜猜 \(M\) 的维数最大可能多少。首先很容易想到所有的对角矩阵是两两交换的,而所有对角矩阵构成的子空间维数是 \(n\),所以答案不会小于 \(n\)。
但是实际上还可以更大,下面的构造是最优的:(\(N\) 是任意子矩阵)
\[\begin{pmatrix}\lambda I_m&N\\0&\lambda I_m\end{pmatrix}\ (n=2m),\quad \begin{pmatrix}\lambda I_m&N\\0&\lambda I_{m+1}\end{pmatrix}\ (n=2m+1).\]
这个结论于 1905 年被 Schur 所证明:
定理 1.1. \(M\) 的维数最大为 \(\left[\frac{n^2}{4}\right]+1\),其中 \([\cdot]\) 为高斯取整函数。
证明:首先假设 \(\mathbb{F}\) 是代数闭域。对 \(n\) 归纳,\(n=1\) 时结论显然成立,设小于 \(n\) 的时候结论成立,来看 \(n\) 的情形。
由于 \(\mathbb{F}\) 是代数闭域且 \(M\) 中的矩阵两两可以交换,因此存在可逆矩阵 \(P\in {\rm Mat}_n(\mathbb{F})\) 使得 \(P^{-1}MP\) 中的矩阵都是上三角的,而 \(M\) 和 \(P^{-1}MP\) 是同构的空间,因此我们不妨一开始就假定 \(M\) 中的矩阵都是上三角矩阵。
对任何 \(A\in M\),记 \(f(A)\) 为 \(A\) 左上角的 \(n-1\) 阶子矩阵,\(g(A)\) 为 \(A\) 右下角的 \(n-1\) 阶子矩阵,则 \(f\) 和 \(g\) 都是从 \({\rm Mat}_n(\mathbb{F})\) 到 \({\rm Mat}_{n-1}(\mathbb{F})\) 的线性映射。\(f(M)=\{f(A)\ |\ A\in M\}\) 和 \(g(M)=\{g(A)\ |\ A\in M\}\) 都是 \({\rm Mat}_{n-1}(\mathbb{F})\) 的乘法交换子空间,因此由归纳假设 \[\dim f(M)\leq\left[\frac{(n-1)^2}{4}\right]+1,\quad \dim g(M)\leq\left[\frac{(n-1)^2}{4}\right]+1.\]
不难看出 \(\ker f\) 中的元素形如 \(\begin{pmatrix}\mathbf{0}_{n\times(n-1)}&\alpha\end{pmatrix}\),\(\ker g\) 中的元素形如 \(\begin{pmatrix}\beta'\\\mathbf{0}_{(n-1)\times n}\end{pmatrix}\)。这里 \(\alpha\) 和 \(\beta\) 都是 \(n\times1\) 向量,两者交换说明 \(\beta'\alpha=0\)。设 \((\beta_1',\ldots,\beta_s')\) 取自 \(\ker g\) 的一组基并且排成行矩阵的形式,即设 \[L=\left(\begin{array}{c}\beta_1' \\\beta_2' \\\vdots\\\beta_s' \\\end{array}\right),\]则 \(\ker f\) 中的元素都是齐次方程组 \(LX=0\) 的解,因此 \(\dim\ker f+\dim\ker g\leq n\),从而 \[\begin{align*} \dim M&=\dim \ker f+\dim f(M)=\dim\ker g+\dim g(M)\\ &\leq\frac{\dim\ker f+\dim\ker g}{2}+\left[\frac{(n-1)^2}{4}\right]+1\\ &\leq\frac{n}{2}+\left[\frac{(n-1)^2}{4}\right]+1.\end{align*}\] 这时需要分情况讨论:不论 \(n=2k\) 是偶数还是 \(n=2k+1\) 是奇数,我们总有 \[\frac{n}{2}+\left[\frac{(n-1)^2}{4}\right]+1 < k^2 + 2,\] 因此 \(\dim M\leq k^2+1 \leq\left[\frac{n^2}{4}\right]+1\)。
在 \(\mathbb{F}\) 不是代数闭域的情形,显然答案不会超过 \(\left[\frac{n^2}{4}\right]+1\),但是我们开头的构造的例子是在 \(\mathbb{F}\) 内的,它取到了这个最大值,因此结论依然成立。
注: 有更简单的方式可以得出 \(\dim\ker f + \dim\ker g\leq n\)。利用内积 \((\alpha, \beta) = \beta'\alpha\) 是非退化的双线性型,以及 \(\ker f\) 和 \(\ker g\) 在这个双线性型下互相正交即可。
\(M\) 中矩阵秩都不超过 \(r\) 时 \(M\) 的最大维数
第二个问题的答案比较好猜,就是 \(rn\),取所有后 \(n-r\) 行元素均为 0 的矩阵构成的向量空间即可,但是不太好证明。
证明的困难之处在于这个域 \(\mathbb{F}\) 是任意的,如果 \(\mathbb{F}\) 是实数域或者复数域这样有 “内积” 的性质比较好的域,那么证明就简单很多。我们接下来就假定 \(\mathbb{F}\) 是实数域,对于一般的情形我把它留给
H.landers 1962, On spaces of linear transformation of bounded rank.
首先可以不妨假设 \(M\) 中存在一个形如 \[A=\begin{pmatrix}I_r&0\\0&0\end{pmatrix}\] 的矩阵 (想一想,为什么?),于是我们有下面的结论:
引理 2.1. \(M\) 中的矩阵都形如 \[\begin{pmatrix}B_{11}&B_{12}\\B_{21}&0\end{pmatrix}.\] 这里 \(B_{11}\) 是 \(r\times r\) 矩阵,且 \(B_{21}B_{12}=0\).
引理的证明:对任意的 \(B\in M\),设 \[B=\begin{pmatrix}B_{11}&B_{12}\\B_{21}&B_{22}\end{pmatrix},\] 那么对任何实数 \(t\),\(tA+B\) 仍然是 \(M\) 中的矩阵,其秩不超过 \(r\),所以其任何 \(r+1\) 阶子式必为 \(0\), 即 \[\Delta(t)=\begin{vmatrix}tI_r+B_{11}&\beta_j\\\alpha_i&b_{ij}\end{vmatrix}=0.\] 这里 \(b_{ij}\) 表示\(B_{22}\) 的第 \((i,j)\) 个元素,\(\alpha_i\) 表示 \(B_{21}\) 的第 \(i\) 行, \(\beta_j\) 表示 \(B_{12}\) 的第 \(j\) 列。
\(\Delta(t)\) 是关于 \(t\) 的多项式,由于它必须恒等于 \(0\),所以首项 \(t^r\) 的系数 \(b_{ij}=0\),从而由 \((i, j)\) 的任意性有 \(B_{22}=0\)。下面来求它的 \(t^{r-1}\) 次项系数。
由于讨论是在实数域上,从而存在无穷多个 \(t\) 使得矩阵 \(tI_r+B_{11}\) 可逆,对这些 \(t\) 利用行列式的 Schur 补公式,我们有 \[\begin{align*}\Delta(t)&=|tI_r+B_{11}|\cdot (0-\alpha_i(tI_r+B_{11})^{-1}\beta_j)\\&=-\alpha_i(tI_r+B_{11})^\ast\beta_j.\end{align*}\] 这里 \((tI_r+B_{11})^\ast\) 表示矩阵 \(tI_t+B_{11}\) 的伴随矩阵。
由于 \(\Delta(t)=-\alpha_i(tI_r+B_{11})^\ast\beta_j\) 两边都是关于 \(t\) 的多项式而且对无穷多个 \(t\) 成立此等式成立,因此必然是恒等式。注意在伴随矩阵 \((tI_r+B_{11})^\ast\) 的各个元素中,\(t^{r-1}\) 项只出现在对角线上,且系数都是 \(1\),因此 \(\Delta(t)\) 的 \(r-1\) 次项系数为 \(-\alpha_i\beta_j=0\),因此 \(B_{21}B_{12}=0\),引理成立。
现在考虑 \({\rm Mat}_n(\mathbb{R})\) 的子空间 \[J=\left\{\begin{pmatrix}0&P\\P'&Q\end{pmatrix}\mid P\in {\rm Mat}_{r\times(n-r)}(\mathbb{R}),\, Q\in {\rm Mat}_{n-r}(\mathbb{R})\right\}.\]
于是 \(M\cap J=(0)\),因此 \(M+J\) 是直和,从而 \(\dim M+\dim J\leq n^2\),再由 \(\dim J=n(n-r)\) 即得 \(\dim M\leq rn\)。
注意这里利用了实数域内积的正定性: 实矩阵 \(P'P=0\) 当且仅当 \(P=0\),对复数域的情形可以用厄米特内积代替。对一般的域 \(\mathbb{F}\) 是没有内积的概念的, 但是我们有迹函数 \[{\rm Mat}_n(\mathbb{F})\times {\rm Mat}_n(\mathbb{F})\rightarrow \mathbb{F}:\quad (A,B)\rightarrow\mathrm{tr}(AB).\] 这个非退化的双线性型可以代替内积,只是论证略麻烦。
\(M\) 中矩阵都是幂零矩阵
这种情形答案也是很好猜的:所有严格上三角矩阵组成的子空间,其维数是 \(n(n-1)/2\)。
我们在 \({\rm char}\,\mathbb{F}\ne2\) 的条件下讨论。(当然特征是 2 结论是一样的,不过证明要绕点弯路)
首先是一个小小的引理:
引理 3.1. 如果 \(A,B,A+B\) 都是幂零矩阵,则 \(\mathrm{tr}(AB)=0\)。
引理证明很简单,这里省略。
其次我们需要迹函数的一些性质:\((A,B)\rightarrow\mathrm{tr}(AB)\) 是一个 \({\rm Mat}_n(\mathbb{F})\) 上的非退化的双线性函数,这里非退化的意思是如果某个 \(A\in{\rm Mat}_n(\mathbb{F})\) 使得对任何 \(B\in{\rm Mat}_n(\mathbb{F})\) 有 \(\mathrm{tr}(AB)=0\) 成立的话,则 \(A=0\)。
设 \(V\) 是 \({\rm Mat}_n(\mathbb{F})\) 的子空间,定义 \(V\) 在迹函数下的正交补空间 \(V^{\bot}\) 为
\[V^{\bot}=\{ B\in{\rm Mat}_n(\mathbb{F})\ \left|\ \mathrm{tr}(AB)=0,\ \forall A\in V\right.\}.\]
虽然未必有 \(V\cap V^{\bot}=(0)\),但是总是有 \[\dim V+\dim V^{\bot}=\dim{\rm Mat}_n(\mathbb{F})=n^2.\] (这是非退化双线性型的基本结论)
设 \(M_1\) 是 \(M\) 中所有严格上三角矩阵组成的集合,很容易验证 \(M_1\) 是一个子空间;任取子空间 \(N\subset M\) 使得 \(M=M_1\oplus N\),则 \(N\) 中的非零矩阵都不是上三角矩阵,否则若 \(A\in N\) 是上三角矩阵,而 \(A\) 又是幂零矩阵,那么就必须是严格上三角矩阵,从而 \(A\in M_1\),这与 \(M_1\) 和 \(N\) 是直和矛盾。
我们来考虑 \(M_1\) 在 \(\mathrm{tr}(,)\) 下的正交补。
设 \(U\) 是所有上三角矩阵组成的集合,由于上三角矩阵和严格上三角矩阵的乘积是严格上三角矩阵,严格上三角矩阵的迹为 0,因此 \(U\subset M_1^{\bot}\)。
把引理用在 \(A\in M_1\) 和 \(B\in N\) 上我们得到 \(N\subset M_1^{\bot}\)。然而我们已经说明了 \(U+N\) 是直和,因此 \(U\oplus N\subset M_1^{\bot}\),从而 \[\dim U+\dim N\leq n^2-\dim M_1.\] 注意 \(\dim U=\frac{n(n+1)}{2}\),这就推出 \[\dim M=\dim N+\dim M_1\leq \frac{n(n-1)}{2}.\] 实际上可以证明如果 \(\dim M=\frac{n(n-1)}{2}\),则存在可逆矩阵 \(P\) 使得 \(P^{-1}MP\) 都是严格上三角矩阵,不过这需要更复杂的分析,本文就不再写了。
\(M\) 中的非零矩阵都是可逆矩阵
最后这个问题是最重要的一个,也是最难回答的一个,如果你自己做不出来也不用灰心,这是 Adams 在 1962 年的论文 Vector fields on spheres 中证明的经典结论,这篇论文也是代数 K- 理论的开山之作。
首先这个问题的答案依赖于域 \(\mathbb{F}\)。在复数域上,如果 \(M\) 的维数大于 1,从中任取两个线性无关的矩阵 \(A,B\),则对任何复数 \(t\),\(A+tB\) 是非零矩阵因而可逆,这显然不可能,因此 \(M\) 的维数只能是 1 (比如取所有形如 \(\lambda I_n\) 的矩阵)。
在实数域上,答案是非常难以猜到的,叫做 Radon-Hurwitz 数:设 \(n=2^ab\),\(b\) 是奇数,\(a=c+4d\),\(0\leq c<4\),定义 \(\rho(n)=2^c+8d\),则 \(M\) 的维数最大是 \(\rho(n)\)。
证明这个结论分两步,首先用代数 K- 理论的知识证明 \(M\) 的维数不会超过 \(\rho(n)\),然后用 Clifford 代数的表示构造一个维数为 \(\rho(n)\) 的子空间。整个过程要用到非常多的数学知识以至于要完整写下来需要一本书的篇幅,这是本文力所不及的。
结语
其实类似的问题还可以提出更多,比如 \(M\) 中的非零矩阵的秩都不小于 \(r\),这里 \(0<r<n\) 是个给定的正整数,那么 \(M\) 的维数最大是多少?(答案仍然和 Radon-Hurwitz 数有关)你可以试着自己提出一些这样的问题,然后尝试给出它们的解答,遇到困难再去查阅资料,相信一定会有收获的。