Lecture 01 导论

参考教材：

Hardle, W. and Simar, L (2015). Applied multivariate statistical analysis, 4th edition.
Hastie, T. Tibshirani, R. and Friedman, J. (2009). The elements of statistical learning, 2nd edition

1. 导论

课程目标：描述、理解和发现维度 $p > 1$ 的数据的属性。

我们想要分析一个样本，它包含 $n$ 个随机向量 $X_1,\dots,X_n$，也可以表示为 $X_i (i=1,\dots,n)$，其中，$X_1,X_2$ 等都属于 $\mathbb R^p$：

\[\begin{align} X_1 &= (X_{11},\dots,X_{1p}) \in \mathbb R^p \\ X_2 &= (X_{21},\dots,X_{2p}) \in \mathbb R^p \\ \vdots \\ X_n &= (X_{n1},\dots,X_{np}) \in \mathbb R^p \end{align}\]

这意味着我们有一个包含 $n$ 个个体的样本，对于每个个体，我们观测到 $p$ 个变量 (有时称为特征)。

例子：

我们考虑一项涉及 $n = 100$ 名患者的健康研究。
我们对每个患者测量 $p = 4$ 个量：年龄、体重、体重指数、收缩压。
对于第 $i$ 个个体，其中 $i=1,\dots,100$，我们观测到：
\[X_{i}=(X_{i1},X_{i2},X_{i3},X_{i4})\]
$X_{i1}=$ 第 $i$ 个患者的年龄
$X_{i2}=$ 第 $i$ 个患者的体重
$X_{i3}=$ 第 $i$ 个患者的体重指数
$X_{i4}=$ 第 $i$ 个患者的收缩压

通常，我们会将所有观测都收集到一个 $n×p$ 的矩阵中：

\[\mathcal X=\begin{pmatrix} X_{11} & \cdots & X_{1p} \\ X_{21} & \cdots & X_{2p} \\ & \vdots & \\ X_{n1} & \cdots & X_{np} \end{pmatrix}\]

每个 $X_{ij} \; (i=1,\dots,n\;;\; j=1,\dots,p)$ 都是一个随机变量
$\mathcal X$ 有 $n$ 行 $p$ 列
第 $i$ 行代表第 $i$ 个个体对应的 $p$ 个变量
第 $j$ 列代表所有 $n$ 个个体的第 $j$ 个变量

我们将随机向量 $X_i=(X_{i1},\dots,X_{ip})$ 的取值称为 观测值 (observed value) 或 实现 (realization)。

通常，我们使用小写字母表示观测值，即 $x_i=(x_{i1},\dots,x_{ip})$ 是随机向量 $X_i$ 的实现。

我们在本课程中将要做的事情：

在基础统计学课程中学习的技术并没有专注于多元数据。
例如，我们如何在超过 $p=2$ 的维度上绘制散点图？如何用图形表示多元数据？
在本课程中，我们将学习专门为多元数据设计的技术。

课程涵盖的主要内容：

回顾本课程所需的基本矩阵结果
回顾有关多元数据和多元正态分布的基本结果
主成分分析、因子分析和其他降维技术
聚类技术
分类技术
如果时间允许，将涵盖以下一些主题：回归、对应分析

2. 矩阵性质回顾

参考教材 Hardle and Simar(2015) 中的 2.1、2.2、2.3、2.4 和 2.6 章节

2.1 基础运算

一个矩阵 $\mathcal A$ 是一个 $n$ 行 $p$ 列的数字系统：

\[\mathcal A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1p} \\ a_{21} & a_{22} & \cdots & a_{2p} \\ & \vdots & \\ a_{n1} & a_{n2} & \cdots & a_{np} \\ \end{pmatrix}\]

我们可以将 $\mathcal A$ 表示为 $(a_{ij})$ 或者 $(a_{ij})_{1\le i\le n,1\le j\le p}$。

该矩阵的维度记为 $n\times p$，其中 $n$ 是行数，$p$ 是列数。

我们使用 $\mathcal A^{\mathrm T}$ 来表示矩阵 $\mathcal A$ 的转置：

\[\mathcal A^{\mathrm T}=\begin{pmatrix} a_{11} & a_{21} & \cdots & a_{n1} \\ a_{12} & a_{22} & \cdots & a_{n2} \\ & \vdots & \\ a_{1p} & a_{2p} & \cdots & a_{np} \\ \end{pmatrix}\]

特殊矩阵

表 1：特殊矩阵和向量

名称	定义	符号	示例
标量	$p=n=1$	$a$	$3$
列向量	$p=1$	$a$	$\begin{pmatrix}1 \\ 3 \end{pmatrix}$
行向量	$n=1$	$a^{\mathrm T}$	$\begin{pmatrix}1 & 3 \end{pmatrix}$
全 $1$ 向量	$(\underbrace{1,\dots,1}_n)^{\mathrm T}$	$1_n$	$\begin{pmatrix}1 \\ 1 \end{pmatrix}$
零向量	$(\underbrace{0,\dots,0}_n)^{\mathrm T}$	$0_n$	$\begin{pmatrix}0 \\ 0 \end{pmatrix}$
方阵	$n=p$	$\mathcal A(p \times p)$	$\begin{pmatrix}2 & 0 \\ 0 & 2 \end{pmatrix}$
对角矩阵	$a_{ij}=0,i\ne j,n=p$	$\mathrm{diag}(a_{ii})$	$\begin{pmatrix}1 & 0 \\ 0 & 2 \end{pmatrix}$
单位矩阵	$\mathrm{diag}(\underbrace{1,\dots,1}_p)$	$\mathcal I_p$	$\begin{pmatrix}1 & 0 \\ 0 & 1 \end{pmatrix}$
全 $1$ 方阵	$a_{ij}=1,n=p$	$1_n 1_n^{\mathrm T}$	$\begin{pmatrix}1 & 1 \\ 1 & 1 \end{pmatrix}$
对称矩阵	$a_{ij}=a_{ji}$		$\begin{pmatrix}1 & 2 \\ 2 & 3 \end{pmatrix}$
零矩阵	$a_{ij}=0$	$0$	$\begin{pmatrix}0 & 0 \\ 0 & 0 \end{pmatrix}$
上三角矩阵	$a_{ij=0},i< j$		$\begin{pmatrix}1 & 2 & 4 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
幂等矩阵	$\mathcal A \mathcal A = \mathcal A$		$\begin{pmatrix}1 & 0 & 0 \\ 0 & \frac{1}{2} & \frac{1}{2} \\ 0 & \frac{1}{2} & \frac{1}{2} \end{pmatrix}$
正交矩阵	$\mathcal A^{\mathrm T}\mathcal A=\mathcal I=\mathcal A \mathcal A^{\mathrm T}$		$\begin{pmatrix}\frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \\ \frac{1}{\sqrt 2} & -\frac{1}{\sqrt 2} \end{pmatrix}$

矩阵运算

对两个 $n\times p$ 的矩阵 $\mathcal A=(a_{ij})$ 和 $\mathcal B=(b_{ij})$ 求和：
\[\mathcal D=\mathcal A+\mathcal B=\begin{pmatrix} a_{11}+b_{11} & a_{12}+b_{12} & \cdots & a_{1p}+b_{1p} \\ a_{21}+b_{21} & a_{22}+b_{22} & \cdots & a_{2p}+b_{2p} \\ & \vdots & \\ a_{n1}+b_{n1} & a_{n2}+b_{n2} & \cdots & a_{np}+b_{np} \\ \end{pmatrix}\]
因此，$\mathcal D$ 中的第 $(i,j)$ 个元素 $d_{ij}$ 等于 $a_{ij}+b_{ij}$，即 $\mathcal A$ 和 $\mathcal B$ 中对应元素之和。

$\mathcal D$ 也是一个 $n\times p$ 的矩阵。
同理，
\[\mathcal A-\mathcal B=\begin{pmatrix} a_{11}-b_{11} & a_{12}-b_{12} & \cdots & a_{1p}-b_{1p} \\ a_{21}-b_{21} & a_{22}-b_{22} & \cdots & a_{2p}-b_{2p} \\ & \vdots & \\ a_{n1}-b_{n1} & a_{n2}-b_{n2} & \cdots & a_{np}-b_{np} \\ \end{pmatrix}\]
一个常数 $c$ 乘以一个 $n\times p$ 矩阵 $\mathcal A=(a_{ij})$ 将得到一个 $n\times p$ 的矩阵：
\[c \mathcal A=\begin{pmatrix} c a_{11} & c a_{12} & \cdots & c a_{1p} \\ c a_{21} & c a_{22} & \cdots & c a_{2p} \\ & \vdots & \\ c a_{n1} & c a_{n2} & \cdots & c a_{np} \\ \end{pmatrix}\]
一个 $n\times p$ 的矩阵 $\mathcal A$ 和一个 $p\times m$ 的矩阵 $\mathcal B$ 的乘积为：
\[\mathcal A \mathcal B = \mathcal C\]
其中，$\mathcal C$ 是一个 $n\times m$ 的矩阵，它的第 $(i,j)$ 个元素为：
\[c_{ij}=\sum_{k=1}^{p}a_{ik}b_{kj} \quad (i=1,\dots,n\;;\;j=1,\dots,m)\]
两个 $p$ 维向量 $x=(x_1,\dots,x_p)^{\mathrm T}$ 和 $y=(y_1,\dots,y_p)^{\mathrm T}$ 的标量积 (或者点积) 为：
\[x^{\mathrm T}y=\sum_{j=1}^{p}x_j y_j\]
这是一个实数，而非向量。

矩阵运算性质

\[\begin{align} \mathcal A + \mathcal B &= \mathcal B + \mathcal A \\[2ex] \mathcal A (\mathcal B + \mathcal C) &= \mathcal{AB} + \mathcal{AC} \\[2ex] \mathcal A (\mathcal {BC}) &= (\mathcal {AB}) \mathcal C \\[2ex] (\mathcal A^{\mathrm T})^{\mathrm T} &= \mathcal A \\[2ex] (\mathcal{AB})^{\mathrm T} &= \mathcal B^{\mathrm T} \mathcal A^{\mathrm T} \\[2ex] \mathcal {AC} &\color{red}{\ne} \mathcal{CA} \end{align}\]

矩阵特征

秩 (Rank)：一个 $n\times p$ 的矩阵 $\mathcal A$ 的秩被定义为 $\mathcal A$ 中线性独立的行 (或列) 的最大数目，记为 $\mathrm{rank}(\mathcal A)$。

$\mathcal A$ 中的 $k$ 行 (或列) 的一个集合 $a_1,\dots,a_k$ 被认为是 线性独立的，如果它们中的任何一个都无法表示为其他 $k-1$ 行 (或列) 的一个非平凡线性组合。即 无法被写为：
\[a_j = \sum_{i\ne j}c_i a_i\]
其中，所有的 $c_i$ 均为非零值。或者等价于：
\[\sum_{i=1}^{k}c_i a_i =0 \quad \Longrightarrow \quad c_1,\dots,c_k=0\]
我们总是有：
\[\mathrm{rank}(\mathcal A)\le \min(n,p)\]
迹 (Trace)：一个 $p\times p$ 的方阵 $\mathcal A$ 的迹被定义为其对角线上的元素之和，记为 $\mathrm{tr}(\mathcal A)$：
\[\mathrm{tr}(\mathcal A)=\sum_{i=1}^{p}a_{ii}\]
行列式 (Determinant)：一个 $p\times p$ 的方阵 $\mathcal A$ 的行列式是通过该矩阵计算出的一个数字，记为 $\mathrm{det}(\mathcal A)$ 或 $|\mathcal A|$，它是矩阵代数中一个重要的概念。对于一个 $2\times 2$ 的方阵：
\[\mathcal A=\begin{pmatrix}a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}\]
其行列式为：
\[|\mathcal A|=a_{11}a_{22}-a_{12}a_{21}\]
对于较大的矩阵，我们以递归方式进行计算，参考 https://en.wikipedia.org/wiki/Determinant
逆 (Inverse)：对于一个 $p\times p$ 的方阵 $\mathcal A$，如果 $|\mathcal A| \ne 0$，那么 $\mathcal A$ 的逆存在，记为 $\mathcal A^{-1}$，并且其满足：
\[\mathcal A \mathcal A^{-1}=\mathcal A^{-1}\mathcal A = \mathcal I_p\]
其中，$\mathcal I_p$ 为 $p\times p$ 的单位矩阵。

对于较小的矩阵，$\mathcal A=(a_{ij})$ 的逆可以通过如下公式计算：
\[\mathcal A^{-1}=\dfrac{\mathcal C}{|\mathcal A|}\]
其中，$\mathcal C=(c_{ij})$ 是 $\mathcal A$ 的 伴随矩阵 (adjoint matrix)。$\mathcal C^{\mathrm T}$ 中的元素 $c_{ji}$ 是 $\mathcal A$ 的 余子式 (co-factors)：
\[c_{ji}=(-1)^{i+j}\begin{vmatrix} a_{11} & \cdots & a_{1(j-1)} & a_{1(j+1)} & \cdots & a_{1p} \\ \vdots \\ a_{(i-1)1} & \cdots & a_{(i-1)(j-1)} & a_{(i-1)(j+1)} & \cdots & a_{(i-1)p} \\ a_{(i+1)1} & \cdots & a_{(i+1)(j-1)} & a_{(i+1)(j+1)} & \cdots & a_{(i+1)p} \\ \vdots \\ a_{p1} & \cdots & a_{p(j-1)} & a_{p(j+1)} & \cdots & a_{pp} \\ \end{vmatrix}\]
另外，我们有：
\[|\mathcal A^{-1}|=\dfrac{1}{|\mathcal A|}\]
特征值 (Eigenvalues) 和特征向量 (Eigenvectors)：考虑一个 $p\times p$ 的方阵 $\mathcal A$。若存在一个标量 $\lambda$ 和一个 $p\times 1$ 的 (非零) 向量 $\gamma$，使得：
\[\mathcal A \gamma = \lambda \gamma\]
我们称 $\lambda$ 为特征值，$\gamma$ 为特征向量。
- 如果 $\mathcal A$ 是对称矩阵，那么它有 $p$ 个特征值和特征向量。
- 这些特征值不必彼此都不同。
- 所有的特征值都满足：
  \[|\mathcal A-\lambda \mathcal I_p|=0\]
  它们是上面这个关于 $\lambda$ 的 $p$ 阶多项式的 $p$ 个根。
- 在实践中，我们使用相关软件 (例如 R) 计算它们。
- 具有特征值 $\lambda$ 的特征向量 $\gamma$ 的常数倍仍然是具有特征值 $\lambda$ 的特征向量。
- 因此，我们通常将特征向量定义为经过缩放后的，以使它们具有范数 $1$：
  \[\|\gamma\|=\sqrt{\gamma^{\mathrm T}\gamma}=1\]
- 假设一个 $p\times p$ 的方阵 $\mathcal A$ 具有特征值 $\lambda_1,\dots,\lambda_p$。令 $\Lambda$ 为对角矩阵 $\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_p)$，其中 $\lambda_i$ 是对角线上的元素，其余元素为 $0$。那么，我们有：
  \[\mathrm{det}(\mathcal A)=|\mathcal A|=|\Lambda|=\prod_{i=1}^{p}\lambda_i\]
  以及：
  \[\mathrm{tr}(\mathcal A)=\mathrm{tr}(\Lambda)=\sum_{i=1}^{p}\lambda_i\]

矩阵特征的性质

$\mathcal A(n\times n),\mathcal B(n\times n),c\in \mathbb R$

\[\begin{align} \mathrm{tr}(\mathcal A+\mathcal B) &= \mathrm{tr} \mathcal A+\mathrm{tr} \mathcal B \\[2ex] \mathrm{tr}(c \mathcal A) &= c \mathrm{tr}\mathcal A \\[2ex] |c \mathcal A| &= c^n|\mathcal A| \\[2ex] |\mathcal {AB}| &= |\mathcal {BA}| = |\mathcal {A}||\mathcal {B}| \end{align}\]

$\mathcal A(n\times p),\mathcal B(p\times n)$

\[\begin{align} \mathrm{tr}(\mathcal A \cdot \mathcal B) &= \mathrm{tr}(\mathcal B \cdot \mathcal A) \\[2ex] \mathrm{rank}(\mathcal A) &\le \min(n,p) \\[2ex] \mathrm{rank}(\mathcal A) &\ge 0 \\[2ex] \mathrm{rank}(\mathcal A) &= \mathrm{rank}(\mathcal A^{\mathrm T}) \\[2ex] \mathrm{rank}(\mathcal A^{\mathrm T}\mathcal A) &= \mathrm{rank}(\mathcal A) \\[2ex] \mathrm{rank}(\mathcal A + \mathcal B) &\le \mathrm{rank}(\mathcal A)+ \mathrm{rank}(\mathcal B) \\[2ex] \mathrm{rank}(\mathcal A \mathcal B) &\le \min\{\mathrm{rank}(\mathcal A),\mathrm{rank}(\mathcal B)\} \end{align}\]

$\mathcal A(n\times p),\mathcal B(p\times q),\mathcal C(q\times n)$

\[\begin{align} \mathrm{tr}(\mathcal A \mathcal B \mathcal C) &= \mathrm{tr}(\mathcal B \mathcal C \mathcal A) = \mathrm{tr}(\mathcal C \mathcal A \mathcal B) \\[2ex] \mathrm{rank}(\mathcal A \mathcal B \mathcal C) &= \mathrm{rank}(\mathcal B) \quad \text{for nonsingular } \mathcal A \text{ and } \mathcal C \end{align}\]

$\mathcal A(p\times p)$

\[\begin{align} |\mathcal A^{-1}| &= |\mathcal A|^{-1} \\[2ex] \mathrm{rank}(\mathcal A) &= p \quad \text{if and only if } \mathcal A \text{ is nonsingular} \end{align}\]

2.2 谱分解

谱分解

谱分解 (Spectral decomposition)：假设 $\mathcal A$ 是一个 $p\times p$ 的 对称方阵，令 $\lambda_1,\dots,\lambda_p$ 表示其 $p$ 个特征值，$\gamma_1,\dots,\gamma_p$ 表示范数 $1$ 的 $p\times 1$ 相关特征向量，并且彼此正交。

(注意：我们说两个 $p\times 1$ 的向量 $v$ 和 $w$ 是正交的，如果 $v^{\mathrm T}w=\sum_{i=1}^{p}v_iw_i=0$。)

那么，我们总是可以将 $\mathcal A$ 表示为以下形式，我们称之为 $\mathcal A$ 的 谱分解：
\[\mathcal A=\sum_{j=1}^{p}\lambda_j \gamma_j \gamma_j^{\mathrm T}\]
上式也可以写成矩阵形式：
\[\mathcal A=\Gamma \Lambda \Gamma^{\mathrm T}\]
其中，$\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_p)$，并且 $\Gamma=(\gamma_1,\dots,\gamma_p)$ 是一个 $p\times p$ 的正交矩阵，它的列就是 $p$ 个特征向量。
在上面的表示中，如果 $\mathcal A=\Gamma \Lambda \Gamma^{\mathrm T}$，那么假如我们对 $\mathcal A$ 取幂，例如 $\mathcal A^{\alpha}$，那么我们有：
\[\mathcal A^{\alpha} = \Gamma \Lambda^{\alpha} \Gamma^{\mathrm T}\]
这是因为 $\gamma_j$ 是正交的，并且是范数 $1$ 的。例如：
\[\mathcal A^2=\Gamma \Lambda \Gamma^{\mathrm T} \Gamma \Lambda \Gamma^{\mathrm T}= \Gamma \Lambda^2 \Gamma^{\mathrm T}\]
如果 $\mathcal A$ 是 可逆的 (当且仅当所有特征值均为 非零值 时)，那么上式也适用于负幂。例如：
\[\mathcal A^{-1}= \Gamma \Lambda^{-1} \Gamma^{\mathrm T}\]
($\mathcal A^{-1}$ 为矩阵 $\mathcal A$ 的逆)

奇异值分解

更一般地，对于 非方阵 的情况，同样存在类似的分解形式。特别是，任何具有秩 $r$ 的 $n\times p$ 矩阵 $\mathcal A$ 都可以分解为：

\[\mathcal A=\Gamma \Lambda \Delta^{\mathrm T}\]

其中，矩阵 $\Gamma(n\times r)$ 和矩阵 $\Delta(p\times r)$ 是 列规范正交的 (column orthonormal)，即

\[\Gamma^{\mathrm T}\Gamma = \Delta^{\mathrm T}\Delta = \mathcal I_r\]

并且

\[\Lambda=\mathrm{diag}(\lambda_1^{1/2},\dots,\lambda_r^{1/2})\]

其中，每个 $\lambda_i>0$。

这些 $\lambda_i$ 是矩阵 $\mathcal A \mathcal A^{\mathrm T}$ 和 $\mathcal A^{\mathrm T} \mathcal A$ 的 非零特征值；$\Gamma$ 和 $\Delta$ 的列是这两个矩阵对应的 $r$ 个 特征向量。

上面的 $\Gamma$ 和 $\Delta$ 分别张成了 $\mathrm{col}(\mathcal A)$ 和 $\mathrm{row}(\mathcal A)$，它们表示 $\mathcal A$ 的列空间和行空间。
上面是 “简化的” 版本。通常，$\Gamma$ 和 $\Delta$ 可以通过 “增加” 额外的列成为方阵，这些额外的列分别张成了 $\mathcal A^{\mathrm T}$ 和 $\mathcal A$ 的零空间 (这种情况下，$\Lambda$ 需要额外增加由零元素组成的行或列，具体取决于 $n$ 和 $p$ 中较大的一方)。
因此，SVD 实际上捕获了任何矩阵的全部 4 个 “基本子空间”：列空间、零空间、行空间、左零空间。
概念检查：如何证明 $\mathcal A \mathcal A^{\mathrm T}$ 和 $\mathcal A$ 具有相同的列空间？特别是 $\mathrm{col}(\mathcal A) \subset \mathrm{col}(\mathcal A \mathcal A^{\mathrm T})$？

证明：显然，矩阵 $\mathcal{AA}^{\mathrm T}$ 的列的线性组合 $\mathcal{AA}^{\mathrm T} x$ 总是可以写成矩阵 $\mathcal A$ 的列的线性组合的形式 $\mathcal A y$，其中 $y=\mathcal A^{\mathrm T} x$，所以我们有：
\[\mathrm{col}(\mathcal{AA}^{\mathrm T}) \subseteq \mathrm{col}(\mathcal{A})\]
因此，接下来我们只需要证明 $\mathrm{rank}(\mathcal{AA}^{\mathrm T}) = \mathrm{rank}(\mathcal{A})$ 即可得到 $\mathrm{col}(\mathcal{AA}^{\mathrm T}) = \mathrm{col}(\mathcal{A})$。

为此，我们将先证明矩阵 $\mathcal{A}^{\mathrm T} \mathcal{A}$ 和 $\mathcal{A}$ 具有相同的零空间，即 $\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{null}(\mathcal{A})$：
- $\mathcal A x = 0 \quad \Longrightarrow \quad \mathcal{A}^{\mathrm T} \mathcal{A} x =0$
  
  因此，$\mathrm{null}(\mathcal{A}) \subseteq \mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) $
- $\mathcal{A}^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad x^{\mathrm T} \mathcal{A}^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad (\mathcal{A} x)^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad \mathcal A x = 0$ 因此，$\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) \subseteq \mathrm{null}(\mathcal{A})$
所以，我们有 $\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{null}(\mathcal{A})$。

由于矩阵 $\mathcal{A}^{\mathrm T} \mathcal{A}$ 与 $\mathcal A$ 的列数相同，根据 秩-零化度定理 (rank–nullity theorem)，我们有：
\[\mathrm{rank}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{rank}(\mathcal{A})\]
然后，由于 $\mathrm{rank}(\mathcal{A} \mathcal{A}^{\mathrm T} ) = \mathrm{rank}(\mathcal{A}^{\mathrm T} \mathcal{A})$，所以
\[\mathrm{rank}(\mathcal{A} \mathcal{A}^{\mathrm T} ) = \mathrm{rank}(\mathcal{A})\]
综上可知，$\mathrm{col}(\mathcal{AA}^{\mathrm T}) = \mathrm{col}(\mathcal{A})$。

2.3 二次型

$p$ 维向量 $x=(x_1,\dots,x_p)^{\mathrm T}$ 的一个 二次型 (quadratic form) $Q(x)$ 被定义为：
\[Q(x)=\sum_{i=1}^{p}\sum_{j=1}^{p}a_{ij}x_ix_j=x^{\mathrm T}\mathcal A x\]
其中，$a_{ij}$ 是一个 $p\times p$ 的对称矩阵 $\mathcal A$ 的第 $(i,j)$ 个元素。
如果
\[Q(x)\ge 0 \quad \text{for all } x\ne 0\]
那么矩阵 $\mathcal A$ 被称为 半正定的 (semi positive deﬁnite)，记为 $\mathcal A\ge 0$。
然而，如果二次型满足
\[Q(x)>0 \quad \text{for all } x\ne 0\]
那么矩阵 $\mathcal A$ 被称为 正定的 (positive deﬁnite)，记为 $\mathcal A> 0$。
$\mathcal A> 0$ 等价于 $\mathcal A$ 的所有特征值都满足：
\[\lambda_1>0,\dots,\lambda_p >0\]
然后，我们有：$|\mathcal A|>0$ 并且 $\mathcal A^{-1}$ 存在。
如果 $\mathcal A\ge 0$，那么
\[\mathrm{rank}(\mathcal A)=r< p\]
并且
- 矩阵 $\mathcal A$ 有 $p-r$ 个特征值等于 $0$。
- 其余 $r$ 个特征值严格为正。

下节内容：几何观点和高维数据

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载，并请注明来自：YEY 的博客同时保持文章内容的完整和以上声明信息！

数据科学多元统计学 01：导论

墨尔本大学 MAST90138 课程笔记