Lecture 01 导论
参考教材:
- Hardle, W. and Simar, L (2015). Applied multivariate statistical analysis, 4th edition.
- Hastie, T. Tibshirani, R. and Friedman, J. (2009). The elements of statistical learning, 2nd edition
1. 导论
课程目标:描述、理解和发现维度 $p > 1$ 的数据的属性。
我们想要分析一个样本,它包含 $n$ 个随机向量 $X_1,\dots,X_n$,也可以表示为 $X_i (i=1,\dots,n)$,其中,$X_1,X_2$ 等都属于 $\mathbb R^p$:
\[\begin{align} X_1 &= (X_{11},\dots,X_{1p}) \in \mathbb R^p \\ X_2 &= (X_{21},\dots,X_{2p}) \in \mathbb R^p \\ \vdots \\ X_n &= (X_{n1},\dots,X_{np}) \in \mathbb R^p \end{align}\]这意味着我们有一个包含 $n$ 个个体的样本,对于每个个体,我们观测到 $p$ 个变量 (有时称为特征)。
例子:
- 我们考虑一项涉及 $n = 100$ 名患者的健康研究。
- 我们对每个患者测量 $p = 4$ 个量:年龄、体重、体重指数、收缩压。
-
对于第 $i$ 个个体,其中 $i=1,\dots,100$,我们观测到:
\[X_{i}=(X_{i1},X_{i2},X_{i3},X_{i4})\] - $X_{i1}=$ 第 $i$ 个患者的年龄
$X_{i2}=$ 第 $i$ 个患者的体重
$X_{i3}=$ 第 $i$ 个患者的体重指数
$X_{i4}=$ 第 $i$ 个患者的收缩压
通常,我们会将所有观测都收集到一个 $n×p$ 的矩阵中:
\[\mathcal X=\begin{pmatrix} X_{11} & \cdots & X_{1p} \\ X_{21} & \cdots & X_{2p} \\ & \vdots & \\ X_{n1} & \cdots & X_{np} \end{pmatrix}\]- 每个 $X_{ij} \; (i=1,\dots,n\;;\; j=1,\dots,p)$ 都是一个随机变量
- $\mathcal X$ 有 $n$ 行 $p$ 列
- 第 $i$ 行代表第 $i$ 个个体对应的 $p$ 个变量
- 第 $j$ 列代表所有 $n$ 个个体的第 $j$ 个变量
我们将随机向量 $X_i=(X_{i1},\dots,X_{ip})$ 的取值称为 观测值 (observed value) 或 实现 (realization)。
通常,我们使用小写字母表示观测值,即 $x_i=(x_{i1},\dots,x_{ip})$ 是随机向量 $X_i$ 的实现。
我们在本课程中将要做的事情:
- 在基础统计学课程中学习的技术并没有专注于多元数据。
- 例如,我们如何在超过 $p=2$ 的维度上绘制散点图?如何用图形表示多元数据?
- 在本课程中,我们将学习专门为多元数据设计的技术。
课程涵盖的主要内容:
- 回顾本课程所需的基本矩阵结果
- 回顾有关多元数据和多元正态分布的基本结果
- 主成分分析、因子分析和其他降维技术
- 聚类技术
- 分类技术
- 如果时间允许,将涵盖以下一些主题:回归、对应分析
2. 矩阵性质回顾
参考教材 Hardle and Simar(2015) 中的 2.1、2.2、2.3、2.4 和 2.6 章节
2.1 基础运算
一个矩阵 $\mathcal A$ 是一个 $n$ 行 $p$ 列的数字系统:
\[\mathcal A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1p} \\ a_{21} & a_{22} & \cdots & a_{2p} \\ & \vdots & \\ a_{n1} & a_{n2} & \cdots & a_{np} \\ \end{pmatrix}\]我们可以将 $\mathcal A$ 表示为 $(a_{ij})$ 或者 $(a_{ij})_{1\le i\le n,1\le j\le p}$。
该矩阵的维度记为 $n\times p$,其中 $n$ 是行数,$p$ 是列数。
我们使用 $\mathcal A^{\mathrm T}$ 来表示矩阵 $\mathcal A$ 的转置:
\[\mathcal A^{\mathrm T}=\begin{pmatrix} a_{11} & a_{21} & \cdots & a_{n1} \\ a_{12} & a_{22} & \cdots & a_{n2} \\ & \vdots & \\ a_{1p} & a_{2p} & \cdots & a_{np} \\ \end{pmatrix}\]特殊矩阵
表 1:特殊矩阵和向量
名称 | 定义 | 符号 | 示例 |
---|---|---|---|
标量 | $p=n=1$ | $a$ | $3$ |
列向量 | $p=1$ | $a$ | $\begin{pmatrix}1 \\ 3 \end{pmatrix}$ |
行向量 | $n=1$ | $a^{\mathrm T}$ | $\begin{pmatrix}1 & 3 \end{pmatrix}$ |
全 $1$ 向量 | $(\underbrace{1,\dots,1}_n)^{\mathrm T}$ | $1_n$ | $\begin{pmatrix}1 \\ 1 \end{pmatrix}$ |
零向量 | $(\underbrace{0,\dots,0}_n)^{\mathrm T}$ | $0_n$ | $\begin{pmatrix}0 \\ 0 \end{pmatrix}$ |
方阵 | $n=p$ | $\mathcal A(p \times p)$ | $\begin{pmatrix}2 & 0 \\ 0 & 2 \end{pmatrix}$ |
对角矩阵 | $a_{ij}=0,i\ne j,n=p$ | $\mathrm{diag}(a_{ii})$ | $\begin{pmatrix}1 & 0 \\ 0 & 2 \end{pmatrix}$ |
单位矩阵 | $\mathrm{diag}(\underbrace{1,\dots,1}_p)$ | $\mathcal I_p$ | $\begin{pmatrix}1 & 0 \\ 0 & 1 \end{pmatrix}$ |
全 $1$ 方阵 | $a_{ij}=1,n=p$ | $1_n 1_n^{\mathrm T}$ | $\begin{pmatrix}1 & 1 \\ 1 & 1 \end{pmatrix}$ |
对称矩阵 | $a_{ij}=a_{ji}$ | $\begin{pmatrix}1 & 2 \\ 2 & 3 \end{pmatrix}$ | |
零矩阵 | $a_{ij}=0$ | $0$ | $\begin{pmatrix}0 & 0 \\ 0 & 0 \end{pmatrix}$ |
上三角矩阵 | $a_{ij=0},i< j$ | $\begin{pmatrix}1 & 2 & 4 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$ | |
幂等矩阵 | $\mathcal A \mathcal A = \mathcal A$ | $\begin{pmatrix}1 & 0 & 0 \\ 0 & \frac{1}{2} & \frac{1}{2} \\ 0 & \frac{1}{2} & \frac{1}{2} \end{pmatrix}$ | |
正交矩阵 | $\mathcal A^{\mathrm T}\mathcal A=\mathcal I=\mathcal A \mathcal A^{\mathrm T}$ | $\begin{pmatrix}\frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \\ \frac{1}{\sqrt 2} & -\frac{1}{\sqrt 2} \end{pmatrix}$ |
矩阵运算
-
对两个 $n\times p$ 的矩阵 $\mathcal A=(a_{ij})$ 和 $\mathcal B=(b_{ij})$ 求和:
\[\mathcal D=\mathcal A+\mathcal B=\begin{pmatrix} a_{11}+b_{11} & a_{12}+b_{12} & \cdots & a_{1p}+b_{1p} \\ a_{21}+b_{21} & a_{22}+b_{22} & \cdots & a_{2p}+b_{2p} \\ & \vdots & \\ a_{n1}+b_{n1} & a_{n2}+b_{n2} & \cdots & a_{np}+b_{np} \\ \end{pmatrix}\]因此,$\mathcal D$ 中的第 $(i,j)$ 个元素 $d_{ij}$ 等于 $a_{ij}+b_{ij}$,即 $\mathcal A$ 和 $\mathcal B$ 中对应元素之和。
$\mathcal D$ 也是一个 $n\times p$ 的矩阵。
-
同理,
\[\mathcal A-\mathcal B=\begin{pmatrix} a_{11}-b_{11} & a_{12}-b_{12} & \cdots & a_{1p}-b_{1p} \\ a_{21}-b_{21} & a_{22}-b_{22} & \cdots & a_{2p}-b_{2p} \\ & \vdots & \\ a_{n1}-b_{n1} & a_{n2}-b_{n2} & \cdots & a_{np}-b_{np} \\ \end{pmatrix}\] -
一个常数 $c$ 乘以一个 $n\times p$ 矩阵 $\mathcal A=(a_{ij})$ 将得到一个 $n\times p$ 的矩阵:
\[c \mathcal A=\begin{pmatrix} c a_{11} & c a_{12} & \cdots & c a_{1p} \\ c a_{21} & c a_{22} & \cdots & c a_{2p} \\ & \vdots & \\ c a_{n1} & c a_{n2} & \cdots & c a_{np} \\ \end{pmatrix}\] -
一个 $n\times p$ 的矩阵 $\mathcal A$ 和一个 $p\times m$ 的矩阵 $\mathcal B$ 的乘积为:
\[\mathcal A \mathcal B = \mathcal C\]其中,$\mathcal C$ 是一个 $n\times m$ 的矩阵,它的第 $(i,j)$ 个元素为:
\[c_{ij}=\sum_{k=1}^{p}a_{ik}b_{kj} \quad (i=1,\dots,n\;;\;j=1,\dots,m)\] -
两个 $p$ 维向量 $x=(x_1,\dots,x_p)^{\mathrm T}$ 和 $y=(y_1,\dots,y_p)^{\mathrm T}$ 的标量积 (或者点积) 为:
\[x^{\mathrm T}y=\sum_{j=1}^{p}x_j y_j\]这是一个实数,而非向量。
矩阵运算性质
\[\begin{align} \mathcal A + \mathcal B &= \mathcal B + \mathcal A \\[2ex] \mathcal A (\mathcal B + \mathcal C) &= \mathcal{AB} + \mathcal{AC} \\[2ex] \mathcal A (\mathcal {BC}) &= (\mathcal {AB}) \mathcal C \\[2ex] (\mathcal A^{\mathrm T})^{\mathrm T} &= \mathcal A \\[2ex] (\mathcal{AB})^{\mathrm T} &= \mathcal B^{\mathrm T} \mathcal A^{\mathrm T} \\[2ex] \mathcal {AC} &\color{red}{\ne} \mathcal{CA} \end{align}\]矩阵特征
-
秩 (Rank):一个 $n\times p$ 的矩阵 $\mathcal A$ 的秩被定义为 $\mathcal A$ 中线性独立的行 (或列) 的最大数目,记为 $\mathrm{rank}(\mathcal A)$。
$\mathcal A$ 中的 $k$ 行 (或列) 的一个集合 $a_1,\dots,a_k$ 被认为是 线性独立的,如果它们中的任何一个都无法表示为其他 $k-1$ 行 (或列) 的一个非平凡线性组合。即 无法被写为:
\[a_j = \sum_{i\ne j}c_i a_i\]其中,所有的 $c_i$ 均为非零值。或者等价于:
\[\sum_{i=1}^{k}c_i a_i =0 \quad \Longrightarrow \quad c_1,\dots,c_k=0\]我们总是有:
\[\mathrm{rank}(\mathcal A)\le \min(n,p)\] -
迹 (Trace):一个 $p\times p$ 的 方阵 $\mathcal A$ 的迹被定义为其对角线上的元素之和,记为 $\mathrm{tr}(\mathcal A)$:
\[\mathrm{tr}(\mathcal A)=\sum_{i=1}^{p}a_{ii}\] -
行列式 (Determinant):一个 $p\times p$ 的 方阵 $\mathcal A$ 的行列式是通过该矩阵计算出的一个数字,记为 $\mathrm{det}(\mathcal A)$ 或 $|\mathcal A|$,它是矩阵代数中一个重要的概念。对于一个 $2\times 2$ 的方阵:
\[\mathcal A=\begin{pmatrix}a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}\]其行列式为:
\[|\mathcal A|=a_{11}a_{22}-a_{12}a_{21}\]对于较大的矩阵,我们以递归方式进行计算,参考 https://en.wikipedia.org/wiki/Determinant
-
逆 (Inverse):对于一个 $p\times p$ 的 方阵 $\mathcal A$,如果 $|\mathcal A| \ne 0$,那么 $\mathcal A$ 的逆存在,记为 $\mathcal A^{-1}$,并且其满足:
\[\mathcal A \mathcal A^{-1}=\mathcal A^{-1}\mathcal A = \mathcal I_p\]其中,$\mathcal I_p$ 为 $p\times p$ 的单位矩阵。
对于较小的矩阵,$\mathcal A=(a_{ij})$ 的逆可以通过如下公式计算:
\[\mathcal A^{-1}=\dfrac{\mathcal C}{|\mathcal A|}\]其中,$\mathcal C=(c_{ij})$ 是 $\mathcal A$ 的 伴随矩阵 (adjoint matrix)。$\mathcal C^{\mathrm T}$ 中的元素 $c_{ji}$ 是 $\mathcal A$ 的 余子式 (co-factors):
\[c_{ji}=(-1)^{i+j}\begin{vmatrix} a_{11} & \cdots & a_{1(j-1)} & a_{1(j+1)} & \cdots & a_{1p} \\ \vdots \\ a_{(i-1)1} & \cdots & a_{(i-1)(j-1)} & a_{(i-1)(j+1)} & \cdots & a_{(i-1)p} \\ a_{(i+1)1} & \cdots & a_{(i+1)(j-1)} & a_{(i+1)(j+1)} & \cdots & a_{(i+1)p} \\ \vdots \\ a_{p1} & \cdots & a_{p(j-1)} & a_{p(j+1)} & \cdots & a_{pp} \\ \end{vmatrix}\]另外,我们有:
\[|\mathcal A^{-1}|=\dfrac{1}{|\mathcal A|}\] -
特征值 (Eigenvalues) 和特征向量 (Eigenvectors):考虑一个 $p\times p$ 的 方阵 $\mathcal A$。若存在一个标量 $\lambda$ 和一个 $p\times 1$ 的 (非零) 向量 $\gamma$,使得:
\[\mathcal A \gamma = \lambda \gamma\]我们称 $\lambda$ 为特征值,$\gamma$ 为特征向量。
- 如果 $\mathcal A$ 是对称矩阵,那么它有 $p$ 个特征值和特征向量。
- 这些特征值不必彼此都不同。
-
所有的特征值都满足:
\[|\mathcal A-\lambda \mathcal I_p|=0\]它们是上面这个关于 $\lambda$ 的 $p$ 阶多项式的 $p$ 个根。
- 在实践中,我们使用相关软件 (例如 R) 计算它们。
- 具有特征值 $\lambda$ 的特征向量 $\gamma$ 的常数倍仍然是具有特征值 $\lambda$ 的特征向量。
-
因此,我们通常将特征向量定义为经过缩放后的,以使它们具有范数 $1$:
\[\|\gamma\|=\sqrt{\gamma^{\mathrm T}\gamma}=1\] -
假设一个 $p\times p$ 的方阵 $\mathcal A$ 具有特征值 $\lambda_1,\dots,\lambda_p$。令 $\Lambda$ 为对角矩阵 $\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_p)$,其中 $\lambda_i$ 是对角线上的元素,其余元素为 $0$。那么,我们有:
\[\mathrm{det}(\mathcal A)=|\mathcal A|=|\Lambda|=\prod_{i=1}^{p}\lambda_i\]以及:
\[\mathrm{tr}(\mathcal A)=\mathrm{tr}(\Lambda)=\sum_{i=1}^{p}\lambda_i\]
矩阵特征的性质
$\mathcal A(n\times n),\mathcal B(n\times n),c\in \mathbb R$
\[\begin{align} \mathrm{tr}(\mathcal A+\mathcal B) &= \mathrm{tr} \mathcal A+\mathrm{tr} \mathcal B \\[2ex] \mathrm{tr}(c \mathcal A) &= c \mathrm{tr}\mathcal A \\[2ex] |c \mathcal A| &= c^n|\mathcal A| \\[2ex] |\mathcal {AB}| &= |\mathcal {BA}| = |\mathcal {A}||\mathcal {B}| \end{align}\]$\mathcal A(n\times p),\mathcal B(p\times n)$
\[\begin{align} \mathrm{tr}(\mathcal A \cdot \mathcal B) &= \mathrm{tr}(\mathcal B \cdot \mathcal A) \\[2ex] \mathrm{rank}(\mathcal A) &\le \min(n,p) \\[2ex] \mathrm{rank}(\mathcal A) &\ge 0 \\[2ex] \mathrm{rank}(\mathcal A) &= \mathrm{rank}(\mathcal A^{\mathrm T}) \\[2ex] \mathrm{rank}(\mathcal A^{\mathrm T}\mathcal A) &= \mathrm{rank}(\mathcal A) \\[2ex] \mathrm{rank}(\mathcal A + \mathcal B) &\le \mathrm{rank}(\mathcal A)+ \mathrm{rank}(\mathcal B) \\[2ex] \mathrm{rank}(\mathcal A \mathcal B) &\le \min\{\mathrm{rank}(\mathcal A),\mathrm{rank}(\mathcal B)\} \end{align}\]$\mathcal A(n\times p),\mathcal B(p\times q),\mathcal C(q\times n)$
\[\begin{align} \mathrm{tr}(\mathcal A \mathcal B \mathcal C) &= \mathrm{tr}(\mathcal B \mathcal C \mathcal A) = \mathrm{tr}(\mathcal C \mathcal A \mathcal B) \\[2ex] \mathrm{rank}(\mathcal A \mathcal B \mathcal C) &= \mathrm{rank}(\mathcal B) \quad \text{for nonsingular } \mathcal A \text{ and } \mathcal C \end{align}\]$\mathcal A(p\times p)$
\[\begin{align} |\mathcal A^{-1}| &= |\mathcal A|^{-1} \\[2ex] \mathrm{rank}(\mathcal A) &= p \quad \text{if and only if } \mathcal A \text{ is nonsingular} \end{align}\]2.2 谱分解
谱分解
-
谱分解 (Spectral decomposition):假设 $\mathcal A$ 是一个 $p\times p$ 的 对称方阵,令 $\lambda_1,\dots,\lambda_p$ 表示其 $p$ 个特征值,$\gamma_1,\dots,\gamma_p$ 表示范数 $1$ 的 $p\times 1$ 相关特征向量,并且彼此正交。
(注意:我们说两个 $p\times 1$ 的向量 $v$ 和 $w$ 是正交的,如果 $v^{\mathrm T}w=\sum_{i=1}^{p}v_iw_i=0$。)
那么,我们总是可以将 $\mathcal A$ 表示为以下形式,我们称之为 $\mathcal A$ 的 谱分解:
\[\mathcal A=\sum_{j=1}^{p}\lambda_j \gamma_j \gamma_j^{\mathrm T}\]上式也可以写成矩阵形式:
\[\mathcal A=\Gamma \Lambda \Gamma^{\mathrm T}\]其中,$\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_p)$,并且 $\Gamma=(\gamma_1,\dots,\gamma_p)$ 是一个 $p\times p$ 的正交矩阵,它的列就是 $p$ 个特征向量。
-
在上面的表示中,如果 $\mathcal A=\Gamma \Lambda \Gamma^{\mathrm T}$,那么假如我们对 $\mathcal A$ 取幂,例如 $\mathcal A^{\alpha}$,那么我们有:
\[\mathcal A^{\alpha} = \Gamma \Lambda^{\alpha} \Gamma^{\mathrm T}\]这是因为 $\gamma_j$ 是正交的,并且是范数 $1$ 的。例如:
\[\mathcal A^2=\Gamma \Lambda \Gamma^{\mathrm T} \Gamma \Lambda \Gamma^{\mathrm T}= \Gamma \Lambda^2 \Gamma^{\mathrm T}\]如果 $\mathcal A$ 是 可逆的 (当且仅当所有特征值均为 非零值 时),那么上式也适用于 负幂。例如:
\[\mathcal A^{-1}= \Gamma \Lambda^{-1} \Gamma^{\mathrm T}\]($\mathcal A^{-1}$ 为矩阵 $\mathcal A$ 的逆)
奇异值分解
更一般地,对于 非方阵 的情况,同样存在类似的 分解 形式。特别是,任何具有秩 $r$ 的 $n\times p$ 矩阵 $\mathcal A$ 都可以分解为:
\[\mathcal A=\Gamma \Lambda \Delta^{\mathrm T}\]其中,矩阵 $\Gamma(n\times r)$ 和矩阵 $\Delta(p\times r)$ 是 列规范正交的 (column orthonormal),即
\[\Gamma^{\mathrm T}\Gamma = \Delta^{\mathrm T}\Delta = \mathcal I_r\]并且
\[\Lambda=\mathrm{diag}(\lambda_1^{1/2},\dots,\lambda_r^{1/2})\]其中,每个 $\lambda_i>0$。
这些 $\lambda_i$ 是矩阵 $\mathcal A \mathcal A^{\mathrm T}$ 和 $\mathcal A^{\mathrm T} \mathcal A$ 的 非零特征值;$\Gamma$ 和 $\Delta$ 的列是这两个矩阵对应的 $r$ 个 特征向量。
-
上面的 $\Gamma$ 和 $\Delta$ 分别张成了 $\mathrm{col}(\mathcal A)$ 和 $\mathrm{row}(\mathcal A)$,它们表示 $\mathcal A$ 的列空间和行空间。
-
上面是 “简化的” 版本。通常,$\Gamma$ 和 $\Delta$ 可以通过 “增加” 额外的列成为方阵,这些额外的列分别张成了 $\mathcal A^{\mathrm T}$ 和 $\mathcal A$ 的零空间 (这种情况下,$\Lambda$ 需要额外增加由零元素组成的行或列,具体取决于 $n$ 和 $p$ 中较大的一方)。
-
因此,SVD 实际上捕获了任何矩阵的全部 4 个 “基本子空间”:列空间、零空间、行空间、左零空间。
-
概念检查:如何证明 $\mathcal A \mathcal A^{\mathrm T}$ 和 $\mathcal A$ 具有相同的列空间?特别是 $\mathrm{col}(\mathcal A) \subset \mathrm{col}(\mathcal A \mathcal A^{\mathrm T})$?
证明:显然,矩阵 $\mathcal{AA}^{\mathrm T}$ 的列的线性组合 $\mathcal{AA}^{\mathrm T} x$ 总是可以写成矩阵 $\mathcal A$ 的列的线性组合的形式 $\mathcal A y$,其中 $y=\mathcal A^{\mathrm T} x$,所以我们有:
\[\mathrm{col}(\mathcal{AA}^{\mathrm T}) \subseteq \mathrm{col}(\mathcal{A})\]因此,接下来我们只需要证明 $\mathrm{rank}(\mathcal{AA}^{\mathrm T}) = \mathrm{rank}(\mathcal{A})$ 即可得到 $\mathrm{col}(\mathcal{AA}^{\mathrm T}) = \mathrm{col}(\mathcal{A})$。
为此,我们将先证明矩阵 $\mathcal{A}^{\mathrm T} \mathcal{A}$ 和 $\mathcal{A}$ 具有相同的零空间,即 $\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{null}(\mathcal{A})$:
-
$\mathcal A x = 0 \quad \Longrightarrow \quad \mathcal{A}^{\mathrm T} \mathcal{A} x =0$
因此,$\mathrm{null}(\mathcal{A}) \subseteq \mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) $
-
$\mathcal{A}^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad x^{\mathrm T} \mathcal{A}^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad (\mathcal{A} x)^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad \mathcal A x = 0$ 因此,$\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) \subseteq \mathrm{null}(\mathcal{A})$
所以,我们有 $\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{null}(\mathcal{A})$。
由于矩阵 $\mathcal{A}^{\mathrm T} \mathcal{A}$ 与 $\mathcal A$ 的列数相同,根据 秩-零化度定理 (rank–nullity theorem),我们有:
\[\mathrm{rank}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{rank}(\mathcal{A})\]然后,由于 $\mathrm{rank}(\mathcal{A} \mathcal{A}^{\mathrm T} ) = \mathrm{rank}(\mathcal{A}^{\mathrm T} \mathcal{A})$,所以
\[\mathrm{rank}(\mathcal{A} \mathcal{A}^{\mathrm T} ) = \mathrm{rank}(\mathcal{A})\]综上可知,$\mathrm{col}(\mathcal{AA}^{\mathrm T}) = \mathrm{col}(\mathcal{A})$。
-
2.3 二次型
-
$p$ 维向量 $x=(x_1,\dots,x_p)^{\mathrm T}$ 的一个 二次型 (quadratic form) $Q(x)$ 被定义为:
\[Q(x)=\sum_{i=1}^{p}\sum_{j=1}^{p}a_{ij}x_ix_j=x^{\mathrm T}\mathcal A x\]其中,$a_{ij}$ 是一个 $p\times p$ 的对称矩阵 $\mathcal A$ 的第 $(i,j)$ 个元素。
-
如果
\[Q(x)\ge 0 \quad \text{for all } x\ne 0\]那么矩阵 $\mathcal A$ 被称为 半正定的 (semi positive definite),记为 $\mathcal A\ge 0$。
-
然而,如果二次型满足
\[Q(x)>0 \quad \text{for all } x\ne 0\]那么矩阵 $\mathcal A$ 被称为 正定的 (positive definite),记为 $\mathcal A> 0$。
-
$\mathcal A> 0$ 等价于 $\mathcal A$ 的所有特征值都满足:
\[\lambda_1>0,\dots,\lambda_p >0\]然后,我们有:$|\mathcal A|>0$ 并且 $\mathcal A^{-1}$ 存在。
-
如果 $\mathcal A\ge 0$,那么
\[\mathrm{rank}(\mathcal A)=r< p\]并且
- 矩阵 $\mathcal A$ 有 $p-r$ 个特征值等于 $0$。
- 其余 $r$ 个特征值严格为正。
下节内容:几何观点和高维数据
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 欢迎转载,并请注明来自:YEY 的博客 同时保持文章内容的完整和以上声明信息!