数据科学多元统计学 01:导论

墨尔本大学 MAST90138 课程笔记

Posted by YEY on August 4, 2020

Lecture 01 导论

参考教材

  • Hardle, W. and Simar, L (2015). Applied multivariate statistical analysis, 4th edition.
  • Hastie, T. Tibshirani, R. and Friedman, J. (2009). The elements of statistical learning, 2nd edition

1. 导论

课程目标:描述、理解和发现维度 $p > 1$ 的数据的属性。

我们想要分析一个样本,它包含 $n$ 个随机向量 $X_1,\dots,X_n$,也可以表示为 $X_i (i=1,\dots,n)$,其中,$X_1,X_2$ 等都属于 $\mathbb R^p$:

\[\begin{align} X_1 &= (X_{11},\dots,X_{1p}) \in \mathbb R^p \\ X_2 &= (X_{21},\dots,X_{2p}) \in \mathbb R^p \\ \vdots \\ X_n &= (X_{n1},\dots,X_{np}) \in \mathbb R^p \end{align}\]

这意味着我们有一个包含 $n$ 个个体的样本,对于每个个体,我们观测到 $p$ 个变量 (有时称为特征)。

例子:

  • 我们考虑一项涉及 $n = 100$ 名患者的健康研究。
  • 我们对每个患者测量 $p = 4$ 个量:年龄、体重、体重指数、收缩压。
  • 对于第 $i$ 个个体,其中 $i=1,\dots,100$,我们观测到:

    \[X_{i}=(X_{i1},X_{i2},X_{i3},X_{i4})\]
  • $X_{i1}=$ 第 $i$ 个患者的年龄
    $X_{i2}=$ 第 $i$ 个患者的体重
    $X_{i3}=$ 第 $i$ 个患者的体重指数
    $X_{i4}=$ 第 $i$ 个患者的收缩压

通常,我们会将所有观测都收集到一个 $n×p$ 的矩阵中:

\[\mathcal X=\begin{pmatrix} X_{11} & \cdots & X_{1p} \\ X_{21} & \cdots & X_{2p} \\ & \vdots & \\ X_{n1} & \cdots & X_{np} \end{pmatrix}\]
  • 每个 $X_{ij} \; (i=1,\dots,n\;;\; j=1,\dots,p)$ 都是一个随机变量
  • $\mathcal X$ 有 $n$ 行 $p$ 列
  • 第 $i$ 行代表第 $i$ 个个体对应的 $p$ 个变量
  • 第 $j$ 列代表所有 $n$ 个个体的第 $j$ 个变量

我们将随机向量 $X_i=(X_{i1},\dots,X_{ip})$ 的取值称为 观测值 (observed value)实现 (realization)

通常,我们使用小写字母表示观测值,即 $x_i=(x_{i1},\dots,x_{ip})$ 是随机向量 $X_i$ 的实现。

我们在本课程中将要做的事情:

  • 在基础统计学课程中学习的技术并没有专注于多元数据。
  • 例如,我们如何在超过 $p=2$ 的维度上绘制散点图?如何用图形表示多元数据?
  • 在本课程中,我们将学习专门为多元数据设计的技术。

课程涵盖的主要内容:

  • 回顾本课程所需的基本矩阵结果
  • 回顾有关多元数据和多元正态分布的基本结果
  • 主成分分析、因子分析和其他降维技术
  • 聚类技术
  • 分类技术
  • 如果时间允许,将涵盖以下一些主题:回归、对应分析

2. 矩阵性质回顾

参考教材 Hardle and Simar(2015) 中的 2.1、2.2、2.3、2.4 和 2.6 章节

2.1 基础运算

一个矩阵 $\mathcal A$ 是一个 $n$ 行 $p$ 列的数字系统:

\[\mathcal A=\begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1p} \\ a_{21} & a_{22} & \cdots & a_{2p} \\ & \vdots & \\ a_{n1} & a_{n2} & \cdots & a_{np} \\ \end{pmatrix}\]

我们可以将 $\mathcal A$ 表示为 $(a_{ij})$ 或者 $(a_{ij})_{1\le i\le n,1\le j\le p}$。

该矩阵的维度记为 $n\times p$,其中 $n$ 是行数,$p$ 是列数。

我们使用 $\mathcal A^{\mathrm T}$ 来表示矩阵 $\mathcal A$ 的转置:

\[\mathcal A^{\mathrm T}=\begin{pmatrix} a_{11} & a_{21} & \cdots & a_{n1} \\ a_{12} & a_{22} & \cdots & a_{n2} \\ & \vdots & \\ a_{1p} & a_{2p} & \cdots & a_{np} \\ \end{pmatrix}\]

特殊矩阵

表 1:特殊矩阵和向量

名称 定义 符号 示例
标量 $p=n=1$ $a$ $3$
列向量 $p=1$ $a$ $\begin{pmatrix}1 \\ 3 \end{pmatrix}$
行向量 $n=1$ $a^{\mathrm T}$ $\begin{pmatrix}1 & 3 \end{pmatrix}$
全 $1$ 向量 $(\underbrace{1,\dots,1}_n)^{\mathrm T}$ $1_n$ $\begin{pmatrix}1 \\ 1 \end{pmatrix}$
零向量 $(\underbrace{0,\dots,0}_n)^{\mathrm T}$ $0_n$ $\begin{pmatrix}0 \\ 0 \end{pmatrix}$
方阵 $n=p$ $\mathcal A(p \times p)$ $\begin{pmatrix}2 & 0 \\ 0 & 2 \end{pmatrix}$
对角矩阵 $a_{ij}=0,i\ne j,n=p$ $\mathrm{diag}(a_{ii})$ $\begin{pmatrix}1 & 0 \\ 0 & 2 \end{pmatrix}$
单位矩阵 $\mathrm{diag}(\underbrace{1,\dots,1}_p)$ $\mathcal I_p$ $\begin{pmatrix}1 & 0 \\ 0 & 1 \end{pmatrix}$
全 $1$ 方阵 $a_{ij}=1,n=p$ $1_n 1_n^{\mathrm T}$ $\begin{pmatrix}1 & 1 \\ 1 & 1 \end{pmatrix}$
对称矩阵 $a_{ij}=a_{ji}$   $\begin{pmatrix}1 & 2 \\ 2 & 3 \end{pmatrix}$
零矩阵 $a_{ij}=0$ $0$ $\begin{pmatrix}0 & 0 \\ 0 & 0 \end{pmatrix}$
上三角矩阵 $a_{ij=0},i< j$   $\begin{pmatrix}1 & 2 & 4 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \end{pmatrix}$
幂等矩阵 $\mathcal A \mathcal A = \mathcal A$   $\begin{pmatrix}1 & 0 & 0 \\ 0 & \frac{1}{2} & \frac{1}{2} \\ 0 & \frac{1}{2} & \frac{1}{2} \end{pmatrix}$
正交矩阵 $\mathcal A^{\mathrm T}\mathcal A=\mathcal I=\mathcal A \mathcal A^{\mathrm T}$   $\begin{pmatrix}\frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \\ \frac{1}{\sqrt 2} & -\frac{1}{\sqrt 2} \end{pmatrix}$

矩阵运算

  • 对两个 $n\times p$ 的矩阵 $\mathcal A=(a_{ij})$ 和 $\mathcal B=(b_{ij})$ 求和:

    \[\mathcal D=\mathcal A+\mathcal B=\begin{pmatrix} a_{11}+b_{11} & a_{12}+b_{12} & \cdots & a_{1p}+b_{1p} \\ a_{21}+b_{21} & a_{22}+b_{22} & \cdots & a_{2p}+b_{2p} \\ & \vdots & \\ a_{n1}+b_{n1} & a_{n2}+b_{n2} & \cdots & a_{np}+b_{np} \\ \end{pmatrix}\]

    因此,$\mathcal D$ 中的第 $(i,j)$ 个元素 $d_{ij}$ 等于 $a_{ij}+b_{ij}$,即 $\mathcal A$ 和 $\mathcal B$ 中对应元素之和。

    $\mathcal D$ 也是一个 $n\times p$ 的矩阵。


  • 同理,

    \[\mathcal A-\mathcal B=\begin{pmatrix} a_{11}-b_{11} & a_{12}-b_{12} & \cdots & a_{1p}-b_{1p} \\ a_{21}-b_{21} & a_{22}-b_{22} & \cdots & a_{2p}-b_{2p} \\ & \vdots & \\ a_{n1}-b_{n1} & a_{n2}-b_{n2} & \cdots & a_{np}-b_{np} \\ \end{pmatrix}\]


  • 一个常数 $c$ 乘以一个 $n\times p$ 矩阵 $\mathcal A=(a_{ij})$ 将得到一个 $n\times p$ 的矩阵:

    \[c \mathcal A=\begin{pmatrix} c a_{11} & c a_{12} & \cdots & c a_{1p} \\ c a_{21} & c a_{22} & \cdots & c a_{2p} \\ & \vdots & \\ c a_{n1} & c a_{n2} & \cdots & c a_{np} \\ \end{pmatrix}\]


  • 一个 $n\times p$ 的矩阵 $\mathcal A$ 和一个 $p\times m$ 的矩阵 $\mathcal B$ 的乘积为:

    \[\mathcal A \mathcal B = \mathcal C\]

    其中,$\mathcal C$ 是一个 $n\times m$ 的矩阵,它的第 $(i,j)$ 个元素为:

    \[c_{ij}=\sum_{k=1}^{p}a_{ik}b_{kj} \quad (i=1,\dots,n\;;\;j=1,\dots,m)\]


  • 两个 $p$ 维向量 $x=(x_1,\dots,x_p)^{\mathrm T}$ 和 $y=(y_1,\dots,y_p)^{\mathrm T}$ 的标量积 (或者点积) 为:

    \[x^{\mathrm T}y=\sum_{j=1}^{p}x_j y_j\]

    这是一个实数,而非向量。

矩阵运算性质

\[\begin{align} \mathcal A + \mathcal B &= \mathcal B + \mathcal A \\[2ex] \mathcal A (\mathcal B + \mathcal C) &= \mathcal{AB} + \mathcal{AC} \\[2ex] \mathcal A (\mathcal {BC}) &= (\mathcal {AB}) \mathcal C \\[2ex] (\mathcal A^{\mathrm T})^{\mathrm T} &= \mathcal A \\[2ex] (\mathcal{AB})^{\mathrm T} &= \mathcal B^{\mathrm T} \mathcal A^{\mathrm T} \\[2ex] \mathcal {AC} &\color{red}{\ne} \mathcal{CA} \end{align}\]

矩阵特征

  • 秩 (Rank):一个 $n\times p$ 的矩阵 $\mathcal A$ 的秩被定义为 $\mathcal A$ 中线性独立的行 (或列) 的最大数目,记为 $\mathrm{rank}(\mathcal A)$。


    $\mathcal A$ 中的 $k$ 行 (或列) 的一个集合 $a_1,\dots,a_k$ 被认为是 线性独立的,如果它们中的任何一个都无法表示为其他 $k-1$ 行 (或列) 的一个非平凡线性组合。即 无法被写为

    \[a_j = \sum_{i\ne j}c_i a_i\]

    其中,所有的 $c_i$ 均为非零值。或者等价于:

    \[\sum_{i=1}^{k}c_i a_i =0 \quad \Longrightarrow \quad c_1,\dots,c_k=0\]

    我们总是有:

    \[\mathrm{rank}(\mathcal A)\le \min(n,p)\]


  • 迹 (Trace):一个 $p\times p$ 的 方阵 $\mathcal A$ 的迹被定义为其对角线上的元素之和,记为 $\mathrm{tr}(\mathcal A)$:

    \[\mathrm{tr}(\mathcal A)=\sum_{i=1}^{p}a_{ii}\]


  • 行列式 (Determinant):一个 $p\times p$ 的 方阵 $\mathcal A$ 的行列式是通过该矩阵计算出的一个数字,记为 $\mathrm{det}(\mathcal A)$ 或 $|\mathcal A|$,它是矩阵代数中一个重要的概念。对于一个 $2\times 2$ 的方阵:

    \[\mathcal A=\begin{pmatrix}a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}\]

    其行列式为:

    \[|\mathcal A|=a_{11}a_{22}-a_{12}a_{21}\]

    对于较大的矩阵,我们以递归方式进行计算,参考 https://en.wikipedia.org/wiki/Determinant


  • 逆 (Inverse):对于一个 $p\times p$ 的 方阵 $\mathcal A$,如果 $|\mathcal A| \ne 0$,那么 $\mathcal A$ 的逆存在,记为 $\mathcal A^{-1}$,并且其满足:

    \[\mathcal A \mathcal A^{-1}=\mathcal A^{-1}\mathcal A = \mathcal I_p\]

    其中,$\mathcal I_p$ 为 $p\times p$ 的单位矩阵。


    对于较小的矩阵,$\mathcal A=(a_{ij})$ 的逆可以通过如下公式计算:

    \[\mathcal A^{-1}=\dfrac{\mathcal C}{|\mathcal A|}\]

    其中,$\mathcal C=(c_{ij})$ 是 $\mathcal A$ 的 伴随矩阵 (adjoint matrix)。$\mathcal C^{\mathrm T}$ 中的元素 $c_{ji}$ 是 $\mathcal A$ 的 余子式 (co-factors)

    \[c_{ji}=(-1)^{i+j}\begin{vmatrix} a_{11} & \cdots & a_{1(j-1)} & a_{1(j+1)} & \cdots & a_{1p} \\ \vdots \\ a_{(i-1)1} & \cdots & a_{(i-1)(j-1)} & a_{(i-1)(j+1)} & \cdots & a_{(i-1)p} \\ a_{(i+1)1} & \cdots & a_{(i+1)(j-1)} & a_{(i+1)(j+1)} & \cdots & a_{(i+1)p} \\ \vdots \\ a_{p1} & \cdots & a_{p(j-1)} & a_{p(j+1)} & \cdots & a_{pp} \\ \end{vmatrix}\]

    另外,我们有:

    \[|\mathcal A^{-1}|=\dfrac{1}{|\mathcal A|}\]


  • 特征值 (Eigenvalues) 和特征向量 (Eigenvectors):考虑一个 $p\times p$ 的 方阵 $\mathcal A$。若存在一个标量 $\lambda$ 和一个 $p\times 1$ 的 (非零) 向量 $\gamma$,使得:

    \[\mathcal A \gamma = \lambda \gamma\]

    我们称 $\lambda$ 为特征值,$\gamma$ 为特征向量。

    • 如果 $\mathcal A$ 是对称矩阵,那么它有 $p$ 个特征值和特征向量。
    • 这些特征值不必彼此都不同。
    • 所有的特征值都满足:

      \[|\mathcal A-\lambda \mathcal I_p|=0\]

      它们是上面这个关于 $\lambda$ 的 $p$ 阶多项式的 $p$ 个根。

    • 在实践中,我们使用相关软件 (例如 R) 计算它们。
    • 具有特征值 $\lambda$ 的特征向量 $\gamma$ 的常数倍仍然是具有特征值 $\lambda$ 的特征向量。
    • 因此,我们通常将特征向量定义为经过缩放后的,以使它们具有范数 $1$:

      \[\|\gamma\|=\sqrt{\gamma^{\mathrm T}\gamma}=1\]
    • 假设一个 $p\times p$ 的方阵 $\mathcal A$ 具有特征值 $\lambda_1,\dots,\lambda_p$。令 $\Lambda$ 为对角矩阵 $\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_p)$,其中 $\lambda_i$ 是对角线上的元素,其余元素为 $0$。那么,我们有:

      \[\mathrm{det}(\mathcal A)=|\mathcal A|=|\Lambda|=\prod_{i=1}^{p}\lambda_i\]

      以及:

      \[\mathrm{tr}(\mathcal A)=\mathrm{tr}(\Lambda)=\sum_{i=1}^{p}\lambda_i\]

矩阵特征的性质

$\mathcal A(n\times n),\mathcal B(n\times n),c\in \mathbb R$

\[\begin{align} \mathrm{tr}(\mathcal A+\mathcal B) &= \mathrm{tr} \mathcal A+\mathrm{tr} \mathcal B \\[2ex] \mathrm{tr}(c \mathcal A) &= c \mathrm{tr}\mathcal A \\[2ex] |c \mathcal A| &= c^n|\mathcal A| \\[2ex] |\mathcal {AB}| &= |\mathcal {BA}| = |\mathcal {A}||\mathcal {B}| \end{align}\]

$\mathcal A(n\times p),\mathcal B(p\times n)$

\[\begin{align} \mathrm{tr}(\mathcal A \cdot \mathcal B) &= \mathrm{tr}(\mathcal B \cdot \mathcal A) \\[2ex] \mathrm{rank}(\mathcal A) &\le \min(n,p) \\[2ex] \mathrm{rank}(\mathcal A) &\ge 0 \\[2ex] \mathrm{rank}(\mathcal A) &= \mathrm{rank}(\mathcal A^{\mathrm T}) \\[2ex] \mathrm{rank}(\mathcal A^{\mathrm T}\mathcal A) &= \mathrm{rank}(\mathcal A) \\[2ex] \mathrm{rank}(\mathcal A + \mathcal B) &\le \mathrm{rank}(\mathcal A)+ \mathrm{rank}(\mathcal B) \\[2ex] \mathrm{rank}(\mathcal A \mathcal B) &\le \min\{\mathrm{rank}(\mathcal A),\mathrm{rank}(\mathcal B)\} \end{align}\]

$\mathcal A(n\times p),\mathcal B(p\times q),\mathcal C(q\times n)$

\[\begin{align} \mathrm{tr}(\mathcal A \mathcal B \mathcal C) &= \mathrm{tr}(\mathcal B \mathcal C \mathcal A) = \mathrm{tr}(\mathcal C \mathcal A \mathcal B) \\[2ex] \mathrm{rank}(\mathcal A \mathcal B \mathcal C) &= \mathrm{rank}(\mathcal B) \quad \text{for nonsingular } \mathcal A \text{ and } \mathcal C \end{align}\]

$\mathcal A(p\times p)$

\[\begin{align} |\mathcal A^{-1}| &= |\mathcal A|^{-1} \\[2ex] \mathrm{rank}(\mathcal A) &= p \quad \text{if and only if } \mathcal A \text{ is nonsingular} \end{align}\]

2.2 谱分解

谱分解

  • 谱分解 (Spectral decomposition):假设 $\mathcal A$ 是一个 $p\times p$ 的 对称方阵,令 $\lambda_1,\dots,\lambda_p$ 表示其 $p$ 个特征值,$\gamma_1,\dots,\gamma_p$ 表示范数 $1$ 的 $p\times 1$ 相关特征向量,并且彼此正交。


    (注意:我们说两个 $p\times 1$ 的向量 $v$ 和 $w$ 是正交的,如果 $v^{\mathrm T}w=\sum_{i=1}^{p}v_iw_i=0$。)


    那么,我们总是可以将 $\mathcal A$ 表示为以下形式,我们称之为 $\mathcal A$ 的 谱分解

    \[\mathcal A=\sum_{j=1}^{p}\lambda_j \gamma_j \gamma_j^{\mathrm T}\]

    上式也可以写成矩阵形式:

    \[\mathcal A=\Gamma \Lambda \Gamma^{\mathrm T}\]

    其中,$\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_p)$,并且 $\Gamma=(\gamma_1,\dots,\gamma_p)$ 是一个 $p\times p$ 的正交矩阵,它的列就是 $p$ 个特征向量。


  • 在上面的表示中,如果 $\mathcal A=\Gamma \Lambda \Gamma^{\mathrm T}$,那么假如我们对 $\mathcal A$ 取幂,例如 $\mathcal A^{\alpha}$,那么我们有:

    \[\mathcal A^{\alpha} = \Gamma \Lambda^{\alpha} \Gamma^{\mathrm T}\]

    这是因为 $\gamma_j$ 是正交的,并且是范数 $1$ 的。例如:

    \[\mathcal A^2=\Gamma \Lambda \Gamma^{\mathrm T} \Gamma \Lambda \Gamma^{\mathrm T}= \Gamma \Lambda^2 \Gamma^{\mathrm T}\]

    如果 $\mathcal A$ 是 可逆的 (当且仅当所有特征值均为 非零值 时),那么上式也适用于 负幂。例如:

    \[\mathcal A^{-1}= \Gamma \Lambda^{-1} \Gamma^{\mathrm T}\]

    ($\mathcal A^{-1}$ 为矩阵 $\mathcal A$ 的逆)

奇异值分解

更一般地,对于 非方阵 的情况,同样存在类似的 分解 形式。特别是,任何具有秩 $r$ 的 $n\times p$ 矩阵 $\mathcal A$ 都可以分解为:

\[\mathcal A=\Gamma \Lambda \Delta^{\mathrm T}\]

其中,矩阵 $\Gamma(n\times r)$ 和矩阵 $\Delta(p\times r)$ 是 列规范正交的 (column orthonormal),即

\[\Gamma^{\mathrm T}\Gamma = \Delta^{\mathrm T}\Delta = \mathcal I_r\]

并且

\[\Lambda=\mathrm{diag}(\lambda_1^{1/2},\dots,\lambda_r^{1/2})\]

其中,每个 $\lambda_i>0$。

这些 $\lambda_i$ 是矩阵 $\mathcal A \mathcal A^{\mathrm T}$ 和 $\mathcal A^{\mathrm T} \mathcal A$ 的 非零特征值;$\Gamma$ 和 $\Delta$ 的列是这两个矩阵对应的 $r$ 个 特征向量

  • 上面的 $\Gamma$ 和 $\Delta$ 分别张成了 $\mathrm{col}(\mathcal A)$ 和 $\mathrm{row}(\mathcal A)$,它们表示 $\mathcal A$ 的列空间和行空间。


  • 上面是 “简化的” 版本。通常,$\Gamma$ 和 $\Delta$ 可以通过 “增加” 额外的列成为方阵,这些额外的列分别张成了 $\mathcal A^{\mathrm T}$ 和 $\mathcal A$ 的零空间 (这种情况下,$\Lambda$ 需要额外增加由零元素组成的行或列,具体取决于 $n$ 和 $p$ 中较大的一方)。


  • 因此,SVD 实际上捕获了任何矩阵的全部 4 个 “基本子空间”:列空间、零空间、行空间、左零空间。


  • 概念检查:如何证明 $\mathcal A \mathcal A^{\mathrm T}$ 和 $\mathcal A$ 具有相同的列空间?特别是 $\mathrm{col}(\mathcal A) \subset \mathrm{col}(\mathcal A \mathcal A^{\mathrm T})$?


    证明:显然,矩阵 $\mathcal{AA}^{\mathrm T}$ 的列的线性组合 $\mathcal{AA}^{\mathrm T} x$ 总是可以写成矩阵 $\mathcal A$ 的列的线性组合的形式 $\mathcal A y$,其中 $y=\mathcal A^{\mathrm T} x$,所以我们有:

    \[\mathrm{col}(\mathcal{AA}^{\mathrm T}) \subseteq \mathrm{col}(\mathcal{A})\]

    因此,接下来我们只需要证明 $\mathrm{rank}(\mathcal{AA}^{\mathrm T}) = \mathrm{rank}(\mathcal{A})$ 即可得到 $\mathrm{col}(\mathcal{AA}^{\mathrm T}) = \mathrm{col}(\mathcal{A})$。

    为此,我们将先证明矩阵 $\mathcal{A}^{\mathrm T} \mathcal{A}$ 和 $\mathcal{A}$ 具有相同的零空间,即 $\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{null}(\mathcal{A})$:

    • $\mathcal A x = 0 \quad \Longrightarrow \quad \mathcal{A}^{\mathrm T} \mathcal{A} x =0$

      因此,$\mathrm{null}(\mathcal{A}) \subseteq \mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) $

    • $\mathcal{A}^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad x^{\mathrm T} \mathcal{A}^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad (\mathcal{A} x)^{\mathrm T} \mathcal{A} x =0 \quad \Longrightarrow \quad \mathcal A x = 0$ 因此,$\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) \subseteq \mathrm{null}(\mathcal{A})$

    所以,我们有 $\mathrm{null}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{null}(\mathcal{A})$。

    由于矩阵 $\mathcal{A}^{\mathrm T} \mathcal{A}$ 与 $\mathcal A$ 的列数相同,根据 秩-零化度定理 (rank–nullity theorem),我们有:

    \[\mathrm{rank}(\mathcal{A}^{\mathrm T} \mathcal{A}) = \mathrm{rank}(\mathcal{A})\]

    然后,由于 $\mathrm{rank}(\mathcal{A} \mathcal{A}^{\mathrm T} ) = \mathrm{rank}(\mathcal{A}^{\mathrm T} \mathcal{A})$,所以

    \[\mathrm{rank}(\mathcal{A} \mathcal{A}^{\mathrm T} ) = \mathrm{rank}(\mathcal{A})\]

    综上可知,$\mathrm{col}(\mathcal{AA}^{\mathrm T}) = \mathrm{col}(\mathcal{A})$。

2.3 二次型

  • $p$ 维向量 $x=(x_1,\dots,x_p)^{\mathrm T}$ 的一个 二次型 (quadratic form) $Q(x)$ 被定义为:

    \[Q(x)=\sum_{i=1}^{p}\sum_{j=1}^{p}a_{ij}x_ix_j=x^{\mathrm T}\mathcal A x\]

    其中,$a_{ij}$ 是一个 $p\times p$ 的对称矩阵 $\mathcal A$ 的第 $(i,j)$ 个元素。


  • 如果

    \[Q(x)\ge 0 \quad \text{for all } x\ne 0\]

    那么矩阵 $\mathcal A$ 被称为 半正定的 (semi positive definite),记为 $\mathcal A\ge 0$。


  • 然而,如果二次型满足

    \[Q(x)>0 \quad \text{for all } x\ne 0\]

    那么矩阵 $\mathcal A$ 被称为 正定的 (positive definite),记为 $\mathcal A> 0$。


  • $\mathcal A> 0$ 等价于 $\mathcal A$ 的所有特征值都满足:

    \[\lambda_1>0,\dots,\lambda_p >0\]

    然后,我们有:$|\mathcal A|>0$ 并且 $\mathcal A^{-1}$ 存在。


  • 如果 $\mathcal A\ge 0$,那么

    \[\mathrm{rank}(\mathcal A)=r< p\]

    并且

    • 矩阵 $\mathcal A$ 有 $p-r$ 个特征值等于 $0$。
    • 其余 $r$ 个特征值严格为正。

下节内容:几何观点和高维数据

知识共享许可协议本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 欢迎转载,并请注明来自:YEY 的博客 同时保持文章内容的完整和以上声明信息!