矩阵的二范数是最大的singular value,而向量的二范数是元素的平方和的根(就是ridge里的惩罚项),为什么矩阵的二范数和向量的二范数的定义完全不同?名字为什么又一样呢?
2个回答
矩阵的二范数是根据向量的二范数的定义引申出来的,矩阵二范数是一种诱导范数(induced norm)。
长度为$n$向量的$p$-范数的定义是
$$\|v\|_p=\left(\sum_{i=1}^n|v_i|^p\right)^{\frac{1}{p}}$$
所以常见的2-范数就是平方和的根,1-范数就是绝对值的和。
一个$m\times n$的矩阵的$p$-范数是根据向量的$p$-范数诱导而来,定义如下
$$\|A\|_p := \max_{v\in \mathbb R^n}\frac{\|Av\|_p}{\|v\|_p}=\max_{\|v\|_p=1}\|Av\|_p$$
上面式子里$\|A\|_p$是矩阵范数,后面的都是向量范数。
具体来说,对于矩阵2-范数,
$$\|A\|_2 =\max_{\|v\|_2=1}\|Av\|_2$$
我们对$A$进行奇异分解,得到$A=U\Sigma V^T$,因为$U$和$V$都是酉阵,所以根据向量2-范数的定义,我们有
$$\|Av\|_2^2=\|U\Sigma V^Tv\|_2^2=v^TV\Sigma^TU^TU\Sigma V^Tv=v^TV\Sigma^T\Sigma V^Tv$$
把$V^Tv$替换为$u$,得到
$$\|Av||_2=\|\Sigma u\|_2$$
$u$的向量2-范数显然也是等于1,因为$\|u\|_2^2=\|V^Tv\|_2^2=v^TVV^Tv=\|v\|_2^2=1$。
所以$$\|A|_2=\max_{\|u\|_2=1}\|\Sigma u\|_2$$
$\Sigma$是对角线为奇异值的对角阵,为了使乘积后的二范数最大,只能让$u$为独热向量,唯一的1对应着最大的奇异值。矩阵的2-范数也就是最大奇异值。