Difference between revisions of "Definition:복소 행렬, 대칭 행렬과 양의 정부호성"

From Beloveds
Line 20: Line 20:
  
 
=== matrix congruence ===
 
=== matrix congruence ===
실수 대칭 행렬 $A$가 $n\times n$ 행렬 $I$이면 $x^TAx=1$은 $n$차원 구의 방정식이고, $\displaystyle A=\begin{pmatrix}1 & 0 \\ 0 & 4\end{pmatrix},\ x=\begin{pmatrix} x_1 & x_2 \end{pmatrix}^T$이면 $x^TAx=1$은 장축이 $x_1$축이고 단축이 $x_2$축이며 $(\pm 1,\ 0)$과 $(0,\ \pm 0.5)$를 지나는, 중심이 원점인 타원의 방정식이다. 실수 대칭 행렬 $A$가 $2\times 2$ 행렬이면 spectral theorem에 따라서, 고유값 $\lambda_1$에 대응하는 길이가 $1$인 고유벡터 $q_1=(a,\ b)$과 고유값 $\lambda_2$에 대응하는 길이가 $1$인 고유벡터 $q_2=(c,\ d)$에 대해서 $x^TAx=\lambda_1(ax_1+bx_2)^2+\lambda_2(cx_1+dx_2)^2$이다. $x^TAx=(Q^Tx)^T\Lambda(Q^Tx)$에서 orthogonal matrix $Q$는 reflextion들뿐이고<ref>https://en.wikipedia.org/wiki/Cartan%E2%80%93Dieudonn%C3%A9_theorem</ref> $x^TAx=1$은 각 축의 방향이 $A$의 고유벡터인, 회전된 타원의 방정식이다. 실수 대칭 행렬 $A$가 positive definite인 $n\times n$ 행렬이면 마찬가지로 축의 방향이 고유벡터이고 축의 길이가 고유값의 inverse square root인, 중심이 원점인 타원체의 방정식이며 이를 '''principal axis theorem'''(주 축 정리)이라고 한다.
+
실수 대칭 행렬 $A$가 $n\times n$ 행렬 $I$이면 $x^TAx=1$은 $n$차원 구의 방정식이고, $\displaystyle A=\begin{pmatrix}1 & 0 \\ 0 & 4\end{pmatrix},\ x=\begin{pmatrix} x_1 & x_2 \end{pmatrix}^T$이면 $x^TAx=1$은 장축이 $x_1$축이고 단축이 $x_2$축이며 $(\pm 1,\ 0)$과 $(0,\ \pm 0.5)$를 지나는, 중심이 원점인 타원의 방정식이다. 실수 대칭 행렬 $A$가 $2\times 2$ 행렬이면 고유값 $\lambda_1$에 대응하는 길이가 $1$인 고유벡터 $q_1=(a,\ b)$과 고유값 $\lambda_2$에 대응하는 길이가 $1$인 고유벡터 $q_2=(c,\ d)$에 대해서 $x^TAx=(Q^Tx)^T\Lambda(Q^Tx)=\lambda_1(ax_1+bx_2)^2+\lambda_2(cx_1+dx_2)^2$이다. orthogonal matrix $Q$는 reflextion들뿐이고<ref>https://en.wikipedia.org/wiki/Cartan%E2%80%93Dieudonn%C3%A9_theorem</ref> $x^TAx=1$은 각 축의 방향이 $A$의 고유벡터인, 회전된 타원의 방정식이다. 실수 대칭 행렬 $A$가 positive definite인 $n\times n$ 행렬이면 마찬가지로 축의 방향이 고유벡터이고 축의 길이가 고유값의 inverse square root인, 중심이 원점인 타원체의 방정식이며 이를 '''principal axis theorem'''(주 축 정리)이라고 한다.
  
$B$의 모든 고유값이 $0$이 아닐 때 축 회전 이전의 $A$와 축 회전 이후의 $B^TAB$의 관계를 '''congruent'''(합동)라고 한다.<ref>https://math.stackexchange.com/questions/1388421/reference-for-linear-algebra-books-that-teach-reverse-hermite-method-for-symmetr</ref> 이는 $A$와 $B$가 서로 다른 basis에서 같은 bilinear form을 이끌어낼 수 있음을 뜻한다. matrix congruence는 equivalence relation이다. $A$가 실수 대칭 행렬이면 $B^TAB$에서 고유값이 양수인 것, 음수인 것, $0$인 것의 개수가 $A$와 같고 그 역도 성립한다. 이를 '''Sylvester's law of inertia'''라 하며<ref>https://math.stackexchange.com/questions/6906/why-is-it-called-sylvesters-law-of-inertia</ref> $A,\ B$가 Hermitian일 때 conjugate transpose에 대해서 이 law는 동일하게 성립한다. 증명은 다음과 같다:  
+
$B$의 모든 고유값이 $0$이 아닐 때 축 회전 이전의 $A$와 축 회전 이후의 $B^TAB$의 관계를 '''congruent'''(합동)라고 한다.<ref>https://math.stackexchange.com/questions/1388421/reference-for-linear-algebra-books-that-teach-reverse-hermite-method-for-symmetr</ref> 이는 $A$와 $B$가 서로 다른 basis에서 같은 bilinear form을 이끌어낼 수 있음을 뜻한다. matrix congruence는 equivalence relation이다. $A$가 실수 대칭 행렬일 때, congruent인 행렬은 고유값이 양수인 것, 음수인 것, $0$인 것의 개수가 $A$와 같고 그 역도 성립한다. 이를 '''Sylvester's law of inertia'''라 하며<ref>https://math.stackexchange.com/questions/6906/why-is-it-called-sylvesters-law-of-inertia</ref> $A$가 Hermitian일 때 conjugate transpose에 대해서 이 law는 동일하게 성립한다. 증명은 다음과 같다: orthogonal matrix $Q$에 대해서 $A$와 $Q^TAQ$의 고유값은 같으므로 $B^TAB$에서 $Q^TAQ$로 가도록 함수 $f(t)=tQ+(1-t)B$를 생각할 수 있다. $B$는 invertible이므로 QR 분해를 할 수 있고 $f(t)=Q(tI+(1-t)R)$은 continuous function이다. $R$의 대각 성분이 모두 양수가 되도록 분해했다면 $tI+(1-t)R$는 모든 $t$에 대해서 invertible이다. 이때 $(f(t))^TAf(t)$는 continuous function이므로 모든 고유값이 $0$을 가로지를 수 없다. 즉 $A$를 Hermitian으로 제한하는 것은 고유값을 양수와 음수로 나누기 위해서이다.<ref>https://math.stackexchange.com/questions/4126674/generalization-of-sylvesters-law-of-inertia</ref>
 +
 
 +
=== Cholesky decomposition ===
 +
* $I$는 positive definite이므로 $A$의 모든 고유값이 $0$이 아닐 때 Sylvester's law of inertia에 따라서 정사각 대칭 행렬 $A^TA$와 $AA^T$는 positive definite이다.
 +
* $A=LDL^T$로 분해할 때 $A=(L\sqrt{D})(\sqrt{D}L^T)$이고 $(L\sqrt{D})^T=\sqrt{D}L^T$이다. $A=LDL^*$로 분해할 때 ...
 +
* $A=Q\Lambda Q^T$로 분해할 때 $A=(Q\sqrt{\Lambda})(\sqrt{\Lambda}Q^T)$이고 $(Q\sqrt{\Lambda})^T=\sqrt{\Lambda}Q^T$이다.
 +
* $A=Q\sqrt{\Lambda}Q^TQ\sqrt{\Lambda} Q^T$로 분해할 때 $(Q\sqrt{\Lambda}Q^T)^T=Q\sqrt{\Lambda}Q^T$이다.
 +
이와 같이 $A=CC^T$로 분해하는 것을 '''Cholesky decomposition'''(숄레스키 분해)이라 한다.
  
 
== 참고 자료 ==
 
== 참고 자료 ==

Revision as of 20:52, 22 May 2023

$z\in\C$의 길이는 $z=a+bi$일 때 $|z|=\sqrt{a^2+b^2}$이고 $v\in\C^n$의 길이는 $\|v\|=\sqrt{|v_1|^2+\cdots+|v_n|^2}$이다. $|z|^2=a^2+b^2=(a+bi)(a-bi)$이므로 $\overline{z}=z^*=a-bi$라 하면 $\|v\|=\sqrt{v_1\overline{v_1}+\cdots+v_n\overline{v_n}}$이다. 모든 성분에 켤레를 취한 벡터나 행렬을 $\overline{v}$로 쓸 때 두 복소 벡터 $a,\ b$의 내적은 linearity in the first argument가 성립하는 $a^T\overline{b}$나 linearity in the second argument가 성립하는 $\overline{a^T}b=a^*b$로 정의할 수 있다.[1] 둘 다 sesquilinear form이고[2] 이 내적에 대한 전치 행렬은 $\overline{A^T}$이다. 즉 Hermitian adjoint가 conjugate transpose(켤레 전치)이며 이를 $A^H=A^*=A^{\dagger}=A^{+}$ 등으로 쓴다. $A^*=A$, 즉 self-adjoint인 행렬 $A$를 Hermitian matrix(에르미트 행렬)라 하고 $A^{-1}=A^*$인 행렬 $A$를 unitary matrix(유니터리 행렬)라 한다.

$A^*$의 determinant는 $\det \overline{A^T}=\det \overline{A}$에서 각 성분끼리 곱하고 더하여 계산하므로 $\det \overline{A}=\overline{\det A}$이다. $A$의 고유값이 $\lambda$일 때 $A^*$의 고유값은 $\det(\overline{A^T}-\lambda I)=\det\overline{(A-\overline{\lambda}I)^T}=\overline{\det(A-\overline{\lambda}I)}=0$의 해이고 $0$은 실수이므로 complex conjugate $\overline{\lambda}$이다. 실수 행렬의 고유값이 복소수 $\lambda$일 때 $\overline{Ax}=A\overline{x}=\overline{\lambda x}=\overline{\lambda}\overline{x}$이므로 켤레 $\overline{\lambda}$도 고유값이다.

$A^*=A$이면 모든 벡터 $v$에 대해서 $(v^*Av)^*=v^*A^*v=v^*Av$는 허수 부분이 $0$이어야 하므로 실수이다. 이제 $Ax=\lambda x$를 가정하면 $x^*Ax=\lambda x^*x=\lambda \|x\|^2$도 실수이어야 하는데 $\|x\|^2$는 양수이므로 $\lambda$는 실수이다. 즉 Hermitian matrix $A$의 모든 고유값은 실수이므로 $c\neq 0$이면 $\det(A+ciI)\neq 0$이다. 실수 대칭 행렬의 모든 고유값이 실수이므로 $(A-\lambda I)x=0$의 해는 실수 행렬의 null space이고, 각 고유값에 대응하는 실수 고유벡터를 elimination으로 얻을 수 있다.[3]

unitary matrix $Q$가 $(Q+cI)x=0$이라고 가정하면 $Qx=-cx$에서 $x^*x=x^*Q^*Qx=(-cx)^*(-cx)=\overline{c}cx^*x=|c|^2x^*x$이다. $|c|\neq 1$이면 $x=0$이어야 하므로 그러한 $Q+cI$의 null space에는 $0$밖에 없다. 따라서 unitary matrix는 모든 고유값의 절댓값이 $1$이며, 각 column의 길이도 $1$이므로 triangular matrix가 diagonal matrix밖에 없다. $A$가 Hermitian이면서 unitary이면 $A^2=I$이며 세 조건 중 둘이 나머지 하나를 함의한다.

스펙트럼 분해

$A^*=A$이면 $Ax=\lambda x,\ Ay=\mu y,\ \lambda \neq\mu$일 때 $\langle \lambda x,\ y\rangle=\langle Ax,\ y\rangle=\langle x,\ A^*y\rangle=\langle x,\ \mu y\rangle$에서 $\lambda^*-\mu=0$이거나 $\langle x,\ y\rangle=0$이어야 한다. $A$의 모든 고유값이 실수이므로 $x\perp y$이고, 그러므로 Hermitian matrix $A$의 서로 다른 고유값에 대응하는 고유벡터 $q_i$들이 각 열을 이루는 unitary matrix $Q$에 대해서 $A=Q\Lambda Q^*$로 고유값 분해할 수 있다. $A_{ij}=\lambda_1q_{i1}\overline{q_{j1}}+\cdots+\lambda_n q_{in}\overline{q_{jn}}$에서 각 항을 고유값에 한 행렬을 곱한 것으로 볼 수 있고, 따라서 $A=\lambda_1 q_1q_1^*+\cdots+\lambda_n q_nq_n^*$이다. 이 일차 결합을 $A$의 spectral decomposition(스펙트럼 분해)이라고 하며, $q_iq_i^*$는 projection matrix이므로 다항식 $f$에 대해서 $f(A)=f(\lambda_1)q_1q_1^*+\cdots+f(\lambda_m)q_nq_n^*$이다.[4]

spectral decomposition은 Schur decomposition으로 볼 수 있다. 행렬 $A$가 주어지면 unitary matrix $Q$와 triangular matrix $A'$에 대해서 $A=QA'Q^{-1}$이므로 $A^*=A$이면 $A'^*=(Q^{-1}AQ)^*=Q^*A^*(Q^{-1})^*=Q^{-1}AQ$에서 $A'$는 diagonal matrix이다. 일반화하여 $AA^*=A^*A$이면 $A'=Q^{-1}AQ$도 $A'A'^*=Q^{-1}AQQ^{-1}A^*Q=Q^{-1}AA^*Q=Q^{-1}A^*AQ=A'^*A'$이며

$(A'A'^*)_{11}=|a_{11}|^2+\cdots+|a_{1n}|^2=(A'^*A')_{11}=|a_{11}|^2$이므로 $a_{12},\ \cdots,\ a_{1n}$은 모두 $0$이고, $(A'A'^*)_{22}=|a_{22}|^2+\cdots+|a_{2n}|^2=(A'^*A')_{22}=|a_{12}|^2+|a_{22}|^2=|a_{22}|^2$이므로 $a_{23},\ \cdots,\ a_{2n}$은 모두 $0$이고, ...

따라서 $A'$는 diagonal matrix이다. 즉 $AA^*=A^*A$이면 normal matrix이고[5] spectral decomposition을 할 수 있다. unitary matrix는 서로 다른 고유값 $\lambda,\ \mu$에 대응하는 고유벡터 $x,\ y$가 $x^*y=(Qx)^*Qy=\overline{\lambda}\mu x^*y$에서 $\overline{\lambda}\lambda=1$이므로 $x^*y=0$이어야 한다. skew-Hermitian matrix는 Hermitian matrix에 허수 $i$를 곱한 것으로 모든 고유값이 pure imaginary number이다.

양의 정부호성

모든 성분이 복소수인 행렬 $A$는 Hermitian matrix와 skew-Hermitian matrix의 합 $\displaystyle A=\frac{A+A^*}{2}+\frac{A-A^*}{2}$로 쓸 수 있다. 합의 고유값은 각각의 고유값에서 얻을 수 없지만, 첫 번째 항은 모든 고유값이 real number, 두 번째 항은 모든 고유값이 pure imaginary number이므로 구분하지 않고 분석해 볼 수 있다. Hermitian part만 가지면서 모든 고유값이 양수인 행렬을 positive definite(양의 정부호)라 하겠다. 그러한 $A$는 Hermitian matrix이므로 모든 벡터 $v$에 대해서 $v^*Av$가 실수이고 $\displaystyle v^*Av=v^*(Q\Lambda Q^*)v=(Q^*v)^*\Lambda(Q^*v)=\sum_{i}\lambda_i |(Q^*v)_i|^2$이다. 즉 모든 벡터 $v\neq 0$에 대해서 $v^*Av$는 양수이다.[6] 또한 $v=(x_1,\ \cdots,\ x_n)^T$라 하면 scalar $v^*Av$를 변수 $x_1,\ \cdots,\ x_n$에 관한 다항식 $\displaystyle \sum_{i,\ j} A_{ij} \overline{x_i}x_j$로 볼 수 있고 $v=0$일 때 최솟값 $0$을 가진다. 이 식을 $A$의 quadratic form(이차 형식)이라고 한다.

대개는 모든 벡터 $x\neq 0$에 대해서 $x^*Ax>0$인 행렬을 positive definite로 정의한다. 이 조건을 따르는 $A$와 $x$의 성분이 복소수이면 $x^*Ax$를 실수로 만들기 위해서 모든 벡터 $x\neq 0$에 대해서 $(x^*Ax)^*=x^*Ax$이어야 하고 $A$는 Hermitian이다.[7] 이 조건을 따르는 $A$와 $x$의 성분이 실수이면 그러한 제한이 없으므로 symmetric 조건을 추가로 가정해 줄 수 있다.[8] 그러지 않으면 고유값이 양수이어도 $x^*Ax>0$이 아닐 수 있고, $x^*Ax>0$이어도 고유값이 실수가 아닐 수 있다.[9] 하지만 $x^*Ax>0$일 때 고유값의 real part는 항상 양수이고 문맥에 따라서 symmetric 조건을 붙이지 않은 정의를 선호할 수 있다.[10] 복소 행렬에서와 마찬가지로 $A$를 symmetric matrix와 skew-symmetric matrix의 합 $\displaystyle A=\frac{A+A^T}{2}+\frac{A-A^T}{2}$로 쓸 수 있고, $A$의 skew-symmetric part는 $\displaystyle x^T\left(\frac{A-A^T}{2}\right)x=\frac{x^TAx-(x^TAx)^T}{2}=0$이다.[11]

matrix congruence

실수 대칭 행렬 $A$가 $n\times n$ 행렬 $I$이면 $x^TAx=1$은 $n$차원 구의 방정식이고, $\displaystyle A=\begin{pmatrix}1 & 0 \\ 0 & 4\end{pmatrix},\ x=\begin{pmatrix} x_1 & x_2 \end{pmatrix}^T$이면 $x^TAx=1$은 장축이 $x_1$축이고 단축이 $x_2$축이며 $(\pm 1,\ 0)$과 $(0,\ \pm 0.5)$를 지나는, 중심이 원점인 타원의 방정식이다. 실수 대칭 행렬 $A$가 $2\times 2$ 행렬이면 고유값 $\lambda_1$에 대응하는 길이가 $1$인 고유벡터 $q_1=(a,\ b)$과 고유값 $\lambda_2$에 대응하는 길이가 $1$인 고유벡터 $q_2=(c,\ d)$에 대해서 $x^TAx=(Q^Tx)^T\Lambda(Q^Tx)=\lambda_1(ax_1+bx_2)^2+\lambda_2(cx_1+dx_2)^2$이다. orthogonal matrix $Q$는 reflextion들뿐이고[12] $x^TAx=1$은 각 축의 방향이 $A$의 고유벡터인, 회전된 타원의 방정식이다. 실수 대칭 행렬 $A$가 positive definite인 $n\times n$ 행렬이면 마찬가지로 축의 방향이 고유벡터이고 축의 길이가 고유값의 inverse square root인, 중심이 원점인 타원체의 방정식이며 이를 principal axis theorem(주 축 정리)이라고 한다.

$B$의 모든 고유값이 $0$이 아닐 때 축 회전 이전의 $A$와 축 회전 이후의 $B^TAB$의 관계를 congruent(합동)라고 한다.[13] 이는 $A$와 $B$가 서로 다른 basis에서 같은 bilinear form을 이끌어낼 수 있음을 뜻한다. matrix congruence는 equivalence relation이다. $A$가 실수 대칭 행렬일 때, congruent인 행렬은 고유값이 양수인 것, 음수인 것, $0$인 것의 개수가 $A$와 같고 그 역도 성립한다. 이를 Sylvester's law of inertia라 하며[14] $A$가 Hermitian일 때 conjugate transpose에 대해서 이 law는 동일하게 성립한다. 증명은 다음과 같다: orthogonal matrix $Q$에 대해서 $A$와 $Q^TAQ$의 고유값은 같으므로 $B^TAB$에서 $Q^TAQ$로 가도록 함수 $f(t)=tQ+(1-t)B$를 생각할 수 있다. $B$는 invertible이므로 QR 분해를 할 수 있고 $f(t)=Q(tI+(1-t)R)$은 continuous function이다. $R$의 대각 성분이 모두 양수가 되도록 분해했다면 $tI+(1-t)R$는 모든 $t$에 대해서 invertible이다. 이때 $(f(t))^TAf(t)$는 continuous function이므로 모든 고유값이 $0$을 가로지를 수 없다. 즉 $A$를 Hermitian으로 제한하는 것은 고유값을 양수와 음수로 나누기 위해서이다.[15]

Cholesky decomposition

  • $I$는 positive definite이므로 $A$의 모든 고유값이 $0$이 아닐 때 Sylvester's law of inertia에 따라서 정사각 대칭 행렬 $A^TA$와 $AA^T$는 positive definite이다.
  • $A=LDL^T$로 분해할 때 $A=(L\sqrt{D})(\sqrt{D}L^T)$이고 $(L\sqrt{D})^T=\sqrt{D}L^T$이다. $A=LDL^*$로 분해할 때 ...
  • $A=Q\Lambda Q^T$로 분해할 때 $A=(Q\sqrt{\Lambda})(\sqrt{\Lambda}Q^T)$이고 $(Q\sqrt{\Lambda})^T=\sqrt{\Lambda}Q^T$이다.
  • $A=Q\sqrt{\Lambda}Q^TQ\sqrt{\Lambda} Q^T$로 분해할 때 $(Q\sqrt{\Lambda}Q^T)^T=Q\sqrt{\Lambda}Q^T$이다.

이와 같이 $A=CC^T$로 분해하는 것을 Cholesky decomposition(숄레스키 분해)이라 한다.

참고 자료

  1. https://math.stackexchange.com/questions/244528/is-any-inner-product-given-by
  2. https://en.wikipedia.org/wiki/Sesquilinear_form
  3. https://math.stackexchange.com/questions/1398023/question-about-eigenvectors-of-real-matrix-with-real-eigenvalues
  4. https://en.wikipedia.org/wiki/Spectrum_(functional_analysis)
  5. https://math.stackexchange.com/questions/3513736/how-to-determine-all-2-times-2-normal-matrices, https://math.stackexchange.com/questions/2046163/does-there-exist-a-normal-matrix-which-is-not-diagonal-nor-hermitian-nor-unitar, https://math.stackexchange.com/questions/57148/matrices-which-are-both-unitary-and-hermitian
  6. https://math.stackexchange.com/questions/1434167/proving-that-a-symmetric-matrix-is-positive-definite-iff-all-eigenvalues-are-pos
  7. https://math.stackexchange.com/questions/433006/proof-complex-positive-definite-self-adjoint
  8. https://math.stackexchange.com/questions/1954167/do-positive-semidefinite-matrices-have-to-be-symmetric
  9. https://math.stackexchange.com/questions/83134/does-non-symmetric-positive-definite-matrix-have-positive-eigenvalues
  10. https://math.stackexchange.com/questions/1555039/what-is-the-agreed-upon-definition-of-a-positive-definite-matrix
  11. https://math.stackexchange.com/questions/1964039/why-do-positive-definite-matrices-have-to-be-symmetric
  12. https://en.wikipedia.org/wiki/Cartan%E2%80%93Dieudonn%C3%A9_theorem
  13. https://math.stackexchange.com/questions/1388421/reference-for-linear-algebra-books-that-teach-reverse-hermite-method-for-symmetr
  14. https://math.stackexchange.com/questions/6906/why-is-it-called-sylvesters-law-of-inertia
  15. https://math.stackexchange.com/questions/4126674/generalization-of-sylvesters-law-of-inertia
  • Gilbert Strang. Linear Algebra and Its Applications.
  • Serge Lang. Linear Algebra.