고유값과 고유벡터

From Beloveds
Revision as of 13:25, 15 April 2023 by Beloveds (talk | contribs)

미지수가 $n$개인 연립미분방정식

$\displaystyle \begin{cases} a_{11}x_1(t)+a_{12}x_2(t)+\cdots+a_{1n}x_n(t)=x_1'(t) \\a_{21}x_1(t)+a_{22}x_2(t)+\cdots+a_{2n}x_n(t)=x_2'(t) \\ \quad \vdots \\a_{n1}x_1(t)+a_{n2}x_2(t)+\cdots+a_{nn}x_n(t)=x_n'(t) \end{cases}$

은 다음과 같은 행렬로 나타낼 수 있다.

$\displaystyle \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{bmatrix} \begin{bmatrix} x_1(t) \\ x_2(t) \\ \vdots \\ x_n(t)\end{bmatrix}=\begin{bmatrix} x_1'(t) \\ x_2'(t) \\ \vdots \\ x_n'(t)\end{bmatrix}$

미지수가 한 개일 때 $x'(t)=ax(t)$이므로 initial condition $x(t=0)$을 지정하면[1] $x(t)=x(0)e^{at}$이다. $A$는 linear이므로 superposition principle에 따라서[2] $Ax(t)=x'(t)$이고 $Ay(t)=y'(t)$이면 $A(c_1x(t)+c_2y(t))=c_1Ax(t)+c_2Ay(t)=c_1x'(t)+c_2y'(t)=(c_1x(t)+c_2y(t))'$이다. 그러므로 $a$를 고정하여 해의 모든 성분이 $x_i(t)=x_ie^{at}$라 가정하고 연립미분방정식을 풀면 해가 존재하는 $a$들을 찾음으로써 그 합으로 $0$ 또는 $e^{\lambda t}$들로 이루어진 모든 해를 찾을 수 있다. 이러한 $a=\lambda$들을 행렬 $A$의 eigenvalue(고유값, 고윳값)라 하고, 해 $x_i(t)=x_i e^{\lambda t}$에서 상수 $x_i$들로 이루어진 벡터를 $A$의 eigenvector(고유벡터)라 한다.

initial condition $x(t=0)$을 포함하는 open interval에서 $A$의 성분이 모두 연속 함수일 때 open interval에 속하는 $t$마다 독립인 벡터들을 만드는 서로 다른 해들의 linear combination은 이 연립미분방정식의 모든 해를 이룬다.[3] $x_i(t)=x_ie^{\lambda t}$이고 $x_i'(t)=\lambda x_i e^{\lambda t}$이므로 $x_ie^{\lambda t}$를 단순히 $x_i$로 대체하면 연립미분방정식을 $Ax=\lambda x$로 쓸 수 있다. 따라서 $\lambda$는 $(A-\lambda I)x=O$를 만족시키고 $x$는 $A-\lambda I$의 null space의 원소이다. 따라서 고유벡터 $x\neq 0$가 존재하려면 $\det(A-\lambda I)=0$이어야 한다. 행렬식을 전개하면 $\lambda$에 대한 다항식이며 이를 $A$의 characteristic polynomial(특성 다항식)이라고 한다.

  • $A$의 성분이 실수이더라도 $\lambda$는 복소수일 수 있다. 전체 공간이 $\R^n$이면 복소 고유값은 없다고 생각한다. 전체 공간이 대수적으로 닫힌 체 $\C^n$이면 중근을 여러 번 셀 때 $n$개의 고유값이 있다. 복소 벡터 공간에서 symmetric matrix와 orthogonal matrix는 conjugate transpose와 Hermitian adjoint를 정의하여 Hermitian matrix와 unitary matrix로 확장할 수 있다.
  • 각 고유값에 대응하는 고유벡터는 $A-\lambda I$의 null space를 구성해야 하므로 무수히 많다. 즉 $\lambda$에 대응하는 고유벡터에 상수를 곱해도 $\lambda$에 대응하는 고유벡터이며, 이를 $\lambda$의 eigenspace라고 한다. $\lambda$가 특성 다항식의 중근이면 $\lambda$의 eigenspace에 독립인 여러 개의 고유벡터가 있을 수 있다.
  • 각 행렬에 대응하는 특성 다항식은 유일하다. $\det(A-\lambda I)$가 $(\lambda-\lambda_0)^n$를 가질 때 $n$을 $\lambda_0$의 algebraic multiplicity(대수적 중복도)라 하고 $A-\lambda I$의 null space의 차원을 $\lambda$의 geometric multiplicity(기하적 중복도)라 한다. 대수적 중복도가 $1$이면 simple eigenvalue이고 두 중복도가 같으면 semisimple eigenvalue이다.

성질들

  • $Ax=\lambda x$이면 $(A+cI)x=Ax+cx,\ A^2x=\lambda Ax,\ x=\lambda A^{-1}x$이므로 $A+cI,\ A^2,\ A^{-1}$의 고유값은 $\lambda+c,\ \lambda^2,\ 1/\lambda$이다. $A+cI,\ A^{-1}$의 고유벡터는 $A$의 고유벡터와 같지만 $A^2$의 고유값은 $-a,\ a$였던 것이 같아지므로 두 고유공간이었던 것의 direct sum의 벡터들이 새로운 고유벡터이다.
  • 정의에 따라서 고유벡터는 함수 $A$를 취하면 고유값, 즉 상수만이 곱해진다. 모든 벡터는 $I$의 고유벡터이고, 모든 벡터가 고유벡터인 행렬은 모든 $x$에 대해서 $(A-\lambda I)x=0$이어야 하므로 $A=\lambda I$밖에 없다. 평면에서의 회전은 복소 고유값과 복소 고유벡터를 가질 수 있다. 사영 행렬은 eigenvalue $\lambda$와 eignevector $x$에 대해서 $\lambda^2x=\lambda x$이므로 고유값은 $0$이거나 $1$이다.
  • $0$의 eigenspace는 $Ax=0$을 만족하므로 $A$의 null space이고, $0$이 아닌 고유값의 eigenspace는 $\lambda x$가 $A$의 column space에 속하므로 $x$도 $A$의 column space에 속한다.[4] 대수적으로 닫힌 체의 벡터 공간이더라도 $0$이 아닌 고유값의 eigenspace들의 direct sum이 column space를 생성하지 못하면 기하적 중복도가 대수적 중복도보다 적을 것이다. 예를 들어 $A-cI$의 null space에 속하면서 column space에도 속하는 고유벡터 $x$가 있으면 $A-cI$는 독립인 $n$개의 고유벡터들이 없고, $(A-cI)x'=x$일 수 있으므로 $(A-cI)x'=x+0x'$가 Jordan block의 한 열 $\begin{pmatrix} 1 & 0 & \cdots \end{pmatrix}^T$을 이룬다. 다시 $cI$를 더하면 이 열은 $\begin{pmatrix} 1 & c & \cdots \end{pmatrix}^T$이 되어 고유값을 유지하면서 $x'$는 똑같이 쓸 수 있다. 이 $x'$를 generalized eigenvector(일반화된 고유벡터)라고 한다.[5] induction에 따라서, Jordan block이 $k\times k$일 때 $(A-cI)^{k-1}$로 null space를 확장하면 $(A-cI)x''=x'$를 반복하여 $k-1$개의 generalized eigenvector를 얻을 수 있다.
  • triangular matrix이면 $\displaystyle \det(A-\lambda I)$가 $(a_{ii}-\lambda)$들의 곱이므로 이를 $0$으로 만드는 $\lambda=a_{ii}$이다. $(A-\lambda I)^T=A^T-\lambda I$이므로 $\det A^T=\det A$에서 $A^T$의 고유값은 $A$의 고유값과 같다.[6]
  • $A+B$와 $AB$의 고유값은 $A$와 $B$의 고유값에서 얻을 수 없다. $ABx=\lambda x$이면 $BA(Bx)=\lambda (Bx)$이므로 $Bx$는 $BA$의 고유벡터이다. $\det(BA)=\det(AB)$이므로 $BA$의 고유값은 $AB$의 고유값과 같다.
  • $A-\lambda I$의 determinant를 alternating multilinear form으로 생각하면 $a_{ii}-\lambda$가 들어 있는 항을 모두 제거한 항들로 나눌 수 있다. 그러면 $\lambda$가 없는 항은 $A$의 determinant이고, $\lambda$가 $n-1$개 있는 각 항은 determinant가 $0$인 triangular matrix들과 determinant가 $a_{ii}\lambda^{n-1}$인 대각 행렬로 나누어지므로 이들 항에 대한 determinant의 합은 $A$의 trace이다. $\det(A-\lambda I)=(\lambda-\lambda_1)\cdots(\lambda-\lambda_n)$라고 가정하면 Vieta's formulas에 따라서 $\displaystyle \det A=\prod_i \lambda_i, \tr A=\sum_i \lambda_i$이다.
  • 모든 고유값이 $0$이 아니면 역행렬이 존재한다. $A+B$의 고유값의 합은 $A,\ B$의 고유값의 합이고 $AB$의 고유값의 곱은 $A,\ B$의 고유값의 곱이다.
  • $\lambda_1$에 고유벡터 $x_1$이 대응하고 $\lambda_2\neq \lambda_1$에 고유벡터 $x_2$가 대응하면 $x_1,\ x_2$는 독립이다. 증명은 다음과 같다: $c_1x_1+c_2x_2=0$이면 양변에 $A$를 곱하여 $c_1\lambda_1 x_1+c_2\lambda_2x_2=0$이고 가정에서 $c_2x_2=-c_1x_1$이므로 $c_1(\lambda_1-\lambda_2)x_1=0$이다. $x_1\neq 0$이므로 $c_1=0$이어야 하고 $c_2=0$이다. induction을 써서 $c_1(\lambda_1-\lambda_n)=c_{n+1},\ \cdots$로 정의하여 양변에 $A$를 곱하면 서로 다른 $n$개의 고유값에 대응하는 $n$개의 고유벡터는 독립이다.
  • $n$개의 고유벡터가 독립일 때 모든 벡터를 $x=c_1x_1+\cdots+c_nx_n$로 쓸 수 있고 $Ax=\lambda_1c_1x_1+\cdots+\lambda_n c_n x_n$가 정해지므로 이들 $\lambda_i$와 $x_i$가 모두 같은 행렬 $A$는 유일하다.

complete solution

연립미분방정식의 미지수가 한 개일 때 $A$의 고유값이 $a_{11}$이면 $x(t)=\begin{pmatrix}x_1e^{a_{11}t}\end{pmatrix}^T$에 대해서 $cx(t)$들이 $Ax(t)=a_{11}x(t)$를 만족시키는 $x_1$이 적어도 1차원, 많아야 1차원을 이룬다. $x_1=1$을 넣어 보면 모든 해는 $ce^{a_{11}t}$이다. 미지수가 두 개일 때 $A$의 고유값이 $\lambda_1,\ \lambda_2$이면 $x=\begin{pmatrix} x_1e^{\lambda_1 t} & x_2e^{\lambda_1 t}\end{pmatrix}^T$에 대해서 $cx$들이 $Ax=\lambda_1 x$를 만족시키는 $(x_1,\ x_2)$는 적어도 1차원, $\lambda_1$이 중근이면 많아야 2차원을 이루고, $x=\begin{pmatrix} x_1e^{\lambda_2 t} & x_2e^{\lambda_2 t}\end{pmatrix}^T$에 대해서 $cx$들이 $Ax=\lambda_2 x$를 만족시키는 $(x_1,\ x_2)$가 적어도 1차원, $\lambda_2$가 중근이면 많아야 2차원을 이룬다. 따라서 고유값이 중근이 아니면 각 고유값에 대해서 $x_1=1$이나 $x_2=1$을 넣어 보아 하나의 해 $(x_1,\ x_2)$를 구한 다음, 여기에 상수를 곱한 것들은 $c$에 넣을 수 있고 모든 해는 $c_1(x_1e^{\lambda_1 t},\ x_2e^{\lambda_1 t})+c_2(x_1e^{\lambda_2 t},\ x_2e^{\lambda_2 t})$이다.

  • $\begin{pmatrix} a & b \\ 3a & 3b \end{pmatrix}$의 특성 다항식은 $(a-\lambda)(3b-\lambda)-3ab=\lambda(\lambda-a-3b)$이므로 대수적 중복도가 $1$인 $\lambda=0, \lambda=a+3b$를 가지고 $\begin{pmatrix} a & b \\ 3a & 3b \end{pmatrix},\ \begin{pmatrix} -3b & b \\ 3a & -a \end{pmatrix}$의 null space $c\begin{pmatrix} 1 & -a/b\end{pmatrix}^T,\ c\begin{pmatrix} 1 & 3\end{pmatrix}^T$를 고유벡터로 가진다. $\displaystyle \begin{cases}ax_1(t)+bx_2(t)=x_1'(t) \\ 3ax_1(t)+3bx_2(t)=x_2'(t) \end{cases}$의 해는 $\displaystyle \begin{cases}x_1(t)=c_1+c_2e^{(a+3b)t} \\ x_2(t)=-ac_1/b+3c_2e^{(a+3b)t} \end{cases}$이다.
  • $\begin{pmatrix} a & b \\ 0 & a \end{pmatrix}$의 특성 다항식은 $(a-\lambda)^2$이므로 대수적 중복도가 $2$인 $\lambda=a$를 가지지만 $\begin{pmatrix} 0 & b \\ 0 & 0 \end{pmatrix}$의 null space는 $b$가 RREF의 pivot이므로 $c\begin{pmatrix} 1 & 0\end{pmatrix}^T$로 1차원을 이룬다. 부족한 고유벡터는 $(A-\lambda I)x_2=x_1$에서 얻거나, $(A-\lambda I)^2x=O$이면서 $(A-\lambda I)x=0$이 아닌 것을 찾을 수 있다.[7] $\displaystyle \begin{cases}ax_1(t)+bx_2(t)=x_1'(t) \\ ax_2(t)=x_2'(t) \end{cases}$의 해는 $\displaystyle \begin{cases}x_1(t)=c_1e^{at}+bc_2te^{at} \\ x_2(t)=c_2e^{at} \end{cases}$이다.
  • $\begin{pmatrix} a & 0 \\ 0 & a \end{pmatrix}$의 특성 다항식은 $(a-\lambda)^2$이므로 대수적 중복도가 $2$인 $\lambda=a$를 가지고 $\begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}$의 null space는 $c_1\begin{pmatrix} 1 & 0\end{pmatrix}^T+c_2\begin{pmatrix} 0 & 1\end{pmatrix}^T$로 2차원을 이룬다. $\displaystyle \begin{cases}ax_1(t)=x_1'(t) \\ ax_2(t)=x_2'(t) \end{cases}$의 해는 $\displaystyle \begin{cases}x_1(t)=c_1e^{at} \\ x_2(t)=c_2e^{at} \end{cases}$이다.

대각화

$n$개의 고유벡터가 독립일 때 이들이 각 열을 이루는 행렬 $Q$를 뒤에 곱하면 각 고유벡터는 $A[Q]^i=\lambda[Q]^i$를 만족하므로 이는 $Q$에 각 고유값이 대각 성분을 이루는 행렬 $\Lambda$를 뒤에 곱한 것과 같다. 따라서 $AQ=Q\Lambda$에서 $A=Q\Lambda Q^{-1}$ 또는 $\Lambda=Q^{-1}AQ$이며 $A^k=(Q\Lambda Q^{-1})^k=Q{\Lambda}^kQ^{-1}$이다. 이를 $A$의 Eigendecomposition(고유값 분해)이라 하는데, 행렬을 $A=SDS^{-1}$로 분해하는 작업을 역으로 생각하면 $AS=SD$이어야 하므로 $[SD]^i=D_{ii}[S]^i$에서 $A[S]^i=D_{ii}[S]^i$이며 $S$의 각 열은 고유벡터이다. 따라서 $A$의 diagonalization(대각화)은 $A$를 고유값 분해한 것이다.

  • $\lambda$가 $A$의 특성 다항식의 중근일 때 기하적 중복도를 $k$라 가정하면 이는 $n$과 같거나 그보다 작다. 독립인 $k$개의 고유벡터를 확장하여 기저 $Q$를 만들면 $Q^{-1}AQ=\begin{bmatrix}\lambda I_k & B \\ O & C \end{bmatrix}$의 특성 다항식은 $\lambda I_k$의 특성 다항식과 $C$의 특성 다항식의 곱이므로 적어도 $(x-\lambda)^k$를 가진다. 따라서 기하적 중복도는 대수적 중복도와 같거나 그보다 적다.[8] 각 열이 고유벡터인 행렬 $S$의 역행렬 $S^{-1}$이 있어야, 즉 $n$개의 고유벡터가 독립이어야 대각화할 수 있으므로 모든 고유값의 두 중복도가 같으면 대각화할 수 있다.
  • $A^2=A$이면 $A(x-Ax)=(A-A^2)x=0$이므로 $x-Ax$는 $A$의 null space에 있고 $\im (I-A)$는 $A$의 null space의 subset이다. null space의 모든 원소 $n$은 $n=n-0=n-An$를 만족하므로 $A$의 null space는 $\im (I-A)$의 subset이다. 따라서 $x-Ax$들이 $\lambda=0$의 eigenspace이고, $A(Ax)=1\times Ax$에서 $A$의 column space가 $\lambda=1$의 eigenspace이다. 서로 다른 eigenspace에 있는 벡터는 독립이어야 하므로 모든 벡터를 $Ax+(x-Ax)$로 쓰면 eigenspace들의 direct sum이 전체 공간을 이룬다. 따라서 사영 행렬은 대각화할 수 있다.
  • $A$의 고유벡터가 $B$의 고유벡터와 같고 $A,\ B$를 대각화할 수 있으면 고유값 분해에서 $AB=BA=Q\Lambda_A\Lambda_BQ^{-1}$이다. 역으로 $AB=BA$이고 $A,\ B$를 대각화할 수 있을 때 $Ax=\lambda x$이면 $A(Bx)=BAx=B\lambda x=\lambda(Bx)$이므로 $Bx$가 $A$의 고유벡터이고 $\lambda$의 eigenspace에 있다. $A$를 대각화할 수 있으므로 eigenspace들의 direct sum이 전체 공간을 이루고, $Bx'=\lambda'x'$이면 $\lambda$의 eigenspace에 있는 벡터 $x'_1$과 $\lambda$가 아닌 eigenspace들의 direct sum에 있는 벡터 $x'_2$에 대해서 $\lambda'x'=\lambda'(x'_1+x'_2)$이다. $A$의 고유값의 eigenspace에 있는 벡터 $x$에 대해서 $Bx$는 같은 고유값의 eigenspace에 있으므로 $Bx_1'$은 $\lambda$의 eigenspace에 있고 $Bx_2'$는 $\lambda$의 eigenspace에 없다. 따라서 $Bx'_1=\lambda'x_1',\ Bx'_2=\lambda'x_2'$이고 $\lambda'$의 eigenspace는 $A$의 각 eigenspace의 subset들의 direct sum으로 나타낼 수 있다. $B$를 대각화할 수 있으므로 eigenspace들의 direct sum이 전체 공간을 이루고 $A$의 고유벡터가 $B$의 고유벡터와 같다.
  • $\det(A-\lambda I)=(\lambda-\lambda_1)\cdots(\lambda-\lambda_n)$라고 가정하면 $A$를 대각화할 수 있을 때 $(A-\lambda_1I)\cdots(A-\lambda_nI)=Q(\Lambda-\lambda_1I)\cdots(\Lambda-\lambda_nI)Q^{-1}$이다. 각 항에서 $\Lambda$의 한 성분씩 $0$이 되므로 결과는 영행렬이고 이를 Cayley–Hamilton theorem(케일리-해밀턴 정리)라고 한다. 대수적으로 닫힌 체의 정사각 행렬은 triangular matrix로 만드는 기저를 찾을 수 있으므로 각 항에서 한 열씩 $0$이 되게 할 수 있다.[9]
  • $A$의 고유값 분해가 unitary matrix $Q$에 대해서 $A=Q\Lambda Q^*$일 수 있으면 normal matrix(정규 행렬)라 한다. $A^T=A$이면 $Ax=\lambda x,\ Ay=\mu y,\ \lambda \neq\mu$일 때 $\langle \lambda x,\ y\rangle=\langle x,\ \mu y\rangle$에서 $x\perp y$이므로 symmetric matrix는 normal matrix이다.[10] 전체 공간이 $\R^n$이면 $A^T=(Q\Lambda Q^T)^T=Q\Lambda Q^T$에서 normal matrix는 대칭 행렬뿐이고,[11] 전체 공간이 $\C^n$이면 $A^*=(Q\Lambda Q^*)^*=Q\overline{\Lambda}Q^*$에서 normal matrix는 $AA^*=Q\Lambda\overline{\Lambda}Q^*=Q\overline{\Lambda}\Lambda Q^*=A^*A$이다. 즉 모든 성분이 실수이면 $AA^T=A^TA$이다.[12]

기저 변환과 삼각화

두 벡터 공간 $k^m,\ k^n$ 사이의 linear transformation $A:k^m\to k^n$을 행렬로 바꾸려면 $k^m$의 기저 $x_1,\ \cdots,\ x_m$과 $k^n$의 기저 $y_1,\ \cdots,\ y_n$가 주어져야 한다. 그러면 $[A]^i=Ax_i$는 $a_{1i}y_1+\cdots+a_{ni}y_n$이고 각 $k^n$의 원소로 각 열의 성분들을 채워 행렬 $A$를 구성할 수 있다. 즉 행렬은 공역에 있는 열벡터의 나열이다. 열벡터가 $m$개 있으므로 공역의 벡터 $[A]^i$의 index $i$가 정의역의 기저에 대응한다.

같은 기저를 쓰는 다른 linear transformation은 다른 행렬이다. 다른 기저를 쓰는 같은 linear transformation들을 구성하려면 $A_{\mathcal{B_m'}\to \mathcal{B_n'}}=I_{\mathcal{B_n}\to \mathcal{B_n'}}A_{\mathcal{B_m}\to \mathcal{B_n}}I_{\mathcal{B_m'}\to \mathcal{B_m}}$와 같이 써야 한다. 여기에서 $I$를 change-of-basis matrix 또는 transition matrix라고 한다. $\mathcal{B_n'}$이 $x_1,\ \cdots,\ x_n$이고 $\mathcal{B_n}$이 standard basis이면 $I_{\mathcal{B_n'}\to \mathcal{B_n}}$는 $i$번째 열이 $x_i$이므로 이들을 standard basis로 표현한 행렬이고, 반면에 $I_{\mathcal{B_n}\to \mathcal{B_n'}}$는 standard basis를 기저 $x_i$로 표현한 행렬이다. 독립인 $n$개의 벡터는 기저가 되므로 모든 invertible matrix는 change-of-basis matrix로 기능할 수 있다. 기저 변환 이전의 $A$와 기저 변환 이후의 $B^{-1}AB$의 관계를 similar(닮음, 상사)라 한다. similarity는 equivalence relation이다.

  • $B^{-1}AB$에 대해서 $B^{-1}IB=I$이므로 $\det(B^{-1}AB-\lambda I)=\det(B^{-1}(A-\lambda I)B)=\det(A-\lambda I)$이고 $B^{-1}AB$의 고유값은 $A$의 고유값과 같다. $Ax=\lambda x$이면 $B(B^{-1}AB)B^{-1}x=\lambda x$이므로 $B^{-1}ABB^{-1}x=\lambda B^{-1}x$이고 $B^{-1}x$는 $B^{-1}AB$의 고유벡터이다.
  • $I$는 $I$와만 similar이다. $A$가 invertible일 때 $AB=A(BA)A^{-1}$이므로 $AB$는 $BA$와 similar이다. $A$의 Jordan normal form이 $BJB^{-1}$일 때 각 Jordan block의 앞뒤에 orthogonal matrix인 anti-diagonal matrix $\begin{bmatrix} 0 & \cdots & 1 \\ \vdots & ⋰ & \vdots \\ 1& \cdots &0 \end{bmatrix}$를 곱하면 $J^T$가 되므로 $J$는 $J^T$와 similar이다. $A$는 $J$와 similar이고 $A^T$는 $J^T$와 similar이므로 $A$는 $A^T$와 similar이다.
  • $A$를 어떤 기저 $B$와 triangular matrix $A'$에 대해서 $A=BA'B^{-1}$로 쓰는 것을 $A$의 triangularization(삼각화)이라 한다. 삼각화할 때 $B$를 unitary matrix로 잡으면 Schur decomposition(슈어 분해)이라고 한다.[13]
  • 행렬 $A$로 이루어진 다항식들의 집합에서 계산 결과가 $O$이 되는 것들을 모두 생성하는 일계수 다항식을 $A$의 minimal polynomial(최소 다항식)이라고 한다. 즉 이 다항식에 다른 다항식을 곱한 것들을 모두 모은 집합이 행렬 $A$를 대입하였을 때 $O$이 되는 모든 다항식들의 집합이다. 예를 들어 $A=I$이면 $A-I=O$이고, $A=\begin{pmatrix} a & b \\ 0 & a \end{pmatrix}$이면 $(A-aI)\neq O$이면서 $(A-aI)(A-aI)=O$이다. similar인 행렬은 minimal polynomial이 같으며, 최소 다항식이 1차 다항식들로 인수분해될 때 삼각화할 수 있고 그 1차 다항식들이 서로 다를 때 대각화할 수 있다.

대수적으로 닫힌 체의 정사각 행렬은 triangularization할 수 있다. 증명은 다음과 같다: 함수 $A$의 어떤 기저에 대한 행렬 $A$가 upper triangular matrix일 때 $A[A]^i=[A]^1A_{1i}+\cdots+[A]^iA_{ii}$이므로 각 열벡터를 기저로 쓰면 첫 번째 열에서 $i$번째 열까지의 벡터로 생성한 subspace를 $V_i$라 할 때 $A$는 $V_i$를 $V_i$로 보낸다. 이 공간 $V_i$를 $A$-invariant(불변)라 하고 sequence $V_1,\ \cdots,\ V_n$을 함수 $A$의 fan이라 한다.[14]

induction을 써서 $\dim V=n-1$일 때 함수 $A$의 fan이 있다고 가정하고 $\dim V=n$일 때 $A$의 fan을 구성하겠다. $A$는 대수적으로 닫힌 체에서 정의하므로 적어도 하나의 고유벡터를 가진다. 따라서 전체 공간을 $A$의 하나의 고유벡터가 생성하는 공간 $V_1$과 적당한 $\dim W=n-1$인 $W$와의 direct sum으로 나타낼 수 있다. 그러면 $V_i$의 각 벡터를 $v_i=cv_1+w_{i-1}$로 쓸 때 $Av_i=(\operatorname{proj}_{V_1} V+\operatorname{proj}_{W} V)Av_i$이고 $Av_i=(\operatorname{proj}_{V_1} V) A(cv_1+w_{i-1})+(\operatorname{proj}_{W} V) A(cv_1+w_{i-1})$에서 첫 번째 항은 projection에 따라서 $V_1$에 속해야 하고 두 번째 항은 $V_1$에 있는 고유벡터인 $cv_1$이 제거되고 $(\operatorname{proj}_{W} V) Aw_{i-1}$는 $\operatorname{proj}_{W} V$가 $W$를 $W$로 보내므로 $V_i$에 속한다. $(\operatorname{proj}_{W} V) A$의 fan을 $W_1,\ \cdots,\ W_{n-1}$이라 하면 $A$의 fan을 $V_i=V_1+W_{i-1}$로 정의할 수 있다.

linear difference equation

Fibonacchi numbers

Fibonacci numbers의 점화식 $F_{k+1}=F_{k}+F_{k-1}$은 $F_{k}=F_{k}+0F_{k-1}$이므로 행렬의 점화식 $\begin{bmatrix}F_{k+1}\\F_{k}\end{bmatrix}=\begin{bmatrix}1&1\\1&0\end{bmatrix}\begin{bmatrix}F_k\\F_{k-1}\end{bmatrix}$으로 생각할 수 있다. 행렬의 거듭제곱을 구하기 위하여 고유값 분해하면 $\det (A-\lambda I)=\lambda^2-\lambda-1$에서 고유값은 $\displaystyle \frac{1\pm\sqrt{5}}{2}$이고 고유벡터는 $\displaystyle \begin{pmatrix} \frac{1\pm\sqrt{5}}{2}& 1\end{pmatrix}^T$이다.[15] $\begin{bmatrix}F_{k+1}\\F_{k}\end{bmatrix}=\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&0\\0&\frac{1-\sqrt{5}}{2}\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}^{-1}\begin{bmatrix}F_k\\F_{k-1}\end{bmatrix}$에서 $\begin{bmatrix}F_{k+1}\\F_{k}\end{bmatrix}=\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&0\\0&\frac{1-\sqrt{5}}{2}\end{bmatrix}^k\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}^{-1}\begin{bmatrix}1\\0\end{bmatrix}$이다. 두 번째 성분을 계산하면 $\displaystyle F_k=\frac{1}{\sqrt 5}\left(\frac{1+\sqrt{5}}{2}\right)^k-\frac{1}{\sqrt 5}\left(\frac{1-\sqrt{5}}{2}\right)^k$이다. 이러한 linear difference equation $x_{n+1}=Ax_n$의 해는 $x_0$이 $\lambda$에 대응하는 고유벡터일 때 $x_n=\lambda^nx_0$이다. 세 번째 행렬과 네 번째 행렬의 곱을 계산하면 첫 번째 행렬의 열벡터의 일차결합으로 결과를 나타낼 수 있으므로 이는 벡터 $x_0$을 나타내는 기저를 $A$의 고유벡터들로 바꾸는 과정이다.

일반항이 $F_k=(\lambda_1^k-\lambda_2^k)/(\lambda_1-\lambda_2)$이고 각 고유값의 거듭제곱은 Fibonacci numbers의 점화식을 만족한다. $F_0=2,\ F_1=1$을 취하면 Lucas numbers이다.[16]

stochastic matrix

$k$가 하나씩 더해질 때마다 $x_1$의 $r_1$만큼이 $x_2$로 가고 $x_2$의 $r_2$만큼이 $x_1$로 갈 때 연립일차방정식은 $\displaystyle \begin{cases} (1-r_1)(x_1)_k+r_2(x_2)_k=(x_1)_{k+1} \\ r_1(x_1)_k+(1-r_2)(x_2)_k=(x_2)_{k+1} \end{cases}$이다. 이렇게 각 열의 합이 $1$이고 각 성분이 음수가 아니고 $(x_i)_k$들로만 $(x_i)_{k+1}$가 결정되는 linear difference equation $x_{k+1}=Ax_k$를 Markov process(마르코프 과정) 또는 Markov chain이라 하고 $A$를 stochastic matrix라 한다.[17] $A-I$의 열이나 행을 모두 더하면 $0$이므로 $\det(A-I)=0$이고 $1$은 고유값이다. 고유값 $1$에 대응하는 고유벡터로 수렴할 때 이를 stochastic matrix $A$의 steady state(정상 상태)라 한다.

  • $Ax$의 성분의 합은 $x$의 성분의 합이다. 두 stochastic matrix $A,\ B$의 곱의 $i$번째 열의 합은 $\displaystyle \left(\sum_k a_{k1}\right) b_{1i}+\cdot+\left(\sum_k a_{kn}\right) b_{ni}=b_{1i}+\cdots+b_{ni}=1$이므로 $AB$는 stochastic matrix이다.
  • 대수적으로 닫힌 체의 정사각 행렬은 triangular matrix로 만드는 기저를 찾을 수 있으므로 각 stochastic matrix $A^k$의 고유값이 발산하지 않아야 한다. 따라서 대수적으로 닫힌 체에서 stochastic matrix의 모든 고유값의 길이는 $1$과 같거나 그보다 작다.[18]
  • 모든 성분이 음수가 아닌 fixed point를 정할 수 있다.[19] 고유값에 $1$과 $-1$이 모두 있으면 steady state가 없다.[20] $1$이 아닌 고유값에 대응하는 고유벡터의 성분의 합은 $0$이다.[21]

각 열의 합에 대한 제한을 풀고 Leontief input–output model[22], Leslie matrix[23] 등으로 응용할 수 있다. 그러면 Perron–Frobenius theorem에 따라서 stochastic matrix와 유사하게 쓸 수 있다. Perron's theorem에 따르면 행렬 $A$의 모든 성분이 양수이고 벡터 $x\neq 0$의 모든 성분이 음수가 아닐 때 $Ax$의 각 성분이 $\lambda x$의 각 성분과 같거나 그보다 큰 $\lambda$의 최댓값이 존재하여 $Ax=\lambda x$이다. 이때 $Ax$의 모든 성분이 양수이므로 고유벡터의 모든 성분이 양수일 수 있고, 그러한 $\lambda$보다 더 큰 길이를 가지는 고유값이 삼각 부등식에 따라서 존재하지 않는다. von Neumann-Leontief model은 이를 이용하여 산출에 비해서 투입을 최소로 만드는 해를 얻는다.

linear differential equation

annual interest rate $r\%=0.01\times r$를 예를 들어 단위 시간 $\Delta t = 1/365$마다 $r/365\%$씩 받을 수 있으면 원금과 이자의 합은 단위 시간마다 점화식 $p_{k+1}=(1+0.01r\Delta t)p_k,\ p_0=x$로 생각할 수 있다. $(p_{k+1}-p_k)/\Delta t=0.01rp_k$에서 $\Delta t\to 0$일 때 $p'(t)=0.01rp(t)$이므로 미분방정식을 풀면 $p(t)=e^{0.01rt}x$이다. 차분에서와 유사하게 $x'(t)=Ax(t)$의 해를 $x(t)=e^{At}x(0)$로 쓰고자 하면 matrix exponential(행렬 지수 함수)을 정의할 수 있다. $(e^{At})'=Ae^{At}$가 되도록

$\displaystyle e^{At}=I+At+\frac{(At)^2}{2!}+\frac{(At)^3}{3!}+\cdots$

의 미분을 $A+2(At)/2!+3(At)^2/3!+\cdots$로 놓을 것이다. $A$를 대각화할 수 있으면 $A^k=Q\Lambda^k Q^{-1}$이므로 $e^{At}=Qe^{\Lambda t}Q^{-1}$이다. 대각 행렬의 exponential은 정의에 따라서 단순히 대각 성분 $\lambda$를 $e^{\lambda t}$로 바꾸는 것과 같다. $A$의 triangularization이 $BA'B^{-1}$일 때 $\displaystyle \det e^{A}=\det (Be^{A'}B^{-1})=e^{\tr A'}$이고 similar인 행렬의 고유값은 같으므로 $\det e^{A}=e^{\tr A}\neq 0$이다.[24] 따라서 $e^{A}$는 invertible이고 $v_i$가 독립이면 모든 $t$에 대해서 $e^{At}v_i$가 독립이어야 한다. $v_i$가 독립일 때 $[W]^i=e^{At}v_i$인 행렬 $W$를 Wronskian(론스키안)이라고 한다.

  • $A$가 projection matrix이면 $e^{At}=I+(e^t-1)A$이다. $A^2=0$이면 $e^{At}=I+At$이다.
  • $(e^{A})^{-1}=e^{-A}$이다. $AB=BA$일 때 $(e^Ae^B)'=Ae^Ae^B+e^ABe^B=(A+B)e^Ae^B=(A+B)e^{A+B}$이다.
  • $A$가 skew-symmetric matrix이면 $(e^{At})^T=e^{-At}=(e^{A})^{-1}$이므로 $e^{At}$는 orthogonal matrix이다.
  • 미지수가 한 개일 때 $x'''+ax''+bx'=0$과 같은 미분방정식은 $-ax''-bx'=x'''$에서 미지수가 $x_1=x,\ x_2=x_1'=x',\ x_3=x_2'=x''$로 세 개인 연립미분방정식 $\displaystyle \begin{cases} 0x_1+1x_2+0x_3=x_1' \\ 0x_1+0x_2+1x_3=x_2' \\ 0x_1-bx_2-ax_3=x_3' \end{cases}$으로 바꿀 수 있다. 이 행렬의 특성 방정식은 $x'''+ax''+bx'=0$에 $x=e^{\lambda t}$를 대입한 $(\lambda^3+a\lambda^2+b\lambda)e^{\lambda t}=0$과 같다.
  • diffusion equation이나 harmonic oscillator에 대한 Newton's law의 이산적인 해를 구하고자 할 때 구간을 분할하면 곱하는 행렬은 이계 도함수이다. $\Delta x\to 0$이면 공간에 대한 이계 미분을 하는 $\partial^2 f(x,\ t)/\partial x^2=x'$와 wave equation $\partial^2f(x,\ t)/\partial x^2=x''$으로 쓸 수 있다.[25]
  • $x(t)=x(0)e^{at}$가 발산하는지는 $\operatorname{Re} a$에 의존한다. $\operatorname{Re} a<0$일 때 미분방정식이 asymptotically stable(점근적으로 안정적)이라 하고 $\operatorname{Re} a\leq 0$이면서 asymptotically stable이 아닐 때 marginally stable(중립적으로 안정적)라 한다. $2\times 2$ 행렬 $A$에 대해서 $\lambda=(\tr A\pm\sqrt{(\tr A)^2-4\det A})/2$이므로 $\tr A<0,\ \det A>0$에서 안정적이고 $\tr A=0,\ \det A>0$ 또는 $\tr A<0,\ \det A=0$에서 중립적으로 안정적이다.[26]
  • $A$의 Jordan normal form이 $BJB^{-1}$일 때 $e^{At}=Be^{Jt}B^{-1}$이므로 각 Jordan block에 대해서 $x'(t)=Jx(t)$을 back substitution하여 이 해로부터 $e^{Jt}$를 구할 수 있다. $x'_n(t)=\lambda x_n(t)$에서 $x_n(t)=x_n(0)e^{\lambda t}$이고, $x'_{n-1}(t)=\lambda x_{n-1}(t)+x_n(t)=\lambda x_{n-1}(t)+x_n(0)e^{\lambda t}$에서 $x_{n-1}(t)=x_{n-1}(0)e^{\lambda t}+x_n(0)te^{\lambda t}$이다.

참고 자료

  1. https://math.stackexchange.com/questions/395161/whats-the-difference-between-an-initial-value-problem-and-a-boundary-value-prob
  2. https://en.wikipedia.org/wiki/Superposition_principle
  3. https://en.wikipedia.org/wiki/Linear_differential_equation
  4. https://math.stackexchange.com/questions/500782/what-is-the-relation-between-the-eigenspace-of-a-matrix-and-its-column-space
  5. https://math.stackexchange.com/questions/4495/the-intuition-behind-generalized-eigenvectors, https://math.stackexchange.com/questions/2917617/proving-there-are-as-many-generalized-eigenvectors-as-algebraic-multiplicity-eig, https://math.stackexchange.com/questions/1249707/connection-between-algebraic-multiplicity-and-dimension-of-generalized-eigenspac
  6. https://math.stackexchange.com/questions/1314980/show-that-a-and-at-do-not-have-the-same-eigenvectors-in-general
  7. https://math.stackexchange.com/questions/472915/what-kind-of-matrices-are-non-diagonalizable
  8. https://math.stackexchange.com/questions/458189/why-geometric-multiplicity-is-bounded-by-algebraic-multiplicity
  9. https://math.stackexchange.com/questions/1755478/how-many-ways-are-there-to-prove-cayley-hamilton-theorem
  10. https://math.stackexchange.com/questions/82467/eigenvectors-of-real-symmetric-matrices-are-orthogonal
  11. https://people.math.carleton.ca/~kcheung/math/notes/MATH1107/wk10/10_orthogonal_diagonalization_proof.html
  12. https://math.stackexchange.com/questions/3454688/does-there-exist-a-real-normal-matrix-thats-not-symmetric-antisymmetric-ortho
  13. https://math.stackexchange.com/questions/4403861/complex-schur-factorization
  14. https://en.wikipedia.org/wiki/Flag_(linear_algebra)
  15. https://en.wikipedia.org/wiki/Golden_ratio
  16. https://en.wikipedia.org/wiki/Lucas_number
  17. https://personal.math.ubc.ca/~tbjw/ila/stochastic2.html
  18. https://math.stackexchange.com/questions/40320/proof-that-the-largest-eigenvalue-of-a-stochastic-matrix-is-1
  19. https://math.stackexchange.com/questions/1107953/proof-that-there-exists-a-non-negative-eigenvector-corresponding-to-eigenvalue-1
  20. https://math.stackexchange.com/questions/1569406/when-does-a-markov-chain-not-have-a-steady-state, https://math.stackexchange.com/questions/816077/proof-that-steady-state-is-not-affected-by-initial-distribution-in-markov-chain, https://math.stackexchange.com/questions/1581473/what-does-a-steady-state-vector-tell-us-if-the-markov-chain-is-irregular
  21. https://math.stackexchange.com/questions/3163883/sum-of-elements-of-the-eigenvalue-of-a-markov-chain
  22. https://math.libretexts.org/Bookshelves/Applied_Mathematics/Applied_Finite_Mathematics_(Sekhon_and_Bloom)/02%3A_Matrices/2.06%3A_Applications__Leontief_Models
  23. https://en.wikipedia.org/wiki/Leslie_matrix
  24. https://en.wikipedia.org/wiki/Jacobi%27s_formula
  25. https://en.wikipedia.org/wiki/Eigenfunction
  26. https://en.wikipedia.org/wiki/Routh%E2%80%93Hurwitz_stability_criterion, https://en.wikipedia.org/wiki/Lyapunov_stability