Difference between revisions of "Definition:고유값과 고유벡터"

From Beloveds
Line 16: Line 16:
  
 
== 성질들 ==
 
== 성질들 ==
* $Ax=\lambda x$이면 $(A+cI)x=Ax+cx,\ A^2x=\lambda Ax,\ x=\lambda A^{-1}x$이므로 $A+cI,\ A^2,\ A^{-1}$의 고유값은 $\lambda+c,\ \lambda^2,\ 1/\lambda$이다. $A+cI,\ A^{-1}$의 고유벡터는 $A$의 고유벡터와 같지만 $A^2$의 고유값은 $-a,\ a$였던 것이 같아지므로 두 고유공간이었던 것의 각 벡터들의 합이 새로운 고유벡터이다.
+
* $Ax=\lambda x$이면 $(A+cI)x=Ax+cx,\ A^2x=\lambda Ax,\ x=\lambda A^{-1}x$이므로 $A+cI,\ A^2,\ A^{-1}$의 고유값은 $\lambda+c,\ \lambda^2,\ 1/\lambda$이다. $A+cI,\ A^{-1}$의 고유벡터는 $A$의 고유벡터와 같지만 $A^2$의 고유값은 $-a,\ a$였던 것이 같아지므로 두 고유공간이었던 것의 direct sum의 벡터들이 새로운 고유벡터이다.
 
* 정의에 따라서 고유벡터는 함수 $A$를 취하면 고유값, 즉 상수만이 곱해진다. 모든 벡터는 $I$의 고유벡터이고, 모든 벡터가 고유벡터인 행렬은 모든 $x$에 대해서 $(A-\lambda I)x=0$이어야 하므로 $A=\lambda I$밖에 없다. 평면에서의 회전은 복소 고유값과 복소 고유벡터를 가질 수 있다. 사영 행렬은 eigenvalue $\lambda$와 eignevector $x$에 대해서 $\lambda^2x=\lambda x$이므로 고유값은 $0$이거나 $1$이다.
 
* 정의에 따라서 고유벡터는 함수 $A$를 취하면 고유값, 즉 상수만이 곱해진다. 모든 벡터는 $I$의 고유벡터이고, 모든 벡터가 고유벡터인 행렬은 모든 $x$에 대해서 $(A-\lambda I)x=0$이어야 하므로 $A=\lambda I$밖에 없다. 평면에서의 회전은 복소 고유값과 복소 고유벡터를 가질 수 있다. 사영 행렬은 eigenvalue $\lambda$와 eignevector $x$에 대해서 $\lambda^2x=\lambda x$이므로 고유값은 $0$이거나 $1$이다.
 
* $0$의 eigenspace는 $Ax=0$을 만족하므로 $A$의 null space이고, $0$이 아닌 고유값의 eigenspace는 $\lambda x$가 $A$의 column space에 속하므로 $x$도 $A$의 column space에 속한다.<ref>https://math.stackexchange.com/questions/500782/what-is-the-relation-between-the-eigenspace-of-a-matrix-and-its-column-space</ref> 대수적으로 닫힌 체의 벡터 공간이더라도 $0$이 아닌 고유값의 eigenspace들의 direct sum이 column space를 생성하지 못하면 기하적 중복도가 대수적 중복도보다 적을 것이다. 예를 들어 $A-cI$의 null space와 column space 둘 모두에 속하는 벡터가 있으면 $A-cI$의 독립인 $n$개의 고유벡터들이 없다. 이때 $A-cI$의 column space에 있는 고유벡터 $x$가 $(A-cI)x'=x$일 수 있고 이것은 기하적 중복도에 없는 대수적 중복도를 이룬다.<ref>https://math.stackexchange.com/questions/4495/the-intuition-behind-generalized-eigenvectors, https://math.stackexchange.com/questions/2917617/proving-there-are-as-many-generalized-eigenvectors-as-algebraic-multiplicity-eig, https://math.stackexchange.com/questions/1249707/connection-between-algebraic-multiplicity-and-dimension-of-generalized-eigenspac</ref> 이 $x'$를 '''generalized eigenvector'''(일반화된 고유벡터)라고 한다.
 
* $0$의 eigenspace는 $Ax=0$을 만족하므로 $A$의 null space이고, $0$이 아닌 고유값의 eigenspace는 $\lambda x$가 $A$의 column space에 속하므로 $x$도 $A$의 column space에 속한다.<ref>https://math.stackexchange.com/questions/500782/what-is-the-relation-between-the-eigenspace-of-a-matrix-and-its-column-space</ref> 대수적으로 닫힌 체의 벡터 공간이더라도 $0$이 아닌 고유값의 eigenspace들의 direct sum이 column space를 생성하지 못하면 기하적 중복도가 대수적 중복도보다 적을 것이다. 예를 들어 $A-cI$의 null space와 column space 둘 모두에 속하는 벡터가 있으면 $A-cI$의 독립인 $n$개의 고유벡터들이 없다. 이때 $A-cI$의 column space에 있는 고유벡터 $x$가 $(A-cI)x'=x$일 수 있고 이것은 기하적 중복도에 없는 대수적 중복도를 이룬다.<ref>https://math.stackexchange.com/questions/4495/the-intuition-behind-generalized-eigenvectors, https://math.stackexchange.com/questions/2917617/proving-there-are-as-many-generalized-eigenvectors-as-algebraic-multiplicity-eig, https://math.stackexchange.com/questions/1249707/connection-between-algebraic-multiplicity-and-dimension-of-generalized-eigenspac</ref> 이 $x'$를 '''generalized eigenvector'''(일반화된 고유벡터)라고 한다.
Line 49: Line 49:
 
$B^{-1}AB$에 대해서 $B^{-1}IB=I$이므로 $\det(B^{-1}AB-\lambda I)=\det(B^{-1}(A-\lambda I)B)=\det(A-\lambda I)$이고 $B^{-1}AB$의 고유값은 $A$의 고유값과 같다. $Ax=\lambda x$이면 $B(B^{-1}AB)B^{-1}x=\lambda x$이므로 $B^{-1}ABB^{-1}x=\lambda B^{-1}x$이고 $B^{-1}x$는 $B^{-1}AB$의 고유벡터이다.
 
$B^{-1}AB$에 대해서 $B^{-1}IB=I$이므로 $\det(B^{-1}AB-\lambda I)=\det(B^{-1}(A-\lambda I)B)=\det(A-\lambda I)$이고 $B^{-1}AB$의 고유값은 $A$의 고유값과 같다. $Ax=\lambda x$이면 $B(B^{-1}AB)B^{-1}x=\lambda x$이므로 $B^{-1}ABB^{-1}x=\lambda B^{-1}x$이고 $B^{-1}x$는 $B^{-1}AB$의 고유벡터이다.
  
대수적으로 닫힌 체의 행렬은 모두 $B$가 triangular matrix가 되게 할 수 있다. 증명은 다음과 같다: $B$가 upper triangular matrix일 때 $B[B]^i=[B]^1B_{1i}+\cdots+[B]^iB_{ii}$이므로 각 열벡터를 기저로 쓰면 첫 번째 열에서 $i$번째 열까지의 벡터로 생성한 subspace를 $V_i$라 할 때 $B$는 $V_i$를 $V_i$로 보낸다. 이 $V_i$를 '''$B$-invariant'''(불변)라 하고 sequence $V_1,\ \cdots,\ V_n$을 $B$의 '''fan'''이라 한다. induction을 써서 $\dim V=n-1$일 때 $B$의 fan이 있다고 가정하고 $\dim V=n$일 때 $B$의 fan을 구성하겠다. $B$는 대수적으로 닫힌 체의 행렬이므로 적어도 하나의 고유벡터를 가진다. 따라서 전체 공간을 $B$의 하나의 고유벡터가 생성하는 공간 $V_1$과 적당한 $\dim W=n-1$인 $W$와의 direct sum으로 나타낼 수 있다. 그러면 $BV_i=(\operatorname{proj}_{V_1} V+\operatorname{proj}_{W} V)BV_i$이고 $V_i$의 각 벡터를 $v_i=cv_1+w_{i-1}$로 쓸 때 $Bv_i=(\operatorname{proj}_{V_1} V) B(cv_1+w_{i-1})+(\operatorname{proj}_{W} V) B(cv_1+w_{i-1})$에서 첫 번째 항은 projection에 따라서 $V_1$에 속해야 하고 두 번째 항은 $V_1$에 있는 고유벡터인 $cv_1$이 제거되어 $(\operatorname{proj}_{W} V) Bw_{i-1}$만 남는다. $\operatorname{proj}_{W} V$는 $W$를 $W$로 보내므로 $(\operatorname{proj}_{W} V) B$의 fan을 $W_1,\ \cdots,\ W_{n-1}$이라 하면 $B$의 fan을 $V_i=V_1+W_{i-1}$로 정의할 수 있다.
+
대수적으로 닫힌 체의 행렬은 모두 $B$가 triangular matrix가 되게 할 수 있다. 증명은 다음과 같다: $B$가 upper triangular matrix일 때 $B[B]^i=[B]^1B_{1i}+\cdots+[B]^iB_{ii}$이므로 각 열벡터를 기저로 쓰면 첫 번째 열에서 $i$번째 열까지의 벡터로 생성한 subspace를 $V_i$라 할 때 $B$는 $V_i$를 $V_i$로 보낸다. 이 $V_i$를 '''$B$-invariant'''(불변)라 하고 sequence $V_1,\ \cdots,\ V_n$을 $B$의 '''fan'''이라 한다. induction을 써서 $\dim V=n-1$일 때 $B$의 fan이 있다고 가정하고 $\dim V=n$일 때 $B$의 fan을 구성하겠다. $B$는 대수적으로 닫힌 체의 행렬이므로 적어도 하나의 고유벡터를 가진다. 따라서 전체 공간을 $B$의 하나의 고유벡터가 생성하는 공간 $V_1$과 적당한 $\dim W=n-1$인 $W$와의 direct sum으로 나타낼 수 있다. 그러면 $V_i$의 각 벡터를 $v_i=cv_1+w_{i-1}$로 쓸 때 $Bv_i=(\operatorname{proj}_{V_1} V+\operatorname{proj}_{W} V)Bv_i$이고 $Bv_i=(\operatorname{proj}_{V_1} V) B(cv_1+w_{i-1})+(\operatorname{proj}_{W} V) B(cv_1+w_{i-1})$에서 첫 번째 항은 projection에 따라서 $V_1$에 속해야 하고 두 번째 항은 $V_1$에 있는 고유벡터인 $cv_1$이 제거되어 $(\operatorname{proj}_{W} V) Bw_{i-1}$만 남는다. $\operatorname{proj}_{W} V$는 $W$를 $W$로 보내므로 $(\operatorname{proj}_{W} V) B$의 fan을 $W_1,\ \cdots,\ W_{n-1}$이라 하면 $B$의 fan을 $V_i=V_1+W_{i-1}$로 정의할 수 있다.
  
 
== 복소 행렬 ==
 
== 복소 행렬 ==
Line 64: Line 64:
 
(1-r_1)(x_1)_k+r_2(x_2)_k=(x_1)_{k+1} \\
 
(1-r_1)(x_1)_k+r_2(x_2)_k=(x_1)_{k+1} \\
 
r_1(x_1)_k+(1-r_2)(x_2)_k=(x_2)_{k+1}
 
r_1(x_1)_k+(1-r_2)(x_2)_k=(x_2)_{k+1}
\end{cases}$이다. 이렇게 각 열의 합이 $1$이고 $(x_i)_k\geq 0$들로만 $(x_i)_{k+1}$가 결정되는 linear difference equation $x_{k+1}=Ax_k$를 '''Markov process'''(마르코프 과정) 또는 '''Markov chain'''이라 한다. $A-I$의 열이나 행을 모두 더하면 $0$이므로 $\det(A-I)=0$이고, 두 Markov matrix의 곱은 $i$번째 열의 합이 첫 번째 행렬의 $k$번째 열에 두 번째 행렬의 $i$번째 열의 $k$번째 성분을 곱한 것들의 합이므로 Markov matrix이다. 대수적으로 닫힌 체의 행렬은 triangular matrix로 만드는 기저를 찾을 수 있고 $A^k$가 Markov matrix이어야 하므로 각 고유값이 발산하지 않아야 한다. 따라서 Markov matrix의 모든 고유값의 절댓값은 $1$과 같거나 그보다 작다.<ref>https://math.stackexchange.com/questions/40320/proof-that-the-largest-eigenvalue-of-a-stochastic-matrix-is-1</ref> 따라서 $k\to\infty$결과는 $1$에 대응하는 고유벡터로 수렴하며, 이를 stochastic matrix $A$의 '''steady state'''(정상 상태)라 한다. $A$의 고유값에 $1$과 $-1$이 모두 있으면 steady state가 없다.
+
\end{cases}$이다. 이렇게 각 열의 합이 $1$이고 각 성분이 음수가 아니고 $(x_i)_k$들로만 $(x_i)_{k+1}$가 결정되는 linear difference equation $x_{k+1}=Ax_k$를 '''Markov process'''(마르코프 과정) 또는 '''Markov chain'''이라 한다. $A-I$의 열이나 행을 모두 더하면 $0$이므로 $\det(A-I)=0$이고, 두 Markov matrix의 곱은 $i$번째 열의 합이 첫 번째 행렬의 $k$번째 열에 두 번째 행렬의 $i$번째 열의 $k$번째 성분을 곱한 것들의 합이므로 Markov matrix이다. 대수적으로 닫힌 체의 행렬은 triangular matrix로 만드는 기저를 찾을 수 있고 $A^k$가 Markov matrix이어야 하므로 각 고유값이 발산하지 않아야 한다. 따라서 Markov matrix의 모든 복소 고유값의 길이는 $1$과 같거나 그보다 작다.<ref>https://math.stackexchange.com/questions/40320/proof-that-the-largest-eigenvalue-of-a-stochastic-matrix-is-1</ref> 따라서 $x_k$의 각 성분이 음수가 아닐 때 $1$에 대응하는 고유벡터로 수렴하며, 이를 stochastic matrix $A$의 '''steady state'''(정상 상태)라 한다. 각 성분에 $0$이 있을 때 $A$의 고유값에 $1$과 $-1$이 모두 있다면 steady state가 없다.
  
 
=== input–output model ===
 
=== input–output model ===

Revision as of 04:08, 15 February 2023

미지수가 $n$개인 연립미분방정식

$\displaystyle \begin{cases} a_{11}x_1(t)+a_{12}x_2(t)+\cdots+a_{1n}x_n(t)=x_1'(t) \\a_{21}x_1(t)+a_{22}x_2(t)+\cdots+a_{2n}x_n(t)=x_2'(t) \\ \quad \vdots \\a_{n1}x_1(t)+a_{n2}x_2(t)+\cdots+a_{nn}x_n(t)=x_n'(t) \end{cases}$

은 다음과 같은 행렬로 나타낼 수 있다.

$\displaystyle \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{bmatrix} \begin{bmatrix} x_1(t) \\ x_2(t) \\ \vdots \\ x_n(t)\end{bmatrix}=\begin{bmatrix} x_1'(t) \\ x_2'(t) \\ \vdots \\ x_n'(t)\end{bmatrix}$

미지수가 한 개일 때 $x'(t)=ax(t)$이므로 initial condition $x(t=0)$을 지정하면[1] $x(t)=x(0)e^{at}$이다. $A$는 linear이므로 superposition principle에 따라서[2] $Ax(t)=x'(t)$이고 $Ay(t)=y'(t)$이면 $A(c_1x(t)+c_2y(t))=c_1Ax(t)+c_2Ay(t)=c_1x'(t)+c_2y'(t)=(c_1x(t)+c_2y(t))'$이다. 그러므로 $a$를 고정하여 해의 모든 성분이 $x_i(t)=x_ie^{at}$라 가정하고 연립미분방정식을 풀면 해가 존재하는 $a$들을 찾음으로써 그 합으로 $0$ 또는 $e^{\lambda t}$들로 이루어진 모든 해를 찾을 수 있다. 이러한 $a=\lambda$들을 행렬 $A$의 eigenvalue(고유값, 고윳값)라 하고, 해 $x_i(t)=x_i e^{\lambda t}$에서 상수 $x_i$들로 이루어진 벡터를 $A$의 eigenvector(고유벡터)라 한다.

initial condition $x(t=0)$을 포함하는 open interval에서 $A$의 성분이 모두 연속 함수일 때 open interval에 속하는 $t$마다 독립인 벡터들을 만드는 서로 다른 해들의 linear combination은 이 연립미분방정식의 모든 해를 이룬다.[3] $x_i(t)=x_ie^{\lambda t}$이고 $x_i'(t)=\lambda x_i e^{\lambda t}$이므로 $x_ie^{\lambda t}$를 단순히 $x_i$로 대체하면 연립미분방정식을 $Ax=\lambda x$로 쓸 수 있다. 따라서 $\lambda$는 $(A-\lambda I)x=O$를 만족시키고 $x$는 $A-\lambda I$의 null space의 원소이다. 따라서 고유벡터 $x\neq 0$가 존재하려면 $\det(A-\lambda I)=0$이어야 한다. 행렬식을 전개하면 $\lambda$에 대한 다항식이며 이를 $A$의 characteristic polynomial(특성 다항식)이라고 한다.

  • $A$의 성분이 실수이더라도 $\lambda$는 복소수일 수 있다. 전체 공간이 $\R^n$이면 복소 고유값은 없다고 생각한다. 전체 공간이 대수적으로 닫힌 체 $\C^n$이면 중근을 여러 번 셀 때 $n$개의 고유값이 있다. 복소 벡터 공간에서 symmetric matrix와 orthogonal matrix는 conjugate transpose와 Hermitian adjoint를 정의하여 Hermitian matrix와 unitary matrix로 확장할 수 있다.
  • 각 고유값에 대응하는 고유벡터는 $A-\lambda I$의 null space를 구성해야 하므로 무수히 많다. 즉 $\lambda$에 대응하는 고유벡터에 상수를 곱해도 $\lambda$에 대응하는 고유벡터이며, 이를 $\lambda$의 eigenspace라고 한다. $\lambda$가 특성 다항식의 중근이면 $\lambda$의 eigenspace에 독립인 여러 개의 고유벡터가 있을 수 있다.
  • 각 행렬에 대응하는 특성 다항식은 유일하다. $\det(A-\lambda I)$가 $(\lambda-\lambda_0)^n$를 가질 때 $n$을 $\lambda_0$의 algebraic multiplicity(대수적 중복도)라 하고 $A-\lambda I$의 null space의 차원을 $\lambda$의 geometric multiplicity(기하적 중복도)라 한다. 대수적 중복도가 $1$이면 simple eigenvalue이고 두 중복도가 같으면 semisimple eigenvalue이다.

성질들

  • $Ax=\lambda x$이면 $(A+cI)x=Ax+cx,\ A^2x=\lambda Ax,\ x=\lambda A^{-1}x$이므로 $A+cI,\ A^2,\ A^{-1}$의 고유값은 $\lambda+c,\ \lambda^2,\ 1/\lambda$이다. $A+cI,\ A^{-1}$의 고유벡터는 $A$의 고유벡터와 같지만 $A^2$의 고유값은 $-a,\ a$였던 것이 같아지므로 두 고유공간이었던 것의 direct sum의 벡터들이 새로운 고유벡터이다.
  • 정의에 따라서 고유벡터는 함수 $A$를 취하면 고유값, 즉 상수만이 곱해진다. 모든 벡터는 $I$의 고유벡터이고, 모든 벡터가 고유벡터인 행렬은 모든 $x$에 대해서 $(A-\lambda I)x=0$이어야 하므로 $A=\lambda I$밖에 없다. 평면에서의 회전은 복소 고유값과 복소 고유벡터를 가질 수 있다. 사영 행렬은 eigenvalue $\lambda$와 eignevector $x$에 대해서 $\lambda^2x=\lambda x$이므로 고유값은 $0$이거나 $1$이다.
  • $0$의 eigenspace는 $Ax=0$을 만족하므로 $A$의 null space이고, $0$이 아닌 고유값의 eigenspace는 $\lambda x$가 $A$의 column space에 속하므로 $x$도 $A$의 column space에 속한다.[4] 대수적으로 닫힌 체의 벡터 공간이더라도 $0$이 아닌 고유값의 eigenspace들의 direct sum이 column space를 생성하지 못하면 기하적 중복도가 대수적 중복도보다 적을 것이다. 예를 들어 $A-cI$의 null space와 column space 둘 모두에 속하는 벡터가 있으면 $A-cI$의 독립인 $n$개의 고유벡터들이 없다. 이때 $A-cI$의 column space에 있는 고유벡터 $x$가 $(A-cI)x'=x$일 수 있고 이것은 기하적 중복도에 없는 대수적 중복도를 이룬다.[5] 이 $x'$를 generalized eigenvector(일반화된 고유벡터)라고 한다.
  • triangular matrix이면 $\displaystyle \det(A-\lambda I)$가 $(a_{ii}-\lambda)$들의 곱이므로 이를 $0$으로 만드는 $\lambda=a_{ii}$이다. $(A-\lambda I)^T=A^T-\lambda I$이므로 $\det A^T=\det A$에서 $A^T$의 고유값은 $A$의 고유값과 같다.[6]
  • $A+B$와 $AB$의 고유값은 $A$와 $B$의 고유값에서 얻을 수 없다. $\det(BA)=\det(AB)$이므로 $BA$의 고유값은 $AB$의 고유값과 같다. $ABx=\lambda x$이면 $BA(Bx)=\lambda (Bx)$이므로 $Bx$는 $BA$의 고유벡터이다.
  • $A-\lambda I$의 determinant를 alternating multilinear form으로 생각하면 $a_{ii}-\lambda$가 들어 있는 항을 모두 제거한 항들로 나눌 수 있다. 그러면 $\lambda$가 없는 항은 $A$의 determinant이고, $\lambda$가 $n-1$개 있는 각 항은 determinant가 $0$인 triangular matrix들과 determinant가 $a_{ii}\lambda^{n-1}$인 대각 행렬로 나누어지므로 이들 항에 대한 determinant의 합은 $A$의 trace이다. $\det(A-\lambda I)=(\lambda-\lambda_1)\cdots(\lambda-\lambda_n)$라고 가정하면 Vieta's formulas에 따라서 $\displaystyle \det A=\prod_i \lambda_i, \tr A=\sum_i \lambda_i$이다.
  • 모든 고유값이 $0$이 아니면 역행렬이 존재한다. $A+B$의 고유값의 합은 $A,\ B$의 고유값의 합이고 $AB$의 고유값의 곱은 $A,\ B$의 고유값의 곱이다.
  • $\lambda_1$에 고유벡터 $x_1$이 대응하고 $\lambda_2\neq \lambda_1$에 고유벡터 $x_2$가 대응하면 $x_1,\ x_2$는 독립이다. 증명은 다음과 같다: $c_1x_1+c_2x_2=0$이면 양변에 $A$를 곱하여 $c_1\lambda_1 x_1+c_2\lambda_2x_2=0$이고 가정에서 $c_2x_2=-c_1x_1$이므로 $c_1(\lambda_1-\lambda_2)x_1=0$이다. $x_1\neq 0$이므로 $c_1=0$이어야 하고 $c_2=0$이다. induction을 써서 $c_1(\lambda_1-\lambda_n)=c_{n+1},\ \cdots$로 정의하여 양변에 $A$를 곱하면 서로 다른 $n$개의 고유값에 대응하는 $n$개의 고유벡터는 독립이다.
  • $n$개의 고유벡터가 독립일 때 모든 벡터를 $x=c_1x_1+\cdots+c_nx_n$로 쓸 수 있고 $Ax=\lambda_1c_1x_1+\cdots+\lambda_n c_n x_n$가 정해지므로 이들 $\lambda_i$와 $x_i$가 모두 같은 행렬 $A$는 유일하다.

complete solution

연립미분방정식의 미지수가 한 개일 때 $A$의 고유값이 $a_{11}$이면 $x(t)=\begin{pmatrix}x_1e^{a_{11}t}\end{pmatrix}^T$에 대해서 $cx(t)$들이 $Ax(t)=a_{11}x(t)$를 만족시키는 $x_1$이 적어도 1차원, 많아야 1차원을 이룬다. $x_1=1$을 넣어 보면 모든 해는 $ce^{a_{11}t}$이다. 미지수가 두 개일 때 $A$의 고유값이 $\lambda_1,\ \lambda_2$이면 $x=\begin{pmatrix} x_1e^{\lambda_1 t} & x_2e^{\lambda_1 t}\end{pmatrix}^T$에 대해서 $cx$들이 $Ax=\lambda_1 x$를 만족시키는 $(x_1,\ x_2)$는 적어도 1차원, $\lambda_1$이 중근이면 많아야 2차원을 이루고, $x=\begin{pmatrix} x_1e^{\lambda_2 t} & x_2e^{\lambda_2 t}\end{pmatrix}^T$에 대해서 $cx$들이 $Ax=\lambda_2 x$를 만족시키는 $(x_1,\ x_2)$가 적어도 1차원, $\lambda_2$가 중근이면 많아야 2차원을 이룬다. 따라서 고유값이 중근이 아니면 각 고유값에 대해서 $x_1=1$이나 $x_2=1$을 넣어 보아 하나의 해 $(x_1,\ x_2)$를 구한 다음, 여기에 상수를 곱한 것들은 $c$에 넣을 수 있고 모든 해는 $c_1(x_1e^{\lambda_1 t},\ x_2e^{\lambda_1 t})+c_2(x_1e^{\lambda_2 t},\ x_2e^{\lambda_2 t})$이다.

  • $\begin{pmatrix} a & b \\ 3a & 3b \end{pmatrix}$의 특성 다항식은 $(a-\lambda)(3b-\lambda)-3ab=\lambda(\lambda-a-3b)$이므로 대수적 중복도가 $1$인 $\lambda=0, \lambda=a+3b$를 가지고 $\begin{pmatrix} a & b \\ 3a & 3b \end{pmatrix},\ \begin{pmatrix} -3b & b \\ 3a & -a \end{pmatrix}$의 null space $c\begin{pmatrix} 1 & -a/b\end{pmatrix}^T,\ c\begin{pmatrix} 1 & 3\end{pmatrix}^T$를 고유벡터로 가진다. $\displaystyle \begin{cases}ax_1(t)+bx_2(t)=x_1'(t) \\ 3ax_1(t)+3bx_2(t)=x_2'(t) \end{cases}$의 해는 $\displaystyle \begin{cases}x_1(t)=c_1+c_2e^{(a+3b)t} \\ x_2(t)=-ac_1/b+3c_2e^{(a+3b)t} \end{cases}$이다.
  • $\begin{pmatrix} a & b \\ 0 & a \end{pmatrix}$의 특성 다항식은 $(a-\lambda)^2$이므로 대수적 중복도가 $2$인 $\lambda=a$를 가지지만 $\begin{pmatrix} 0 & b \\ 0 & 0 \end{pmatrix}$의 null space는 $b$가 RREF의 pivot이므로 $c\begin{pmatrix} 1 & 0\end{pmatrix}^T$로 1차원을 이룬다. 부족한 고유벡터는 $(A-\lambda I)x_2=x_1$ 또는 $(A-\lambda I)^2x=O$에서 얻을 수 있다.[7] 따라서 $\displaystyle \begin{cases}ax_1(t)+bx_2(t)=x_1'(t) \\ ax_2(t)=x_2'(t) \end{cases}$의 해는 $\displaystyle \begin{cases}x_1(t)=c_1e^{at}+bc_2te^{at} \\ x_2(t)=c_2e^{at} \end{cases}$이다.
  • $\begin{pmatrix} a & 0 \\ 0 & a \end{pmatrix}$의 특성 다항식은 $(a-\lambda)^2$이므로 대수적 중복도가 $2$인 $\lambda=a$를 가지고 $\begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}$의 null space는 $c_1\begin{pmatrix} 1 & 0\end{pmatrix}^T+c_2\begin{pmatrix} 0 & 1\end{pmatrix}^T$로 2차원을 이룬다. $\displaystyle \begin{cases}ax_1(t)=x_1'(t) \\ ax_2(t)=x_2'(t) \end{cases}$의 해는 $\displaystyle \begin{cases}x_1(t)=c_1e^{at} \\ x_2(t)=c_2e^{at} \end{cases}$이다.

대각화

$n$개의 고유벡터가 독립일 때 이들이 각 열을 이루는 행렬 $Q$를 뒤에 곱하면 각 고유벡터는 $A[Q]^i=\lambda[Q]^i$를 만족하므로 이는 $Q$에 각 고유값이 대각 성분을 이루는 행렬 $\Lambda$를 뒤에 곱한 것과 같다. 따라서 $AQ=Q\Lambda$에서 $A=Q\Lambda Q^{-1}$ 또는 $\Lambda=Q^{-1}AQ$이며 $A^k=(Q\Lambda Q^{-1})^k=Q{\Lambda}^kQ^{-1}$이다. 이를 $A$의 Eigendecomposition(고유값 분해)이라 하는데, 행렬을 $A=SDS^{-1}$로 분해하는 작업을 역으로 생각하면 $AS=SD$이어야 하므로 $[SD]^i=D_{ii}[S]^i$에서 $A[S]^i=D_{ii}[S]^i$이며 $S$의 각 열은 고유벡터이다. 따라서 $A$의 diagonalization(대각화)은 $A$를 고유값 분해한 것이다.

  • $\lambda$가 $A$의 특성 다항식의 중근일 때 기하적 중복도를 $k$라 가정하면 이는 $n$과 같거나 그보다 작다. 독립인 $k$개의 고유벡터를 확장하여 기저 $Q$를 만들면 $Q^{-1}AQ=\begin{bmatrix}\lambda I_k & B \\ O & C \end{bmatrix}$의 특성 다항식은 $\lambda I_k$의 특성 다항식과 $C$의 특성 다항식의 곱이므로 적어도 $(x-\lambda)^k$를 가진다. 따라서 기하적 중복도는 대수적 중복도와 같거나 그보다 적다.[8] 각 열이 고유벡터인 행렬 $S$의 역행렬 $S^{-1}$이 있어야, 즉 $n$개의 고유벡터가 독립이어야 대각화할 수 있으므로 모든 고유값의 두 중복도가 같으면 대각화할 수 있다.
  • $A^2=A$이면 $A(x-Ax)=(A-A^2)x=0$이므로 $x-Ax$는 $A$의 null space에 있고 $\im (I-A)$는 $A$의 null space의 subset이다. null space의 모든 원소 $n$은 $n=n-0=n-An$를 만족하므로 $A$의 null space는 $\im (I-A)$의 subset이다. 따라서 $x-Ax$들이 $\lambda=0$의 eigenspace이고, $A(Ax)=1\times Ax$에서 $A$의 column space가 $\lambda=1$의 eigenspace이다. 서로 다른 eigenspace에 있는 벡터는 독립이어야 하므로 모든 벡터를 $Ax+(x-Ax)$로 쓰면 eigenspace들의 direct sum이 전체 공간을 이룬다. 따라서 사영 행렬은 대각화할 수 있다.
  • $A$의 고유벡터가 $B$의 고유벡터와 같고 $A,\ B$를 대각화할 수 있으면 고유값 분해에서 $AB=BA=Q\Lambda_A\Lambda_BQ^{-1}$이다. 역으로 $AB=BA$이고 $A,\ B$를 대각화할 수 있을 때 $Ax=\lambda x$이면 $A(Bx)=BAx=B\lambda x=\lambda(Bx)$이므로 $Bx$가 $A$의 고유벡터이고 $\lambda$의 eigenspace에 있다. $A$를 대각화할 수 있으므로 eigenspace들의 direct sum이 전체 공간을 이루고, $Bx'=\lambda'x'$이면 $\lambda$의 eigenspace에 있는 벡터 $x'_1$과 $\lambda$가 아닌 eigenspace들의 direct sum에 있는 벡터 $x'_2$에 대해서 $\lambda'x'=\lambda'(x'_1+x'_2)$이다. $A$의 고유값의 eigenspace에 있는 벡터 $x$에 대해서 $Bx$는 같은 고유값의 eigenspace에 있으므로 $Bx_1'$은 $\lambda$의 eigenspace에 있고 $Bx_2'$는 $\lambda$의 eigenspace에 없다. 따라서 $Bx'_1=\lambda'x_1',\ Bx'_2=\lambda'x_2'$이고 $\lambda'$의 eigenspace는 $A$의 각 eigenspace의 subset들의 direct sum으로 나타낼 수 있다. $B$를 대각화할 수 있으므로 eigenspace들의 direct sum이 전체 공간을 이루고 $A$의 고유벡터가 $B$의 고유벡터와 같다.
  • $\det(A-\lambda I)=(\lambda-\lambda_1)\cdots(\lambda-\lambda_n)$라고 가정하면 $A$를 대각화할 수 있을 때 $(A-\lambda_1I)\cdots(A-\lambda_nI)=Q(\Lambda-\lambda_1I)\cdots(\Lambda-\lambda_nI)Q^{-1}$이다. 각 항에서 $\Lambda$의 한 성분씩 $0$이 되므로 결과는 영행렬이고 이를 Cayley–Hamilton theorem(케일리-해밀턴 정리)라고 한다. 대수적으로 닫힌 체의 행렬은 triangular matrix로 만드는 기저를 찾을 수 있으므로 각 항에서 한 열씩 $0$이 되게 할 수 있다.[9]
  • 대수적으로 닫힌 체에서 서로 다른 eigenspace에 있는 고유벡터들이 orthogonal이면, 즉 orthonormal일 수 있으면 normal matrix(정규 행렬)라 한다. 대표적으로 Hermitian matrix가 있다.[10]

Jordan normal form

두 벡터 공간 $k^m,\ k^n$ 사이의 linear transformation $A:k^m\to k^n$을 행렬로 바꾸려면 $k^m$의 기저 $x_1,\ \cdots,\ x_m$과 $k^n$의 기저 $y_1,\ \cdots,\ y_n$가 주어져야 한다. 그러면 $[A]^i=Ax_i$는 $a_{1i}y_1+\cdots+a_{ni}y_n$이고 각 $k^n$의 원소로 각 열의 성분들을 채워 행렬 $A$를 구성할 수 있다. 즉 행렬의 성분은 열벡터의 나열로서 공역의 벡터의 계수이다. 열벡터가 $m$개 있으므로 공역의 벡터 $[A]^i$의 index $i$가 정의역의 기저에 대응한다.

같은 기저를 쓰는 다른 linear transformation은 다른 행렬이다. 다른 기저를 쓰는 같은 linear transformation들을 구성하려면 $A_{\mathcal{B_m'}\to \mathcal{B_n'}}=I_{\mathcal{B_n}\to \mathcal{B_n'}}A_{\mathcal{B_m}\to \mathcal{B_n}}I_{\mathcal{B_m'}\to \mathcal{B_m}}$와 같이 써야 한다. 여기에서 $I$를 change-of-basis matrix 또는 transition matrix라고 한다. $\mathcal{B_n'}$이 $x_1,\ \cdots,\ x_n$이고 $\mathcal{B_n}$이 standard basis이면 $I_{\mathcal{B_n'}\to \mathcal{B_n}}$는 $i$번째 열이 $x_i$이므로 이들을 standard basis로 표현한 행렬이고, 반면에 $I_{\mathcal{B_n}\to \mathcal{B_n'}}$는 standard basis를 기저 $x_i$로 표현한 행렬이다. 독립인 $n$개의 벡터는 기저가 되므로 모든 invertible matrix는 change-of-basis matrix로 기능할 수 있다. 이러한 $A$와 $B^{-1}AB$의 관계를 similar(닮음, 상사)라고 한다.

$B^{-1}AB$에 대해서 $B^{-1}IB=I$이므로 $\det(B^{-1}AB-\lambda I)=\det(B^{-1}(A-\lambda I)B)=\det(A-\lambda I)$이고 $B^{-1}AB$의 고유값은 $A$의 고유값과 같다. $Ax=\lambda x$이면 $B(B^{-1}AB)B^{-1}x=\lambda x$이므로 $B^{-1}ABB^{-1}x=\lambda B^{-1}x$이고 $B^{-1}x$는 $B^{-1}AB$의 고유벡터이다.

대수적으로 닫힌 체의 행렬은 모두 $B$가 triangular matrix가 되게 할 수 있다. 증명은 다음과 같다: $B$가 upper triangular matrix일 때 $B[B]^i=[B]^1B_{1i}+\cdots+[B]^iB_{ii}$이므로 각 열벡터를 기저로 쓰면 첫 번째 열에서 $i$번째 열까지의 벡터로 생성한 subspace를 $V_i$라 할 때 $B$는 $V_i$를 $V_i$로 보낸다. 이 $V_i$를 $B$-invariant(불변)라 하고 sequence $V_1,\ \cdots,\ V_n$을 $B$의 fan이라 한다. induction을 써서 $\dim V=n-1$일 때 $B$의 fan이 있다고 가정하고 $\dim V=n$일 때 $B$의 fan을 구성하겠다. $B$는 대수적으로 닫힌 체의 행렬이므로 적어도 하나의 고유벡터를 가진다. 따라서 전체 공간을 $B$의 하나의 고유벡터가 생성하는 공간 $V_1$과 적당한 $\dim W=n-1$인 $W$와의 direct sum으로 나타낼 수 있다. 그러면 $V_i$의 각 벡터를 $v_i=cv_1+w_{i-1}$로 쓸 때 $Bv_i=(\operatorname{proj}_{V_1} V+\operatorname{proj}_{W} V)Bv_i$이고 $Bv_i=(\operatorname{proj}_{V_1} V) B(cv_1+w_{i-1})+(\operatorname{proj}_{W} V) B(cv_1+w_{i-1})$에서 첫 번째 항은 projection에 따라서 $V_1$에 속해야 하고 두 번째 항은 $V_1$에 있는 고유벡터인 $cv_1$이 제거되어 $(\operatorname{proj}_{W} V) Bw_{i-1}$만 남는다. $\operatorname{proj}_{W} V$는 $W$를 $W$로 보내므로 $(\operatorname{proj}_{W} V) B$의 fan을 $W_1,\ \cdots,\ W_{n-1}$이라 하면 $B$의 fan을 $V_i=V_1+W_{i-1}$로 정의할 수 있다.

복소 행렬

$z\in\C$의 길이는 $z=a+bi$일 때 $|z|=\sqrt{a^2+b^2}$이고 $v\in\C^n$의 길이는 $\|v\|=\sqrt{|v_1|^2+\cdots+|v_n|^2}$이다. $|v|^2=a^2+b^2=(a+bi)(a-bi)$이므로 $\overline{z}=z^*=a-bi$라 하면 $\|v\|=\sqrt{v_1\overline{v_1}+\cdots+v_n\overline{v_n}}$이다. 모든 성분에 켤레를 취한 벡터나 행렬을 $\overline{v}$로 쓸 때 두 복소 벡터 $a,\ b$의 내적은 linearity in the first argument가 성립하는 $a^T\overline{b}$나 linearity in the second argument argument가 성립하는 $\overline{a^T}b$로 정의할 수 있다.[11] 둘 다 sesquilinear form이며[12] 이 내적에 대한 전치 행렬, 즉 Hermitian adjoint는 $\overline{A^T}$이다. 이는 $A$의 conjugate transpose(켤레 전치)이고 $A^H=A^*=A^{\dagger}=A^{+}$ 등으로 쓴다.

$A^*=A$인 행렬 $A$를 Hermitian matrix(에르미트 행렬)라 하고 $A^{-1}=A^*$인 행렬 $A$를 unitary matrix(유니터리 행렬)라 한다.

linear difference equation

Fibonacchi numbers

Fibonacci numbers의 점화식 $F_{k+1}=F_{k}+F_{k-1}$은 $F_{k}=F_{k}+0F_{k-1}$이므로 행렬의 점화식 $\begin{bmatrix}F_{k+1}\\F_{k}\end{bmatrix}=\begin{bmatrix}1&1\\1&0\end{bmatrix}\begin{bmatrix}F_k\\F_{k-1}\end{bmatrix}$으로 생각할 수 있다. 행렬의 거듭제곱을 구하기 위하여 고유값 분해하면 $\det (A-\lambda I)=\lambda^2-\lambda-1$에서 고유값은 $\displaystyle \frac{1\pm\sqrt{5}}{2}$이고 고유벡터는 $\displaystyle \begin{pmatrix} \frac{1\pm\sqrt{5}}{2}& 1\end{pmatrix}^T$이다.[13] $\begin{bmatrix}F_{k+1}\\F_{k}\end{bmatrix}=\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&0\\0&\frac{1-\sqrt{5}}{2}\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}^{-1}\begin{bmatrix}F_k\\F_{k-1}\end{bmatrix}$에서 $\begin{bmatrix}F_{k+1}\\F_{k}\end{bmatrix}=\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}\begin{bmatrix}\frac{1+\sqrt{5}}{2}&0\\0&\frac{1-\sqrt{5}}{2}\end{bmatrix}^k\begin{bmatrix}\frac{1+\sqrt{5}}{2}&\frac{1-\sqrt{5}}{2}\\1&1\end{bmatrix}^{-1}\begin{bmatrix}1\\0\end{bmatrix}$이다. 두 번째 성분을 계산하면 $\displaystyle F_k=\frac{1}{\sqrt 5}\left(\frac{1+\sqrt{5}}{2}\right)^k-\frac{1}{\sqrt 5}\left(\frac{1-\sqrt{5}}{2}\right)^k$이다. 이러한 linear difference equation $x_{n+1}=Ax_n$의 해는 $x_0$이 $\lambda$에 대응하는 고유벡터일 때 $x_n=\lambda^nx_0$이다. 세 번째 행렬과 네 번째 행렬의 곱을 계산하면 첫 번째 행렬의 열벡터의 일차결합으로 결과를 나타낼 수 있으므로 이는 벡터 $x_0$을 나타내는 기저를 $A$의 고유벡터들로 바꾸는 과정이다.

stochastic matrix

$k$가 하나씩 더해질 때마다 $x_1$의 $r_1$만큼이 $x_2$로 가고 $x_2$의 $r_2$만큼이 $x_1$로 갈 때 연립일차방정식은 $\displaystyle \begin{cases} (1-r_1)(x_1)_k+r_2(x_2)_k=(x_1)_{k+1} \\ r_1(x_1)_k+(1-r_2)(x_2)_k=(x_2)_{k+1} \end{cases}$이다. 이렇게 각 열의 합이 $1$이고 각 성분이 음수가 아니고 $(x_i)_k$들로만 $(x_i)_{k+1}$가 결정되는 linear difference equation $x_{k+1}=Ax_k$를 Markov process(마르코프 과정) 또는 Markov chain이라 한다. $A-I$의 열이나 행을 모두 더하면 $0$이므로 $\det(A-I)=0$이고, 두 Markov matrix의 곱은 $i$번째 열의 합이 첫 번째 행렬의 $k$번째 열에 두 번째 행렬의 $i$번째 열의 $k$번째 성분을 곱한 것들의 합이므로 Markov matrix이다. 대수적으로 닫힌 체의 행렬은 triangular matrix로 만드는 기저를 찾을 수 있고 $A^k$가 Markov matrix이어야 하므로 각 고유값이 발산하지 않아야 한다. 따라서 Markov matrix의 모든 복소 고유값의 길이는 $1$과 같거나 그보다 작다.[14] 따라서 $x_k$의 각 성분이 음수가 아닐 때 $1$에 대응하는 고유벡터로 수렴하며, 이를 stochastic matrix $A$의 steady state(정상 상태)라 한다. 각 성분에 $0$이 있을 때 $A$의 고유값에 $1$과 $-1$이 모두 있다면 steady state가 없다.

input–output model

linear differential equation

annual interest rate $r\%=0.01\times r$를 예를 들어 단위 시간 $\Delta t = 1/365$마다 $r/365\%$씩 받을 수 있으면 원금과 이자의 합은 단위 시간마다 점화식 $p_{k+1}=(1+0.01r\Delta t)p_k,\ p_0=x$로 생각할 수 있다. $(p_{k+1}-p_k)/\Delta t=0.01rp_k$에서 $\Delta t\to 0$일 때 $p'(t)=0.01rp(t)$이므로 미분방정식을 풀면 $p(t)=e^{0.01rt}x$이다.

참고 자료

  1. https://math.stackexchange.com/questions/395161/whats-the-difference-between-an-initial-value-problem-and-a-boundary-value-prob
  2. https://en.wikipedia.org/wiki/Superposition_principle
  3. https://en.wikipedia.org/wiki/Linear_differential_equation
  4. https://math.stackexchange.com/questions/500782/what-is-the-relation-between-the-eigenspace-of-a-matrix-and-its-column-space
  5. https://math.stackexchange.com/questions/4495/the-intuition-behind-generalized-eigenvectors, https://math.stackexchange.com/questions/2917617/proving-there-are-as-many-generalized-eigenvectors-as-algebraic-multiplicity-eig, https://math.stackexchange.com/questions/1249707/connection-between-algebraic-multiplicity-and-dimension-of-generalized-eigenspac
  6. https://math.stackexchange.com/questions/1314980/show-that-a-and-at-do-not-have-the-same-eigenvectors-in-general
  7. https://math.stackexchange.com/questions/472915/what-kind-of-matrices-are-non-diagonalizable
  8. https://math.stackexchange.com/questions/458189/why-geometric-multiplicity-is-bounded-by-algebraic-multiplicity
  9. https://math.stackexchange.com/questions/1755478/how-many-ways-are-there-to-prove-cayley-hamilton-theorem
  10. https://math.stackexchange.com/questions/82467/eigenvectors-of-real-symmetric-matrices-are-orthogonal
  11. https://math.stackexchange.com/questions/244528/is-any-inner-product-given-by
  12. https://en.wikipedia.org/wiki/Sesquilinear_form
  13. https://en.wikipedia.org/wiki/Golden_ratio
  14. https://math.stackexchange.com/questions/40320/proof-that-the-largest-eigenvalue-of-a-stochastic-matrix-is-1