고유값과 고유벡터
미지수가 n개인 연립미분방정식
- {a11x1(t)+a12x2(t)+⋯+a1nxn(t)=x′1(t)a21x1(t)+a22x2(t)+⋯+a2nxn(t)=x′2(t)⋮an1x1(t)+an2x2(t)+⋯+annxn(t)=x′n(t)
은 다음과 같은 행렬로 나타낼 수 있다.
- [a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann][x1(t)x2(t)⋮xn(t)]=[x′1(t)x′2(t)⋮x′n(t)]
미지수가 한 개일 때 x′(t)=ax(t)이므로 initial condition x(t=0)을 지정하면[1] x(t)=x(0)eat이다. A는 linear이므로 superposition principle에 따라서[2] Ax(t)=x′(t)이고 Ay(t)=y′(t)이면 A(c1x(t)+c2y(t))=c1Ax(t)+c2Ay(t)=c1x′(t)+c2y′(t)=(c1x(t)+c2y(t))′이다. 그러므로 a를 고정하여 해의 모든 성분이 xi(t)=xieat라 가정하고 연립미분방정식을 풀면 해가 존재하는 a들을 찾음으로써 그 합으로 0 또는 eλt들로 이루어진 모든 해를 찾을 수 있다. 이러한 a=λ들을 행렬 A의 eigenvalue(고유값, 고윳값)라 하고, 해 xi(t)=xieλt에서 상수 xi들로 이루어진 벡터를 A의 eigenvector(고유벡터)라 한다.
initial condition x(t=0)을 포함하는 open interval에서 A의 성분이 모두 연속 함수일 때 open interval에 속하는 t마다 독립인 벡터들을 만드는 서로 다른 해들의 linear combination은 이 연립미분방정식의 모든 해를 이룬다.[3] xi(t)=xieλt이고 x′i(t)=λxieλt이므로 xieλt를 단순히 xi로 대체하면 연립미분방정식을 Ax=λx로 쓸 수 있다. 따라서 λ는 (A−λI)x=O를 만족시키고 x는 A−λI의 null space의 원소이다. 따라서 고유벡터 x≠0가 존재하려면 det(A−λI)=0이어야 한다. 행렬식을 전개하면 λ에 대한 다항식이며 이를 A의 characteristic polynomial(특성 다항식)이라고 한다.
- A의 성분이 실수이더라도 λ는 복소수일 수 있다. 전체 공간이 Rn이면 복소 고유값은 없다고 생각한다. 전체 공간이 대수적으로 닫힌 체 Cn이면 중근을 여러 번 셀 때 n개의 고유값이 있다. 복소 벡터 공간에서 symmetric matrix와 orthogonal matrix는 conjugate transpose와 Hermitian adjoint를 정의하여 Hermitian matrix와 unitary matrix로 확장할 수 있다.
- 각 고유값에 대응하는 고유벡터는 A−λI의 null space를 구성해야 하므로 무수히 많다. 즉 λ에 대응하는 고유벡터에 상수를 곱해도 λ에 대응하는 고유벡터이며, 이를 λ의 eigenspace라고 한다. λ가 특성 다항식의 중근이면 λ의 eigenspace에 독립인 여러 개의 고유벡터가 있을 수 있다.
- 각 행렬에 대응하는 특성 다항식은 유일하다. det(A−λI)가 (λ−λ0)n를 가질 때 n을 λ0의 algebraic multiplicity(대수적 중복도)라 하고 A−λI의 null space의 차원을 λ의 geometric multiplicity(기하적 중복도)라 한다. 대수적 중복도가 1이면 simple eigenvalue이고 두 중복도가 같으면 semisimple eigenvalue이다.
성질들
- Ax=λx이면 (A+cI)x=Ax+cx, A2x=λAx, x=λA−1x이므로 A+cI, A2, A−1의 고유값은 λ+c, λ2, 1/λ이다. A+cI, A−1의 고유벡터는 A의 고유벡터와 같지만 A2의 고유값은 −a, a였던 것이 같아지므로 두 고유공간이었던 것의 각 벡터들의 합이 새로운 고유벡터이다.
- 정의에 따라서 고유벡터는 함수 A를 취하면 고유값, 즉 상수만이 곱해진다. 모든 벡터는 I의 고유벡터이고, 모든 벡터가 고유벡터인 행렬은 모든 x에 대해서 (A−λI)x=0이어야 하므로 A=λI밖에 없다. 평면에서의 회전은 복소 고유값과 복소 고유벡터를 가질 수 있다. 사영 행렬은 eigenvalue λ와 eignevector x에 대해서 λ2x=λx이므로 고유값은 0이거나 1이다.
- 0의 eigenspace는 Ax=0을 만족하므로 A의 null space이고, 0이 아닌 고유값의 eigenspace는 λx가 A의 column space에 속하므로 x도 A의 column space에 속한다.[4] 대수적으로 닫힌 체의 벡터 공간이더라도 0이 아닌 고유값의 eigenspace들의 direct sum이 column space를 생성하지 못하면 기하적 중복도가 대수적 중복도보다 적을 것이다. 예를 들어 A−cI의 null space와 column space 둘 모두에 속하는 벡터가 있으면 A−cI의 독립인 n개의 고유벡터들이 없다. 이때 A−cI의 column space에 있는 고유벡터 x가 (A−cI)x′=x일 수 있고 이것은 기하적 중복도에 없는 대수적 중복도를 이룬다.[5] 이 x′를 generalized eigenvector(일반화된 고유벡터)라고 한다.
- triangular matrix이면 det(A−λI)가 (aii−λ)들의 곱이므로 이를 0으로 만드는 λ=aii이다. (A−λI)T=AT−λI이므로 detAT=detA에서 AT의 고유값은 A의 고유값과 같다.[6]
- A+B와 AB의 고유값은 A와 B의 고유값에서 얻을 수 없다. det(BA)=det(AB)이므로 BA의 고유값은 AB의 고유값과 같다. ABx=λx이면 BA(Bx)=λ(Bx)이므로 Bx는 BA의 고유벡터이다.
- A−λI의 determinant를 alternating multilinear form으로 생각하면 aii−λ가 들어 있는 항을 모두 제거한 항들로 나눌 수 있다. 그러면 λ가 없는 항은 A의 determinant이고, λ가 n−1개 있는 각 항은 determinant가 0인 triangular matrix들과 determinant가 aiiλn−1인 대각 행렬로 나누어지므로 이들 항에 대한 determinant의 합은 A의 trace이다. det(A−λI)=(λ−λ1)⋯(λ−λn)라고 가정하면 Vieta's formulas에 따라서 detA=∏iλi,trA=∑iλi이다.
- 모든 고유값이 0이 아니면 역행렬이 존재한다. A+B의 고유값의 합은 A, B의 고유값의 합이고 AB의 고유값의 곱은 A, B의 고유값의 곱이다.
- λ1에 고유벡터 x1이 대응하고 λ2≠λ1에 고유벡터 x2가 대응하면 x1, x2는 독립이다. 증명은 다음과 같다: c1x1+c2x2=0이면 양변에 A를 곱하여 c1λ1x1+c2λ2x2=0이고 가정에서 c2x2=−c1x1이므로 c1(λ1−λ2)x1=0이다. x1≠0이므로 c1=0이어야 하고 c2=0이다. induction을 써서 c1(λ1−λn)=cn+1, ⋯로 정의하여 양변에 A를 곱하면 서로 다른 n개의 고유값에 대응하는 n개의 고유벡터는 독립이다.
- n개의 고유벡터가 독립일 때 모든 벡터를 x=c1x1+⋯+cnxn로 쓸 수 있고 Ax=λ1c1x1+⋯+λncnxn가 정해지므로 이들 λi와 xi가 모두 같은 행렬 A는 유일하다.
complete solution
연립미분방정식의 미지수가 한 개일 때 A의 고유값이 a11이면 x(t)=(x1ea11t)T에 대해서 cx(t)들이 Ax(t)=a11x(t)를 만족시키는 x1이 적어도 1차원, 많아야 1차원을 이룬다. x1=1을 넣어 보면 모든 해는 cea11t이다. 미지수가 두 개일 때 A의 고유값이 λ1, λ2이면 x=(x1eλ1tx2eλ1t)T에 대해서 cx들이 Ax=λ1x를 만족시키는 (x1, x2)는 적어도 1차원, λ1이 중근이면 많아야 2차원을 이루고, x=(x1eλ2tx2eλ2t)T에 대해서 cx들이 Ax=λ2x를 만족시키는 (x1, x2)가 적어도 1차원, λ2가 중근이면 많아야 2차원을 이룬다. 따라서 고유값이 중근이 아니면 각 고유값에 대해서 x1=1이나 x2=1을 넣어 보아 하나의 해 (x1, x2)를 구한 다음, 여기에 상수를 곱한 것들은 c에 넣을 수 있고 모든 해는 c1(x1eλ1t, x2eλ1t)+c2(x1eλ2t, x2eλ2t)이다.
- (ab3a3b)의 특성 다항식은 (a−λ)(3b−λ)−3ab=λ(λ−a−3b)이므로 대수적 중복도가 1인 λ=0,λ=a+3b를 가지고 (ab3a3b), (−3bb3a−a)의 null space c(1−a/b)T, c(13)T를 고유벡터로 가진다. {ax1(t)+bx2(t)=x′1(t)3ax1(t)+3bx2(t)=x′2(t)의 해는 {x1(t)=c1+c2e(a+3b)tx2(t)=−ac1/b+3c2e(a+3b)t이다.
- (ab0a)의 특성 다항식은 (a−λ)2이므로 대수적 중복도가 2인 λ=a를 가지지만 (0b00)의 null space는 b가 RREF의 pivot이므로 c(10)T로 1차원을 이룬다. 부족한 고유벡터는 (A−λI)x2=x1 또는 (A−λI)2x=O에서 얻을 수 있다.[7] 따라서 {ax1(t)+bx2(t)=x′1(t)ax2(t)=x′2(t)의 해는 {x1(t)=c1eat+bc2teatx2(t)=c2eat이다.
- (a00a)의 특성 다항식은 (a−λ)2이므로 대수적 중복도가 2인 λ=a를 가지고 (0000)의 null space는 c1(10)T+c2(01)T로 2차원을 이룬다. {ax1(t)=x′1(t)ax2(t)=x′2(t)의 해는 {x1(t)=c1eatx2(t)=c2eat이다.
대각화
n개의 고유벡터가 독립일 때 이들이 각 열을 이루는 행렬 Q를 뒤에 곱하면 각 고유벡터는 A[Q]i=λ[Q]i를 만족하므로 이는 Q에 각 고유값이 대각 성분을 이루는 행렬 Λ를 뒤에 곱한 것과 같다. 따라서 AQ=QΛ에서 A=QΛQ−1 또는 Λ=Q−1AQ이며 Ak=(QΛQ−1)k=QΛkQ−1이다. 이를 A의 Eigendecomposition(고유값 분해)이라 하는데, 행렬을 A=SDS−1로 분해하는 작업을 역으로 생각하면 AS=SD이어야 하므로 [SD]i=Dii[S]i에서 A[S]i=Dii[S]i이며 S의 각 열은 고유벡터이다. 따라서 A의 diagonalization(대각화)은 A를 고유값 분해한 것이다.
- λ가 A의 특성 다항식의 중근일 때 기하적 중복도를 k라 가정하면 이는 n과 같거나 그보다 작다. 독립인 k개의 고유벡터를 확장하여 기저 Q를 만들면 Q−1AQ=[λIkBOC]의 특성 다항식은 λIk의 특성 다항식과 C의 특성 다항식의 곱이므로 적어도 (x−λ)k를 가진다. 따라서 기하적 중복도는 대수적 중복도와 같거나 그보다 적다.[8] 각 열이 고유벡터인 행렬 S의 역행렬 S−1이 있어야, 즉 n개의 고유벡터가 독립이어야 대각화할 수 있으므로 모든 고유값의 두 중복도가 같으면 대각화할 수 있다.
- A2=A이면 A(x−Ax)=(A−A2)x=0이므로 x−Ax는 A의 null space에 있고 im(I−A)는 A의 null space의 subset이다. null space의 모든 원소 n은 n=n−0=n−An를 만족하므로 A의 null space는 im(I−A)의 subset이다. 따라서 x−Ax들이 λ=0의 eigenspace이고, A(Ax)=1×Ax에서 A의 column space가 λ=1의 eigenspace이다. 서로 다른 eigenspace에 있는 벡터는 독립이어야 하므로 모든 벡터를 Ax+(x−Ax)로 쓰면 eigenspace들의 direct sum이 전체 공간을 이룬다. 따라서 사영 행렬은 대각화할 수 있다.
- A의 고유벡터가 B의 고유벡터와 같고 A, B를 대각화할 수 있으면 고유값 분해에서 AB=BA=QΛAΛBQ−1이다. 역으로 AB=BA이고 A, B를 대각화할 수 있을 때 Ax=λx이면 A(Bx)=BAx=Bλx=λ(Bx)이므로 Bx가 A의 고유벡터이고 λ의 eigenspace에 있다. A를 대각화할 수 있으므로 eigenspace들의 direct sum이 전체 공간을 이루고, Bx′=λ′x′이면 λ의 eigenspace에 있는 벡터 x′1과 λ가 아닌 eigenspace들의 direct sum에 있는 벡터 x′2에 대해서 λ′x′=λ′(x′1+x′2)이다. A의 고유값의 eigenspace에 있는 벡터 x에 대해서 Bx는 같은 고유값의 eigenspace에 있으므로 Bx′1은 λ의 eigenspace에 있고 Bx′2는 λ의 eigenspace에 없다. 따라서 Bx′1=λ′x′1, Bx′2=λ′x′2이고 λ′의 eigenspace는 A의 각 eigenspace의 subset들의 direct sum으로 나타낼 수 있다. B를 대각화할 수 있으므로 eigenspace들의 direct sum이 전체 공간을 이루고 A의 고유벡터가 B의 고유벡터와 같다.
- det(A−λI)=(λ−λ1)⋯(λ−λn)라고 가정하면 A를 대각화할 수 있을 때 (A−λ1I)⋯(A−λnI)=Q(Λ−λ1I)⋯(Λ−λnI)Q−1이다. 각 항에서 Λ의 한 성분씩 0이 되므로 결과는 영행렬이고 이를 Cayley–Hamilton theorem(케일리-해밀턴 정리)라고 한다. 대수적으로 닫힌 체의 행렬은 triangular matrix로 만드는 기저를 찾을 수 있으므로 각 항에서 한 열씩 0이 되게 할 수 있다.[9]
- 대수적으로 닫힌 체에서 서로 다른 eigenspace에 있는 고유벡터들이 orthogonal이면, 즉 orthonormal일 수 있으면 normal matrix(정규 행렬)라 한다. 대표적으로 Hermitian matrix가 있다.[10]
Jordan normal form
두 벡터 공간 km, kn 사이의 linear transformation A:km→kn을 행렬로 바꾸려면 km의 기저 x1, ⋯, xm과 kn의 기저 y1, ⋯, yn가 주어져야 한다. 그러면 [A]i=Axi는 a1iy1+⋯+aniyn이고 각 kn의 원소로 각 열의 성분들을 채워 행렬 A를 구성할 수 있다. 즉 행렬의 성분은 열벡터의 나열로서 공역의 벡터의 계수이다. 열벡터가 m개 있으므로 공역의 벡터 [A]i의 index i가 정의역의 기저에 대응한다.
같은 기저를 쓰는 다른 linear transformation은 다른 행렬이다. 다른 기저를 쓰는 같은 linear transformation들을 구성하려면 AB′m→B′n=IBn→B′nABm→BnIB′m→Bm와 같이 써야 한다. 여기에서 I를 change-of-basis matrix 또는 transition matrix라고 한다. B′n이 x1, ⋯, xn이고 Bn이 standard basis이면 IB′n→Bn는 i번째 열이 xi이므로 이들을 standard basis로 표현한 행렬이고, 반면에 IBn→B′n는 standard basis를 기저 xi로 표현한 행렬이다. 독립인 n개의 벡터는 기저가 되므로 모든 invertible matrix는 change-of-basis matrix로 기능할 수 있다. 이러한 A와 B−1AB의 관계를 similar(닮음, 상사)라고 한다.
B−1AB에 대해서 B−1IB=I이므로 det(B−1AB−λI)=det(B−1(A−λI)B)=det(A−λI)이고 B−1AB의 고유값은 A의 고유값과 같다. Ax=λx이면 B(B−1AB)B−1x=λx이므로 B−1ABB−1x=λB−1x이고 B−1x는 B−1AB의 고유벡터이다.
대수적으로 닫힌 체의 행렬은 모두 B가 triangular matrix가 되게 할 수 있다. 증명은 다음과 같다: B가 upper triangular matrix일 때 B[B]i=[B]1B1i+⋯+[B]iBii이므로 각 열벡터를 기저로 쓰면 첫 번째 열에서 i번째 열까지의 벡터로 생성한 subspace를 Vi라 할 때 B는 Vi를 Vi로 보낸다. 이 Vi를 B-invariant(불변)라 하고 sequence V1, ⋯, Vn을 B의 fan이라 한다. induction을 써서 dimV=n−1일 때 B의 fan이 있다고 가정하고 dimV=n일 때 B의 fan을 구성하겠다. B는 대수적으로 닫힌 체의 행렬이므로 적어도 하나의 고유벡터를 가진다. 따라서 전체 공간을 B의 하나의 고유벡터가 생성하는 공간 V1과 적당한 dimW=n−1인 W와의 direct sum으로 나타낼 수 있다. 그러면 BVi=(projV1V+projWV)BVi이고 Vi의 각 벡터를 vi=cv1+wi−1로 쓸 때 Bvi=(projV1V)B(cv1+wi−1)+(projWV)B(cv1+wi−1)에서 첫 번째 항은 projection에 따라서 V1에 속해야 하고 두 번째 항은 V1에 있는 고유벡터인 cv1이 제거되어 (projWV)Bwi−1만 남는다. projWV는 W를 W로 보내므로 (projWV)B의 fan을 W1, ⋯, Wn−1이라 하면 B의 fan을 Vi=V1+Wi−1로 정의할 수 있다.
복소 행렬
z∈C의 길이는 z=a+bi일 때 |z|=√a2+b2이고 v∈Cn의 길이는 ‖v‖=√|v1|2+⋯+|vn|2이다. |v|2=a2+b2=(a+bi)(a−bi)이므로 ¯z=z∗=a−bi라 하면 ‖v‖=√v1¯v1+⋯+vn¯vn이다. 모든 성분에 켤레를 취한 벡터나 행렬을 ¯v로 쓸 때 두 복소 벡터 a, b의 내적은 linearity in the first argument가 성립하는 aT¯b나 linearity in the second argument argument가 성립하는 ¯aTb로 정의할 수 있다.[11] 둘 다 sesquilinear form이며[12] 이 내적에 대한 전치 행렬, 즉 Hermitian adjoint는 ¯AT이다. 이는 A의 conjugate transpose(켤레 전치)이고 AH=A∗=A†=A+ 등으로 쓴다.
A∗=A인 행렬 A를 Hermitian matrix(에르미트 행렬)라 하고 A−1=A∗인 행렬 A를 unitary matrix(유니터리 행렬)라 한다.
linear difference equation
Fibonacchi numbers
Fibonacci numbers의 점화식 Fk+1=Fk+Fk−1은 Fk=Fk+0Fk−1이므로 행렬의 점화식 [Fk+1Fk]=[1110][FkFk−1]으로 생각할 수 있다. 행렬의 거듭제곱을 구하기 위하여 고유값 분해하면 det(A−λI)=λ2−λ−1에서 고유값은 1±√52이고 고유벡터는 (1±√521)T이다.[13] [Fk+1Fk]=[1+√521−√5211][1+√52001−√52][1+√521−√5211]−1[FkFk−1]에서 [Fk+1Fk]=[1+√521−√5211][1+√52001−√52]k[1+√521−√5211]−1[10]이다. 두 번째 성분을 계산하면 Fk=1√5(1+√52)k−1√5(1−√52)k이다. 이러한 linear difference equation xn+1=Axn의 해는 x0이 λ에 대응하는 고유벡터일 때 xn=λnx0이다. 세 번째 행렬과 네 번째 행렬의 곱을 계산하면 첫 번째 행렬의 열벡터의 일차결합으로 결과를 나타낼 수 있으므로 이는 벡터 x0을 나타내는 기저를 A의 고유벡터들로 바꾸는 과정이다.
stochastic matrix
k가 하나씩 더해질 때마다 x1의 r1만큼이 x2로 가고 x2의 r2만큼이 x1로 갈 때 연립일차방정식은 {(1−r1)(x1)k+r2(x2)k=(x1)k+1r1(x1)k+(1−r2)(x2)k=(x2)k+1이다. 이렇게 각 열의 합이 1이고 (xi)k≥0들로만 (xi)k+1가 결정되는 linear difference equation xk+1=Axk를 Markov process(마르코프 과정) 또는 Markov chain이라 한다. A−I의 각 행을 더하면 0이므로 det(A−I)=0이고, 두 Markov matrix의 곱도 Markov matrix이다. 대수적으로 닫힌 체의 행렬은 triangular matrix로 만드는 기저를 찾을 수 있고 Ak가 Markov matrix이어야 하므로 각 고유값이 발산하지 않아야 한다. 따라서 Markov matrix의 모든 고유값의 절댓값은 1과 같거나 그보다 작다.[14] 따라서 k→∞일 때 결과는 1에 대응하는 고유벡터로 수렴하며, 이를 stochastic matrix A의 steady state(정상 상태)라 한다. A의 고유값에 1과 −1이 모두 있으면 steady state가 없다.
input–output model
linear differential equation
annual interest rate r%=0.01×r를 예를 들어 단위 시간 Δt=1/365마다 r/365%씩 받을 수 있으면 원금과 이자의 합은 단위 시간마다 점화식 pk+1=(1+0.01rΔt)pk, p0=x로 생각할 수 있다. (pk+1−pk)/Δt=0.01rpk에서 Δt→0일 때 p′(t)=0.01rp(t)이므로 미분방정식을 풀면 p(t)=e0.01rtx이다.
참고 자료
- ↑ https://math.stackexchange.com/questions/395161/whats-the-difference-between-an-initial-value-problem-and-a-boundary-value-prob
- ↑ https://en.wikipedia.org/wiki/Superposition_principle
- ↑ https://en.wikipedia.org/wiki/Linear_differential_equation
- ↑ https://math.stackexchange.com/questions/500782/what-is-the-relation-between-the-eigenspace-of-a-matrix-and-its-column-space
- ↑ https://math.stackexchange.com/questions/4495/the-intuition-behind-generalized-eigenvectors, https://math.stackexchange.com/questions/2917617/proving-there-are-as-many-generalized-eigenvectors-as-algebraic-multiplicity-eig, https://math.stackexchange.com/questions/1249707/connection-between-algebraic-multiplicity-and-dimension-of-generalized-eigenspac
- ↑ https://math.stackexchange.com/questions/1314980/show-that-a-and-at-do-not-have-the-same-eigenvectors-in-general
- ↑ https://math.stackexchange.com/questions/472915/what-kind-of-matrices-are-non-diagonalizable
- ↑ https://math.stackexchange.com/questions/458189/why-geometric-multiplicity-is-bounded-by-algebraic-multiplicity
- ↑ https://math.stackexchange.com/questions/1755478/how-many-ways-are-there-to-prove-cayley-hamilton-theorem
- ↑ https://math.stackexchange.com/questions/82467/eigenvectors-of-real-symmetric-matrices-are-orthogonal
- ↑ https://math.stackexchange.com/questions/244528/is-any-inner-product-given-by
- ↑ https://en.wikipedia.org/wiki/Sesquilinear_form
- ↑ https://en.wikipedia.org/wiki/Golden_ratio
- ↑ https://math.stackexchange.com/questions/40320/proof-that-the-largest-eigenvalue-of-a-stochastic-matrix-is-1
- https://people.math.wisc.edu/~aseeger/319/notes2.pdf
- Gilbert Strang. Linear Algebra and Its Applications.