헤세 행렬과 헤세 판정법|이계 도함수로 극대점, 극소점, 안장점을 판별할 수 있다.
두 번 미분한 것이 연속인 일변수 함수 $f:\R\to\R$에 대해서 극대, 극소점을 판별하는 방법은 다음과 같다:
- $f'(a)=0$이고 $f''(a)>0$이면 $x=a$에서 극소이고 $f''(a)<0$이면 $x=a$에서 극대이다.
이는 기울기가 증가하면 아래로 볼록하고 기울기가 감소하면 위로 볼록하기 때문이다. 테일러 전개로도 확인할 수 있다.
- $\displaystyle f(a+h)=f(a)+f'(a)h+\frac{f''(a)h^2}{2}+o(h^2)\implies \Delta f(a)\approx f''(a)h^2/2$
독일의 수학자 Ludwig Otto Hesse는 다변수함수의 극대, 극소점을 판별하는 방법을 제시하였다. 모든 이계 편미분이 연속인 $f:\R^n\to \R$에 대해서 대칭 행렬 $H(f)$를 다음과 같이 정의하는 것이다.
- $\displaystyle H_{ij}(f)=\frac{\partial^2 f}{\partial x_i\partial x_j}$
이를 Hessian matrix(헤세 행렬)라고 한다.
모든 방향에서 편미분이 $0$인 경우를 stationary point(정류점)라 하고, 미분할 수 없는 경우가 있을 때에는 정류점과 함께 critical point(임계점)라 한다. 극소점이나 극대점이 아닌 정류점은 saddle point(안장점)이다.[1] 이는 inflection point(변곡점) 또는 undulation point(기복점)이거나 병적인 예시일 수 있으며[2] 변곡점은 안장점이 아닐 수 있다.[3] 헤세 행렬의 고윳값을 이용하면 $\det H\neq 0$인 경우에 정류점을 분류할 수 있다.[4]
- $\{H(f)\}(a)$가 positive definite이면, 즉 고윳값이 모두 양수이면 임계점 $a$는 극소점이다.
- $\{H(f)\}(a)$가 negative definite이면, 즉 고윳값이 모두 음수이면 임계점 $a$는 극대점이다.
- $\{H(f)\}(a)$가 indefinite이면, 즉 고윳값에 양수와 음수가 섞여 있다면 임계점 $a$는 안장점이다.
테일러 전개로 나타내면 다음과 같다.
- $h$가 열벡터일 때: $\displaystyle f(a+h)=f(a)+\{J(f)\}(a)h+\frac{h^T\{J(\nabla f)\}(a)h}{2}+\cdots\implies \Delta f(a)\approx h^T\{H(f)\}(a)h/2$
- $h$가 행벡터일 때: $\displaystyle f(a+h)=f(a)+\{J(f)\}(a)h^T+\frac{h\{J(\nabla f)\}(a)h^T}{2}+\cdots\implies \Delta f(a)\approx h\{H(f)\}(a)h^T/2$
증명
대칭 행렬 $H$에 대응하는 이차 형식은 열벡터 $v=(x_1,\ ...,\ x_n)$에 대해서
- $\displaystyle q(v)=v^TH(f)v=\sum_{i,\ j} H_{ij}x_ix_j$
이다. 실수 대칭 행렬이면 orthogonally diagonalizable이므로 orthogonal matrix $Q$와 diagonal matrix $D$에 대해서 $H=QDQ^T$이다. 따라서
- $\displaystyle v^TQDQ^Tv=(Q^{T}v)^TD(Q^Tv)=w^TDw=\sum_{i}\lambda_iw_i^2$
이므로 다음이 성립한다:
- $H$의 고윳값이 모두 양수일 때, 이차 형식은 $v\neq 0$일 때 항상 양수이다. 그러므로 $v=0$은 이차 형식의 최소점이다.
- $H$의 고윳값이 모두 음수일 때, 이차 형식은 $v\neq 0$일 때 항상 음수이다. 그러므로 $v=0$은 이차 형식의 최대점이다.
- $H$의 고윳값에 양수와 음수가 섞여 있을 때, $v=0$은 이차 형식의 안장점이다.
$f$의 이계 편미분이 연속이므로 $H(f)$가 $a$에서 positive definite이면 $a$ 주위에서도 postitive definite이다. $a$가 임계점이면 테일러 전개에 의해서 $h$에 대한 일차항이 사라지므로 테일러 정리에 의해서 다음을 만족하는 $c\in(0,\ 1)$를, 즉 $a+ch\in(a,\ a+h)$가 되게 잡을 수 있다:
- $f(a+h)-f(a)=h^T\{H(f)\}(a+ch)h/2$
$h$를 충분히 작게 하면 그것이 어떤 방향이든지 헤세 행렬을 $a$ 주위에서 positive definite로 만들 수 있다. $h$가 Hessian을 positive definite로 만들면 고정한 $h$가 무엇이든지 우변의 이차 형식이 $0$ 이상이므로 $f(a+h)-f(a)\geq 0$를 얻으며 $a$는 $f$의 극소점이다. 나머지도 같은 과정으로 보일 수 있다.
$\det \{H(f)\}(a)=0$이면 이 방법으로 판정할 수 없다. 극소점이나 극대점일 때 헤세 행렬은 semi-definite이고, 헤세 행렬이 semi-definite일 때 임계점은 안장점일 수 있다.
참고 자료
- 김홍종. 미적분학.