확률 공간

From Beloveds
Revision as of 19:44, 30 November 2022 by Beloveds (talk | contribs)

단일한 결과를 가지는 사건을 elementary event(근원 사건)라 한다. 이들의 집합 $E$에서 적당한 $\mathcal{P}(E)$의 원소들을 골라 $(E,\ \mathcal{F})$가 field of sets가 되도록 $\mathcal{F}$를 구성하면 확률 $P:\mathcal{F}\to \R$는 모든 $A,\ B\in\mathcal{F}$에 대해서 다음 세 조건을 만족시키는 함수이다:

  1. $P(A)\geq 0$이다.
  2. $P(E)=1$이다.
  3. $A\cap B=\varnothing$이면 $P(A\cup B)=P(A)+P(B)$이다.

이제 $(E,\ \mathcal{F},\ P)$를 field of probability, 또는 probability space(확률 공간)라고 한다.[1]

시그마 대수

$(E,\ \mathcal{F})$가 field of sets라는 것은 기본적인 집합 연산인 합집합과 교집합과 여집합이 항상 가능한 집합이라는 뜻이다. 즉 다음을 만족시켜야 한다:

  1. 모든 $A\in \mathcal{F}$에 대해서 전체 집합 $E$에 대한 여집합 또한 $\mathcal{F}$의 원소이다.
  2. $\varnothing \in\mathcal{F}$이다. 즉 $E\in\mathcal{F}$이다.
  3. 모든 $A,\ B\in \mathcal{F}$에 대해서 $A\cup B$도 $\mathcal{F}$의 원소이다.

이러한 $\mathcal{F}$를 algebra over $E$라고 한다. 그리고 많은 경우 다음 countable union도 추가로 허용한다:

  1. 모든 $A,\ B,\ \cdots\in \mathcal{F}$에 대해서 $A\cup B\cup\cdots$도 $\mathcal{F}$의 원소이다.
  2. $A,\ B,\ C,\ ...\in\mathcal{F}$가 각자 모두 서로소이면 $P(A\cup B\cup C\cup \cdots)=P(A)+P(B)+P(C)+\cdots$이다.

그러면 $\mathcal{F}$를 $\sigma$-algebra(시그마 대수)라고 한다. sigma는 가산 합집합에 $\sigma$를, 가산 교집합에 $\delta$를 붙이는 관례에서 따 온 것이다. 하지만 De Morgan's laws에 따라서 $A\cap B$ 또는 $A\cap B\cap\cdots$도 $\mathcal{F}$의 원소이다. $\mathcal{P}(E)$는 물론 $E$의 $\sigma$-algebra를 이루며, $\mathcal{F}$는 $E$가 유한 집합일 때 대부분의 경우에 이 멱집합이다. 단순히 멱집합으로 정의하지 않는 이유는 mixed random variable 때문이기도 하고, non-measurable set의 존재로 모든 실수 부분 집합에 measure를 주지 못할 수 있다는 기초론적인 문제 또한 잠재해 있다.

$\mathcal{F}$의 원소를 random event라고 하며, 이는 근원 사건들의 조합으로 나타난다. 예를 들어 $[0,\ 1]^2$에서 한 점을 골라 $x$-좌표가 $y$-좌표보다 큰 모든 경우를 하나의 사건으로 볼 수 있으며, uncountably infinite인 가능한 경우들 중 결과는 random(무작위)이고 미리 알 수 없다. 이러한 확률은 사각형의 절반의 넓이에 해당하는 Lebesgue measure다. 모든 Lebesgue measurable function이 almost everywhere에서 Borel measurable function이라는 사실과 더불어 편의상[2] $E$를 실수 위상 공간 $\R^d$로 환원할 수 있다면 $\mathcal{F}$를 $\mathcal{B}(\R^d)$와 같이 모든 open set이 생성하는 가장 작은 $\sigma$-algebra로 두곤 한다. 이를 Borel algebra, 또는 Borel sigma algebra(보렐 시그마 대수)라고 한다.

$E$를 데이터로 취급할 때 sample space(표본 공간)라 하고, 이때 $\mathcal{F}$를 event space(사건 공간)라고 한다.

확률 변수

$[0,\ 1]^2$에서 한 점을 고르는 확률 공간 $(\R^2,\ \mathcal{B}(\R^2),\ P)$가 있을 때 어떤 조건이 주어지면 확률 공간에서 probability function $P$에 대입할 $\mathcal{F}$의 원소를 생각할 수 있다. 이들을 기억해 놓고 변수처럼 쓰기 위해 probability space에서 state space(상태 공간)라고 부르는 다른 measurable space $(\R,\ \mathcal{B}(\R))$로 가는 함수를 만들 수 있다. 예를 들어 $x$-좌표와 $y$-좌표의 합이 $k$ 이하이고 차가 $m$ 이상 $n$ 미만일 확률을 새로운 변수 $X,\ Y$를 도입하여 $P(X\leq k,\ m\leq Y<n)$과 같이 나타낼 수 있다. 여기에서 $X,\ Y$는 다음과 같은 함수 $\R^2\to \R$이다:

$X:(x,\ y)\mapsto x+y,\ Y:(x,\ y)\mapsto |x-y|$

만약 $\mathcal{B}(\R)$의 원소의 preimage가 항상 $\mathcal{B}(\R^2)$의 원소라면 함수 $X,\ Y$는 measurable function이며, 이러한 함수를 random variable(확률 변수)이라고 한다. 이제 measure $P$를 다음과 같이 줄 수 있다:

모든 $A,\ B\in \mathcal{B}(\R)$에 대해서 $P(X\in A,\ Y\in B)=P(\{v\in \R^2:(X(v)\in A) \wedge (Y(v)\in B)\})$이다.

이렇게 확률 변수의 치역이 uncountably infinite이면 continuous random variable(연속 확률 변수)이라고 하고, countable이면 discrete random variable(이산 확률 변수)이라고 한다.

확률 공간을 구성하는 방법

사람 $a_1,\ a_2,\ \cdots,\ a_{100}$에서 무작위로 두 명을 뽑아 두 명의 모발 개수의 곱에 대한 확률 변수를 만들고 싶다고 하자. 확률 공간의 표본 공간에는 각 사람의 모발 개수를 성분으로 가지는 순서쌍으로서 $100 \choose 2$개의 원소를 넣을 수 있다. 집합에서 중복되는 원소가 지워지므로 그만큼 확률 함수에 반영해야 하며, 이때 사건 공간은 표본 공간에서 중복되는 원소 $k$개를 제외한 $2^{4950-k}$개의 원소를 가진다. 즉 확률 공간은 각 사람 $a_n$을 모르며, 각 모발 개수에 대한 도수를 알려 준다. 이제 확률 변수를 $X:(x,\ y)\mapsto xy$로 줄 수 있다.

확률 분포

확률 변수 $X$에 대해서 $P\circ X^{-1}:\mathcal{B}(\R) \to [0,\ 1]$는 pushforward measure이다. 이를 $X_*P$로 쓸 때 함수

$F_X(x)=P(X\leq x)=X_*P(\{a\in \R:a\leq x\})$

cumulative distribution function, cdf(누적 분포 함수)라 한다. $X_*P$가 regular Borel measure이므로 Lebesgue's decomposition theorem에 따라 absolutely continuous part + singular continuous part + pure point part로 분해할 수 있다. 연속 확률 변수라면 두 continuous part로만 이루어져 있고 이산 확률 변수라면 pure point part로만 이루어져 있다. 이때 Radon–Nikodym derivative $dX_*P/d\mu:=f_X(x)$를 생각할 수 있으면 probability density function, pdf(확률 밀도 함수)라 한다. 대부분의 경우에 singular continuous part가 $0$이며 이때 $\mu$는 Lebesgue measure이다. 이산 확률 변수의 확률 밀도 함수 $p_X(x)$를 probability mass function(확률 질량 함수)이라고 하며 이때 $\mu$는 counting measure이다.

기댓값과 분산

평균에 대응하는 expected value(기댓값)와 편차의 제곱에 대응하는 variance(분산)을 확률 공간 $(\Omega,\ \Sigma,\ P)$의 확률 변수 $X:\Omega\to\R$마다 생각할 수 있다:

$\displaystyle \operatorname{E}[X]=\int_{\Omega} X\ dP=\int_\R x\ d(X_* P),\ \operatorname{Var}(X)=\operatorname{E}[(x-\operatorname{E}[X])^2]=\int_\R (x-\operatorname{E}[X])^2\ d(X_* P)$

즉 $X$가 기댓값을 가지려면 $L^1$-함수여야 하고, 분산을 가지려면 $L^2$-함수여야 한다. 기댓값이 $0$인 확률 변수들의 집합은 Hilbert space를 이루며 covariance를 내적으로 가지고 $\operatorname{Cov}(X,\ X)=\operatorname{Var}(X)$이다. $X$의 cdf가 absolutely continuous이면 $\displaystyle \operatorname{E}[X]=\int_{\R}xf(x)\ dx$이고[3] $X$가 이산 확률 변수이면 $P(X=a):=X_*P(\{a\})$라 할 때 countable set $x=\{a\in\R:P(X=a)\neq0\}$에 대해서 $\displaystyle \operatorname{E}[X]=\sum_{x_n\in x} x_n P(X=x_n)$이다.

참고 자료