Difference between revisions of "Definition:확률 공간"

From Beloveds
 
Line 23: Line 23:
 
: $X:(x,\ y)\mapsto x+y,\ Y:(x,\ y)\mapsto |x-y|$
 
: $X:(x,\ y)\mapsto x+y,\ Y:(x,\ y)\mapsto |x-y|$
 
만약 $\mathcal{B}(\R)$의 원소의 preimage가 항상 $\mathcal{B}(\R^2)$의 원소라면 함수 $X,\ Y$는 measurable function이며, 이러한 함수를 '''random variable'''(확률 변수)이라고 한다. 이제 measure $P$를 다음과 같이 줄 수 있다:
 
만약 $\mathcal{B}(\R)$의 원소의 preimage가 항상 $\mathcal{B}(\R^2)$의 원소라면 함수 $X,\ Y$는 measurable function이며, 이러한 함수를 '''random variable'''(확률 변수)이라고 한다. 이제 measure $P$를 다음과 같이 줄 수 있다:
: 모든 $A,\ B\in \mathcal{B}(\R)$에 대해서 $P(X\in A,\ Y\in B)=P(\{v\in \R^2:(X(v)\in A) \wedge (Y(v)\in B)\})$이다.
+
: 모든 $A,\ B\in \mathcal{B}(\R)$에 대해서 $P(X\in A,\ Y\in B)=P(\{v\in \R^2: X(v)\in A,\ Y(v)\in B\})$이다.
 
이렇게 확률 변수의 치역이 uncountably infinite이면 '''continuous random variable'''(연속 확률 변수)이라고 하고, countable이면 '''discrete random variable'''(이산 확률 변수)이라고 한다.
 
이렇게 확률 변수의 치역이 uncountably infinite이면 '''continuous random variable'''(연속 확률 변수)이라고 하고, countable이면 '''discrete random variable'''(이산 확률 변수)이라고 한다.
  

Latest revision as of 21:28, 6 January 2023

단일한 결과를 가지는 사건을 elementary event(근원 사건)라 한다. 이들의 집합 $E$에서 적당한 $\mathcal{P}(E)$의 원소들을 골라 $(E,\ \mathcal{F})$가 field of sets가 되도록 $\mathcal{F}$를 구성하면 확률 $P:\mathcal{F}\to \R$는 모든 $A,\ B\in\mathcal{F}$에 대해서 다음 세 조건을 만족시키는 함수이다:

  1. $P(A)\geq 0$이다.
  2. $P(E)=1$이다.
  3. $A\cap B=\varnothing$이면 $P(A\cup B)=P(A)+P(B)$이다.

이제 $(E,\ \mathcal{F},\ P)$를 field of probability, 또는 probability space(확률 공간)라고 한다.[1]

시그마 대수

$(E,\ \mathcal{F})$가 field of sets라는 것은 기본적인 집합 연산인 합집합과 교집합과 여집합이 항상 가능한 집합이라는 뜻이다. 즉 다음을 만족시켜야 한다:

  1. 모든 $A\in \mathcal{F}$에 대해서 전체 집합 $E$에 대한 여집합 또한 $\mathcal{F}$의 원소이다.
  2. $\varnothing \in\mathcal{F}$이다. 즉 $E\in\mathcal{F}$이다.
  3. 모든 $A,\ B\in \mathcal{F}$에 대해서 $A\cup B$도 $\mathcal{F}$의 원소이다.

이러한 $\mathcal{F}$를 algebra over $E$라고 한다. 그리고 많은 경우 다음 countable union도 추가로 허용한다:

  1. 모든 $A,\ B,\ \cdots\in \mathcal{F}$에 대해서 $A\cup B\cup\cdots$도 $\mathcal{F}$의 원소이다.
  2. $A,\ B,\ C,\ ...\in\mathcal{F}$가 각자 모두 서로소이면 $P(A\cup B\cup C\cup \cdots)=P(A)+P(B)+P(C)+\cdots$이다.

그러면 $\mathcal{F}$를 $\sigma$-algebra(시그마 대수)라고 한다. sigma는 가산 합집합에 $\sigma$를, 가산 교집합에 $\delta$를 붙이는 관례에서 따 온 것이다. 하지만 De Morgan's laws에 따라서 $A\cap B$ 또는 $A\cap B\cap\cdots$도 $\mathcal{F}$의 원소이다. $\mathcal{P}(E)$는 물론 $E$의 $\sigma$-algebra를 이루며, $\mathcal{F}$는 $E$가 유한 집합일 때 대부분의 경우에 이 멱집합이다. 단순히 멱집합으로 정의하지 않는 이유는 mixed random variable 때문이기도 하고, non-measurable set의 존재로 모든 실수 부분 집합에 measure를 주지 못할 수 있다는 기초론적인 문제 또한 잠재해 있다.

$\mathcal{F}$의 원소를 random event라고 하며, 이는 근원 사건들의 조합으로 나타난다. 예를 들어 $[0,\ 1]^2$에서 한 점을 골라 $x$-좌표가 $y$-좌표보다 큰 모든 경우를 하나의 사건으로 볼 수 있으며, uncountably infinite인 가능한 경우들 중 결과는 random(무작위)이고 미리 알 수 없다. 이러한 확률은 사각형의 절반의 넓이에 해당하는 Lebesgue measure다. 모든 Lebesgue measurable function이 almost everywhere에서 Borel measurable function이라는 사실과 더불어 편의상[2] $E$를 실수 위상 공간 $\R^d$로 환원할 수 있다면 $\mathcal{F}$를 $\mathcal{B}(\R^d)$와 같이 모든 open set이 생성하는 가장 작은 $\sigma$-algebra로 두곤 한다. 이를 Borel algebra, 또는 Borel sigma algebra(보렐 시그마 대수)라고 한다.

$E$를 데이터로 취급할 때 sample space(표본 공간)라 하고, 이때 $\mathcal{F}$를 event space(사건 공간)라고 한다.

확률 변수

$[0,\ 1]^2$에서 한 점을 고르는 확률 공간 $(\R^2,\ \mathcal{B}(\R^2),\ P)$가 있을 때 어떤 조건이 주어지면 확률 공간에서 probability function $P$에 대입할 $\mathcal{F}$의 원소를 생각할 수 있다. 이들을 기억해 놓고 변수처럼 쓰기 위해 probability space에서 state space(상태 공간)라고 부르는 다른 measurable space $(\R,\ \mathcal{B}(\R))$로 가는 함수를 만들 수 있다. 예를 들어 $x$-좌표와 $y$-좌표의 합이 $k$ 이하이고 차가 $m$ 이상 $n$ 미만일 확률을 새로운 변수 $X,\ Y$를 도입하여 $P(X\leq k,\ m\leq Y<n)$과 같이 나타낼 수 있다. 여기에서 $X,\ Y$는 다음과 같은 함수 $\R^2\to \R$이다:

$X:(x,\ y)\mapsto x+y,\ Y:(x,\ y)\mapsto |x-y|$

만약 $\mathcal{B}(\R)$의 원소의 preimage가 항상 $\mathcal{B}(\R^2)$의 원소라면 함수 $X,\ Y$는 measurable function이며, 이러한 함수를 random variable(확률 변수)이라고 한다. 이제 measure $P$를 다음과 같이 줄 수 있다:

모든 $A,\ B\in \mathcal{B}(\R)$에 대해서 $P(X\in A,\ Y\in B)=P(\{v\in \R^2: X(v)\in A,\ Y(v)\in B\})$이다.

이렇게 확률 변수의 치역이 uncountably infinite이면 continuous random variable(연속 확률 변수)이라고 하고, countable이면 discrete random variable(이산 확률 변수)이라고 한다.

확률 공간을 구성하는 방법

사람 $a_1,\ a_2,\ \cdots,\ a_{100}$에서 무작위로 두 명을 뽑아 두 명의 모발 개수의 곱에 대한 확률 변수를 만들고 싶다고 하자. 확률 공간의 표본 공간에는 각 사람의 모발 개수를 성분으로 가지는 순서쌍으로서 $100 \choose 2$개의 원소를 넣을 수 있다. 집합에서 중복되는 원소가 지워지므로 그만큼 확률 함수에 반영해야 하며, 이때 사건 공간은 표본 공간에서 중복되는 원소 $k$개를 제외한 $2^{4950-k}$개의 원소를 가진다. 즉 확률 공간은 각 사람 $a_n$을 모르며, 각 모발 개수에 대한 도수를 알려 준다. 이제 확률 변수를 $X:(x,\ y)\mapsto xy$로 줄 수 있다.

확률 분포

확률 변수 $X$에 대해서 $P\circ X^{-1}:\mathcal{B}(\R) \to [0,\ 1]$는 pushforward measure이다. 이를 $X_*P$로 쓸 때 함수

$F_X(x)=P(X\leq x)=X_*P(\{a\in \R:a\leq x\})$

cumulative distribution function, cdf(누적 분포 함수)라 한다. $X_*P$가 regular Borel measure이므로 Lebesgue's decomposition theorem에 따라 absolutely continuous part + singular continuous part + pure point part로 분해할 수 있다. 연속 확률 변수라면 두 continuous part로만 이루어져 있고 이산 확률 변수라면 pure point part로만 이루어져 있다. 이때 Radon–Nikodym derivative $dX_*P/d\mu:=f_X(x)$를 생각할 수 있으면 probability density function, pdf(확률 밀도 함수)라 한다. 대부분의 경우에 singular continuous part가 $0$이며 이때 $\mu$는 Lebesgue measure이다. 이산 확률 변수의 확률 밀도 함수 $p_X(x)$를 probability mass function(확률 질량 함수)이라고 하며 이때 $\mu$는 counting measure이다.

기댓값과 분산

평균에 대응하는 expected value(기댓값)와 편차의 제곱에 대응하는 variance(분산)을 확률 공간 $(\Omega,\ \Sigma,\ P)$의 확률 변수 $X:\Omega\to\R$마다 생각할 수 있다:

$\displaystyle \operatorname{E}[X]=\int_{\Omega} X\ dP=\int_\R x\ d(X_* P),\ \operatorname{Var}(X)=\operatorname{E}[(x-\operatorname{E}[X])^2]=\int_\R (x-\operatorname{E}[X])^2\ d(X_* P)$

즉 $X$가 기댓값을 가지려면 $L^1$-함수여야 하고, 분산을 가지려면 $L^2$-함수여야 한다. 기댓값이 $0$인 확률 변수들의 집합은 Hilbert space를 이루며 covariance를 내적으로 가지고 $\operatorname{Cov}(X,\ X)=\operatorname{Var}(X)$이다.[3] $X$의 cdf가 absolutely continuous이면 $\displaystyle \operatorname{E}[X]=\int_{\R}xf(x)\ dx$이고,[4] $X$가 이산 확률 변수이면 $P(X=a):=X_*P(\{a\})$라 할 때 countable set $x=\{a\in\R:P(X=a)\neq0\}$에 대해서 $\displaystyle \operatorname{E}[X]=\sum_{x_n\in x} x_n P(X=x_n)$이다.

참고 자료