들어가면서

   이번 글도 역시 저번 편에 이어 통계 지식에 관한 글입니다! 2탄은 확률분포 중 연속형 확률 분포의 개념에 대한 소개하겠습니다.

(소개한 분포들의 선정 기준은 성윤님의 데이터 사이언스 인터뷰 질문 모음집을 참고했습니다! 감사합니다🙂)

확률 분포

   지난 시간에 이산 확률 분포의 ‘이산’은 떨어져있다, 흩어져있다를 의미하며 그렇기 때문에 셀 수 있는 확률 변수인 이산 확률 변수의 분포라는 의미를 담고있다고 말씀드렸습니다. 그렇다면 반대로 연속 확률 분포는 무엇을 의미할까요? 바로 확률 변수가 연속하게 이어져있는 연속 확률 변수의 분포를 의미합니다. 즉, 어떠한 물건의 무게나 키 처럼 딱 떨어지지 않고 연속해서 값이 존재합니다. 키도 171cm, 172cm 이렇게 떨어져 있는 것이 아니라 이 1cm 사이에도 171.1, 171.55 등 무수히 많은 값이 존재하니까요! 이러한 연속 확률에는 몇 가지 대표적인 분포가 있습니다.

  • 가우시안 정규 분포

  • 감마 분포

  • 베타 분포

  • 디리클레 분포

  • t 분포

  • 카이제곱 분포

  • F 분포

연속형 확률 분포

* 정규 분포 (가우시안 분포)

통계학에서 대표적인 연속 확률 분포, 도수 분포 곡선이 평균값을 중심으로 좌우대칭인 종 모양을 이루는 것

   이전에 우리는 이항 분포에 대해 배웠습니다. 동전 하나를 가지고 앞면이 나오는지, 뒷면이 나오는지 그 횟수와 확률을 구할 수 있는 분포입니다. 그런데 재미있는 것은, 여기서 n을 약 100정도로만 늘려도 분포의 형태는 정규분포에 근사한다는 것입니다. 그러나 가우스는 이 방법과는 다르게 정규분포를 유도했습니다. 이전에 통계학자들은 연구를 하다가 특이한 점을 발견합니다. 바로 분명 각기 다른 분포임에도 불구하고, 계속 동일한 형태가 나타난다는 것입니다. 따라서 이를 정규분포라고 명명합니다. 정규분포는 다음과 같은 특성을 가집니다.

  • 대칭인 종 모양이며,
  • 평균과 중앙값은 같고, 분포의 중앙에 위치합니다.

정규 분포는 수집된 자료의 분포를 근사하는 데 자주 사용됩니다. 중심극한정리에 의해 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문입니다.

정규 분포의 확률 밀도 함수, 평균, 분산은 다음과 같습니다.


\(\begin{align*} &\frac{1}{\sigma\sqrt{2\pi}}exp\left ( \begin{array} n-\frac{(x-\mu)^2}{2\sigma^2} \end{array} \right)\\ \\ &E(x) = \mu\\ \\ &V(x) = \sigma^2 \end{align*}\)

특히 평균이 0이고 표준편차가 1인 정규분포를 표준 정규 분포라고 합니다.

* 감마 분포

a개의 사건이 일어날 때까지 걸리는 시간에 대한 연속 확률 분포

   통계학에서 가장 중요하게 다루고, 많이 쓰이는 분포인 정규 분포도 당연히 모든 현상들에 적용될 수는 없습니다. 이 정규 분포로 설명할 수 없는 부분을 해결하기 위해 등장한 것이 바로 감마분포입니다. 감마 분포를 알기 위해서는 감마 함수를 먼저 알아야하는데요, 감마 함수의 본질은 바로 ! 팩토리얼에 있습니다. 보통 프로그래밍에서 재귀 함수를 배울 때 예제로 많이 나오는 그 팩토리얼이 맞습니다. 팩토리얼 함수의 정의역을 복소수까지 확장하여 함수로 만든 것이 바로 감마 함수입니다.

감마 분포의 확률 밀도 함수, 평균, 분산은 다음과 같습니다.

\(\begin{align*} &\frac{1}{\Gamma(a)}x^{\alpha-1}e^{-x}dx\\ \\ &E(x) = \alpha\beta\\ \\ &V(x) = \alpha\beta^2 \\ \\ \end{align*}\) ​

감마 분포는 a번의 사건이 일어날 때까지 걸리는 시간에 대한 연속 확률 분포입니다. 알파는 형태모수, 베타는 첫 번째 사건이 발생할 때 까지 소요된 시간으로 척도 모수라고 합니다.

눈치가 빠르신 분들은 눈치 채셨겠지만, 알파에 1을 대입하면 지수분포와 같은 함수를 가지게 됩니다. 즉, 지수 분포는 알파가 1인 감마 분포입니다.

* 베타 분포

확률에 대한 확률 분포

   앞서 언급했던 감마분포는 대기시간에 대한 분포였습니다. 베타 분포는 성공과 실패의 이항 선책을 다루는 확률 분포입니다. 베르누이와 이항 분포에서는 성공의 횟수를 확률 변수로, 베타 분포에서는 성공의 비율이 확률 변수로 사용합니다. 감마 함수가 팩토리얼 함수를 복소수 범위로 확장한 함수인 것 처럼, 베타 함수는 이항 계수를 실수 범위까지 확장한 함수라 할 수 있습니다.

베타 분포의 확률 밀도 함수, 평균, 분산은 다음과 같습니다.
\(\begin{align*} &X ~ Beta(\alpha, \beta) \\ \\ &f_x(x) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)} \\ \\ &이 때, ( 0< x<1, \alpha, \beta=0) \\ \\ &E(x) = \frac{\alpha}{\alpha+\beta} \\ \\ &V(x) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \\ \\ \end{align*}\\\)

베타 분포는 확률에 대한 확률 분포라고 말씀드렸는데요, 예를 들어 여러분들이 제 글을 읽고 긍정적인 반응을 보였던 분들이 7명, 아닌 분들이 3명일 때 앞으로 읽게 될 분들이 긍정적인 반응을 보일 확률이 0.7보다 클 확률을 구하고 싶을 때 쓰일 수 있습니다.

* 디리클레 분포

   디리클레 분포는 베타 분포의 확장판으로 볼 수 있습니다. 베타 분포는 0~1 사이의 값을 가지는 이항 분포에 대한 확률이고, 디리클레 분포는 0~1 사이의 다항 분포에 대한 확률입니다. 베타 분포는 k=2인 디리클레 분포라고 볼 수 있습니다. k 는 차원의 개수입니다.

디리클레 분포의 확률밀도함수, 평균, 분산은 다음과 같습니다.
\(\begin{align*} &\sum _{i=1}^{k}x_{i}=1 일 때,\\ &f(x_{1},\cdots ,x_{k};\alpha _{1},\cdots ,\alpha _{k})={\frac {1}{\mathrm {B} (\alpha )}}\prod _{i=1}^{k}x_{i}^{\alpha _{i}-1} \\ \\ &E(x_k) = \frac{\alpha_k}{\Sigma\alpha} \\ \\ &V(x_k) = \frac{\alpha_k(\Sigma\alpha-\alpha_k)}{(\Sigma\alpha)^2(\Sigma\alpha+1)}\\ \\ \end{align*}\\\)

* t 분포

표준 정규분포의 평균의 분포

   t분포의 풀네임은 스튜던트 t 분포입니다. ‘스튜던트’는 윌리엄 고셋의 필명입니다. 기네스 공장에서 일하던 직원으로 맥주 맛의 일관성 유지를 위한 보리 맛의 분포를 살피다 t분포를 발견했고, 스튜던트의 끝 글자인 t를 따서 t분포라는 이름을 지었습니다.

고셋은 보리에 대한 분포를 찍어보았습니다. 이 당시에는 당연히 정규 분포의 형태가 나올 것이라고 예상했는데, 막상 찍고 보니 정규분포와는 약간 모양이 다르다는 것을 발견하게 됩니다. 표본의 수를 달리하며 반복한 결과, 표본의 수가 커질 수록 정규 분포와 비슷해지고, 작아질 수록 다른 분포를 띤다는 것을 알게 됩니다. 그리고 이 분포를 t 분포라고 명명했습니다.

표본 평균을 모집단의 표준편차로 표준화해주면 표준 정규분포를 따르고, 표본의 표준편차로 표준화해주면 t 분포를 따릅니다. 그리고 표본의 수가 많을 수록(자유도가 클 수록) 표준 정규분포에 가까워집니다. 당연히 모집단의 표준편차를 사용해서 표준 정규분포로 모평균을 추정하는 것이 더 정확하겠지만, 현실적으로 모집단의 표준편차를 알기 어렵기 때문에 표본표준편차의 값을 이용한 t 분포로 모평균을 추측하는 것입니다.

위에서 ‘자유도’라는 개념이 등장했는데요, 자유도란 무엇일까요? 자유도란 자유로운 표본의 개수를 뜻합니다. 통계학에서 자유도의 정의는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말합니다. 예를 들어 개수가 5개고 평균이 5인 표본이 있다고 가정합시다. 제가 네 가지의 수는 마음대로 뽑을 수 있지만, 나머지 하나의 수는 표본 평균을 지켜야 하기 때문에 앞의 네 수의 값에 따라 특정한 값을 가져야합니다. 예를 들어 앞의 네 수가 5, 10, 90, 20이라면 나머지 하나의 수는 -100이 되어야만 표본 평균이 5가 되겠죠! 그래서 이 표본의 자유도는 4가 됩니다.

즉, 표본 표준 편차로 표준화해준 t 분포의 자유도는 n-1이 됩니다. (표본 평균을 맞춰주기 위해!)

t 분포의 확률밀도함수, 평균, 분산은 다음과 같습니다.
\(\begin{align*} &\frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}(1+\frac{t^2}{\nu})^{\frac{v+1}{2}}\\ \\ &E(x) = 0 \\ \\ &Var(x) = \frac{\nu}{\nu-2}, \nu>2\\ \\ \end{align*}\\ \\\)

이 때 Γ(𝑥)는 감마 함수, 𝜈는 자유도에 해당합니다. 보통 평균인 0을 중심으로 2, -2정도면 매우 큰 수로 봅니다. t 분포는 가설 검정, 회귀 분석에도 많이 사용하는 확률 분포입니다.

* 카이제곱 분포

k개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포, k는 자유도

표준 정규분포의 분산의 분포

   t 분포가 표본 평균의 분포였다면, 카이제곱 분포는 표본 분산의 분포입니다. 제곱을 통해 구하는 분산의 분포이기 때문에 0보다 크고, 오른쪽 끝의 모양이 조금 더 늘어지게 됩니다. 이 분포를 통해 카이제곱 값의 크고 작음을 판단할 수 있습니다. 카이제곱 분포는 t 분포와 마찬가지로 신뢰구간 혹은 가설 검정 등을 수행할 때 사용합니다.

카이제곱 분포의 확률밀도함수, 평균, 분산은 다음과 같습니다.
\(\begin{align*} &\frac{1}{\Gamma(\frac{k}{2})2^{\frac{k}{2}}}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}, 0<x<\infty \\ \\ &E(x) = k \\ \\ &V(x) = 2k \\ \\ \end{align*}\\ \\\)

이 때 k는 자유도입니다. 참고로 카이제곱 분포는 감마 분포의 특수한 형태로도 볼 수 있습니다. 감마 분포에서 알파는 k/2, 베타는 2인 경우를 나타냅니다.

* F 분포

두 개의 독립인 카이제곱분포 확률 변수의 비율로 정의되는 분포

   F 분포는 주로 집단의 분산을 비교하는 ANOVA 분산분석에 사용됩니다. F 분포 역시 양수만으로 이루어지고, 자유도에 따라 값이 달라집니다. 집단간 분산이 집단 내 분산보다 얼마나 차이나느냐가 핵심입니다. 기준은 1이며 2~4 정도면 충분히 큰 값으로 생각할 수 있습니다.

F 분포의 확률밀도함수, 평균, 분산은 다음과 같습니다.
\(\begin{align*} &{\frac {\sqrt {\frac {(d_{1}\,x)^{d_{1}}\,\,d_{2}^{d_{2}}}{(d_{1}\,x+d_{2})^{d_{1}+d_{2}}}}}{x\,\mathrm {B} \left({\frac {d_{1}}{2}},{\frac {d_{2}}{2}}\right)}} \\ \\ &{\frac {\sqrt {\frac {(d_{1}\,x)^{d_{1}}\,\,d_{2}^{d_{2}}}{(d_{1}\,x+d_{2})^{d_{1}+d_{2}}}}}{x\,\mathrm {B} \left({\frac {d_{1}}{2}},{\frac {d_{2}}{2}}\right)}}\\ \\ &E(x) = {\frac {d_{2}}{d_{2}-2}}\!, d_{2}>2 \\ \\ &V(x) = {\frac {2\,d_{2}^{2}\,(d_{1}+d_{2}-2)}{d_{1}(d_{2}-2)^{2}(d_{2}-4)}}, d_2 > 4 \\ \\ \end{align*} \\ \\\)

이 때 B는 베타함수 입니다.

마치며

    이번 글에서는 대표적인 연속 확률 분포에 대해 알아보았습니다. 혹시라도 틀린 부분이 있다면 역시 언제든 피드백 환영입니다! 읽어주셔서 감사합니다. :raised_hands:

References

  • 데이터 사이언스 스쿨
  • 유튜브 ASDF 오터의 통계