들어가면서

​ 이번 글은 통계 지식에 관한 글입니다. 지난 1년 간 분석 컨설팅 회사에서 일했는데요, 가장 후회됐던 일 중 하나가 바로 통계 및 수학에 대한 지식을 탄탄히 쌓고 가지 않은 것이었습니다. 예를 들어 확률 분포, p-value, 상관분석 등의 개념을 학부에서 배웠던 기억(도 아닌 어렴풋한 추억)으로 일했습니다. 그렇다보니 이거 뭐였지? 내가 가고있는 방향이 이론적으로 타당한가? 라는 물음에 많이 부딪히곤 했습니다. 관련 개념을 다시 찾아보느라 시간은 그만큼 더 허비되고… 별로 좋지 않은 모습이죠.

​ 그래서 일 끝나면 어느정도 기간을 잡고 다시 밑바닥부터 통계 공부를 해야겠다는 생각을 가지고 있었는데, 지금이 바로 그 기회인 것 같아 글을 적게 되었습니다. 부족한 글이지만, 어느 누군가에게는 도움이 되길 바라면서 시작하겠습니다. 이번 글은 확률분포 중 이산형 확률 분포의 개념에 대한 글입니다.

(소개한 분포들의 선정 기준은 성윤님의 데이터 사이언스 인터뷰 질문 모음집을 참고했습니다! 감사합니다🙂)

확률 분포

​ 확률 분포란 확률 변수가 특정한 값을 가질 확률을 나타내는 분포입니다. 확률 분포는 확률 변수의 종류에 따라 두 가지로 나뉘는데요, 바로 이산확률분포와 연속확률분포입니다.

​ 이산 확률 분포의 ‘이산’은 떨어져있다, 흩어져있다를 의미합니다. 즉, 떨어져있어 셀 수 있는 확률 분포라는 것이죠. 예를 들어 0,1,2,3 등 확률 변수가 가질 수 있는 값이 셀 수 있다는 이야기입니다. 자주 사용되는 이산 확률 분포에는 다음과 같은 예가 있습니다.

  • 이항 분포

  • 베르누이 분포

  • 카테고리 분포

  • 포아송 분포

  • 다항 분포

이산형 확률 분포

* 이항 분포

연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포

​ 위 정의에서 독립적 시행이라는 말은 무엇일까요? 바로 각 시행이 서로에게 영향을 주지 않는다는 것입니다.

예를 들어, 주사위를 던진다고 했을 때 5가 나올 확률은 1/6일 것입니다. 이 확률이 주사위를 던질수록 변할까요? 첫 번째 던졌을 때 5가 나왔다고 두 번째 던질 때도 5가 나올 확률이 올라가지는 않습니다. 몇 번째로 굴리든 주사위에서 5가 나올 확률은 1/6입니다. 이런걸 바로 독립적 시행이라고 말합니다.

​ 이항 분포의 확률 질량 함수, 기댓값, 분산은 다음과 같습니다. \(\left ( \begin{array}{c} n \\ p \end{array} \right) = \frac{n!}{p!(n - p!)}\\ \\ E(x) = np\\ \\ V(x) = 1 - np\)

* 베르누이 분포

두 가지의 결과만 나오는 시행을 1회 시행하여 하나의 결과가 일어날 때의 이산 확률 분포

​ 즉, 이항 분포의 특수한 경우로 n = 1일 때의 경우라고 생각하면 됩니다. 따라서 베르누이 분포를 누적하면 이항분포가 나오게 됩니다.

베르누이 분포의 확률 질량 함수, 기댓값, 분산은 다음과 같습니다. \(p^{x}(1-p)^{1-x}\\ \\ E(x) = p \\ \\ Var(x) = p(1-p)\)

* 카테고리 분포

​ 베르누이 확률 변수는 시행 결과가 두가지(0,1)로 나오는 개념이었다면, 카테고리 분포는 그 개념을 확장시킵니다. 예를 들어 두 가지 결과가 아니라, 주사위와 같이 6가지 결과가 나오는 시행은 어떻게 표현할 수 있을까 라는 물음에서 시작됩니다.

카테고리 확률 변수는 1과 0으로만 이루어진 다차원 벡터를 출력합니다. 예를 들어 주사위에서 1, 2, 3이 나올 확률변수를 각각 표현해보면 다음과 같습니다. \(x = 1 \rightarrow x= (1,0,0,0,0,0) \\ x = 2 \rightarrow x = (0,1,0,0,0,0) \\ x = 3 \rightarrow x = (0,0,1,0,0,0) \\\) 괄호 안의 각 원소들은 베르누이 분포를 따르며, 자신들만의 모수를 갖습니다.

카테고리 분포의 확률 질량 함수, 평균, 분산은 다음과 같습니다. \(\prod_{i=1}^N p_i^{x_i}\\ \\ E(x_{k}) = p_{k} \\ \\ Var(x) = p_{k}(1-p_{k})\)

* 다항 분포

여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 이산 확률 분포

​ 위에서 베르누이 확률 분포를 누적시키면 이항 분포가 된다고 언급했습니다. 이와 같이, 카테고리 확률 변수의 데이터가 여러개이면 이 합은 다항 분포가 됩니다. 다항 분포는 카테고리가 0,1 두가지가 아닌 k개가 되는 것입니다. 가령 이항 분포가 하나의 동전을 여러 번 던져 앞면이 나오는 횟수의 분포였다면, 다항 분포는 주사위를 여러 번 던져 나오는 눈의 횟수의 집합의 분포라고 생각하면 됩니다.

예를 들어 주사위를 던졌을 때 x = (0,1,2,1,1,0) 이라는 확률 변수가 있으면, 주사위를 총 5번 던져 2가 1번, 3이 2번, 4가 1번, 5가 1번, 6이 0번 나왔다는 것입니다. 다항 분포의 확률 질량 함수, 평균, 분산은 아래와 같습니다. \(\frac{n!}{x_{1}!...x_{k}!}p_{1}^{x_{1}}...p_{k}^{x_{k}}\\ \\ E(x_{i}) = np_{i} \\ \\ Var(X_{i}) = np_{i}(1-np_{i})\)

* 포아송 분포

주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 이산 확률 분포

​ 포아송 분포란 아~~~주 극히 드물게 일어나는 사건의 확률을 나타내는 확률분포입니다. 사실은 이항분포를 근사하려고 나온 개념입니다. 가령 사람 10만명 중 걸릴 확률이 0.000008인 질병이 있다고 했을 때, 이 확률을 이항분포로 구하기는 매우 계산이 골치 아파지기 때문에 n이 충분히 크고 p가 충분히 작을 경우 근사적으로 그 확률을 구하는 것입니다. 이항 분포에서 \(np = \lambda\) 이 수식에서, \(n \rightarrow \infty\) 이렇게 n을 무한대로 보내면 그 분포는 푸아송 분포에 수렴합니다.

포아송 분포의 확률 질량 함수, 평균, 분산은 다음과 같습니다. \(\cfrac{\lambda^2e^{-\lambda}}{n!}\\ \\ E(x) = \lambda\\ \\ Var(x) = \lambda\) 즉, 주어진 시간 안의 어떤 사건이 일어날 np(기댓값)을 람다라고 했을 때, 그 사건이 n회 일어날 확률 분포입니다.

마치며

​ 이번 글에서는 일반적으로 많이 쓰이는 분포에 대해 알아보았습니다. 아무래도 학술적인 글은 처음 쓰다보니 정확하게 써야 한다는 생각이 강해서 분량에 비해 오래 걸렸네요.😂 혹시라도 틀린 부분이 있다면 언제든 피드백 환영입니다! 읽어주셔서 감사합니다.