2 minute read

어떠한 현상을 확률분포로 모델링 한다는 것을 고찰해보겠다. 이를 고찰하기 위해 먼저 확률 함수와 확률 분포를 정의하고 넘어가겠다.
이 내용은 본인의 해석이 많이 들어가 있으니 주의하길 바란다.

확률함수란?

어떤 Event를 Probability로 mapping하는 function이다.

P(Event) = Probability

Event란 무엇인가?

확률함수의 domain은 Event이다. 따라서 명확하게 잘 정의된 Event를 설정해야만 그 Event에 해당하는 확률을 구할 수 있다.
Event를 잘 정의하기 위해서는 Event에 기반이 되는 표본공간을 잘 설정해야 한다.

예를 들어보자, 우리는 쉽게 “동전을 던졌을 때 앞면이 나올 확률”을 계산할 수 있다.
하지만 “동전을 던지는 확률”을 계산할 수 없다.
그 이유는 내가 앞에 정의한 Event는 표본공간을 내재적으로 잘 정의하고 있는 반면, 다음에 나온 Event는 표본공간을 잘 설정하지 못했기 때문이다.(동전을 던졌을때 나올 수 있는 표본은 앞면 혹은 뒷면이라고 할 수 있지만 내가 뒤에 적은 문장은 표본공간이 모호하다)

확률분포란?

확률 분포란 표본공간에서 모든 가능한 값을 각각 확률로 사상하는 확률 함수이다. 예를 들어 동전을 던졌다고 했을 때, 동전이 가질 수 있는 가능한 상태는 앞면 혹은 뒷면이다. 확률 분포는 앞면이 나올 확률과 뒷면이 나올 확률을 mapping한다.

P(Ω) = list of probability

앞서 확률함수가 확률을 잘 계산하게 하기 위해서 Event space를 잘 정의해야하고 확률함수는 Event를 확률로 사상한다고 하였는데, 확률 분포는 Event space 자체를 확률들로 사상시킨다.

어떤 현상을 확률분포로 모델링 한다는 것은?

어떠한 현상을 확률분포로 해석한다는 뜻이다. 여기서 말하는 현상은 모든 가능한 Event인 Event space 혹은 특정한 Event를 가리킨다.
이를 통해 어떤 Event가 가장 가능한 Event인지 알 수 있게 된다. 그런데 이를 위해 이 세상에 존재하는 수많은 확률 분포 중 가장 현상을 잘 설명하는 확률분포가 있을 것이다. 이러한 확률 분포를 선택하고 적절한 파라미터를 선택하는 것을 모델링한다고 한다.

예를 들어 후보 A, B가 있을 때 어느 후보가 대통령이 될 것인지를 확률분포로 해석한다면 확률 분포를 통해 A라는 후보가 대통령이 될 확률 그리고 B라는 후보가 대통령이 될 확률을 표현할 수 있을 것이다. 이를 잘 설명하는 확률분포는 베르누이 분포라고 가정하여 현상을 설명할 수 있고, 베르누이 분포의 파라미터를 여론조사를 근거로 결정하여 후보 A와 B가 어느정도의 확률로 대통령이 될 수 있는지 표현할 수도 있고, 느낌을 근거로 확률을 표현할 수도 있을 것이다.

위 식에서 x는 0 혹은 1을 가질 수 있고 x가 1일때 A가 대통령이 될 확률이 구해지며 0일때 B가 대통령이 될 확률이 구해짐. p는 후보 A가 대통령이 될 확률, 1-p는 후보 B가 대통령이 될 확률을 나타낸다.

정리

확률분포는 가능한 모든 상태를 확률로 사상시키는 함수를 말한다.
우리는 확률분포라는 렌즈를 통해 세상의 어떠한 현상을 설명할 수 있다. 그러나 세상을 바라볼때 초점이 좋은 렌즈 혹은 초점이 잘 안맞는 렌즈가 있는 것처럼 어떠한 현상을 잘 설명하는 확률분포도 있고 잘 설명할 수 없는 확률분포도 존재한다.
따라서 우리는 존재하는 모든 확률분포중 가장 세상을 잘 설명하는 확률분포를 선택해야하며 이를 축약된 용어로 모델링한다고 표현한다.

Updated:

Comments