2 minute read

P-value는 귀무가설이 옳다고 가정할때, 내가 관측한 결과가 귀무가설에 얼마나 어긋나는지를 측정한 값이다. 즉, 얼마나 우연히, random하게 내가 관측한 결과가 나왔냐는 것이다. 말이 어렵지만 여기에서 멈추지 말자. 이를 동전던지기 게임으로 쉽게 풀어보겠다.

동전던지기 게임

당신의 형과 당신이 동전 던지기 게임을 한다고 하자. 그런데 당신은 형이 평소에 영 못 미더워서, 그 동전이 공평하게 앞뒤가 나오는 동전인지 의심스러웠다. 그래서 본격적인 동전 던지기 게임을 하기 전에 먼저 동전이 공평한지를 검증하자고 요구하였다.

주장

당신은 이렇게 말했다. 동전을 두번 던져보고 그 동전이 공평한지를 알아보자. 당신은 이렇게 생각할 수 있을 것이다. 동전이 앞면이 두번 나오거나 뒷면이 두번 나오는 경우, 그 동전은 공평하지 않다!

형은 동전을 두번 던졌고 앞면이 두번 나왔다. 이때, 당신은 동전이 공평하지 않다고 통계적인 방법에 기반하여 주장할 수 있을까?

검증

이 주장을 검증해보자. 만약 동전이 공평하다면(귀무가설이 사실 이라면), 앞면이 나올 가능성은 0.5이고 뒷면이 나올 가능성은 0.5이다. 그런데 이러한 동전 던지기를 2번 했으니까, 앞면 앞면이 나올 가능성은 0.25가 될 것이고 뒷면 뒷면이 나올 가능성은 0.25, 앞면 뒷면이 번갈아 나올 가능성은 0.5가 된다.

하지만 생각을 해보자. 우연히 앞면 앞면이 나왔을 수도 있지 않은가? 그리고 우연히 뒷면 뒷면이 나올 수도 있을 것이다. 이러한 우연은 당신의 주장을 약화시킬 것이고, 만약 동전이 공평했다면 형과 아우의 우애를 손상시킬 것이다.

통계학에서 말하는 P-value는 당신이 관측한 Event가 얼마나 우연히 나올 수 있는 것인지를 측정한다. 이를 측정하기 위해 당신이 관측한 Event보다 더 낮거나 같은 확률을 가진 Event들을 모두 더하여 계산한다.

당신의 주장을 돌이켜 보자. 동전이 앞면이 두번 나오거나 뒷면이 두번 나오는 경우, 그 동전은 공평하지 않다! 그런데 앞면이 두번 나오는 경우는 0.25 이고 뒷면이 두번 나오는 경우는 0.25이다. 이 둘을 합치면 0.5나 된다! 이러한 극단적인 값이 나올 확률이 50%나 되니 당신의 주장은 50%의 확률로 틀릴 것이다.

자신감 있는 주장

그렇다면 주장을 어떻게 바꿔야 통계적으로 유의미할까? 정답은 검증 횟수를 늘리면 된다는 것이다. 당신은 이렇게 주장할 수 있을 것이다. 동전을 5번 던져보자, 5번 다 던졌는데 동전이 모두 앞면이 나오거나 혹은 동전이 모두 뒷면이 나오는 경우, 그 동전은 공평하지 않다! 그리고 형이 동전을 5번 던져서 모두 앞면이 나왔다고 하자. 동전이 모두 앞면이 나올 확률은 1 / 32 이다. 또, 동전이 모두 뒷면이 나올 확률은 1 / 32 이다. 이 둘을 합하여 얼마나 우연히 극단적인 이벤트가 나올 수 있는지를 계산할 수 있다. 그 값은 1 / 16이 된다. 즉, 극단적인 이벤트가 나올 확률이 0.0625인 것이다. 그럼에도 불구하고 모두 다 앞면이 나왔다는 것은 충분히 당신의 주장이 옳을 수 있다는 근거가 된다. 왜냐하면 당신의 주장이 틀릴 확률이 6% 밖에 되지 않기 때문이다.

이로써 당신의 주장은 통계적으로 조금 더 강화되었고 당신은 자신감 있게 동전이 공평하지 않다는 주장을 할 수 있게 되었다.

Updated:

Comments