본문 바로가기

머신러닝/[기타]

Two kinds of Probabilities. Frequentist vs Bayesian

통계에서 가장 핵심이 되는 키워드인 확률.

이런 확률을 바라보는 관점에는 2가지가 존재한다고 한다.

Frequentist 와 Bayesian.

고등수학에서 말하는 수학은 사실 Frequentist에 가깝기 때문에,

두 가지 관점이 있다는 사실 자체를 알지 못하였고,

대학수학에 와서도 Bayes' rule은 알아도,

그게 확률의 관점을 정의할 것이라고는 생각한 적은 없었다.

이번 글에서는, 저 Bayesian 관점이라는 것이 어떤 건지, Frequentist 과 어떤 차이가 있는 것인지를 알아보자.


기본적으로, 확률이란 불확실성을 계량화하여 표현하는 방법.

그러니까, 주사위를 던져서, 0이 나올지 6이 나올지는 확신할 수 없다.

항상 불확실하다. 다만, 그 불확실성이 얼마나 될지를, $\frac{1}{6}$ 과 같은 수치를 통해서 표현할 수 있다는 말.

그럼, 이런 수치를 어떻게 산출해낼 것인가? - 가 2가지 관점을 통해 설명될 수 있다.


Frequentist

일단 뜻은 빈도주의- 라는 셈인데, 굉장히 직관적인 예시를 생각할 수 있다.

$\frac{1}{6}$ 이라는 수치는 다른게 아니라, 주사위를 뒤지게 많이 굴려보니까, 그렇다!

딱히 반감이 들지 않는다. 당연한 말 같다.

다만 이러한 과정을 더 자세히 묘사하면, 다음의 4단계로 진행된다.

  1. 주사위를 던져 나올 수 있는 총 경우의 수(표본 공간)을 정의한다. - {1, 2, 3, 4, 5, 6}
  2. {1, 2, 3, 4, 5, 6}이 각각 나올 수 있는 확률이 동일한 주사위라고 가정하면 60,000번을 던졌을 때 0이 나오는 경우(사건)는 10,000번일 것이다.
  3. 이에 따라, 귀무가설을 $\frac{1}{6}$ 일 시, 참으로 설정하고, 실험을 통한 검정통계량을 계산하고, 이를 통해 귀무가설의 기각여부를 판단한다. - 60,000번을 던져 10,050번의 0이 등장하더라도, 에러 범주 내에 있다면 기각되지 않을 것.
  4. 검정 결과, 기각이 안되니 $\frac{1}{6}$ 을 확률값으로 도출한다.

Bayesian

또, 이름처럼, 당연히 Bayes's rule에 기반을 두고 있을테니, 해당 수식을 다시 떠올려보자.

$P(A|B) = \frac{P(B|A)P(A))}{P(B)}$

이들의 과정은 다음과 같은 4단계로 진행된다.

  1. 주사위를 던져 0이 나올 확률은 단순히 0과 1사이의 실수값으로 표현된다.'
  2. 경험 또는 직관, 그 외 다른 근거를 이용해 0이 나올 사전 확률(Prior probability)를 정의한다. - 이번 예제에서는, $\frac{1}{4}$ 라고 가정해보자.
  3. 이를 확인하기 위해 60,000번의의 주사위를 던졌더니 10,500번의 0이 등장했다.
  4. 실험 결과가 기존의 내 생각(=사전 확률)과 다르다면, 사전 확률을 수정하여 새로운 확률(Posterior probability)을 계산한다.

이걸 보고 나면, ? Bayes' rule 어디다 썼는데- 싶다.

사전확률과 사후확률의 개념 자체가 Bayes' rule에 녹아있다.

위 수식의 좌항이 사후확률, 우항의 $P(A)$가 사전확률이다.

4번째 단계에서 사후확률(Posterior probability)를 계산한다고 했는데,

저 과정에서 Bayes' rule이 사용되는 것.

구체적으로 Likelihood가 어떻니 하는 내용은 여기서는 다루지 않도록 한다.


Difference

위 내용들을 듣고나서, 두 관점간의 가장 큰 차이를 말하라 한다면,

나는 확률이 수정될 수 있는가 될 수 없는가- 를 생각할 것.

정확히는 업데이트될 수 있는가- 가 맞을 것 같다.

고급진 용어로는,

Frequentist 는 Parameter 가 고정되어 있다- 고 말하며,

Bayesian 은 Data 가 고정되어 있다- 고 말한다.

이렇게 말하니 다시 또 무슨 소린교 싶다.

다른 표현을 빌리자면,

Frequentist 는 참된 확률값은 분포로써 존재하지 않고, 고정된 상수(ex. $\frac{1}{6}$)이다! 라고 생각한다.

반면,

Bayesian 은 참된 확률값은 고정된 상수가 아닌 분포, 그러니까 확률 변수이다! 라고 생각한다.

그러니까 데이터가 변화하면, 확률 변수를 최대화하는 분포도 계속해서 변화할 수 있다는 의미.

추상적으로는 이런 차이가 있다는 것이고,

조금 더 손에 잡히는 차이를 말하자면,

계산 복잡도 자체가 크게 차이난다.

Frequentist 관점은 사실 계산이 굉장히 간단할 것 같다.

해당 경우의 수 / 전체 경우의 수. 끝?

그에 반해, Bayesian 관점의 경우,

조건부 확률 꼬아서 만들어 냈고, 이걸 지속적으로 업데이트를 시켜야하니,

굳이 수식을 언급하지 않더라도 훨씬 복잡할 것 같고,

실제로도 Bayesian 은 계산량이 많아 Frequentist 가 현실적으로 많이 사용되었다고 한다.

다만, Bayesian 의 강력한 장점 중 하나가 사전확률- 을 이용할 수있다는 점인데,

주사위니 동전이니 이런 친구들은 수 만번의 실험을 통해 빈도를 계산해서 뭐 확인?

당연히 가능할 것 같다.

근데, 자연재해가 발생할지 말지 하는 문제는, 애초에 실험을 할 수가 없다.

그럼 부족한 데이터를 어떻게든 이용해서 확률을 잘 모델링해야하는데,

부족한 데이터를 써서야 Frequentist 관점이 제대로 작동할 리 없고,

그럼 어떻게든 다양한 정보를 사용해보려 몸부림쳐야할텐데,

이를 사전확률로써 구체화시킬 수 있다.

어떻게 구체화하는데? 까지 진행하면 복잡한 내용이 되니 이후 내용은 생략.


다시 또 다른 말로, 내 언어로 정리해보면,

Frequentist 관점에서는, 데이터를 설명하는 파라미터는 고정되어있고,

데이터는 단지 그 파라미터가 맞는지 틀린지 확인하는 도구로써의 역활을 하는 반면,

Bayesian 관점에서는, 가지고 있는 데이터에 초점을 맞춰,

이 데이터를 가장 잘 설명하는 어떤 확률 분포, 확률 모델을 잘 찾아나가는데에 목표가 있다.

참고 자료: 링크