베이지안 통계, 왜 그렇게 헷갈렸는지 이제야 이해했다

빈도주의와 베이지안, 뭐가 다른 건데

데이터 사이언스를 공부하다 보면 반드시 마주치는 갈림길이 있습니다. 바로 빈도주의(Frequentist) 통계와 베이지안(Bayesian) 통계의 차이입니다. 대학 통계 수업에서 배운 p-value, 신뢰구간, 가설검정 같은 개념은 대부분 빈도주의 프레임워크에 속합니다. 그런데 실무에서 점점 더 많이 등장하는 베이지안 방법론 앞에서 "대체 이게 뭐가 다른 거지?"라고 당황한 경험이 있다면, 이 글이 도움이 될 것입니다.

최근 공개된 한 기술 블로그에서 "혼란스러운 데이터 사이언티스트를 위한 베이지안 통계"라는 제목으로, 이 근본적인 차이를 명쾌하게 설명하는 글이 올라왔습니다. 핵심 아이디어를 살펴보겠습니다.

확률을 바라보는 관점의 차이

가장 근본적인 차이는 "확률이 무엇인가"에 대한 철학적 관점입니다. 빈도주의에서 확률은 반복 실험에서의 상대 빈도입니다. 동전을 무한히 던지면 앞면이 나올 비율이 0.5에 수렴한다, 이것이 확률입니다. 반면 베이지안에서 확률은 불확실성에 대한 주관적 믿음의 정도입니다. "내일 비가 올 확률이 70%"라고 말할 때, 내일이라는 날은 한 번밖에 오지 않으므로 빈도주의적 해석은 어색합니다. 하지만 베이지안 관점에서는 자연스럽습니다.

이 차이가 실무에서 어떤 결과를 만드는지 구체적으로 보겠습니다. A/B 테스트를 한다고 가정해봅시다. 빈도주의 접근에서는 "귀무가설(두 버전에 차이가 없다)이 참일 때, 이 정도 이상의 차이가 관측될 확률이 5% 미만이면 유의하다"고 판단합니다. 이 문장이 직관적이지 않다고 느꼈다면, 당신만 그런 게 아닙니다. 실제로 p-value의 오해석은 학계에서도 만연한 문제입니다.

베이지안 접근에서는 이렇게 말합니다. "데이터를 관측한 후, A 버전이 B보다 나을 확률이 94%입니다." 이 문장은 의사결정자가 원하는 바로 그 답을 줍니다.

베이즈 정리의 핵심 구조

베이지안 통계의 수학적 기초는 베이즈 정리(Bayes' Theorem)입니다.

P(θ|D) = P(D|θ) × P(θ) / P(D)

각 항을 풀어보면 이렇습니다.

P(θ) — 사전 확률(Prior): 데이터를 보기 전에 파라미터에 대해 가지고 있는 믿음
P(D|θ) — 우도(Likelihood): 파라미터가 주어졌을 때 이 데이터가 관측될 확률
P(θ|D) — 사후 확률(Posterior): 데이터를 관측한 후 업데이트된 믿음
P(D) — 증거(Evidence): 정규화 상수

직관적으로 이해하면 이렇습니다. 처음에 어떤 믿음(Prior)을 가지고 시작합니다. 새로운 데이터가 들어오면, 그 데이터가 얼마나 "놀라운" 것인지(Likelihood)를 반영해서 믿음을 업데이트합니다. 결과가 사후 확률(Posterior)입니다. 데이터가 쌓일수록 사전 확률의 영향은 줄어들고, 데이터가 말하는 바가 지배적이 됩니다.

이것이 왜 강력하냐면, 현실의 의사결정은 항상 불완전한 정보 속에서 이루어지기 때문입니다. 신제품의 전환율을 추정할 때, 데이터가 100건밖에 없다면 빈도주의적 추정은 불안정합니다. 하지만 "비슷한 제품의 전환율이 보통 2~5% 사이였다"는 사전 지식을 Prior로 반영하면, 적은 데이터로도 합리적인 추정이 가능합니다.

실무에서의 활용 사례

베이지안 방법론이 빛나는 대표적인 영역을 살펴보면, 먼저 A/B 테스트가 있습니다. 전통적인 빈도주의 A/B 테스트는 사전에 정한 샘플 크기를 다 채울 때까지 기다려야 합니다. 중간에 결과를 보고 판단하면 다중 검정 문제(multiple testing problem)가 생깁니다. 베이지안 A/B 테스트는 원칙적으로 언제든 결과를 확인하고 의사결정을 내릴 수 있습니다. 사후 확률이 충분히 높아지면 멈추면 됩니다.

추천 시스템에서도 베이지안 접근은 유용합니다. 신규 아이템이 등록되었을 때 평점 데이터가 거의 없는 콜드 스타트 문제를, 카테고리 평균을 Prior로 활용해 완화할 수 있습니다.

이상 탐지(Anomaly Detection)에서도 마찬가지입니다. 정상 상태에 대한 사전 분포를 설정하고, 새로운 데이터 포인트가 사후 분포에서 얼마나 벗어나는지를 통해 이상 여부를 판단합니다.

MCMC와 현대적 도구들

베이지안 통계가 오랫동안 비주류였던 이유 중 하나는 계산의 어려움이었습니다. 사후 확률의 분모인 P(D)를 계산하려면 모든 가능한 파라미터 값에 대해 적분을 해야 하는데, 현실적으로 이 적분이 불가능한 경우가 대부분입니다.

이 문제를 해결한 것이 마르코프 체인 몬테카를로(MCMC) 방법입니다. 직접 적분하는 대신, 사후 분포에서 샘플을 추출해 근사하는 방식입니다. 현대적인 구현체로는 PyMC, Stan, NumPyro 같은 확률적 프로그래밍 라이브러리가 있습니다. 특히 PyMC는 Python 생태계와의 통합이 뛰어나 데이터 사이언티스트들이 진입하기 가장 쉬운 도구입니다.

한국 개발자에게 주는 시사점

한국의 데이터 분석 실무에서는 아직 빈도주의적 접근이 지배적입니다. 하지만 스타트업에서 적은 데이터로 빠르게 의사결정을 내려야 하는 상황이나, 기존 도메인 지식을 모델에 반영해야 하는 경우에는 베이지안 접근이 명확한 이점을 제공합니다. 특히 Prior를 통해 도메인 전문가의 지식을 정량적으로 모델에 녹여낼 수 있다는 점은, 데이터만으로는 답이 안 나오는 현실의 많은 문제에서 강력한 무기가 됩니다.

마무리

베이지안 통계는 "데이터가 주어졌을 때 우리의 믿음을 어떻게 업데이트할 것인가"에 대한 체계적인 프레임워크입니다. 어렵게 느껴졌다면 수학이 아니라 관점의 전환이 어려웠던 것일 수 있습니다. 여러분의 현재 프로젝트에서 사전 지식을 활용하면 더 나은 판단을 내릴 수 있는 지점이 있지 않으신가요?

🔗 출처: Hacker News

이 글도 읽어보세요