트위티의 열하일기

11장: 베이즈 통계 [정리] 본문

Data Science/[도서] 통계101 데이터분석

11장: 베이즈 통계 [정리]

예지레슬리초이 2024. 11. 2. 18:08

1. 베이즈 통계의 사고방식

 

a. 빈도주의 vs 베이즈

  • 불확실성 차이
    • 빈도주의 흐름에서의 불확실성: 모집단에서 표본을 추출할 때의 불확실성
    • 빈도주의에서의 확률: 무한히 반복 실행한 결과로서의 객관적인 빈도를 나타냄
    • 베이즈 통계에서의 확률: 확률을 '얼마나 확신하는지', 분석자가 그 파라미터를 어느 정도 알고있는지를 확률분포로 나타냄

b. 베이즈 통계의 이미지

c. 통계 모형

  • 통계적 추론 사용) 데이터로 모집단의 실제 분표 q(x)를 추론
  • 각 데이터를 동일한 분포 q(x)에서 매번 독립으로 무작위추출함에 따라, 데이터 x1, x2, ... xn을 모집단의 확률분포 q(x)에서 얻은 확률변수 x의 실현값으로 간주.
  • 예측 분포) 데이터를 이용하여 추정한 통계 모형 p(X)
  • 예측 분포가 모집단의 실제 분포 q(x)와 어느 정도 들어맞는지를 정량화함으로써 통계모형 p*(9x)의 적합도 평가

  • 최대가능도 방법

d. 베이즈 통계의 사고방식

: 통계 모형의 파라미터 θ를 확률변수로 취급하여, 그 확률분포를 생각함. 베이즈 통계에서의 추정은 데이터를 알기 전에 갖고 있던 파라미터 θ에 관한 정보가 데이터를 알면서 갱신되어, 어떤 θ의 값이 얼마나 나타나기 쉬운지를 알 수 있게 되는 이미지

  • 사전분포 P( θ)를 마련
    • 사전분포: 데이터 x를 얻기 전에 파라미터 θ가 어떤 분포인가를 미리 실험자나 해석자가 설정해야 하는 분포
    • 연구의 주관적인 판단으로 결정해야 한다는 점에서 비판 받음
    • 대응책: 균등분포를 무정보 사전분포로서 이용
  • 사전분포를 이용하여 데이터를 안 후의 파라미터 θ 확률분포인 사후분포를 구함 → 베이즈 통계에서의 추정
  • 데이터 x, 통계 모형, 사전분포로 사후분포를 얻기 위해 베이즈 정리 이용

  • 예측분포 p*(x)
    • 베이즈 추정으로 얻은 파라미터 θ의 사후분포로 예측분포를 만들 수 있음

 

2. 베이즈 통계 알고리즘

 

a. MCMC방법

: 특정 확률분포를 따르는 난수 발생 알고리즘

  • 이를 이용하여 사후분포를 따르는 난수를 발생, 그 난수의 집합을 관찰함으로서 사후분포의 성질 분석

b. 몬테카를로 방법

: MCMC방법이라는 명칭에 포함/ 난술르 여러 개 발생시켜 시뮬레이션해 근사해를 얻는 방법

c. 마르코프 연쇄

: MCMC 방법이라는 명칭에 포함/ 어떤 상태에서 다른 상태로 변화하는 현상을 확률로 표현한 모형의 일종

  • 현재 상태에서 다음 시각으로 변화하는 확률이, 현재 상태에만 의존한다는 특징을 가짐
  • ex. 내일 날씨는 언제나 그 이전 과거 날씨에는 의존하지 않고, 오직 오늘 날시에만 의존하여 확률적으로 정해짐

d. MCMC 방법의 예

 

3. 베이즈 통계 사례

 

a. 이표본 평균값 비교

  • MCMC 방법 결과: 단계를 거듭할수록 특정 값 주변에만 움직이고 있음

  • 평균값 차이의 사후분포

 

b. 푸아송 회귀의 예

c. 계층적 베이지안 모형