트위티의 열하일기
11장: 베이즈 통계 [정리] 본문
1. 베이즈 통계의 사고방식
a. 빈도주의 vs 베이즈
- 불확실성 차이
- 빈도주의 흐름에서의 불확실성: 모집단에서 표본을 추출할 때의 불확실성
- 빈도주의에서의 확률: 무한히 반복 실행한 결과로서의 객관적인 빈도를 나타냄
- 베이즈 통계에서의 확률: 확률을 '얼마나 확신하는지', 분석자가 그 파라미터를 어느 정도 알고있는지를 확률분포로 나타냄
b. 베이즈 통계의 이미지
c. 통계 모형
- 통계적 추론 사용) 데이터로 모집단의 실제 분표 q(x)를 추론
- 각 데이터를 동일한 분포 q(x)에서 매번 독립으로 무작위추출함에 따라, 데이터 x1, x2, ... xn을 모집단의 확률분포 q(x)에서 얻은 확률변수 x의 실현값으로 간주.
- 예측 분포) 데이터를 이용하여 추정한 통계 모형 p(X)
- 예측 분포가 모집단의 실제 분포 q(x)와 어느 정도 들어맞는지를 정량화함으로써 통계모형 p*(9x)의 적합도 평가
- 최대가능도 방법
d. 베이즈 통계의 사고방식
: 통계 모형의 파라미터 θ를 확률변수로 취급하여, 그 확률분포를 생각함. 베이즈 통계에서의 추정은 데이터를 알기 전에 갖고 있던 파라미터 θ에 관한 정보가 데이터를 알면서 갱신되어, 어떤 θ의 값이 얼마나 나타나기 쉬운지를 알 수 있게 되는 이미지
- 사전분포 P( θ)를 마련
- 사전분포: 데이터 x를 얻기 전에 파라미터 θ가 어떤 분포인가를 미리 실험자나 해석자가 설정해야 하는 분포
- 연구의 주관적인 판단으로 결정해야 한다는 점에서 비판 받음
- 대응책: 균등분포를 무정보 사전분포로서 이용
- 사전분포를 이용하여 데이터를 안 후의 파라미터 θ 확률분포인 사후분포를 구함 → 베이즈 통계에서의 추정
- 데이터 x, 통계 모형, 사전분포로 사후분포를 얻기 위해 베이즈 정리 이용
- 예측분포 p*(x)
- 베이즈 추정으로 얻은 파라미터 θ의 사후분포로 예측분포를 만들 수 있음
2. 베이즈 통계 알고리즘
a. MCMC방법
: 특정 확률분포를 따르는 난수 발생 알고리즘
- 이를 이용하여 사후분포를 따르는 난수를 발생, 그 난수의 집합을 관찰함으로서 사후분포의 성질 분석
b. 몬테카를로 방법
: MCMC방법이라는 명칭에 포함/ 난술르 여러 개 발생시켜 시뮬레이션해 근사해를 얻는 방법
c. 마르코프 연쇄
: MCMC 방법이라는 명칭에 포함/ 어떤 상태에서 다른 상태로 변화하는 현상을 확률로 표현한 모형의 일종
- 현재 상태에서 다음 시각으로 변화하는 확률이, 현재 상태에만 의존한다는 특징을 가짐
- ex. 내일 날씨는 언제나 그 이전 과거 날씨에는 의존하지 않고, 오직 오늘 날시에만 의존하여 확률적으로 정해짐
d. MCMC 방법의 예
3. 베이즈 통계 사례
a. 이표본 평균값 비교
- MCMC 방법 결과: 단계를 거듭할수록 특정 값 주변에만 움직이고 있음
- 평균값 차이의 사후분포
b. 푸아송 회귀의 예
c. 계층적 베이지안 모형
'Data Science > [도서] 통계101 데이터분석' 카테고리의 다른 글
10장: 인과와 상관 [정리] (1) | 2024.11.02 |
---|---|
9장: 가설검정의 주의점 [정리] (1) | 2024.10.09 |
8장: 통계 모형화 [정리] (1) | 2024.10.09 |
5장: 가설검정 [정리] (0) | 2024.09.24 |
4장: 추론통계~신뢰구간 [정리] (1) | 2024.09.24 |