9장: 가설검정의 주의점 [정리]

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

트위티의 열하일기

9장: 가설검정의 주의점 [정리] 본문

Data Science/[도서] 통계101 데이터분석

9장: 가설검정의 주의점 [정리]

예지레슬리초이 2024. 10. 9. 06:11

1. 재현성 위기

: 재현성이 없다는 것은 원래 논문의 주장이 잘못되었을 가능성이 있다는 것을 의미, 이러한 문제를 재현성 위기라 칭함

재현성: 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야한다는 것
낮은 재현성을 야기하는 원인
- 실험 조건을 동일하게 조성하기 어렵다
- 가설검정의 사용 방법; 이에 따라 p값이 0.05보다 작아지게 조작하는 것이 가능하다 (p-hacking)

2. 피셔류 검정과 네이만-피어슨류 검정

a. 피셔류 검정

: 귀무가설이 옳을 때 관찰한 데이터 이상으로 극단적인 값을 얻을 확률인 p값을 계산하고, 귀무가설과 관찰한 값의 괴리 정도를 평가

가설을 기각한다는 개념이 없음
p값의 크기에 따라 증거의 강력함을 평가

b. 네이만-피어슨류 검정

: p값이 유의수준 α 미만인가 이상인가에만 주목하여 가설 기각/채택이라는 결론 내림

미리 검출하고자 하는 효과크기를 정하고, 설정한 α와 β에 따라 필요한 표본크기 n을 결정해야 함
표본크기 n은 데이터를 얻기 전에 미리 설계해 두어야 함
결과를 본 후에 데이터를 추가하여 표본크기 n을 늘리는 것은 p-해킹으로 이어짐

3. 표본크기 n과 p값

p값은 차이의 크기뿐만 아니라 표본크기 n에도 의존
평균값의 차이가 같더라도, 표본크기 n이 커질수록 p값은 작아짐

표본크기 n이 커지면 p값은 작아지므로 검출하고자 하는 효과크기를 사전에 설정하고 n을 설계해야 함

4. 베이즈 인수

: p값 대신 사용하는 지표

시작점) p >= 0.05일 때, 귀무가설을 채택하는 것이 아니라 판단을 보류함. 이에 대한 해결책으로 베이즈 인수를 사용
1보다 크면 분모에 비해 분자의 주변 가능도가 크다는 뜻
- 주변 가능도: 얻은 데이터 x에 대한 모형 M의 평균 예측력
베이즈 인수가 특정 값이 될 때까지 (한쪽 가설을 강하게 지지할 수 있을 때까지) 표본크기 n을 늘림
(주의 1) 두 가설의 상대적인 비교일 뿐이어서, 한쪽 가설이 나쁜 것만으로 베이즈 인수가 큰 값이 나올 수 있음
(주의 2) 베이즈 인수는 파라미터 θ의 사전분포에 영향을 받음
(주의 3) 주변 가능도를 구할 때 적분 계산이 필요하므로 간단한 계산으로 도출하는 P값에 비해 시간과 노력이 듦

5. p-해킹

: 의도하든, 의도하지 않든 p값을 원하는 방향으로 (<0.05) 조작하는 행위

결과를 보며 표본크기를 늘려서는 안됨
마음에 드는 해석만 보고해서는 안됨
- HARk+ing: 데이터를 얻어 결과를 보고 나서 가설을 만드는 행위

'Data Science > [도서] 통계101 데이터분석' 카테고리의 다른 글

11장: 베이즈 통계 [정리] (0)	2024.11.02
10장: 인과와 상관 [정리] (1)	2024.11.02
8장: 통계 모형화 [정리] (1)	2024.10.09
5장: 가설검정 [정리] (0)	2024.09.24
4장: 추론통계~신뢰구간 [정리] (1)	2024.09.24

'Data Science/[도서] 통계101 데이터분석' Related Articles

more

티스토리툴바