트위티의 열하일기

2장: 모집단과 표본 [정리] 본문

Data Science/[도서] 통계101 데이터분석

2장: 모집단과 표본 [정리]

예지레슬리초이 2024. 9. 18. 13:13

2.1) 데이터 분석의 목적과 알고자 하는 대상

a. 데이터 분석의 목적

구체적인 데이터 분석 목적을 정하는 것이 중요하다.

b. 알고자 하는 대상

데이터 분석의 목적이 정해졌다면, 알고자 하는 대상을 명확히 하는 것이 중요하다.

 

2.2) 모집단

모집단은 알고자 하는 대상 전체를 표현하는 말이다.

알고자 하는 대상을 모집단으로 설정한다.

딘, 얻을 가능성이 없는 요소를 포함한 모집단은 적절하지 않아 이에 따라 모집단을 수정해야 한다.

 

a. 모집단 크기

모집단에는 알고자 하는 대상의 많은 요소(element)가 포함되는데, 이러한 요소들의 수를 모집단 크기라 한다.

- 유한모집단

: 모집단 중 한정된 요소만 포함한 것

(ex. 반대항 1반 & 2반의 학생수, 한국인의 수)

- 무한모집단

: 모집단 중 포함된 요소의 개수가 무한한 것

(ex. 신약 효과 실험에서 미래에 고혈압으로 약을 복용할 사람들, 주사위)

 

2.3) 모집단의 성질을 알다

a. 모집단의 성질

- 모집단의 성질을 알면 대상을 이해할 수 있게 되고, 이는 미지의 데이터 예측으로 이어진다.

- 모집단의 성질을 알기 위해선 다음과 같은 방법들을 사용할 수 있다

 

b. 전수조사

- 모집단에 포함된 모든 요소를 조사 (분석할 데이터 = 모집단)

- 유한모집단일 때 적용 가능한 조사 방법 (무한모집단일 땐 불가능)

- ex. 전 국민을 대상으로 하는 인구주택총조사

- 비용, 시간 면에서 부담이 큼

- 실현 불가능할 때가 대부분

 

c. 표본조사

- 표본 = 추론통계(inferential statistics)에서 조사하는 모집단의 일부

- 표본추출(sampling) = 모집단에서 표본을 뽑는 것

- 표본조사 = 표본을 이용해 모집단의 성질을 조사하는 것

- ex. 선거출구조사: 일부의 표만으로도 당선확실 여부를 알 수 있음

- 어느 정도의 불확실성; 모집단의 성질을 100% 알아맞힐 수는 없음

 

d. 표본크기(sample size; n으로 표기)

: 표본에 포함된 '요소'의 개수

- 샘플 수 = 표본의 개수

ex. 20명으로 이루어진 표본A & 30명으로 이루어진 표본B => 샘플의 개수 2개

*'표본크기', '표본의 개수' 두 개념 헷갈리기 쉬움