트위티의 열하일기

3장: 통계분석의 기초 [정리] 본문

Data Science/[도서] 통계101 데이터분석

3장: 통계분석의 기초 [정리]

예지레슬리초이 2024. 9. 18. 13:17

3.1) 데이터 유형

a. 모집단과 표본

(2장 정리본 참고)

 

b. 변수

- 통계학에서 변수의 개수를 '차원'이라고 표현하기도 함

- 고차원 데이터일수록 데이터 분석 난도가 높음

 

c. 다양한 데이터 유형

- 변수는 크게 '양적 변수', '질적 변수'로 나눌 수 있음

- 양적변수 (수치형 변수) : 숫자로 나타낼 수 있는 변수 

    - 이산형 양적 변수(이산변수): 얻을 수 있는 값이 점점이 잇는 변수 

      ex. 주사위, 사람 수, 횟수

    - 연속형 양적 변수(연속변수0: 간격 없이 이어지는 값으로 나타낼 수 있는 변수

      ex. 키, 몸무게

- 질적변수 (범주형 변수)

   : 숫자가 아닌 범주로 변수를 나타낼 때 

     ex. 설문조사_예/아니요, 동전_앞/뒤, 날씨_맑음/흐림/눈/비

    - 변수 사이에 대소 관계가 없음

    - 숫자가 아님

    - 평균값 등과 같은 수치를 알 수 없음

 

 

3.2) 데이터 분포

a. 그림으로 데이터 분포 표현하기

- 데이터가 어떻게 분포되어 있는지를 그래프로 시각화 

- 대략적인 데이터 경향 파악

변수 유형에 따라 다른 히스토그램

[히스토그램]

- 이산형 양적 변수_히스토그램

- 연속형 양적 변수_히스토그램

   - 엄밀하게 같은 값은 존재하지 않음

   - 범위를 설정(해당 범위의 넓이가 구간폭)하고, 그 범위에 포함되는 숫자 개수를 세어 세로축에 둠

   - 구간폭을 어떻게 설정하는지에 따라 데이터의 인상이 달라짐

- 범주형 변수_히스토그램

   - 가로축 순서에 특별한 의미부여x (변수의 값에 대소가 없기 때문)

 

3.3) 통계량

: 수집한 데이터로 다양한 계산을 수행하여 얻은 값

a. 데이터 특정짓기

- 기술통계량/요약통계량

   : 데이터 그 자체의 성질을 기술하고 요약하는 통계량

    - ex. 평균값

    - 주로 양적 변수를 대상으로 계산

    - 범주형 변수의 경우, 개수/비율로만 데이터를 기술/요약

- 1개 또는 몇개의 통계량으로 데이터를 요약하면 데이터에 있는 정보 중 버리는 부분이 생김

 

b. 다양한 기술통계량

- 대푯값 (representative value) : 평균값, 중앙값, 최빈값

    - 대략적인 분포 위치; 대표적인 값을 정량하기 우해 사용하는 통계량

      *이상값(oulier) = 드물게 극단적으로 큰 값이나 작은 값

 

    [평균 mean]

     - 표본에서 얻은 평균값은 표본평균

     - 이상값의 영향을 받기 쉬웅ㅁ

평균값 식

      

    [중앙값 median]

     - 크기 순으로 값을 정렬했을 때 한가운데 위치한 값

     - 이상값에 잘 영향받지 않음

 

    [최빈값 mode]

     - 데이터 중 가장 자주 나타나는 값

     - 이상값에 잘 영향받지 않음

 

*처음부터 히스토그램을 그려 대략적인 파악 후, 대푯값으로 적절하게 분포를 특정 지을 수 있는지 확인하는 것이 데이터 분석 작업 순서

 

 

- 데이터 퍼짐 정도를 나타내는 값: 분산, 표준편차

 

    [분산 variance]

     - 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지를 평가

     - 데이터 퍼짐 상태를 정량화한 통계량

표준분산 공식

   

    [표준편차 standard deviation]

     - 표본분산의 제곱근을 취한 값

     - 계산상 분산과 표준편차가 포함하는 정보의 차이는 없음

     - 데이터 퍼짐 정도를 정량화한 지표로는 표준편차가 더 감각적으로 알기 쉬움

 

c. 상자 수염 그림 (box-and-whisker plot)

: 상자와 수염으로 구성되며, 각각은 데이터의 분포를 특징 짓는 통계량을 나타냄

 

상자수염그림 설명

 

3.4) 확률

a. 확률분포: 가로축에 확률변수, 세로축에 그 확률변수의 발생 가능성을 표시한 분포

b. 추론통계와 확률분포

- '모집단과 표본 데이터' (다루기 어려움) -> '확률분포와 그 실현값' (다룰 수 있음)

c. 기댓값 (expected value)

- 이산형

- 연속형

 

d. 분산과 표준편차

- 이산형

- 연속형

e. 왜도와 첨도

- 왜도(skewness): 분포가 좌우대칭에서 어느 정도 벗어났는지

- 첨도(kurtosis): 분포가 얼마나 뾰족한지, 그래프의 꼬리가 차지하는 비율이 얼마인지

 

f. 동시확률분포 P(X,Y)

: 확률변수 2개를 동시에 생각할 때의 확률 분포

- 독립 

: P(X, Y) = P(X) X P(Y)

 

g. 조건부확률 P(X|Y)

: 한쪽 확률변수 Y의 정보가 주어졌을 떄, 다른 한쪽 확률변수 X의 확률

 

3.5) 이론적인 확률분포

a. 정규분포(normal distribution) / 가우스 분포(Gaussian distribution) 

- 확률분포가 평균 µ 와 표준편차 σ라는 두 개의 파라미터로 정해짐

- 정규분포: N( µ, σ^2)

    - 평균을 중심으로 한 종형, 좌우대칭 분포

    - 평균 근처에 값이 가장 많고, 평균에서 멀어질수록 적어짐

    - ex. 키, 몸무게

- 표준정규분포:  N(0, 1)

 

b. 표준화 (standardizing, normalizing)

: 평균 0, 표준편차 1로 변환하는 작업; 평균과의 거리가 표준편차의 몇 배인가를 나타냄