트위티의 열하일기
3장: 통계분석의 기초 [정리] 본문
3.1) 데이터 유형
a. 모집단과 표본
(2장 정리본 참고)
b. 변수
- 통계학에서 변수의 개수를 '차원'이라고 표현하기도 함
- 고차원 데이터일수록 데이터 분석 난도가 높음
c. 다양한 데이터 유형
- 변수는 크게 '양적 변수', '질적 변수'로 나눌 수 있음
- 양적변수 (수치형 변수) : 숫자로 나타낼 수 있는 변수
- 이산형 양적 변수(이산변수): 얻을 수 있는 값이 점점이 잇는 변수
ex. 주사위, 사람 수, 횟수
- 연속형 양적 변수(연속변수0: 간격 없이 이어지는 값으로 나타낼 수 있는 변수
ex. 키, 몸무게
- 질적변수 (범주형 변수)
: 숫자가 아닌 범주로 변수를 나타낼 때
ex. 설문조사_예/아니요, 동전_앞/뒤, 날씨_맑음/흐림/눈/비
- 변수 사이에 대소 관계가 없음
- 숫자가 아님
- 평균값 등과 같은 수치를 알 수 없음
3.2) 데이터 분포
a. 그림으로 데이터 분포 표현하기
- 데이터가 어떻게 분포되어 있는지를 그래프로 시각화
- 대략적인 데이터 경향 파악
[히스토그램]
- 이산형 양적 변수_히스토그램
- 연속형 양적 변수_히스토그램
- 엄밀하게 같은 값은 존재하지 않음
- 범위를 설정(해당 범위의 넓이가 구간폭)하고, 그 범위에 포함되는 숫자 개수를 세어 세로축에 둠
- 구간폭을 어떻게 설정하는지에 따라 데이터의 인상이 달라짐
- 범주형 변수_히스토그램
- 가로축 순서에 특별한 의미부여x (변수의 값에 대소가 없기 때문)
3.3) 통계량
: 수집한 데이터로 다양한 계산을 수행하여 얻은 값
a. 데이터 특정짓기
- 기술통계량/요약통계량
: 데이터 그 자체의 성질을 기술하고 요약하는 통계량
- ex. 평균값
- 주로 양적 변수를 대상으로 계산
- 범주형 변수의 경우, 개수/비율로만 데이터를 기술/요약
- 1개 또는 몇개의 통계량으로 데이터를 요약하면 데이터에 있는 정보 중 버리는 부분이 생김
b. 다양한 기술통계량
- 대푯값 (representative value) : 평균값, 중앙값, 최빈값
- 대략적인 분포 위치; 대표적인 값을 정량하기 우해 사용하는 통계량
*이상값(oulier) = 드물게 극단적으로 큰 값이나 작은 값
[평균 mean]
- 표본에서 얻은 평균값은 표본평균
- 이상값의 영향을 받기 쉬웅ㅁ
[중앙값 median]
- 크기 순으로 값을 정렬했을 때 한가운데 위치한 값
- 이상값에 잘 영향받지 않음
[최빈값 mode]
- 데이터 중 가장 자주 나타나는 값
- 이상값에 잘 영향받지 않음
*처음부터 히스토그램을 그려 대략적인 파악 후, 대푯값으로 적절하게 분포를 특정 지을 수 있는지 확인하는 것이 데이터 분석 작업 순서
- 데이터 퍼짐 정도를 나타내는 값: 분산, 표준편차
[분산 variance]
- 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지를 평가
- 데이터 퍼짐 상태를 정량화한 통계량
[표준편차 standard deviation]
- 표본분산의 제곱근을 취한 값
- 계산상 분산과 표준편차가 포함하는 정보의 차이는 없음
- 데이터 퍼짐 정도를 정량화한 지표로는 표준편차가 더 감각적으로 알기 쉬움
c. 상자 수염 그림 (box-and-whisker plot)
: 상자와 수염으로 구성되며, 각각은 데이터의 분포를 특징 짓는 통계량을 나타냄
3.4) 확률
a. 확률분포: 가로축에 확률변수, 세로축에 그 확률변수의 발생 가능성을 표시한 분포
b. 추론통계와 확률분포
- '모집단과 표본 데이터' (다루기 어려움) -> '확률분포와 그 실현값' (다룰 수 있음)
c. 기댓값 (expected value)
- 이산형
- 연속형
d. 분산과 표준편차
- 이산형
- 연속형
e. 왜도와 첨도
- 왜도(skewness): 분포가 좌우대칭에서 어느 정도 벗어났는지
- 첨도(kurtosis): 분포가 얼마나 뾰족한지, 그래프의 꼬리가 차지하는 비율이 얼마인지
f. 동시확률분포 P(X,Y)
: 확률변수 2개를 동시에 생각할 때의 확률 분포
- 독립
: P(X, Y) = P(X) X P(Y)
g. 조건부확률 P(X|Y)
: 한쪽 확률변수 Y의 정보가 주어졌을 떄, 다른 한쪽 확률변수 X의 확률
3.5) 이론적인 확률분포
a. 정규분포(normal distribution) / 가우스 분포(Gaussian distribution)
- 확률분포가 평균 µ 와 표준편차 σ라는 두 개의 파라미터로 정해짐
- 정규분포: N( µ, σ^2)
- 평균을 중심으로 한 종형, 좌우대칭 분포
- 평균 근처에 값이 가장 많고, 평균에서 멀어질수록 적어짐
- ex. 키, 몸무게
- 표준정규분포: N(0, 1)
b. 표준화 (standardizing, normalizing)
: 평균 0, 표준편차 1로 변환하는 작업; 평균과의 거리가 표준편차의 몇 배인가를 나타냄
'Data Science > [도서] 통계101 데이터분석' 카테고리의 다른 글
8장: 통계 모형화 [정리] (1) | 2024.10.09 |
---|---|
5장: 가설검정 [정리] (0) | 2024.09.24 |
4장: 추론통계~신뢰구간 [정리] (1) | 2024.09.24 |
2장: 모집단과 표본 [정리] (0) | 2024.09.18 |
1장: 통계학이란? [정리] (0) | 2024.09.18 |