목록Data Science/[도서] 통계101 데이터분석 (9)
트위티의 열하일기

1. 베이즈 통계의 사고방식 a. 빈도주의 vs 베이즈불확실성 차이빈도주의 흐름에서의 불확실성: 모집단에서 표본을 추출할 때의 불확실성빈도주의에서의 확률: 무한히 반복 실행한 결과로서의 객관적인 빈도를 나타냄베이즈 통계에서의 확률: 확률을 '얼마나 확신하는지', 분석자가 그 파라미터를 어느 정도 알고있는지를 확률분포로 나타냄b. 베이즈 통계의 이미지c. 통계 모형통계적 추론 사용) 데이터로 모집단의 실제 분표 q(x)를 추론각 데이터를 동일한 분포 q(x)에서 매번 독립으로 무작위추출함에 따라, 데이터 x1, x2, ... xn을 모집단의 확률분포 q(x)에서 얻은 확률변수 x의 실현값으로 간주.예측 분포) 데이터를 이용하여 추정한 통계 모형 p(X)예측 분포가 모집단의 실제 분포 q(x)와 어느 정도 ..

1. 인과관계와 상관관계 a. 인과관계: 원인과 결과의 관계원인 → 결과인관관계가 있다고 해서 무조건적으로 상관관계가 존재하는 것도 아님) 중첩요인이나 합류점 편향이 있을 때인관관계를 알면 상관관계를 알 때보다 더 많은 것을 이해할 수 있음'개입' 효과를 추정할 수 있음) 원인 변수를 변화시킴으로써 결과 변수를 바꿀 수 있음b. 상관관계: 데이터에서 보이는 관련성어떠한 특정한 조합이 일어나기 쉽다는 것확률변수 사이가 독립이 아님중첩요인/중첩변수: 두 변수에 관련된 외부 변수가 존재할 때 해당 변수를 칭하는 용어시간, 나이: 중첩요인이 되기 쉬운 변수세상에는 시간과 함께 증가/감소하는 현상이 흔하기 때문2개 변수 X, Y에서 한쪽 변수로부터 또 다른 변수를 예측할 수 있음우연히 생긴 상관: 수많은 변수를 ..

1. 재현성 위기: 재현성이 없다는 것은 원래 논문의 주장이 잘못되었을 가능성이 있다는 것을 의미, 이러한 문제를 재현성 위기라 칭함재현성: 누가 언제 어디서 실험하더라도, 조건이 동일하다면 동일한 결과를 얻을 수 있어야한다는 것낮은 재현성을 야기하는 원인실험 조건을 동일하게 조성하기 어렵다가설검정의 사용 방법; 이에 따라 p값이 0.05보다 작아지게 조작하는 것이 가능하다 (p-hacking)2. 피셔류 검정과 네이만-피어슨류 검정a. 피셔류 검정: 귀무가설이 옳을 때 관찰한 데이터 이상으로 극단적인 값을 얻을 확률인 p값을 계산하고, 귀무가설과 관찰한 값의 괴리 정도를 평가가설을 기각한다는 개념이 없음p값의 크기에 따라 증거의 강력함을 평가b. 네이만-피어슨류 검정: p값이 유의수준 α 미만인가 이상..

1. 다중회귀: 설명변수가 여러 개인 것 a. 다중선형회귀모형편회귀계수: 기울기 b1, b22. 편회귀계수 (bi): x 이외의 설명변수를 고정한 채로 x가 1 늘어났을 때의 y 증가량편회귀계수를 비교하기 위해 표준화편회귀계수 이용표준화편회귀계수: 설명변수를 평균 0, 표준편차 1로 변환한 다음 회귀분석을 시행하여 구한 회귀계수상관계수가 1에 가까운 강한 상관이 있을 때는 다중공선성이 있는지를 확인하고 이에 대처해야 함3. 볌주형 변수회귀분석의 설명변수가 범주형 변수라면 0, 1과 같은 가변수(dummy variable)로 바꿔서 설명변수로 이용4. 공분산분석: 일반적인 분산분석에 사용하는 데이터와 함께 양적 변수 데이터가 있는 경우에 후보가 되는 방법공변량: 새로 추가한 양적 변수사용조건 1) 집단 간..

5.1) 가설검정의 원리 또 하나의 추론통계 방법: 가설검정= 분석자가 세운 가설을 검증하기 위한 방법- p-value라는 수치를 계산하여 가설을 지지하는지 여부를 판단 a. 가설 검증하기- 확증적 자료분석(가설검증형 데이터 분석): 미리 세운 가설을 검증하는 접근법- 탐색적 자료분석: 가설을 미리 세우지 않고, 전체 데이터를 탐색적으로 해석하는 접근법 b. 가설검정 (hypothesis testing, statistical hypothesis testing)- 실험군(treatment group): 어떠한 조치를 취한 집단- 대조군(control group): 실험군과 비교/대조를 위해 마련한 집단 통계학에서의 가설 - 귀무가설(null hypothesis) : 밝히고자 하는 가설의 부정 명제- 대립..

4.1) 추론통계를 배우기 전에 전수조사와 표본조사 a. 전수조사: 모집단의 모든 요소를 조사얻은 데이터 = 모집단알고 싶은 성질 (ex. 평균값, 중앙값)을 계산하면 그것으로 끝b. 표본조사: 추론통계 방법을 통해 모집단을 추정하는 분석 데이터(표본)을 얻는다는 것= 모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것 a. 확률분포와 실현값확률분포 형태를 결정하면, 그 확률분포를 따르는 실현값이 발생하도록 할 수 있음여러 개의 실현값이 발생할 때는 확률분포로부터 매번 독립적으로 발생한다고 간주e.g. 주사위를 한번 던져서 나온 숫자를 제외하고 다음에 던져 나온 숫자의 확률을 계산하지 않음확률분포와 실현값의 관계 -> 모집단과 표본의 관계와 매우 비슷"모집단 = 확률분포", "표본 = 확률..