목록Programming Languages/R (8)
트위티의 열하일기

# R performance 패키지란통계 분석에서 모델의 품질과 적합도를 평가하는 것은 중요한 과정이다. 특히 회귀 모델은 여러 종류가 있기 때문에, 모델을 분석할 때 이런 다양한 모델 중 최적의 모델을 선택하는 것이 필수적이다. performance R 패키지는 이러한 모델의 품질을 평가하는 데 필요한 여러 지표를 제공하며, R의 기본 패키지(base, stats)에서는 제공되지 않는 다양한 기능을 포함하고 있다. R2, ICC(내적 상관계수), RMSE(평균 제곱근 오차) 등의 지표를 계산하고, 과산포(overdispersion), 특이성(singularity), 0-팽창(zero-inflation) 같은 문제를 진단할 수 있는 기능을 제공한다. # 왜 필요한가?- 기존에도 모델 진단을 위한 시각적..

# 텍스트 마이닝(Text Mining)이란?문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법 1. 준비 단계 (패키지 설치 및 데이터 준비)- KoNLP (Korean Natural Language Processing) 패키지R에서 한국어 자연어 처리를 수행하는 패키지형태소 분석, 명사 추출, 사전 추가 등의 기능 제공, 한국어 텍스트 마이닝에 자주 사용됨형태소 분석: SimplePos22(), MorphAnalyzer() 등을 사용하여 단어의 품사 정보 분석명사 추출: extractNoun() 함수를 사용하여 명사만 추출(주의) Java 환경이 필요하며, 설정이 번거로움 → 따라서 'multilinguer' 패키지와 함께 설치되는 방식을 추천!a. 자바, rJava 패키지 설치install..

#01 '한국복지패널데이터' 분석1. 패키지 설치 및 로드- foreign 패키지: SPSS, SAS, STATA 등 다양한 통계분석 소프트에어의 파일 불러올 수 있음install.packages("foreign") # foreign 패키지 설치library(foreign) # SPSS 파일 불러오기library(dplyr) # 전처리library(ggplot2) # 시각화library(readxl) # 엑셀 파일 불러오기기 2. 데이터 불러오기- read.spss(file = "파일이름", to.data.frame = T) : 데이터 불러오기* to.data.frame = T : SPSS 파일을 데이터 프레임 형태로 변환하는 기능 → 이 파라미터가 없으면 데이터를 리스트 형태로 불러옴 3. 데이터 ..

# ggplot2 패키지그래프를 만들 때 가장 많이 사용하는 패키지. 이를 통해 산점도, 막대 그래프, 선 그래프, 상자 그림을 만들 수 있음 [layer 구조]배경을 만듦 → 그 위에 그래프 형태를 그림 → 축 범위, 색, 표식 등 설정 추가* qplot() vs ggplot()- gplot()은 기능은 많지 않지만 문법이 간단 → 전처리 단계에서 데이터를 빠르게 확인해 보는 용도로 활용- 최종적으로 분석 결과를 보고하기 위해 그래프를 만들 때 → ggplot() 사용# 산점도(Scatter Plot)데이터를 x축과 y축에 점으로 표현한 그래프. 연속 값으로 된 두 변수의 관계를 표현할 때 사용됨. 1. 배경 설정하기 (그래프를 그릴 배경 생성)- data에 사용할 데이터 지정- aes에 x축, y축..

# 데이터 가공하기데이터를 추출하고, 여러 데이터를 합치기 위해 데이터 전처리 작업에 가장 많이 사용되는 R 패키지, dplyr을 사용한다. 1. filter() 함수로 원하는 데이터 추출# exam 에서 class가 1인 경우만 추출해서 출력exam %>% filter(class == 1)# 결과 id class math english science1 1 1 50 98 502 2 1 60 97 603 3 1 45 86 784 4 1 30 98 58%>% 기호를 활용하여 함수들을 나열하는 방식으로 코드 작성filter() 에 조건을 입력하면 조건에 해당되는 행만 추출- 특정 조건에 ..

# 데이터 프레임의 형태행과 열로 구성된 사각형 모양의 표 - 열 : Column, Variable → 열은 속성이다!- 행: Row, Case → 행은 한 사람의 정보다!한 명에 대한 데이터는 가로 한 줄에 나열된다데이터가 크다는 것은 행 또는 열이 많다는 의미인데, 데이터를 분석하는 입장에서는 열이 많아지면 변수를 조합할 수 있는 경우의 수가 늘어나므로 이가 더 중요하게 여겨진다.1. 데이터 프레임 만들기- data.frame() 사용 2. 데이터 분석하기- mean() 을 사용하여 원하는 열의 평균값 구하기 3. 위의 두 과정을 한 번에 수행하기 4. 외부 데이터 사용하기엑셀 파일과 csv 파일 불러와서 데이터 프레임 만드는 방법 a. 엑셀 파일 불러오기# 엑셀 파일 불러오기install.packa..