목록전체 글 (29)
트위티의 열하일기

1. 정의와 특징a. Stack의 정의 : 동일한 데이터 타입 (homogeneous items) 의 원소들로 구성된 선형 자료 구조 b. 특징- 같은 종류의 데이터만 저장할 수 있음- e.g. int 스택에는 오직 정수만, char 스택에는 오직 문자만 저장 가능- 대표적인 homogeneous 구조: 배열(Array)2. Key Operations스택은 두 가지 주요 연산만 허용함: a. Push: 새로운 아이템을 스택의 꼭대기 (top)에 추가하는 연산b. Pop: 스택의 꼭대기(top)에 있는 아이템을 제거하고 반환하는 연산Push와 Pop은 항상 top에서만 이루어진다. 스택 중간이나 아래에서 데이터를 꺼낼 수는 없으며, 그렇게 하면 더 이상 스택이라 부를 수 없음3. 구조적 성질a. LIFO ..

# 2.1 선형대수데이터를 분석하여 유용한 정보를 알아내거나 특징 공간을 변환하는 등의 과업을 수행할 때 사용- 행렬, 텐서: 매개변수집합, 데이터, 선형연산의 결합 등을 표현 1. 벡터와 행렬2. 놈과 유사도3. 퍼셉트론4. 선형결합과 벡터공간5. 역행렬6. 행렬 분해# 2.2 확률과 통계데이터에 포함된 불확실성을 표현하고 처리하는 데 사용됨.- 베이즈 이론- 최대 우도 기법 0. 기초 확률 이론a. 곱 규칙: P(y, x) = P(x|y)P(y)b. 합 규칙: P(x) = ∑ P(y,x) = ∑ P(x|y)P(y)1. 베이즈 정리베이지 정리는 이 사고 확률을 쉽게 우도랑 사전 확률로 분해해가지고 이들의 곱으로 사 확률을 계산할 수 있게 만들어주는 그런 공식- 베이즈 정리의 해석- 사전확률: 전체의 샘..

2025-1학기 경희대학교 데이터분석캡스톤디자인 프로젝트를 시작하며, 이번 한 학기 동안의 여정을 기록해보고자 한다.내가 어떤 마음가짐으로 프로젝트를 시작했는지, 어떤 기준으로 주제를 정했는지, 그리고 어떤 어려움들을 겪고 극복했는지 꼼꼼하게 남겨두고 싶다. 나중에 회고할 때, 문제와 그 해결 과정을 생생히 떠올릴 수 있는 그런 기록을 남기는 것을 목표로 한다 :) 주제 선정기 (Week 1~2)사실 주제를 선정하는 데에만 거의 2주가 걸렸다.프로젝트를 할 때마다 늘 느끼는 거지만, originality와 realisticity 두 마리 토끼를 동시에 잡는 건 정말 어렵다.남들이 안 했을 법한 참신한 아이디어가 나오면, 정작 관련 데이터셋이 없거나 너무 추상적인 경우가 많고,기존의 데이터셋을 기반으로 ..

# R performance 패키지란통계 분석에서 모델의 품질과 적합도를 평가하는 것은 중요한 과정이다. 특히 회귀 모델은 여러 종류가 있기 때문에, 모델을 분석할 때 이런 다양한 모델 중 최적의 모델을 선택하는 것이 필수적이다. performance R 패키지는 이러한 모델의 품질을 평가하는 데 필요한 여러 지표를 제공하며, R의 기본 패키지(base, stats)에서는 제공되지 않는 다양한 기능을 포함하고 있다. R2, ICC(내적 상관계수), RMSE(평균 제곱근 오차) 등의 지표를 계산하고, 과산포(overdispersion), 특이성(singularity), 0-팽창(zero-inflation) 같은 문제를 진단할 수 있는 기능을 제공한다. # 왜 필요한가?- 기존에도 모델 진단을 위한 시각적..

#01 미국 주별 강력 범죄율 단계 구분도 만들기단계 구분도 (Choropleth Map) 란?: 지역별 통계치를 색깔의 차이로 표현한 지도 패키지 준비 → 미국 주별 데이터 준비 → 데이터 전처리 → 미국 지도 데이터 준비 → 단계 구분도 생성 1. 패키지 준비하기- 단계 구분도: ggiraphExtra 패키지 install.packages("mapproj")install.packages("ggiraphExtra")library(ggiraphExtra) 2. 미국 주별 데이터 준비하기a. 변수 확인하기str(USArrests)#결과'data.frame': 50 obs. of 4 variables: $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...

# 텍스트 마이닝(Text Mining)이란?문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법 1. 준비 단계 (패키지 설치 및 데이터 준비)- KoNLP (Korean Natural Language Processing) 패키지R에서 한국어 자연어 처리를 수행하는 패키지형태소 분석, 명사 추출, 사전 추가 등의 기능 제공, 한국어 텍스트 마이닝에 자주 사용됨형태소 분석: SimplePos22(), MorphAnalyzer() 등을 사용하여 단어의 품사 정보 분석명사 추출: extractNoun() 함수를 사용하여 명사만 추출(주의) Java 환경이 필요하며, 설정이 번거로움 → 따라서 'multilinguer' 패키지와 함께 설치되는 방식을 추천!a. 자바, rJava 패키지 설치install..