Data Science/Data Science in R
-
[ISL] 4장 - 분류(R 실습)Data Science/Data Science in R 2019. 10. 24. 05:52
* 이론 : https://kuklife.tistory.com/100?category=853435 * 소스코드 원본 : http://faculty.marshall.usc.edu/gareth-james/ISL 1. 기초통계량 확인 1. ISLR Package를 다운받은 후, Smarket을 load한다. # Chapter 4 Lab: Logistic Regression, LDA, QDA, and KNN # The Stock Market Data install.packages("ISLR") library(ISLR) names(Smarket) dim(Smarket) 2. Summary()값을 확인하면 다음과 같은 결과를 얻을 수 있다. summary(Smarket) Direction을 보면 Up 혹은 Down..
-
[ISL] 5장 - Resampling Methods(CV)Data Science/Data Science in R 2019. 10. 24. 03:26
재표본(Resampling) 재표본(Resampling)은 통계학에서 빼놓을 수 없는 요소이다. 간단히 말하자면 이는 training set에서 반복해서 sample을 뽑고, 거기에 반복해서 model을 적합시켜보는 것이다. 이는 기존의 training set 전체를 단지 한번만 쓰는것 보다 더 추가적인 정보를 줄 수 있다. 여기에선 가장 많이 쓰이는 resampling method인 Cross-validation과 bootstrap을 다룰 것이다. * 교재에서는 CV와 붓스트랩 모두 다루지만, 이 게시글에선 CV만 다루겠다.(정보가 필요하신 분은 Data Science 카테고리로 가시면 예제와 함께 있습니다.) ※ CV(Cross-Validation) 이란? test error 와 training er..
-
[ISL] 4장 - 분류(이론)Data Science/Data Science in R 2019. 10. 23. 04:15
숫자형 변수를 예측했던 3장의 회귀문제와는 다르게, 질적 변수를 예측해야 하는 경우도 있다. 질적 변수(혹은 범주형 변수)를 예측하는 문제를 classification이라 부른다. 분류(classification) 분류방법들은 보통 각 범주에 속할 ‘확률’을 예측하는 형태로 분류를 한다. 예를 들면, 환자의 현재 상태를 체크한 데이터들을 보고 이 환자의 증상이 무엇인지를 분류하는 문제를 들 수 있다. ※ 위 문제를 회귀분석으로 접근할 수는 없을까? 범주형 변수를 임의로(강제로) 숫자형 변수로 만들어주면 회귀분석이 가능은 하다.(예를 들어, 감기라면 Y=1, 폐렴이라면 Y=2, 독감이라면 Y=3 과 같은 식으로) 그러나 이는 잘못된 접근이다. 앞장에서도 다루었지만 임의로 숫자를 부여하게 되면, 감기와 폐렴..
-
[Data Science] abalone 데이터 회귀 분석 - 전복 나이 예측Data Science/Data Science in R 2018. 12. 18. 07:39
목표 : abalone 데이터를 통해 전복 나이를 예측하는 회귀 분석을 해보자.* 데이터 설명 : http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.names* 데이터 다운로드 : http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data 1. 함수 작성 및 환경 설정 rmse =0.568 34 573.5588 15.205880 * 15) Shucked opar plot(data_tr)> text(data_tr, use.n = TRUE)> par(opar) 모형 평가는 다음과 같다. ..
-
[Data Science] Winequality(red wine) 데이터 회귀 분석 - 와인 품질 예측Data Science/Data Science in R 2018. 12. 18. 02:33
목표 : winequaliry-red 데이터를 통해 와인 품질을 예측하는 회귀 분석을 해보자.* 데이터 설명 : http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality.names* 데이터 다운로드 : http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv 1. 함수 작성 및 환경 설정 rmse