Data Science/Data Science in R
-
[ISL] 7장 - 비선형모델(Local regression, Smoothing splines, GAM) 이해하기(R 실습)Data Science/Data Science in R 2019. 12. 19. 01:19
* 이론 : 업로드 예정 * 소스코드 원본 : http://faculty.marshall.usc.edu/gareth-james/ISL ※ 사용 데이터 : Wage 1. 바로 4차 다항식 적합시켜보기 library(ISLR) attach(Wage) fit=lm(wage~poly(age,4),data=Wage) coef(summary(fit)) fit2=lm(wage~poly(age,4,raw=T),data=Wage) coef(summary(fit2)) - 4차 다항식의 P-value가 0.05인 것으로 보아 유의미한 것을 알 수 있음 agelims=range(age) #age의 min과 max를 찍는다. age.grid=seq(from=agelims[1],to=agelims[2]) preds=predict..
-
[ISL] 6장 - 연습문제 (R 실습)Data Science/Data Science in R 2019. 12. 18. 22:18
※ 6장의 연습문제 중 8번, 9번, 11번만 진행하였습니다. 문제 원본 : http://faculty.marshall.usc.edu/gareth-james/ISL/ISLR%20Seventh%20Printing.pdf * 위 교재 256페이지 문제 ========================================================================== 8(a). rnorm()을 사용하여 predictor vector와 noise vector를 만드시오.(n=100) 8(b). n=100인 vector Y를 만드시오. 여기서 베타값은 랜덤으로 선택하시오. 8(c). 예측 변수 X, X2, ..., X10이 포함된 최상의 모형을 선택하려면 최상의 부분 집합을 선택하십시오. 이 때..
-
[ISL] 6장 - Ridge&LASSO Regression(R 실습)Data Science/Data Science in R 2019. 12. 18. 21:29
* 이론 : 업로드 예정 * 이어지는 소스코드 : https://kuklife.tistory.com/105?category=853435 * 소스코드 원본 : http://faculty.marshall.usc.edu/gareth-james/ISL 1. Model Matrix 설정 #모델 메트릭스 만들고 시작(Salary를 제외한 나머지 변수는 설명변수) x=model.matrix(Salary~.,Hitters)[,-1] y=Hitters$Salary#y는 반응변수 2. Ridge Regression #10 ~ -2까지 등간격으로 자른 후 10의 지수로 쓰겠다. #패널티 파라미터가 클 때와 작을 때는 민감도 차이가 있음) grid=10^seq(10,-2,length=100) ridge.mod=glmnet(x..
-
[ISL] 6장 - 예측변수 선택(Stepwise, CV)(R 실습)Data Science/Data Science in R 2019. 12. 18. 21:04
* 이론 : 업로드 예정 * 소스코드 원본 : http://faculty.marshall.usc.edu/gareth-james/ISL 1. 기초통계량 분석 및 결측치 처리 #install.packages("ISLR") library(ISLR) #fix(Hitters) names(Hitters) dim(Hitters) sum(is.na(Hitters$Salary)) Hitters=na.omit(Hitters) dim(Hitters) ters=na.omit(Hitters) dim(Hitters) 2. Best Subset Choice #install.packages("leaps") library(leaps) #regsubsets() : best subset choice가 가능한 함수 regfit.full=r..
-
[ISL] 3장 - 선형회귀Data Science/Data Science in R 2019. 10. 24. 06:22
선형회귀는 다른 통계방법에 비해 간단하나 해석력이 뛰어나 여전히 널리쓰이고 있고 다른 방법들의 기초가 되는 지식이다. 선형회귀 대게 선형회귀 모형에서 시작하여 확장해 나가는 가장 간단한 형태의 지도학습 방법(변수들끼리의 시너지 효과(interaction)를 찾아내는 분석 기법)으로써, 다음과 같은 solution을 얻을 때 주로 사용된다. 실제로 광고 지출과 총 판매량간에 관계가 있는가? 그 관계가 얼마나 뚜렷한가? TV, 라디어, 뉴스 모두 관계가 있는가, 아니라면 그 중 누가 관계가 있는가? 이를 통한 예측은 어느정도 정확하다 할수 있는가? 실제 관계가 선형관계인가? 각 매체간에 상호작용 효과는 없는가?(TV에 지출한것이 신문에 지출한 것에도 영향을 미치는경우) 이와 같은 질문에 대하여 선형회귀가 어..