-
[Data Science] 회귀 분석의 RMSE 기본 개념Data Science/Data Science in R 2018. 12. 17. 07:07
목표 : 연속형(이산형)과 수치형 반응변수를 예측하는 회귀분석 기법을 살펴보자.
개념 설명
회귀분석에서는 분류분석에서 익힌 대부분의 개념(모형의 복잡도, 과적합, 변수 선택, 모형 평가, 교차검증, 데이터세트 분할 등)이 그대로 사용된다.
회귀분석과 분류분석의 차이는 정확도 지표로 분류분석은 이항편차, 혼동행렬, ROC곡선, AUC 등을 사용하며, 회귀분석은 RMSE가 흔히 사용된다.
관측값이 y이고, 예측값이 y_hat 일 때, RMSE는 다음과 같이 주어진다. RMSE 예측오차 값이 작을수록 더 정확한 모형이다.
R에서는 함수를 다음과 같이 정의하여 사용한다.
rmse <- function(yi, yhat_i){
sqrt(mean((yi - yhat_i)^2))
}
회귀분석의 문제를 접근하는 방법은 분류분석과 비슷하므로 실습을 통해 보도록 하자.
* 참고문헌 : 실리콘밸리 데이터 과학자가 알려주는 따라하며 배우는 데이터 과학(저자 : 권재명)
'Data Science > Data Science in R' 카테고리의 다른 글
[Data Science] Winequality(white wine) 데이터 회귀 분석 - 와인 품질 예측 (0) 2018.12.18 [Data Science] Boston 데이터 회귀 분석 - 부동산 가격 예측 문제 (0) 2018.12.17 [Data Science] spambase 데이터 분류 분석 - 스펨 메일 예측 문제 (0) 2018.12.17 [R language] gbm(부스팅 모형) package 함수 에러 해결 방법 (2) 2018.12.17 [Data Science] Wiscinsin Breast Cancer(위스콘신 유방암) 데이터② 분류 분석 (0) 2018.12.16