전체 글
-
[R language] gbm(부스팅 모형) package 함수 에러 해결 방법Data Science/Data Science in R 2018. 12. 17. 04:09
gbm을 사용하다 보면 에러가 종종 발생된다. 다음 사항들을 보고 해결하도록 하자. Error ① gbm() 사용 중, R Session Aborted 라는 메세지와 함께 New Session으로 변경되는 경우 - 원인 : 컴퓨터 내 프로그램에서 버그 충돌이 일어나는 것- 해결 방법 : 기존의 gbm package 제거 후, 개발 버전 gbm package 설치- 소스코드 remove.packages("gbm") #기존 gbm 패키지 제거install.packages("devtools", dependencies=TRUE)library(devtools)install_github("gbm-developers/gbm") #개발자 버전 gbm 패키지 설치library(gbm) #패키지 로드 Error ② 다음과..
-
[Data Science] Wiscinsin Breast Cancer(위스콘신 유방암) 데이터② 분류 분석Data Science/Data Science in R 2018. 12. 16. 20:28
목표 : 위스콘신 유방암 데이터 중 약간 다른 데이터를 분류분석 해보자.* 데이터 설명 : http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names* 데이터 다운로드 : http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data 데이터 기본 구성 # Attribute Domain -- ----------------------------------------- 1. Sample code number id number 2. Clump..
-
[Data Science] Wiscinsin Breast Cancer(위스콘신 유방암) 데이터① 분류 분석Data Science/Data Science in R 2018. 12. 16. 04:53
목표 : 위스콘신 유방암 데이터를 분류분석 해보자. 해당 문제는 미세바늘로 흡입한 세포들을 디지털 이미지화한 후, 각 이미지를 이미지 분석 소프트웨어로 분석한 결과를 예측변수로 사용하여 종양인지 악성인지 양성인지 판별해내는 분류분석 문제이다. 1. 환경 준비 library(tidyverse)library(gridExtra)library(MASS)library(glmnet)library(randomForest)library(gbm)library(rpart)library(boot)library(data.table)library(ROCR) 2. 데이터 다운로드 및 Read 데이터 다운로드 후 확인해보면 알 수 있듯이, 변수명이 할당되어 있지 않다. 따라서 변수명을 할당해주도록 한다. data pairs(dat..
-
[Data Science] Adult 데이터로 알아보는 분류분석 모형 개념Data Science/Data Science in R 2018. 12. 15. 19:34
목표 : 로지스틱 모형을 활용하여 Adult 데이터를 분류 분석해보자. 1. 환경 준비install.packages(c("dplyr", "ggplot2", "ISLR", "MASS", "glmnet", "randomForest", "gbm", "rpart", "boot", "ROCR")) library(tidyverse)library(gridExtra)library(ROCR) library(dplyr)library(ggolot2)library(ISLR)library(MASS)library(glmnet)library(randomForest)library(gbm)library(rpart)library(boot) 2. 데이터 다운로드 및 파일 readURL levels(adult$wage)[1] "50K" 다..
-
[Data Science] 분류 분석의 기본 개념Data Science/Data Science in R 2018. 12. 15. 11:09
목표 : 분류분석 기본 개념에 대해 이해해보자. 기본 개념 ㆍ지도학습(supervised learning) : 주어진 설명변수로부터 반응변수를 예측해내는 작업ㆍ분류분석(classification) : 주어진 입력변수에 근거하여 범주형 반응변수를 예측하는 작업ㆍ회귀분석(regression prediction) : 연속형과 수치형 반응변수를 예측하는 작업 분류분석의 예로써는 다음과 같으며, 일반적으로 '성공'은 1, '실패'는 0으로 나타낸다. ㆍ신용카드 사용자의 다양한 변수를 사용하여 사용자가 디폴트(default, 채무불이행)할 확률을 계산한다.ㆍ투자할 회사의 다양한 속성변수를 사용하여 투자가 성공할 확률을 계산한다.ㆍ웹방문자정보,사이트정보,방문시간 등을 사용하여 특정 광고를 클릭할 확률을 계산한다. 분..