Data Science
-
[Data Science] Wiscinsin Breast Cancer(위스콘신 유방암) 데이터② 분류 분석Data Science/Data Science in R 2018. 12. 16. 20:28
목표 : 위스콘신 유방암 데이터 중 약간 다른 데이터를 분류분석 해보자.* 데이터 설명 : http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names* 데이터 다운로드 : http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data 데이터 기본 구성 # Attribute Domain -- ----------------------------------------- 1. Sample code number id number 2. Clump..
-
[Data Science] Wiscinsin Breast Cancer(위스콘신 유방암) 데이터① 분류 분석Data Science/Data Science in R 2018. 12. 16. 04:53
목표 : 위스콘신 유방암 데이터를 분류분석 해보자. 해당 문제는 미세바늘로 흡입한 세포들을 디지털 이미지화한 후, 각 이미지를 이미지 분석 소프트웨어로 분석한 결과를 예측변수로 사용하여 종양인지 악성인지 양성인지 판별해내는 분류분석 문제이다. 1. 환경 준비 library(tidyverse)library(gridExtra)library(MASS)library(glmnet)library(randomForest)library(gbm)library(rpart)library(boot)library(data.table)library(ROCR) 2. 데이터 다운로드 및 Read 데이터 다운로드 후 확인해보면 알 수 있듯이, 변수명이 할당되어 있지 않다. 따라서 변수명을 할당해주도록 한다. data pairs(dat..
-
[Data Science] Adult 데이터로 알아보는 분류분석 모형 개념Data Science/Data Science in R 2018. 12. 15. 19:34
목표 : 로지스틱 모형을 활용하여 Adult 데이터를 분류 분석해보자. 1. 환경 준비install.packages(c("dplyr", "ggplot2", "ISLR", "MASS", "glmnet", "randomForest", "gbm", "rpart", "boot", "ROCR")) library(tidyverse)library(gridExtra)library(ROCR) library(dplyr)library(ggolot2)library(ISLR)library(MASS)library(glmnet)library(randomForest)library(gbm)library(rpart)library(boot) 2. 데이터 다운로드 및 파일 readURL levels(adult$wage)[1] "50K" 다..
-
[Data Science] 분류 분석의 기본 개념Data Science/Data Science in R 2018. 12. 15. 11:09
목표 : 분류분석 기본 개념에 대해 이해해보자. 기본 개념 ㆍ지도학습(supervised learning) : 주어진 설명변수로부터 반응변수를 예측해내는 작업ㆍ분류분석(classification) : 주어진 입력변수에 근거하여 범주형 반응변수를 예측하는 작업ㆍ회귀분석(regression prediction) : 연속형과 수치형 반응변수를 예측하는 작업 분류분석의 예로써는 다음과 같으며, 일반적으로 '성공'은 1, '실패'는 0으로 나타낸다. ㆍ신용카드 사용자의 다양한 변수를 사용하여 사용자가 디폴트(default, 채무불이행)할 확률을 계산한다.ㆍ투자할 회사의 다양한 속성변수를 사용하여 투자가 성공할 확률을 계산한다.ㆍ웹방문자정보,사이트정보,방문시간 등을 사용하여 특정 광고를 클릭할 확률을 계산한다. 분..
-
[Data Science] 데이터 종류에 따른 분석 기법Data Science/Data Science in R 2018. 10. 25. 02:28
목표 : 데이터 종류에 따라 분석하는 기법들을 익혀보자. 1. 데이터형, 분석 기법, R함수에 따른 분류 데이터 형태 분석 기법과 R함수 0. 모든 데이터 데이터 내용, 구조파악(glimpse)요약 통계량(summary)단순 시각화 1. 수량형 변수 분포 시각(hist, boxplot, density)요약 통계량(mean, median)t-검정 t.test() 2. 범주형 변수(성공 - 실패) 도수 분포 table(), xtabs()바그래프 barplot()이항검정 binom.test() 3. 수량형 x, 수량형 y 산점도 plot()상관계수 cor()단순회귀 lm()로버스트 회귀 lqs()비모수회귀 4. 범주형 x, 수량형 y 병렬상자그림 boxplot()분산분석(ANOVA) lm(y~x) 5. 수량형..