Data Science/Data Science in R
-
[Data Science 기초] IMDB 영화 정보 데이터 시각화 및 분석Data Science/Data Science in R 2018. 10. 24. 01:28
목표 : Kaggle의 포켓몬스터 데이터를 다운받아 분석해보자.데이터 다운 링크 : https://www.kaggle.com/carolzhangdc/imdb-5000-movie-dataset * 시각화 및 분석은 R Language를 활용하였음 분석할 내용은 다음과 같다. a. 이 데이터는 어떤 변수로 이루어져 있는가?b. 시각화를 통해 다음 질문에 답해보자 i. 연도별 영화의 편수는? ii. 연도별 리뷰평점의 변화는? iii. 영상물 등급(content_rating)에 따라서 리뷰평점의 분포에 차이가 있는가? iv. 페이스북 좋아요 개수와 리뷰평점의 사이의 관계는? 1. Steps to Read Data1) Kaggle에서 IMDB 영화 정보 데이터를 다운받아 read한다. 사용할 데이터는 해당 프로젝..
-
[Data Science 기초] 데이터 시각화 응용 - 변수의 종류에 따른 시각화Data Science/Data Science in R 2018. 10. 23. 16:06
목표 : 여러가지 데이터를 활용하여 데이터 시각화를 응용하여 보자. 변수의 종류에 따른 시각화 기법변수는 크게 수량형변수(quanlitative variable)와 범주형변수(categorical variable)로 구분된다. ㆍ수량형변수 : 국민소득, 평균수명, 키, 몸무게ㆍ범주형변수 : 국가, 성별, 혈액형ㆍ범주형변수 중 학점이나 학년처럼 순서가 있는 경우 순서형(ordinal) 변수라고도 한다. 이처럼 변수의 종류에 따라 적용할 수 있는 시각화기법이 조금씩 다르다. 1. 한 수량형 변수 - 하나의 연속 변수의 시각화를 위한 기법 1) 히스토그램(histogram) : 많은 경우 이것으로 충분2) 도수폴리곤(frequancy polygon) : 막대대신 도수를 직선으로 연결3) 커널밀도추정함수(ker..
-
[R 기초] 데이터 시각화 기초 - Base R package vs. ggplot2Data Science/Data Science in R 2018. 10. 23. 14:16
목표 : 베이스 R 그래픽과 ggplot2 package를 비교해보자 베이스 R 그래픽이란? R에서 기본적으로 제공되는 그래픽 패키지로써 고차원의 산점도, 히스토그램 함수 뿐만 아니라 저차원으로 플롯의 점, 선, 제목, 축라벨, 범례 틱 위치 등을 조절할 수 있다. 많이 사용되는 함수들은 다음과 같다. ㆍplot(x,y) : 산점도ㆍhist(x) : 히스토그램ㆍmosaicplot() : 모자익 플롯ㆍpoints(x,y) : 저차원 점 그리는 함수ㆍline(x,y) : 저차원 선 그리는 함수 먼저, 베이스 R 그래픽과 gapminder data를 활용한 데이터 시각화 예제를 살펴보자.(gapminder data 분석에 대한 자료 링크 : https://kuklife.tistory.com/43?categor..
-
[R 기초] dplyr packageData Science/Data Science in R 2018. 10. 9. 23:41
목표 : dplyr 패키지에 대해 알아보자 dplyr Package란? Data를 빨리 쉽게 가공할 수 있도록 도와주는 R Package이다. dplyr은 베이스 R 데이터 가공에 비해 다음과 같은 차이점과 장점이 있다.1. 코드가 읽기 쉽다. : chain 연산자(%>%) 덕분이다.2. 코드가 쓰기 쉽다. : 동사의 개수가 적고 문법이 간단하다.3. R을 사용하면 변수명이 자동 완성된다.4. Data frame만 처리한다. 베이스 R의 연산자들은 data frame 뿐만 아니라 vector, 행렬, 다차원 배열, 리스트에 적용된다.5. 문법과 접근 방법이 SQL과 비슷하다. 1. dplyr의 동사(verb)는 다음과 같다.(여기서 df는 data frame을 의미한다.) - filter(df, 조건)(..
-
[R 기초] Gapminder Data 분석Data Science/Data Science in R 2018. 10. 9. 23:11
※ Data 가공(①)과 시각화(②)를 기준으로 작성하였으니 참고바랍니다. ① 목표 : R에 내포되어 있는 gapminder data를 가공하여 보자. * gapminder data란?국가별 경제 수준과 의료 수준 동향을 정리한 DataSet으로써, 첫 번째 변수는 경제적 수준을 일인당 GDP로 잡았고 두 번째 변수는 의료 수준을 평균 기대 수명으로 잡았다. 1. 가장 먼저 데이터를 로드시킨다. > install.packages("gapminder") 2. 다음으로 gapminder data에 대해 알아본다. 먼저 gapminder data를 frame으로 변경하여 확인하여 보겠다. > as.data.frame(gapminder) country continent year lifeExp pop gdpPer..