분류 전체보기
-
[ISL] 4장 - 분류(R 실습)Data Science/Data Science in R 2019. 10. 24. 05:52
* 이론 : https://kuklife.tistory.com/100?category=853435 * 소스코드 원본 : http://faculty.marshall.usc.edu/gareth-james/ISL 1. 기초통계량 확인 1. ISLR Package를 다운받은 후, Smarket을 load한다. # Chapter 4 Lab: Logistic Regression, LDA, QDA, and KNN # The Stock Market Data install.packages("ISLR") library(ISLR) names(Smarket) dim(Smarket) 2. Summary()값을 확인하면 다음과 같은 결과를 얻을 수 있다. summary(Smarket) Direction을 보면 Up 혹은 Down..
-
[ISL] 5장 - Resampling Methods(CV)Data Science/Data Science in R 2019. 10. 24. 03:26
재표본(Resampling) 재표본(Resampling)은 통계학에서 빼놓을 수 없는 요소이다. 간단히 말하자면 이는 training set에서 반복해서 sample을 뽑고, 거기에 반복해서 model을 적합시켜보는 것이다. 이는 기존의 training set 전체를 단지 한번만 쓰는것 보다 더 추가적인 정보를 줄 수 있다. 여기에선 가장 많이 쓰이는 resampling method인 Cross-validation과 bootstrap을 다룰 것이다. * 교재에서는 CV와 붓스트랩 모두 다루지만, 이 게시글에선 CV만 다루겠다.(정보가 필요하신 분은 Data Science 카테고리로 가시면 예제와 함께 있습니다.) ※ CV(Cross-Validation) 이란? test error 와 training er..
-
[ISL] 4장 - 분류(이론)Data Science/Data Science in R 2019. 10. 23. 04:15
숫자형 변수를 예측했던 3장의 회귀문제와는 다르게, 질적 변수를 예측해야 하는 경우도 있다. 질적 변수(혹은 범주형 변수)를 예측하는 문제를 classification이라 부른다. 분류(classification) 분류방법들은 보통 각 범주에 속할 ‘확률’을 예측하는 형태로 분류를 한다. 예를 들면, 환자의 현재 상태를 체크한 데이터들을 보고 이 환자의 증상이 무엇인지를 분류하는 문제를 들 수 있다. ※ 위 문제를 회귀분석으로 접근할 수는 없을까? 범주형 변수를 임의로(강제로) 숫자형 변수로 만들어주면 회귀분석이 가능은 하다.(예를 들어, 감기라면 Y=1, 폐렴이라면 Y=2, 독감이라면 Y=3 과 같은 식으로) 그러나 이는 잘못된 접근이다. 앞장에서도 다루었지만 임의로 숫자를 부여하게 되면, 감기와 폐렴..
-
[2019 하반기] CJ제일제당 BIO Semester-ING (학기 중 인턴) 면접 후기(정보전략 직무)공채 후기 2019. 10. 19. 13:17
CJ제일제당 학기중인턴 전형 정보전략 직무 지원하였고 아무래도 첫 전형이었기에 정보가 많이 부족하였다. 하지만 CJ계열사는 자기소개서를 굉장히 중요하게 본다는 정보를 습득하였고 이틀에 걸쳐 자소서를 작성하였다. 그 결과 합격 면접 후기 화요일에 면접을 보기 앞서, 주말에 KT와 SK하이닉스 시험을 보자마자 몸살이 났다ㅠㅠ... 그래서 굉장히 불안하였으며 월요일에 일어나자마자 병원에 내원하였다... 긴장이 풀려 그런걸수도 있지만 환절기를 피하지 못한거 같다ㅠㅠ 다들 몸 조심하세요! 면접을 보기 2시간 전쯤, CJ제일제당 안내데스크에 신분증을 맡긴 후 출입증을 받아 6층 투썸플레이스에서 기다리고 있으라는 문자를 받았다. 5시까지였지만 3시 30분에 도착하였고, 4시 지원자들이 들어가는 것을 확인했다.(이 때..
-
[2019 하반기] SK하이닉스 솔루션소프트웨어 코딩테스트 후기(+ 복원)공채 후기 2019. 10. 19. 12:17
요약 1. 프로그래머스 기반 & C or C++의 언어만 사용 가능 2. 프로그래머스 웹에서 보는 것이 아니고 고사장에 설치된 프로그래머스에서 만든 코딩테스트용 프로그램으로 본다. ctrl+c, v 등의 작업이 안되며 한번 키면 최소화 따위의 제어가 안된다. 3. 문제에 삽입된 헤더파일 외에 다른 헤더파일을 추가하면 감점 요소이다. - 그냥 string, vector 정도만 사용 가능하다고 생각하시는게 좋다 - 알고리즘, 큐, 스텍 등이 추가된 문제는 한문제도 없었고 사용할만한 수준의 문제도 안나온다. 4. 문제 요약 1번 : 펙토리얼 문제(20!!!!=20*(20-4)*(20-8)...) 2번 : 각각 사이즈 다른 배열 3개주고 공통되는 숫자 중 가장 큰 값 찾아내기(난 해쉬로 풀었음) 3번 : 2~1..