-
[ISL] 3장 - 선형회귀Data Science/Data Science in R 2019. 10. 24. 06:22
선형회귀는 다른 통계방법에 비해 간단하나 해석력이 뛰어나 여전히 널리쓰이고 있고 다른 방법들의 기초가 되는 지식이다.
선형회귀
대게 선형회귀 모형에서 시작하여 확장해 나가는 가장 간단한 형태의 지도학습 방법(변수들끼리의 시너지 효과(interaction)를 찾아내는 분석 기법)으로써, 다음과 같은 solution을 얻을 때 주로 사용된다.
-
실제로 광고 지출과 총 판매량간에 관계가 있는가?
-
그 관계가 얼마나 뚜렷한가?
-
TV, 라디어, 뉴스 모두 관계가 있는가, 아니라면 그 중 누가 관계가 있는가?
-
이를 통한 예측은 어느정도 정확하다 할수 있는가?
-
실제 관계가 선형관계인가?
-
각 매체간에 상호작용 효과는 없는가?(TV에 지출한것이 신문에 지출한 것에도 영향을 미치는경우)
이와 같은 질문에 대하여 선형회귀가 어떠한 답을 내줄 수 있는지를 알아볼 것이다.
선형회귀(Simple Linear Regression)
독립변수와 종속변수의 관계를 설명할 때 가장 많이 쓰이는 가장 단순한 모델로써, 식으로 써보자면 다음과 같다.
이때 β0과 β1이 우리가 추정하고자 하는 모델의 계수, 바꿔말하면 parameter고, 우리가 추정한 계수는 역시나 βhat0과 βhat1으로 쓴다.
1. 최소제곱법(Least Squares Method)에 쓰임새
그럼 어떻게 계수를 구할까? 간단하게 우리가 가진 데이터에 우리의 선형 식이 최대한 잘 맞도록 계수를 구한다. ‘잘 맞도록’하는 방법으로는 가장 대표적으로 least squares Method가 쓰인다.
예를 들면,
저기서 빨간색이 우리가 가진 데이터, 파란색이 우리가 추정한 함수이다.
추정된 함수와 가지고 있는 데이터의 차를 잔차라고 하는데, i번째 데이터에 대한 잔차를 ei라고 표현한다.
데이터와 추정된 함수가 얼마나 잘 맞는지는 잔차들을 제곱(square)해서 구한다. 이를 잔차제곱합 RSS 혹은 SSE이라고 한다.
그럼 이걸 최소화하는 계수를 어떻게 구할까? 해당 식이 제곱형태이니 미분해서 0이 되는 지점을 찾으면 된다.
각 parameter에 대해 미분하고 간단하게 정리하여 나온 least square를 통해 추정된 계수는 다음과 같다.
2. 추정의 정확성 평가
추정한 값에 대해 정확성을 평가할 수 있는 값은 여러가지가 있지만 대표적으로는 4가지가 있다.
1) Bias(편의) 2) SE(표준오차) 3) RSE(오차항의 표준편차의 추정치) 4) R^2(결정계수)
1) 다음 예시를 통해 Bias에 대해 알아보자.
위 그림에서는 빨간색이 true, 파란색이 추정치인데 오른쪽 그림은 추정치들이 예측값에 가까운 것을 보아 ‘bias가 작다.’라고 한다.
여기서 bias란, 많은 수의 데이터셋들로부터 적합된 직선을 반복해서 얻었을 때 평균적인 직선이 실제 모형과 얼마나 다른지 보는 개념이다.
즉, 얼마나 bias가 작냐, 분산이 얼마나 작냐에 따라 예측력을 따른다.
하지만, 선형회귀모형에서 MSE로 얻은 직선은 불편성(평균 직선과 실제 모형이 일치)이 성립된다.
2) 표준오차는 추정된 직선이 얼마나 실제모형과 멀 것인지 보는 개념이다. 표준오차는 신뢰구간의 구성과 가설검정에서도 활용된다.
3) RSE(오차항의 표준편차의 추정치)는 모형의 lack of fit 측도로 활용 가능하며, 다음과 같다.
4) R^2(결정계수) : 반응변수의 전체 변동 중 적합된 직선에 의해 설명되는 변동의 비율로써, 1에 가까우면 반응변수의 변동 중 많은 부분이 회귀에 의해 설명된 것이며 0에 가까우면 반응변수의 변동 중 대부분이 회귀에 의해 설명되지 않는다.
3. 선형회귀를 통해 알 수 있는 것들
Q1. 변수들간의 연관성이 존재하는가?
이 질문은 다음과 같은 가설형태로 표현이 가능하다.
또한, 가설 검정을 위한 통계량은 다음과 같으며, 귀무가설 하에서 F분포를 따른다.
위 식의 분모는 선형 가정 하에서 분자는 H0 하에서 모두 기댓값이 σ^2임이 알려져 있다. 만약 H0가 틀렸다면, 분자가 σ^2보다 큰 값을 가지게 되어 F값이 커질 것이다.
Q2. 어떤 변수가 더 중요한가?
의미없는 예측변수를 버리자 라는 의미로써, Cp, AIC, BIC 등 여러 변수 선택 방법 혹은 측도가 존재한다.
변수의 개수가 p개면 가능한 모형은 총 2^P개이므로 모든 모형을 적합하는 것은 비효율적이기에 변수를 선택하는 것은 중요하다. 변수를 선택하는 방법은 전진선택, 후진제거, 단계적선택법 등이 있으며 적절히 활용하면 되고, 고차원 변수일 경우 LASSO를 활용하여 변수의 차원의 수를 축소하는 예도 있다.
Q3. 모형 적합도
잔차 적합도를 통해 잔차도를 시각적으로 확인 해봐야한다.
Q4. 예측
계수에 대한 추정은 주어진 예측변수의 값에서 반응변수의 예측으로 이어진다. 하지만, 예측값에 대한 3가지의 불확실성이 있다.
1) Reducible error : 계수의 추정으로부터 오는 부정확성
2) Model bias : 선형성 가정은 실제에 대한 근사이므로 그 차이에서 오는 부정확성(클수록 피해야함)
3) Irreducible Error : f를 정확히 안다고 해도 오차
또한, 평균 반응에 대한 추정과 개별 반응에 대한 추정을 구분해야 한다. 예를 들어 설명하면 다음과 같다.
ex1) TV 광고를 50번 하면, 판매량은 100이다.(평균 반응)
ex2) 평균 판매량이 100인데, TV광고를 50번 했는데 TV광고를 통한 판매량은 어떻게 될까?(개별 반응)
4. 선형모형의 확장
선형모형을 확장하는 방법으로써는 가법성 가정을 제거하는 것이다. 대표적으로 interation term을 포함시키는 것이다.
interation term을 포함시키면 아래 그림과 같이 두 변수가 따로가 아닌 상호작용 하에서 Y에 영향을 준다.
5. 회귀분석 간 발생하는 문제들
비선형관계, 다중공선성(겹치는 변수가 많을 때 생김), 오차들 간의 상관성, 이상치, 영향치 등이 있다.
'Data Science > Data Science in R' 카테고리의 다른 글
[ISL] 6장 - Ridge&LASSO Regression(R 실습) (0) 2019.12.18 [ISL] 6장 - 예측변수 선택(Stepwise, CV)(R 실습) (0) 2019.12.18 [ISL] 4장 - 분류(R 실습) (0) 2019.10.24 [ISL] 5장 - Resampling Methods(CV) (0) 2019.10.24 [ISL] 4장 - 분류(이론) (0) 2019.10.23 -