본문 바로가기
Data_Analysis/기초통계

[기초 통계] 선형 회귀 모델 (Linear Regression Model)

by Classic! 2020. 11. 15.

1. 회귀모델이란?

- 단량/다량 독립변수가 종속변수에 미치는 영향을 추정하는 통계 기법

 

 

2. 회귀모델 구분

1) 선형성

- 선형성을 기준으로 선형 회귀모델과 비선형 회귀모델로 나눌 수 있다. 

- 선형 회귀 모델 : 회귀 계수의 선형 결합으로 이뤄진 모델

- 선형 회귀 모델 : 회귀 계수가 비선형 관계로 이뤄진 모델

이때, 선형성은 종속/독립 변수가 아닌 회귀 계수 간의 선형성이다. 종속~독립변수 간의 선형관계와 다르다.

예를 들어, 아래 1번식은 독립변수 2개, 회귀 계수간, 독립~종속변수 간의 선형성을 만족하는 다중 선형 회귀 모델에 해당한다.

반면, 2번식은 회귀 계수 간의 선형성은 만족하지만, 독립~종속변수 간의 선형성을 만족하지 않는 다항 선형 회귀 모델이다. 

                1) Y = b0 + b1X1 + b2X2 +e

                2) Y = b0 + b1X1+ b2X2^3  +e

이번 포스트에서는 선형 회귀 모형을 먼저 다룬다. 다항 회귀 분석에 대해서도 추후 다룰 예정이다.

 

2) 독립변수 개수

- 단순 회귀 모델 : 1개의 독립변수로 종속변수 1개 설명

- 다중 회귀 모델 : n개의 독립변수로 종속변수 1개 설명

독립변수 1개인 선형 회귀

[출처] 위키백과

 

선형 회귀 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 독립변수 1개와 종속변수 1개를 가진 선형 회귀의 예 통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명

ko.wikipedia.org

 

 

 

3. 선형 회귀 모형 가정

 

1) 선형성

-  독립 변수와 종속 변수는 선형이다. 선형성을 만족하는 회귀식은 OLS로 계수를 추정했을 때, bias가 없는 추정량 중에서 Variance가 가장 작다.(=Best Linear Unbiased Estimator)

 

2) 독립변수 간의 독립성 : rank(x) =k

- 독립변수 간에는 상관관계가 없다.

- 독립 변수 간에 다중공선성이 존재하지 않으며, 독립변수 중 어느 것도 모형 내 다른 독립 변수와의 선형 조합으로 나타낼 수 없다.

- 선형 대수적 표현으로 열 벡터 X는 각 열에 대해 서로 독립이라 X의 위수(=rank)가 k이다. 

 

3) 정규분포를 따르는 오차항 : E(u) = 0,  u ~ N(0,1)

- 표본 오차는 일종의 확률 변수로서 일정한 분포를 따른다고 가정하며, 정규 분포를 따른다는 가정에서 기댓값은 0이 된다.

- β0를 이용하여 항상 E(u)=0로 정규화할 수 있다.

 

4) 오차항과 독립변수 간의 독립성 : E(u|x) = E(u) =0

- 독립변수와 오차항은 서로 독립이다. 독립변수로 오차항에 대한 어떤 정보도 설명할 수 없다는 의미이다. 따라서 E(y|x) = β0 + β1x로 나타낼 수 있다.

 

5) 오차항 간의 독립성

- 오차항 간의 자기상관성이 존재하지 않는다.

오차의 분산이 일정하다(등분산성) : Var(u|x) = E(u*ut) =s2

ut : 표본오차의 역행렬

s : 분산(시그마)

 

 

 

댓글