1. 회귀모델이란?
- 단량/다량 독립변수가 종속변수에 미치는 영향을 추정하는 통계 기법
2. 회귀모델 구분
1) 선형성
- 선형성을 기준으로 선형 회귀모델과 비선형 회귀모델로 나눌 수 있다.
- 선형 회귀 모델 : 회귀 계수의 선형 결합으로 이뤄진 모델
- 비선형 회귀 모델 : 회귀 계수가 비선형 관계로 이뤄진 모델
이때, 선형성은 종속/독립 변수가 아닌 회귀 계수 간의 선형성이다. 종속~독립변수 간의 선형관계와 다르다.
예를 들어, 아래 1번식은 독립변수 2개, 회귀 계수간, 독립~종속변수 간의 선형성을 만족하는 다중 선형 회귀 모델에 해당한다.
반면, 2번식은 회귀 계수 간의 선형성은 만족하지만, 독립~종속변수 간의 선형성을 만족하지 않는 다항 선형 회귀 모델이다.
1) Y = b0 + b1X1 + b2X2 +e
2) Y = b0 + b1X1+ b2X2^3 +e
이번 포스트에서는 선형 회귀 모형을 먼저 다룬다. 다항 회귀 분석에 대해서도 추후 다룰 예정이다.
2) 독립변수 개수
- 단순 회귀 모델 : 1개의 독립변수로 종속변수 1개 설명
- 다중 회귀 모델 : n개의 독립변수로 종속변수 1개 설명
[출처] 위키백과
3. 선형 회귀 모형 가정
1) 선형성
- 독립 변수와 종속 변수는 선형이다. 선형성을 만족하는 회귀식은 OLS로 계수를 추정했을 때, bias가 없는 추정량 중에서 Variance가 가장 작다.(=Best Linear Unbiased Estimator)
2) 독립변수 간의 독립성 : rank(x) =k
- 독립변수 간에는 상관관계가 없다.
- 독립 변수 간에 다중공선성이 존재하지 않으며, 독립변수 중 어느 것도 모형 내 다른 독립 변수와의 선형 조합으로 나타낼 수 없다.
- 선형 대수적 표현으로 열 벡터 X는 각 열에 대해 서로 독립이라 X의 위수(=rank)가 k이다.
3) 정규분포를 따르는 오차항 : E(u) = 0, u ~ N(0,1)
- 표본 오차는 일종의 확률 변수로서 일정한 분포를 따른다고 가정하며, 정규 분포를 따른다는 가정에서 기댓값은 0이 된다.
- β0를 이용하여 항상 E(u)=0로 정규화할 수 있다.
4) 오차항과 독립변수 간의 독립성 : E(u|x) = E(u) =0
- 독립변수와 오차항은 서로 독립이다. 독립변수로 오차항에 대한 어떤 정보도 설명할 수 없다는 의미이다. 따라서 E(y|x) = β0 + β1x로 나타낼 수 있다.
5) 오차항 간의 독립성
- 오차항 간의 자기상관성이 존재하지 않는다.
- 오차의 분산이 일정하다(등분산성) : Var(u|x) = E(u*ut) =s2
* ut : 표본오차의 역행렬
* s : 분산(시그마)
'Data_Analysis > 기초통계' 카테고리의 다른 글
[기초 통계] Logistic Regression - Odds Ratio (0) | 2020.11.25 |
---|---|
[기초통계] 공분산(Covariance) (0) | 2020.10.26 |
[기초통계] χ2 검정 (0) | 2020.10.26 |
[기초통계] 결정계수 R square, 상관 계수 R (0) | 2020.10.26 |
기초통계 - 이분산성(Heteroskedasticity) (0) | 2020.10.23 |
댓글