본문 바로가기
Data_Analysis/기초통계

기초통계 - 이분산성(Heteroskedasticity)

by Classic! 2020. 10. 23.

1.이분 산성(Heteroskedasticity)

- 독립 변수의 모든 표본에 대해 교란 항의 확률분포가 일정하지 않음

- 이분산이 존재할 경우, 등분산성을 가정하는 통상적 최소 제곱 추정(Ordinary Least Squares) 적용이 어려움.

(OLS에서 모든 관측치들이 동등한 정도로 신뢰할 만하다고 가정함.

유효한(efficient) 추정을 위해서는 관측 치에 대해 가중치를 줌으로써 동일한 오차항 분산을 가져야 함)

- 시계열 자료보다 횡단면 자료에서 빈번하게 발생

 

2. 이분산성 원인

1) 학습을 통해 행위의 착오가 시간에 지남에 따라 감소하는 경우.

2) 소득이 증가함에 따라 소비는 더 커지는 경우.

3) 자료수집 단계에서의 오류

4) 이상치의 영향

5) 표기 오차

6) 왜도(Skewness)의 영향

 

3. 이분산성 확인 방법

1) 산포도와 잔차도 등 시각화 그래프로 확인

** 아래 test에서 유의하면 이분산이 존재함.

2) White Test(https://en.wikipedia.org/wiki/White_test)

3) GoldFeld-Quandt Test(https://en.wikipedia.org/wiki/Goldfeld%E2%80%93Quandt_test)

4) Breusch-Pagan Test(https://en.wikipedia.org/wiki/Breusch%E2%80%93Pagan_test)

 

4. 이분산성 해결방법

1) robust standard Error를 사용

- robust standard Error는 안정성과 이분산 문제의 해결책으로 인정받는 방법

- 이분산을 모를 때 사용 가능.

- 통계 패키지에서White의 이분산이 교정된 분산과 표준오차 구할 수 있는데,

여기서 White의 이분산 교정 표준오차가 로버스트 표준오차.

 

2) Weighted Least Square Regression 

- 이분산성의 함수를 찾아서 그 역함수로 독립변수를 만들어 추가하는 OLS추정 방법

 

3) Generalized Least Squares / Feasible Generalized Least Squares

- 고전적 모형의 가정을 만족시키기 위해 원래의 변수들을 변환하고 나서 OLS를 적용하는 절차

- GLS와 FGLS 모두 근본적으로 WLS와 유사한 방법

- GLS는 이분산을 알고 있을 때 사용 가능.

- OLS는 잔차 제곱의 합을 최소화하는 방법이라면, GLS는 잔차 제곱에 가중치를 곱한 합계를 극소화 한다.

이때, 이분산 제곱의 역수가 가중치 역할을 한다.

 

** GLS (2변수 모형을 예시로 본 GLS)

2변수 모형

- 위의 2변수 모형을 수학적  조작을 위해 아래와 같이 변형

- 이미 알고 있는 이분산량으로 위의 식을 나눠준다. 그런 다음, 이분산으로 나눠준 변수에 별표를 붙여 기존 OLS의 모수와 구분.

변환된 모형

- 아래와 같이 분산은 상수가 되며, 변환된 교란항인 ui*의 분산은 등분산이다.

-위 식에서 ui*의 분산이 등분산인 것을 확인했다.

이로부터 변환된 모형에 OLS를 적용하면 BLUE가 된다는 것을 알 수 있다.

(여기서, OLS 추정량이 아니라 GLS의 추정량인 b1*, b2*(=베타 1*, 베타 2*)가 BLUE)

'Data_Analysis > 기초통계' 카테고리의 다른 글

[기초통계] χ2 검정  (0) 2020.10.26
[기초통계] 결정계수 R square, 상관 계수 R  (0) 2020.10.26
기초 통계 - Anova(three-way)  (0) 2020.10.23
기초통계 - Anova(two-way)  (0) 2020.10.21
기초통계 - 조절 효과  (0) 2020.10.21

댓글