*** PCA를 다루기 전 알아야 하는 공분산에 관한 내용을 정리하기 위함입니다.
공분산에 대한 기본적인 내용은 https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0에서 참고합니다.
1. 공분산
1) 개념
두 변수의 평균값을 중심으로 퍼져있는 평균적인 거리
2) 특징
- 분산은 언제나 양수이지만, 공분산은 양일 수도, 음일 수도 있다.
- x와 y의 공분산은 x와 y의 방향성을 말하기도 함
- 공분산으로 데이터의 밀집도는 알 수 없음. 상관관계로 알 수 있다.
3) 공분산 매트릭스
2. 공분산과 상관관계
- 상관계수는 x,y의 공분산을 표준편차로 나눈 것.
- 공분산이 단위에 영향을 많이 받기 때문에 데이터를 표준화하여 동일한 단위로 데이터를 비교할 수 있게 한다.
이를 통해 데이터의 밀집도를 알 수 있음
- X,Y가 완벽한 선형이면 상관계수는 1 또는 -1이 된다. 이는 데이터의 밀집도가 커짐을 의미한다.
'Data_Analysis > 기초통계' 카테고리의 다른 글
[기초 통계] Logistic Regression - Odds Ratio (0) | 2020.11.25 |
---|---|
[기초 통계] 선형 회귀 모델 (Linear Regression Model) (0) | 2020.11.15 |
[기초통계] χ2 검정 (0) | 2020.10.26 |
[기초통계] 결정계수 R square, 상관 계수 R (0) | 2020.10.26 |
기초통계 - 이분산성(Heteroskedasticity) (0) | 2020.10.23 |
댓글