본문 바로가기
Data_Analysis/기초통계

[기초통계] 공분산(Covariance)

by Classic! 2020. 10. 26.

*** PCA를 다루기 전 알아야 하는 공분산에 관한 내용을 정리하기 위함입니다.

공분산에 대한 기본적인 내용은 https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0에서 참고합니다.


1. 공분산

1) 개념

두 변수의 평균값을 중심으로 퍼져있는 평균적인 거리

2) 특징

- 분산은 언제나 양수이지만, 공분산은 양일 수도, 음일 수도 있다.

- x와 y의 공분산은 x와 y의 방향성을 말하기도 함

- 공분산으로 데이터의 밀집도는 알 수 없음. 상관관계로 알 수 있다.

3) 공분산 매트릭스

 

 

2. 공분산과 상관관계

- 상관계수는 x,y의 공분산을 표준편차로 나눈 것.

- 공분산이 단위에 영향을 많이 받기 때문에 데이터를 표준화하여 동일한 단위로 데이터를 비교할 수 있게 한다.

이를 통해 데이터의 밀집도를 알 수 있음

- X,Y가 완벽한 선형이면 상관계수는 1 또는 -1이 된다. 이는 데이터의 밀집도가 커짐을 의미한다.

 

댓글