본문 바로가기

Data_Analysis/기초통계11

[기초 통계] Logistic Regression - Odds Ratio 보호되어 있는 글 입니다. 2020. 11. 25.
[기초 통계] 선형 회귀 모델 (Linear Regression Model) 1. 회귀모델이란? - 단량/다량 독립변수가 종속변수에 미치는 영향을 추정하는 통계 기법 2. 회귀모델 구분 1) 선형성 - 선형성을 기준으로 선형 회귀모델과 비선형 회귀모델로 나눌 수 있다. - 선형 회귀 모델 : 회귀 계수의 선형 결합으로 이뤄진 모델 - 비선형 회귀 모델 : 회귀 계수가 비선형 관계로 이뤄진 모델 이때, 선형성은 종속/독립 변수가 아닌 회귀 계수 간의 선형성이다. 종속~독립변수 간의 선형관계와 다르다. 예를 들어, 아래 1번식은 독립변수 2개, 회귀 계수간, 독립~종속변수 간의 선형성을 만족하는 다중 선형 회귀 모델에 해당한다. 반면, 2번식은 회귀 계수 간의 선형성은 만족하지만, 독립~종속변수 간의 선형성을 만족하지 않는 다항 선형 회귀 모델이다. 1) Y = b0 + b1X1 +.. 2020. 11. 15.
[기초통계] 공분산(Covariance) *** PCA를 다루기 전 알아야 하는 공분산에 관한 내용을 정리하기 위함입니다. 공분산에 대한 기본적인 내용은 https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0에서 참고합니다. 1. 공분산 1) 개념 두 변수의 평균값을 중심으로 퍼져있는 평균적인 거리 2) 특징 - 분산은 언제나 양수이지만, 공분산은 양일 수도, 음일 수도 있다. - x와 y의 공분산은 x와 y의 방향성을 말하기도 함 - 공분산으로 데이터의 밀집도는 알 수 없음. 상관관계로 알 수 있다. 3) 공분산 매트릭스 2. 공분산과 상관관계 - 상관계수는 x,y의 공분산을 표준편차로 나눈 것. - 공분산이 단위에 영향을 많이 받기 때문에 데이터를 표준화하여 동일한 단위로 데이터를 비교할 수 .. 2020. 10. 26.
[기초통계] χ2 검정 1. χ2 검정 1) 개념 - 종속변수와 독립변수가 명목 척도일 때 사용하는 검정 방법 2) 목적 - 1개 변수 : 변수 내 그룹 간의 비율이 같은지 다른지 알기 위해 평균을 비교 - 2개 변수 : 변수 사이의 연관성이 있는지 확인하는 목적 3) 공식 O : 관찰 빈도 E : 기대 빈도 4) 특징 - 범주의 종류가 많아질수록 χ2 그래프가 오른쪽으로 평탄해지는 경향이 있음 [출처] https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EB%B6%84%ED%8F%AC 카이제곱 분포 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 카이제곱 분포(χ제곱分布, 영어: chi-squared distribution) 또는 χ2.. 2020. 10. 26.
[기초통계] 결정계수 R square, 상관 계수 R 1. R square (결정계수) - 표본 회귀선이 관측치를 얼마나 잘 설명하는지 측정하는 척도 1) R square 구하기 결국 R square는 종속 변수에서 독립 변수로 설명 가능한 영역을 나타냄 2) R square 특징 - 음의 값을 가질 수 없음. 0 2020. 10. 26.
기초통계 - 이분산성(Heteroskedasticity) 1.이분 산성(Heteroskedasticity) - 독립 변수의 모든 표본에 대해 교란 항의 확률분포가 일정하지 않음 - 이분산이 존재할 경우, 등분산성을 가정하는 통상적 최소 제곱 추정(Ordinary Least Squares) 적용이 어려움. (OLS에서 모든 관측치들이 동등한 정도로 신뢰할 만하다고 가정함. 유효한(efficient) 추정을 위해서는 관측 치에 대해 가중치를 줌으로써 동일한 오차항 분산을 가져야 함) - 시계열 자료보다 횡단면 자료에서 빈번하게 발생 2. 이분산성 원인 1) 학습을 통해 행위의 착오가 시간에 지남에 따라 감소하는 경우. 2) 소득이 증가함에 따라 소비는 더 커지는 경우. 3) 자료수집 단계에서의 오류 4) 이상치의 영향 5) 표기 오차 6) 왜도(Skewness)의.. 2020. 10. 23.
기초 통계 - Anova(three-way) 1. Three-way Anova - 3개의 독립변수 분석 방법 - 3개 이상의 변수 분석은 interaction이 늘어나면서 결과 해석에 어려움이 있어 잘 쓰지 않음 2. F-value 계산 - two-way와 동일한 방식으로 계산 - three-way에 interaction이 추가되면서 계산은 아래와 같이 변경 3. 해석의 유의점 - 변수 A와 B의 interaction effect는 변수 C의 모든 그룹의 평균을 전제한 후, 변수 A의 효과가 모든 그룹의 변수 B에서 동일하게 나타나는지 확인 one-way Anova 2020/10/21 - [Bigdata&AI/기초통계] - 기초 통계 - Anova(one-way) two-way Anova 2020/10/21 - [Bigdata&AI/기초통계] - .. 2020. 10. 23.