본문 바로가기

Data_Analysis54

[Machine Learning] NLP - 텍스트처리(Tokenize) 1. Tockenize란? : 자연어 분석의 초기 단계에 텍스트를 분석에 필요한 단어/의미 등의 단위로 쪼개는 과정을 말합니다. 2. Tockenize 기준 텍스트를 구분하는 절대적인 기준은 없습니다. 단어, 어간, 공백 등으로 자를 수 있습니다. 1) 단어 : 분리하여 자립적으로 쓸 수 있는 말이나 이에 준하는 말. 또는 그 말의 뒤에 붙어서 문법적 기능을 나타내는 말. “철수가 영희의 일기를 읽은 것 같다.”에서 자립적으로 쓸 수 있는 ‘철수’, ‘영희’, ‘일기’, ‘읽은’, ‘같다’와 조사 ‘가’, ‘의’, ‘를’, 의존 명사 ‘것’ 따위이다. [출처] : https://ko.dict.naver.com/#/search?query=%EB%8B%A8%EC%96%B4 단어로 자를 경우 품사에 유의해야 .. 2020. 10. 31.
[기초통계] 공분산(Covariance) *** PCA를 다루기 전 알아야 하는 공분산에 관한 내용을 정리하기 위함입니다. 공분산에 대한 기본적인 내용은 https://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0에서 참고합니다. 1. 공분산 1) 개념 두 변수의 평균값을 중심으로 퍼져있는 평균적인 거리 2) 특징 - 분산은 언제나 양수이지만, 공분산은 양일 수도, 음일 수도 있다. - x와 y의 공분산은 x와 y의 방향성을 말하기도 함 - 공분산으로 데이터의 밀집도는 알 수 없음. 상관관계로 알 수 있다. 3) 공분산 매트릭스 2. 공분산과 상관관계 - 상관계수는 x,y의 공분산을 표준편차로 나눈 것. - 공분산이 단위에 영향을 많이 받기 때문에 데이터를 표준화하여 동일한 단위로 데이터를 비교할 수 .. 2020. 10. 26.
[기초통계] χ2 검정 1. χ2 검정 1) 개념 - 종속변수와 독립변수가 명목 척도일 때 사용하는 검정 방법 2) 목적 - 1개 변수 : 변수 내 그룹 간의 비율이 같은지 다른지 알기 위해 평균을 비교 - 2개 변수 : 변수 사이의 연관성이 있는지 확인하는 목적 3) 공식 O : 관찰 빈도 E : 기대 빈도 4) 특징 - 범주의 종류가 많아질수록 χ2 그래프가 오른쪽으로 평탄해지는 경향이 있음 [출처] https://ko.wikipedia.org/wiki/%EC%B9%B4%EC%9D%B4%EC%A0%9C%EA%B3%B1_%EB%B6%84%ED%8F%AC 카이제곱 분포 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 카이제곱 분포(χ제곱分布, 영어: chi-squared distribution) 또는 χ2.. 2020. 10. 26.
[기초통계] 결정계수 R square, 상관 계수 R 1. R square (결정계수) - 표본 회귀선이 관측치를 얼마나 잘 설명하는지 측정하는 척도 1) R square 구하기 결국 R square는 종속 변수에서 독립 변수로 설명 가능한 영역을 나타냄 2) R square 특징 - 음의 값을 가질 수 없음. 0 2020. 10. 26.
기초통계 - 이분산성(Heteroskedasticity) 1.이분 산성(Heteroskedasticity) - 독립 변수의 모든 표본에 대해 교란 항의 확률분포가 일정하지 않음 - 이분산이 존재할 경우, 등분산성을 가정하는 통상적 최소 제곱 추정(Ordinary Least Squares) 적용이 어려움. (OLS에서 모든 관측치들이 동등한 정도로 신뢰할 만하다고 가정함. 유효한(efficient) 추정을 위해서는 관측 치에 대해 가중치를 줌으로써 동일한 오차항 분산을 가져야 함) - 시계열 자료보다 횡단면 자료에서 빈번하게 발생 2. 이분산성 원인 1) 학습을 통해 행위의 착오가 시간에 지남에 따라 감소하는 경우. 2) 소득이 증가함에 따라 소비는 더 커지는 경우. 3) 자료수집 단계에서의 오류 4) 이상치의 영향 5) 표기 오차 6) 왜도(Skewness)의.. 2020. 10. 23.
기초 통계 - Anova(three-way) 1. Three-way Anova - 3개의 독립변수 분석 방법 - 3개 이상의 변수 분석은 interaction이 늘어나면서 결과 해석에 어려움이 있어 잘 쓰지 않음 2. F-value 계산 - two-way와 동일한 방식으로 계산 - three-way에 interaction이 추가되면서 계산은 아래와 같이 변경 3. 해석의 유의점 - 변수 A와 B의 interaction effect는 변수 C의 모든 그룹의 평균을 전제한 후, 변수 A의 효과가 모든 그룹의 변수 B에서 동일하게 나타나는지 확인 one-way Anova 2020/10/21 - [Bigdata&AI/기초통계] - 기초 통계 - Anova(one-way) two-way Anova 2020/10/21 - [Bigdata&AI/기초통계] - .. 2020. 10. 23.
기초통계 - Anova(two-way) 1. Two-way Anova 1) Two-way Anova 특징 - 독립 변수가 2개이고, 상호작용(interaction)이 존재할 수 있는 Anova 분석 방법 2) Interaction - 상호작용은 독립변수의 main effect가 다른 독립 변수의 level(=범주형 데이터의 group)에 따라 기존의 선형 관계를 비선형으로 바꾸는 것. - 상호작용이 존재한다는 것은 종속 변수에 대한 특정 독립변수의 영향 관계가 다른 독립 변수의 범주 개수에 따라 변한다는 것을 의미 2. F-value 1) two-way에서는 추가적인 F값이 필요하다. - X1의 main effect를 측정하기 위한 F값 - X2의 main effect를 측정하기 위한 F값 - 상호작용의 효과를 측정하기 위한 F값 2) 가설 .. 2020. 10. 21.