본문 바로가기

Data_Analysis54

기초통계 - 조절 효과 1. 조절 효과 - 독립 변수와 종속 변수의 관계에서 방향, 힘의 크기를 변화시키는 효과 2. 조절 효과 확인 1) 조절 변수를 독립 변수로 투입 2) 조절 변수와 독립 변수를 곱한 interaction term을 투입 3) interaction term이 유의한 지 확인. - interaction term의 방향이 독립 변수와 동일하다면 기울기는 원래보다 더 커지거나 작아짐. - interaction term의 방향이 독립 변수와 동일하다면 방향이 바뀜. 3. 조절 효과의 중요성 - 선형 관계를 확인하는 회귀분석에서 비선형 관계를 알 수 있는 수단으로써 중요하다. 4. 조절 효과 예시 2020. 10. 21.
기초 통계 - Anova(one-way) 1. Anova 분석 - ttest는 집단 간의 평균으로 비교했다면, anova는 평균의 분산을 활용하기 때문에 분산분석이라고 부른다. - 2개 이상의 다수 집단 간의 차이를 비교할 때 사용 - F분포 이용 - 정규성, 분산의 동질성, 관찰의 독립성 가정 - Anova 분석 종류 : 일원 분산, 이원 분산분석, 다원 변량 분산분석, 공분산 분석 2. Anova(one-way) 변수 특징 - 종속 변수 : 연속형 데이터만 가능 - 독립 변수 : 이산형/범주형 데이터(1개 변수에서 범주가 여려개인 경우도 가능)만 가능 3. F-분포 1) F-value - F값은 2개의 분산(Between Variance, Within Variance)의 비율로, 이를 구하기 위해 모든 범주의 전체 평균과 각 범주의 평균이 .. 2020. 10. 21.
기초 통계 - Ttest 1. T-test 목적 - 두 집단 간 평균의 차이가 있는지, 있다면 유의미한 차이인지 우연적으로 발생한 것인지 검증하는 방법. 이때, 두 집단의 평균 차이가 유의미한지는 두 집단 데이터의 표준편차와 비교. 표준편차보다 작다면 무의미한 차이라고 볼 수 있음. 2. 양측 검정 vs 단측 검정 1) 양측 검정 : 가설을 뒷받침할 근거나 이론이 부족할 때 주로 사용 2) 단측 검정 : 가설을 뒷받침할 근거나 이론이 마련되어 있을 때 주로 사용 3. T-value 구하기 t-value = ((집단a 평균) - (집단 a 평균)) / root((집단 a 표준편차)^2/(집단 a 표본수)+(집단 b 표준편차)^2/(집단 b 표본수)) 노트 필기 2020. 10. 21.
[Pandas] Profiling [pandas profiling] 데이터 분석을 시작하기 전에 컬러 종류, 데이터의 개수, 컬럼별 통계정보, 결측값 등을 확인합니다. pandas profiling은 이 과정에서 용이한 라이브러리 입니다. 코드를 개별적으로 입력하지 않아도 기본적인 데이터 정보를 집계, 시각화해서 보여줍니다. 아래에서 캐글 데이터를 예시로 살펴보겠습니다. 1) 라이브러리와 파일을 준비 캐글에서 신용카드 불량거래 데이터 csv파일을 이용합니다. 저는 캐글 노트북에서 바로 코드를 작성했는데, 본인 주피터 노트북에서 작성하실 때는 캐글에서 데이터를 내려받고 read_csv("파일경로와 파일명")을 바꿔줍니다. # 라이브러리 준비 import numpy as np import pandas as pd import pandas_pr.. 2020. 10. 8.
[Machine Learning] Ensemble - Random Forest [랜덤포레스트] - 여러개의 의사결정트리를 사용하여 값을 예측하는 앙상블 학습 방법의 일종이며, bagging알고리즘을 . - 각각의 트리가 랜덤하게 Feature를 뽑아서 각각의 예측(prediction)을 다수결 또는 평균으로 최종 결론을 도출. - 1개의 의사결정나무로 도출한 결론보다 우수한 성능을 보이며,단일 의사결정나무의 단점인 과적합(overfitting)극복. [Bagging(Bootstrap Aggregation Sampling)] 중복을 허용하며 랜덤하게 표본을 추출하는 기법인 부트스트랩 (bootstrap) 과 결합을 의미하는 aggregating의 약자로, 조금씩 다른 표본 데이터로 여러 의사결정나무를 학습시키고 각 트리의 결과를 결합하는 방법이다. 출처 : 위키피디아 https://.. 2020. 7. 24.
[MachineLearning] Decision Tree(의사결정트리) [개념] - Root Node에서 LeafNode까지 특정한 기준에 맞는지/맞지 않는지를 데이터를 분류한다. - Node에서 데이터를 분류하는 기준은 2개 이상의 데이터 타입이 서로 얼마나 섞이지 않았고 잘 구분하는지(Impurity :불순도)로 정해진다. - 위 이미지에서 점선을 기준으로 위쪽으로는 빨간 공이 7/8, 점선 아래로는 파란 공이 4/7로 분류한다. - 의사결정나무는 추가적으로 점선을 그어 빨간공과 파란공이 섞이는 정도(impurity)를 최소화하는 것을 목표로 한다. [가지치기] - 의사결정나무의 깊이가 깊어지면 더 많은 기준을 사용하여 정교하게 데이터를 분류할 수 있으나(impurity↓), 이는 사용 중인 데이터에 대한 의존성이 높아져 Overfitting 문제를 야기할 수 있다. -.. 2020. 7. 23.
[Pandas] DataFrame 함수 (where()) [데이터 조회] 1) 인덱싱/슬라이싱으로 조건 생성 # df2의 "London"컬럼의 값 중에서 45보다 큰 값 가져오기 df2[df2["London"]>45][["London"]] ''' London Beth 58.0 Camila 76.0 ''' # df2의 "London"컬럼 값이 45보다 큰 행 가져오기 df2[df2["London"]>45] ''' NewYork London Paris Rome Beth 89.0 58.0 20.0 62.0 Camila 63.0 76.0 24.0 44.0 ''' 2) np.where : 조건에 따라 데이터를 조회 및 변경 # numpy의 함수 where()을 사용하여 조건주기 # import numpy as np # np.where(조건문,참일 경우, 거짓일 경우) .. 2020. 7. 22.