[Pandas] 그룹연산(groupby, pivot_table)
[그룹 연산] 1) groupby 2) pivot 1) groupby : 데이터를 그룹핑하여 객체로 반환. 단독으로 쓰이지 않고, 통계 함수와 함께 사용 - 데이터셋 생성 import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt # 데이터셋 생성 np.random.seed(100) df1=DataFrame({ "Gender":["Female","male","Female","male","Female","male","Female","Female"], "Smoking":["Smoker","Smoker","Smoker","Non-Smoker","Non-Smoker","Non-Sm..
2020. 7. 21.
[Pandas] 결측치 처리
[Pandas 결측치 처리] - Pandas는 누락 데이터를 NaN으로 처리한다. - NaN값은 데이터 연산에서 문제가 되므로 삭제하거나, 적절한 다른 값으로 변경할 필요가 있음. 1) 결측치 조회 - isnull(), notnull() 2) 결측치 삭제 - dropna() 3) 결측치 대체 - fillna() 1) 결측치 조회 1-1) isna(), isnull() : NaN값 조회 import pandas as pd import numpy as np from numpy import nan as na # 임의의 데이터프레인 생성 df=pd.DataFrame([[1,6.5,3],[1,na,na],[na,na,na],[na,6.5,3]]) df # 값이 NaN이면 True, 아니면 False로 나타남 df..
2020. 7. 21.
[Pandas] DataFrame 함수 (컬럼명 변경, 컬럼 추가/삭제/정렬)
[DataFrame 관련 함수] 1) 컬럼명 변경 - columns, rename 2) 컬럼추가 3) 삭제 - drop(), del 4) 정렬 - sort_values(), sort_index() 1) 컬럼명 변경 data2={'name':["James","Beth","Camila","Elsa"], 'adderss':["NY1","NY1","NY2","NY1"], 'age':[12,45,23,16] } # 원래 컬럼명 : ["NY1","NY1","NY2","NY1"] df2=DataFrame(np.random.randint(10,100,16).reshape(4,4),index=data2['name'],columns=data2['adderss']) df2 1-1) columns : 전체 컬럼의 이름을 변경..
2020. 7. 21.