[Pandas] 그룹연산(groupby, pivot_table)
[그룹 연산] 1) groupby 2) pivot 1) groupby : 데이터를 그룹핑하여 객체로 반환. 단독으로 쓰이지 않고, 통계 함수와 함께 사용 - 데이터셋 생성 import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt # 데이터셋 생성 np.random.seed(100) df1=DataFrame({ "Gender":["Female","male","Female","male","Female","male","Female","Female"], "Smoking":["Smoker","Smoker","Smoker","Non-Smoker","Non-Smoker","Non-Sm..
2020. 7. 21.
[Pandas] Concat, Merge
[DataFrame을 합치기] 1) concat 2) merge 1) concat - 단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법 이 경우, 2개의 DataFrame의 인덱스와 컬럼이 서로 동일한 경우가 대부분 - 기본이 위,아래로 연결. axis 수정하여 좌우 연결 가능. - outer 조인을 기본 방식으로 한다. - key를 이용한 concat이 가능하다 - 데이터셋 생성 df1=DataFrame({ 'A':['A0','A1','A2','A3'], "B":['B0','B1','B2','B3'], "C":['C0','C1','C2','C3'], "D":['D0','D1','D2','D3'] }) df2=DataFrame({ 'A':['A4','A5','A6','A7..
2020. 7. 21.
[Pandas] 결측치 처리
[Pandas 결측치 처리] - Pandas는 누락 데이터를 NaN으로 처리한다. - NaN값은 데이터 연산에서 문제가 되므로 삭제하거나, 적절한 다른 값으로 변경할 필요가 있음. 1) 결측치 조회 - isnull(), notnull() 2) 결측치 삭제 - dropna() 3) 결측치 대체 - fillna() 1) 결측치 조회 1-1) isna(), isnull() : NaN값 조회 import pandas as pd import numpy as np from numpy import nan as na # 임의의 데이터프레인 생성 df=pd.DataFrame([[1,6.5,3],[1,na,na],[na,na,na],[na,6.5,3]]) df # 값이 NaN이면 True, 아니면 False로 나타남 df..
2020. 7. 21.
[Pandas] DataFrame 함수 (컬럼명 변경, 컬럼 추가/삭제/정렬)
[DataFrame 관련 함수] 1) 컬럼명 변경 - columns, rename 2) 컬럼추가 3) 삭제 - drop(), del 4) 정렬 - sort_values(), sort_index() 1) 컬럼명 변경 data2={'name':["James","Beth","Camila","Elsa"], 'adderss':["NY1","NY1","NY2","NY1"], 'age':[12,45,23,16] } # 원래 컬럼명 : ["NY1","NY1","NY2","NY1"] df2=DataFrame(np.random.randint(10,100,16).reshape(4,4),index=data2['name'],columns=data2['adderss']) df2 1-1) columns : 전체 컬럼의 이름을 변경..
2020. 7. 21.
[Pandas] DataFrame 생성
[DataFrame] : 2차원 배열 형식의 table형 자료구조. - 여러 개의 컬럼을 가지며, 컬럼의 데이터 타입은 서로 다를 수 있음. [DataFrame 생성] 1) 리스트의 값을 딕셔너리로 사용 2) Numpy배열을 이용 3) read_csv(),read_excel() - 라이브러리 import import numpy as np import pandas as pd from pandas import DataFrame, Series 1) 딕셔너리를 이용해서 DataFrame 만들기 list_dic={'state':['ohio','ohio','ohio','Nevada','Nevada','Nevada'], 'year':[2000,2001,2002,2001,2002,2003], 'pop':[1.5,1.7..
2020. 7. 21.