본문 바로가기

Data_Analysis54

[Pandas] 그룹연산(groupby, pivot_table) [그룹 연산] 1) groupby 2) pivot 1) groupby : 데이터를 그룹핑하여 객체로 반환. 단독으로 쓰이지 않고, 통계 함수와 함께 사용 - 데이터셋 생성 import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt # 데이터셋 생성 np.random.seed(100) df1=DataFrame({ "Gender":["Female","male","Female","male","Female","male","Female","Female"], "Smoking":["Smoker","Smoker","Smoker","Non-Smoker","Non-Smoker","Non-Sm.. 2020. 7. 21.
[Pandas] Concat, Merge [DataFrame을 합치기] 1) concat 2) merge 1) concat - 단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법 이 경우, 2개의 DataFrame의 인덱스와 컬럼이 서로 동일한 경우가 대부분 - 기본이 위,아래로 연결. axis 수정하여 좌우 연결 가능. - outer 조인을 기본 방식으로 한다. - key를 이용한 concat이 가능하다 - 데이터셋 생성 df1=DataFrame({ 'A':['A0','A1','A2','A3'], "B":['B0','B1','B2','B3'], "C":['C0','C1','C2','C3'], "D":['D0','D1','D2','D3'] }) df2=DataFrame({ 'A':['A4','A5','A6','A7.. 2020. 7. 21.
[Pandas] 결측치 처리 [Pandas 결측치 처리] - Pandas는 누락 데이터를 NaN으로 처리한다. - NaN값은 데이터 연산에서 문제가 되므로 삭제하거나, 적절한 다른 값으로 변경할 필요가 있음. 1) 결측치 조회 - isnull(), notnull() 2) 결측치 삭제 - dropna() 3) 결측치 대체 - fillna() 1) 결측치 조회 1-1) isna(), isnull() : NaN값 조회 import pandas as pd import numpy as np from numpy import nan as na # 임의의 데이터프레인 생성 df=pd.DataFrame([[1,6.5,3],[1,na,na],[na,na,na],[na,6.5,3]]) df # 값이 NaN이면 True, 아니면 False로 나타남 df.. 2020. 7. 21.
[Pandas] DataFrame 함수 (컬럼명 변경, 컬럼 추가/삭제/정렬) [DataFrame 관련 함수] 1) 컬럼명 변경 - columns, rename 2) 컬럼추가 3) 삭제 - drop(), del 4) 정렬 - sort_values(), sort_index() 1) 컬럼명 변경 data2={'name':["James","Beth","Camila","Elsa"], 'adderss':["NY1","NY1","NY2","NY1"], 'age':[12,45,23,16] } # 원래 컬럼명 : ["NY1","NY1","NY2","NY1"] df2=DataFrame(np.random.randint(10,100,16).reshape(4,4),index=data2['name'],columns=data2['adderss']) df2 1-1) columns : 전체 컬럼의 이름을 변경.. 2020. 7. 21.
[Pandas] DataFrame 함수 - 데이터 조회 [데이터 조회 함수] 1) head/tail 2) 인덱싱 - iat(), at() 3) 슬라이싱 - iloc(), loc() 1) head,tail print(df3.head(10)) print("*"*50) # head()는 0~5행 조회하는 것과 같음. # head(),tail() 기본값으로 5행을 보여줌 print(df3[:5]) print("*"*50) print(df3.tail(10)) print("*"*50) # shape() 행과 열의 개수를 알려줌 print(df3.shape) #shape는 튜플로 출력 ''' # print(df3.head(10)) total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2.0 1.. 2020. 7. 21.
[Pandas] DataFrame 구조 확인 [DataFrame 구조] 1) index 2) columns 3) values 4) dtypes 5) describe 6) info - tips 데이터 불러오기 import numpy as np import pandas as pd from pandas import DataFrame, Series # tips 데이터 불러오기 tips = pd.read_csv("tips.csv") tips 1) index : DataFrame의 인덱스 정보 요약 print(tips.index) # RangeIndex(start=0, stop=245, step=1) # 인덱스의 기본 값은 숫자로 표시. # 0부터 행의 개수만큼 1씩 커지며 넘버링 2) columns : DataFrame의 컬럼명 나열 print(tips.c.. 2020. 7. 21.
[Pandas] DataFrame 생성 [DataFrame] : 2차원 배열 형식의 table형 자료구조. - 여러 개의 컬럼을 가지며, 컬럼의 데이터 타입은 서로 다를 수 있음. [DataFrame 생성] 1) 리스트의 값을 딕셔너리로 사용 2) Numpy배열을 이용 3) read_csv(),read_excel() - 라이브러리 import import numpy as np import pandas as pd from pandas import DataFrame, Series 1) 딕셔너리를 이용해서 DataFrame 만들기 list_dic={'state':['ohio','ohio','ohio','Nevada','Nevada','Nevada'], 'year':[2000,2001,2002,2001,2002,2003], 'pop':[1.5,1.7.. 2020. 7. 21.