본문 바로가기

Python5

[Pandas] 파일 불러오기 - Encoding python으로 데이터를 다룰 때 주로 외부에 저장된 csv, text, excel 등 형태의 파일을 불러와서 사용합니다. 이때, 파일을 불러오는 방법을 2가지 정도 소개하고자 합니다. 한글이 포함된 파일을 불러올 때 필요한 인코딩 방법 위주로 작성했습니다. 1. pandas.read_csv() - 기본적으로 read_~~메서드는 "경로/파일명.확장자"만 포함해서 파일을 불러올 수 있다. - encoding이 필요한 경우 encoding="utf-8" 옵션을 추가한다. import pandas as pd # csv형태의 ratings 파일 불러오기. "경로/파일명.확장자" data=pd.read_csv("C:/ratings.csv",encoding="utf-8") 다음은 엑셀 파일을 불러온 것이다. - .. 2020. 12. 17.
[Pandas] 결측치 처리 [Pandas 결측치 처리] - Pandas는 누락 데이터를 NaN으로 처리한다. - NaN값은 데이터 연산에서 문제가 되므로 삭제하거나, 적절한 다른 값으로 변경할 필요가 있음. 1) 결측치 조회 - isnull(), notnull() 2) 결측치 삭제 - dropna() 3) 결측치 대체 - fillna() 1) 결측치 조회 1-1) isna(), isnull() : NaN값 조회 import pandas as pd import numpy as np from numpy import nan as na # 임의의 데이터프레인 생성 df=pd.DataFrame([[1,6.5,3],[1,na,na],[na,na,na],[na,6.5,3]]) df # 값이 NaN이면 True, 아니면 False로 나타남 df.. 2020. 7. 21.
[Pandas] DataFrame 함수 (컬럼명 변경, 컬럼 추가/삭제/정렬) [DataFrame 관련 함수] 1) 컬럼명 변경 - columns, rename 2) 컬럼추가 3) 삭제 - drop(), del 4) 정렬 - sort_values(), sort_index() 1) 컬럼명 변경 data2={'name':["James","Beth","Camila","Elsa"], 'adderss':["NY1","NY1","NY2","NY1"], 'age':[12,45,23,16] } # 원래 컬럼명 : ["NY1","NY1","NY2","NY1"] df2=DataFrame(np.random.randint(10,100,16).reshape(4,4),index=data2['name'],columns=data2['adderss']) df2 1-1) columns : 전체 컬럼의 이름을 변경.. 2020. 7. 21.
[Pandas] DataFrame 구조 확인 [DataFrame 구조] 1) index 2) columns 3) values 4) dtypes 5) describe 6) info - tips 데이터 불러오기 import numpy as np import pandas as pd from pandas import DataFrame, Series # tips 데이터 불러오기 tips = pd.read_csv("tips.csv") tips 1) index : DataFrame의 인덱스 정보 요약 print(tips.index) # RangeIndex(start=0, stop=245, step=1) # 인덱스의 기본 값은 숫자로 표시. # 0부터 행의 개수만큼 1씩 커지며 넘버링 2) columns : DataFrame의 컬럼명 나열 print(tips.c.. 2020. 7. 21.
[Pandas] DataFrame 생성 [DataFrame] : 2차원 배열 형식의 table형 자료구조. - 여러 개의 컬럼을 가지며, 컬럼의 데이터 타입은 서로 다를 수 있음. [DataFrame 생성] 1) 리스트의 값을 딕셔너리로 사용 2) Numpy배열을 이용 3) read_csv(),read_excel() - 라이브러리 import import numpy as np import pandas as pd from pandas import DataFrame, Series 1) 딕셔너리를 이용해서 DataFrame 만들기 list_dic={'state':['ohio','ohio','ohio','Nevada','Nevada','Nevada'], 'year':[2000,2001,2002,2001,2002,2003], 'pop':[1.5,1.7.. 2020. 7. 21.