[pandas profiling]
데이터 분석을 시작하기 전에 컬러 종류, 데이터의 개수, 컬럼별 통계정보, 결측값 등을 확인합니다.
pandas profiling은 이 과정에서 용이한 라이브러리 입니다.
코드를 개별적으로 입력하지 않아도 기본적인 데이터 정보를 집계, 시각화해서 보여줍니다.
아래에서 캐글 데이터를 예시로 살펴보겠습니다.
1) 라이브러리와 파일을 준비
캐글에서 신용카드 불량거래 데이터 csv파일을 이용합니다.
저는 캐글 노트북에서 바로 코드를 작성했는데,
본인 주피터 노트북에서 작성하실 때는 캐글에서 데이터를 내려받고 read_csv("파일경로와 파일명")을 바꿔줍니다.
# 라이브러리 준비
import numpy as np
import pandas as pd
import pandas_profiling
# 파일 불러오기
creditcard=pd.read_csv("/kaggle/input/creditcardfraud/creditcard.csv")
2) 리포트 생성
파일명.profile_report() 코드를 입력하면 파일에 대한 프로파일링 정보를 생성하고 cred_cred_profile라는 이름으로 저장합니다.
cred_profile=creditcard.profile_report() # 리포트 생성
3) html 파일로 저장
cred_profile을 html파일로 row데이터와 동일한 경로에 저장합니다.
그리고 노트북에서 바로 실행하면 아래와 같이 뜹니다.
cred_profile.to_file('./pr_report.html') # html로 저장
cred_profile
또한 html로 파일이 저장해두었기 때문에 폴더에서 html파일을 열면 더 편하게 확인할 수 있습니다.
이 외에도 변수 간의 상관관계, 결측값을 heatmap, matrix 등의 형태로 시각화 하여 보여줍니다.
'Data_Analysis > Numpy, Pandas' 카테고리의 다른 글
[Pandas] 파일 불러오기 - Encoding (0) | 2020.12.17 |
---|---|
[Pandas] DataFrame 함수 (where()) (0) | 2020.07.22 |
[Pandas] 그룹연산(groupby, pivot_table) (0) | 2020.07.21 |
[Pandas] Concat, Merge (0) | 2020.07.21 |
[Pandas] 결측치 처리 (0) | 2020.07.21 |
댓글