본문 바로가기
Data_Analysis/Numpy, Pandas

[Pandas] DataFrame 구조 확인

by Classic! 2020. 7. 21.

[DataFrame 구조]


1) index
2) columns
3) values

4) dtypes

5) describe

6) info


- tips 데이터 불러오기

import numpy as np
import pandas as pd
from pandas import DataFrame, Series

# tips 데이터 불러오기
tips = pd.read_csv("tips.csv")
tips

 

 

1) index : DataFrame의 인덱스 정보 요약

print(tips.index)
# RangeIndex(start=0, stop=245, step=1)
# 인덱스의 기본 값은 숫자로 표시.
# 0부터 행의 개수만큼 1씩 커지며 넘버링

 

2) columns : DataFrame의 컬럼명 나열

print(tips.columns)
# Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

 

3) values : DataFrame의 값 나열

print(tips.values)

# 각 행의 값들을 배열로 표시
'''
[[16.99 1.01 'Female' ... 'Sun' 'Dinner' 2.0]
 [10.34 1.66 'Male' ... 'Sun' 'Dinner' 3.0]
 [21.01 3.5 'Male' ... 'Sun' 'Dinner' 3.0]
 ...
 [17.82 1.75 'Male' ... 'Sat' 'Dinner' 2.0]
 [18.78 3.0 'Female' ... 'Thur' 'Dinner' 2.0]
 [25.34 nan nan ... nan nan nan]]
 '''

 

4) dtypes : 컬럼별 요소의 데이터 타입을 표시

# 컬럼별로 요소의 데이터 타입을 표시
print(tips.dtypes)

'''
total_bill    float64
tip           float64
sex            object
smoker         object
day            object
time           object
size          float64
dtype: object
'''

 

 

5) describe : 숫자형(int,float) 데이터 타입을 가진 컬럼의 통계적인 정보를 요약

tips.describe()

 

 

6) info : 컬럼의 대략적인 정보를 요약

tips.info()

'''
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244   # >>> 인덱스 정보
Data columns (total 7 columns):     # >>> 컬럼 개수, 컬럼명, Null값 여부, 요소의 dtype
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  245 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    float64
dtypes: float64(3), object(4)
memory usage: 13.5+ KB       	    # >>> 메모리 사용량
'''

 

 

댓글