파이썬/라이브러리

파이썬 라이브러리13 pandas 2차원: DataFrame만들기/ pd.read_csv 불러오기 / csv 불러오기중 주의사항

공부짱짱열심히하기 2022. 11. 24. 10:28

DataFrame

판다스 2차원 데이터 처리는 데이터 프레임으로 처리한다.

 

pd.DataFrame(data= 데이터들어있는 변수)

파라미터 안에 데이터가 저장된 변수를 넣으면

import pandas as pd

# We create a dictionary of Pandas Series 
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
         'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'

 

 

여기서 맨왼쪽은 인덱스

맨위쪽은 컬럼

데이터는 value를 의미

 

다른 명령어는 전부 1차원과 같은 함수를 쓰지만

 

type을 알고싶을땐

. info를 사용한다

df.info()
<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, bike to watch
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Bob     3 non-null      float64
 1   Alice   4 non-null      float64
dtypes: float64(2)
memory usage: 120.0+ bytes

데이터 프레임 불러오기

csv로 저장된 데이터 프레임을 불러 오고 싶을때는

pd.read_csv('@@@.csv')

같은 폴더 안에 있을때는 파일명으로 불러 올수 있다.

일반적으로 변수를 지정해서 불러오는 것이 일반적.

이런식으로

 

pd.read_csv('../data/winemag-data_first150k.csv')

불러온 데이터프레임 값에 컬럼 첫번째에 unnamed 0 가 있다면

원래 인덱스 값으로 지정되어있던 컬럼으로 리드하는 중 컬럼으로 이동된것

 

이때!!!!

pd.read_csv('../data/winemag-data_first150k.csv', index_col ='Unnamed: 0' )

../의 의미는 지금현재 폴더의 상위폴더로 이동

pd.read_csv('@@@@@csv명, index_col ='Unnamed: 0' )
이때 unnamed의 부분은 컬럼의 첫부분이라 그냥 0을써도 된다

.