머신러닝 작업하기위해 데이터를 수집하는 단계에서
데이터프레임안 NaN데이가 있는지 판단하기 위해
df.isna().sum()을 사용할때
이런식으로 nan데이터는 없다고 나오지만
디스크라이브를 통해 분석을 해보면
나이나 피부 등등 0이 나올수 없는 값이 0이 나오는경우가 있다.
이런경우 데이터프레임에 nan대신 0을 집어 넣었다는 이야기가 된다.
이런경우
판다스 데이터프레임 함수 replace를 활용하면 좋다
df.loc[ :,컬럼].replace(바꾸기전 내용, 바꿀 내용)
저 데이터에선
df.loc[ :,'Plas':'age'].replace(0, np.nan)
이렇게 하면
0을 nan데이터로 바꿔버릴수 있음
df.loc[ :,컬럼].replace(바꾸기전 내용, 바꿀 내용) |
'파이썬 > 데이터분석' 카테고리의 다른 글
[numpy, pandas] time Seires: datetime64 / pd.to_datetime / pd.date_range() (0) | 2022.11.30 |
---|---|
pandas pivot_table (0) | 2022.11.30 |
api 활용하기(구글맵스) (0) | 2022.11.30 |
pandas 데이터 슬라이싱하기 (0) | 2022.11.30 |
데이터분석중 데이터값에 ~가 들어가지 않는 경우 ( false값 뒤집기) pandas (0) | 2022.11.29 |