인공지능/머신러닝

문자의 수치화,데이터분리 : LableEncoder

공부짱짱열심히하기 2022. 12. 1. 10:23

머신러닝을 통한 학습으로 새로운데이터를 얻으려고 할때

 

기존데이터를 방정식에 대입하기 위해서는 모든데이터가 숫자로 되어 이썽야한다.

 

문자열 데이터는 숫자로 바궈줘야 하는데 그때 사용하는것이 LableEncoder

 

 

from sklearn.preprocessing import LabelEncoder

sklearn은 아나콘다에 기본으로 설치가 되어있음

 

이렇게 카테고리컬 데이터가 3개일경우

 'France' => 0
 'Germany' => 1
 'Spain' => 2
 정렬해서, 순서대로, 0부터 시작하는 숫자로 바꿔준다 => Label Encoding

 

fit_transform(바꿔줄 컬럼  )

 

국가이름이 0,1,2로 바뀜

레이블인코더를 변수에 넣어주고 이때 fit_transform(바꿔줄 컬럼  ) 통해 레이블링을 해줌

 

 

from sklearn.preprocessing import LabelEncoder

변수명 = LabelEncoder()

인코더변수.fit_transform(바꿔줄 컬럼  )