인공지능/딥러닝

딥러닝 기초 : Dummy variable trap

공부짱짱열심히하기 2022. 12. 27. 16:15

범주형 데이터는 ‘A’, ‘B’, ‘C’와 같이 종류를 표시하는 데이터를 말한다. 카테고리(category( 데이터라고도 부른다. 다음과 같은 데이터는 모두 범주형 데이터의 예다.

 

더미변수(dummy variable)는 0 또는 1만 가지는 값으로 어떤 특징이 존재하는가 존재하지 않는가를 표시한다. 다음과 같은 명칭으로도 불린다.

결국 더미 베리어블 트랩은 존재하는가 존재하지 않는가를  나눌때 필요없는 컬럼을 제거하는 행위를 의미

 

 

이와 같은 데이터에서 레이블 인코딩을 통해 숫자로 변환 하면

결과는

프랑스   독일  스페인

    1         0          0

     0         1          0

     0         0          1

 

로 출력이 된다

이때 첫번째 열이 없어도 충분히 데이터는 프랑스를 인식을 할수 있다는것이다.(인코더로 이미 프랑스의 데이터를 학습)

독일  스페인 

 0          1         → 스페인

1           0         →  독일

0            0         →  프랑스