Machine Learning/Machine Learning

[Machine Learning] One-Hot Encoding

데이터 세상 2021. 3. 3. 01:30
728x90
반응형

One-Hot Encoding

  • 대부분의 데이터의 일반적인 특성은 범주형 특성(categorical feature)을 가진다.
  • 범주형 변수를 표현하는데 가장 널리 쓰이는 방법
  • one-out-of-N encoding 또는 dummy variable이라고도 한다
  • 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 표현

범주형 데이터 변환

  • 데이터 셋을 읽고 나면 범주형 데이터가 존재하는지 확인하는 것이 좋다
  • panda value_count(): 데이터의 유일한 값이 몇 번 나타나는지 출력
data.gender.value_counts()

>>
Male 21790
Female 10773
Name: geder, dtype: int64

 

728x90
반응형