728x90
반응형
One-Hot Encoding
- 대부분의 데이터의 일반적인 특성은 범주형 특성(categorical feature)을 가진다.
- 범주형 변수를 표현하는데 가장 널리 쓰이는 방법
- one-out-of-N encoding 또는 dummy variable이라고도 한다
- 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 표현
범주형 데이터 변환
- 데이터 셋을 읽고 나면 범주형 데이터가 존재하는지 확인하는 것이 좋다
- panda value_count(): 데이터의 유일한 값이 몇 번 나타나는지 출력
data.gender.value_counts()
>>
Male 21790
Female 10773
Name: geder, dtype: int64
728x90
반응형
'Machine Learning > Machine Learning' 카테고리의 다른 글
[Machine Learning] ML Hyperparameter (0) | 2021.03.05 |
---|---|
[Machine Learning] Regularization (0) | 2021.03.04 |
[Machine Learning] Data Pre-Processing (0) | 2021.03.03 |
Machine Learning (0) | 2021.02.27 |
[Machine Learning] Artificial Intelligence (인공지능) (0) | 2021.02.26 |