Machine Learning/Machine Learning

[Machine Learning] Data Pre-Processing

데이터 세상 2021. 3. 3. 01:43
728x90
반응형

Data Pre-Processing

 

Normalization

  • 데이터의 스케일이 다른 경우 출력에 영향이 달라질 수 있다
  • 데이터의 특성에 따라 normalization 방식을 선택해야 한다.

 

MinMax

일정범위(일반적으로 0~1) 사이로 scaling 함

실제 데이터의 범위가 테스트 데이터의 min max 범위를 벗어나는 경우

학습이 제대로 되지 않을 수 있다.

 

Standard

mean 차감을 통해 zero-centered화 해주고 std로 나누어 주어

데이터가 일정 범위안에 머무르게 함

 

 

 

Data Division

Data 구축 시 유의할 점

  • 노이즈 데이터
  • class 불균형
  • 현장과 다른 상황
  • 모집단을 제대로 표현하지 못한 표본 집단 데이터
  • 잘못된 정답 표기(오류 라벨링)

 

728x90
반응형