Machine Learning/Machine Learning

AutoML (Automated Machine Learning)

데이터 세상 2022. 11. 1. 12:16
728x90
반응형

AutoML (Automated Machine Learning)

머신러닝 모델링은 문제 정의 과정에서부터 데이터 수집, 전처리, 모델 학습 및 평가를 거쳐 서비스 적용에 이르기까지 많은 시간과 노력이 요구된다. 머신러닝을 적용할 때마다 이러한 과정을 되풀이하면서 발생하는 비효율적인 작업을 최대한 자동화하여 생산성과 효율을 높이기 위해 AutoML이 등장하였다.

 

현실의 문제에 기계학습 적용 과정을 전문가 없이 자동화 → Data Scientist의 역량이 필요한 작업을 자동화

데이터 사이언티스트들이 머신 러닝 모델(ML 모델)을 구축하고 훈련할 때 완료해야 하는 수동 작업을 자동화하는 프로세스

  • Feature engineering & selection
  • choosing the type of machine learning algorithm (머신 러닝 알고리즘 유형 선택)
  • building an analytical model based on the algorithm (알고리즘 기반으로 분석 모델 구축)
  • hyperparameter optimization (하이퍼 파라미터 최적화)
  • training the model on tested data sets (테스트된 데이터 세트에 대해 모델 훈련)
  • running the model to generate scores and findings (점수와 결과를 생성하기 위해 모델 실행)

 

즉, 머신러닝을 자동화하는 AI기술

  • 번거로운 수작업 자동화
  • 머신러닝에 대한 장벽 완화
  • 비전문가도 복잡한 머신러닝 활용 가능

 

 

분석 라이프 사이클

출처: https://blogs.sas.com/content/saskorea/2020/08/31/8-2/

 

머신러닝 자동화를 이용한 모델 개발 프로세스

Data Preprocessing (데이터 전처리)

데이터에서 발생한 기초적인 문제를 해결하고, 데이터를 모델에 활용할 수 있는 형태로 변형시키는 과정

 

Feature Engineering (특징 공학)

데이터의 특징을 얻는 과정

 

Feature Extraction (특징 추출)

  • 데이터를 조합하여 새로운 특징을 얻어내는 것
  • 새로운 변수 생성

 

Feature Selection (특징 선택)

  • 주어진 특징 중 적합한 특징을 선택하는 과정
  • 기존에 존재하던 특징 값인 데이터 값 중에서 선택될 수도 있고, 추출된 특징 중 선택될 수도 있다.

 

Algorithm(Model) Selection (알고리즘 선택)

모델의 종류 선택, MLP(Multi-Layer Perceptron) 내에서 몇 개의 layer를 쌓을 것인지, Dropout layer를 사용할 것인지와 같은 구조를 결정하는 것 등

 

Hyperparameter Optimization (HPO, 하이퍼파라미터 최적화)

알고리즘 내 설정해야하는 하이퍼파라미터를 결정하는 것

즉, 적절한 하이퍼 파라미터를 찾는 과정

 


AutoML 발전 단계

Step1. Hyperparameter Optimization (학습 하이퍼파라미터 최적화)

학습률(learning rate), 배치 크기(mini-batch size) 등 학습에 큰 영향을 주는 hyperparameter들을 학습을 통해 추정하는 것을 의미

 

Step2. Feature Learning (의미 있는 특성 추출)

Extraction 또는 Feature Engineering을 의미하는 것으로, 학습 모델에 입력을 그대로 사용하지 않고, 학습을 통하여 유의미한 feature(특징)을 추출해서 입력으로 사용하는 방법

Step3. Architecture Search (모델링 프로세스 설계)

모델링 전체 프로세스를 사람이 직접 하나하나 설계하는 대신에 학습을 통해 최적의 아키텍처를 설계하는 방법을 의미

 


AutoML package toolkits

 


References

728x90
반응형