반응형

Supervised Learning 7

[Supervised Learning][Ensemble][Boosting] XGBoost (eXtream Gradient Boosting)

XGBoost(eXtream Gradient Boosting) Gradient Boosting 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리 Gradient Boosting 알고리즘에 overfitting 방지를 위한 기법이 추가된 알고리즘 Regression, Classification 문제를 모두 지원하며, 성능과 자원 효율이 좋아서, 인기 있는 알고리즘 중 하나 Tree Boosting 기법을 활용한 모델 tree boosting 방식에 경사 하강법을 통해 최적화하는 방법 연산량을 줄이기 위해 의사결정 트리를 구성할 때 병렬 처리를 사용해 빠른 시간에 학습 가능 XGBoost 장점과 단점 장점 GBM (Gradient Boosting Machine) 대비 빠른 수행시간 병렬 처..

[Supervised Learning][Classification] SVM(Support Vector Machine)

SVM(Support Vector Machine) 각 훈련 데이터 포인트들의 클래스 결정 경계(decision boundary)를 구분하는 것을 학습 Support Vector: 두 클래스 사이의 경계에 위치한 데이터 포인터 새로운 데이터 포인트에 대해 예측할 때는 데이터 포인트와 각 서포트 벡터와의 거리를 측정 서로 다른 클래스를 지닌 데이터 사이의 간격이 최대가 되는 선이나 평면을 찾아 이를 기준으로 각 데이터를 분류하는 모델 데이터 사이에 존재하는 여백을 최대화, 일반화하여 성능을 극대화 Margin 서포트 벡터와 결정 경계 사이의 거리 SVM의 목표는 마진을 최대로 하는 결정 경계를 찾는 것 Decision boundary(결정 경계): 서로 다른 분류값을 결정하는 경계 데이터의 벡터 공간을 N차..

[Supervised Learning] Decision Tree

Decision Tree (결정 트리) 분류와 회귀 문제에 널리 사용하는 모델 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 결정 트리의 학습은 정답에 가장 빨리 도달하는 예/아니오 질문(테스트) 목록을 학습한다는 뜻 트리 만들기는 모든 리프 노드가 순수 노드가 될 때까지 진행 모델이 매우 복잡해지고 훈련 데이터에 과대 적합(overfitting)됨 적절한 리프 노드의 샘플 개수와 트리의 깊이에 제한을 둬서 과대 적합 방지해야 함 과대 적합(overfitting)을 막기 위해 사전 가지치기(pre-pruning)와 데이터 포인트가 적은 노드를 삭제하거나 병합하는 방법 사용 장점 수학적인 지식이 없어도 결과를 해석하고 이해하기 쉽다 수치 데이터 및 범주 데이터에 모두 사용 가능하다 단점 ove..

[Supervised Learning][Regression] Linear Regression

Linear Model 입력 특성에 대한 선형 함수를 만들어 예측을 수행 특성 개수: p + 1 Linear Regression 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법 선형 예측 함수를 사용해 회귀식을 모델링하고 알려지지 않은 파라미더를 데이터로부터 추정 회귀식을 선형 모델이라고 함 >> y가 없는 x값에 대해 y를 예측 x와 y의 관계를 정량화 Simple Linear Regression (단순 선형 회귀) 1개의 설명 변수에 기반 (독립변수 x가 1개) Multiple Lineare Regression (다중 선형 회귀) 둘 이상의 설명 변수에 기반 (독립 변수 x가 2개 이상) 여러 독립 변수에 의해 영향을 받는 경우로 2개의 독립 변수면 그래프는..

[Supervised Learning][Classification] KNN(K-Nearest Neighbor)

k-최근접 이웃(K-Nearest Neighbor, KNN) 가장 간단한 머신러닝 알고리즘 장점 구현이 쉽다 알고리즘을 이해하기 쉽다 수학적으로 거리를 계산하는 방법만 알면 이해하기가 쉽다 숫자로 구분된 속성에 우수한 성능을 보인다. 별도의 모델 학습이 필요 없다. Hyper-parameter가 적다 단점 예측 속도가 느리다 하나의 데이터를 예측할 때마다 전체 데이터와의 거리를 계산해야 한다 메모리를 많이 사용한다 노이즈 데이터(수집된 데이터가 참값만 가지고 있지 않을 경우)에 예민하다 예측값이 편향될 수 있다 학습된 모델이 아닌 가까운 이웃을 통해 예측하기 때문에 예측값이 틀릴 가능성이 상대적으로 높아진다 가장 가까운 훈련 데이터 포인트 하나를 최근접 이웃으로 찾아 예측하는 방법 숫자 k와 거리 측정 ..

728x90
반응형