Machine Learning/Unsupervised Learning

[Unsupervised Learning] Clustering

데이터 세상 2022. 10. 5. 20:58
728x90
반응형

Clustering

비슷한 샘플을 구별해 하나의 cluster 또는 비슷한 샘플의 그룹으로 할당하는 작업

 

Clustering 활용

고객 분류

고객을 구매 이력이나 웹사이트 내 행동을 기반으로 분류

고객 맞춤 제품 추천이나 마케팅 전략을 다르게 적용하여 추천 시스템(recommender system)을 만들 수 있다

 

데이터 분석

새로운 데이터셋을 분석할 때 clustering 알고리즘을 실행하고 각 클러스터를 따로 분석하면 도움이 된다.

 

차원 축소 기법

한 데이터셋에 clustering 알고리즘을 적용하면 각 클러스터에 대한 샘플의 친화성(affinity)을 측정할 수 있다.

* 친화성은 샘플리 클러스터에 얼마나 잘 맞는지를 측정

각 샘플의 특성 벡터 x는 클러스터 친화성의 벡터로 바꿀 수 있다.

k개의 클러스가 있다면 이 벡터는 k차원이 되고, 이 벡터는 원본 특성 벡터보다 훨씬 저차원이 된다.

 

이상치 탐지

모든 클러스터에 친화성이 낮은 샘플은 이상치일 가능성이 높다.

웹사이트 내 행동 기반 클러스터를 만들어 초당 웹서버 요청을 비정상적으로 많이 하는 사용자를 감시할 수 있다.

이상치 탐지는 제조 분야에서 결함을 감지할 때 유용하여 부정 거래 감지(fraud detection)에 활용 가능하다.

 

준지도 학습

레이블 샘플리 적다면 clustering을 수행하고 동일한 클러스터에 있는 모든 샘플에 레이블을 전파할 수 있다.

지도 학습 알고리즘에 필요한 레이블이 크게 증가해 성능을 크게 향상할 수 있다.

 

검색 엔진

일부 검색 엔진은 제시된 이미지와 비슷한 이미지 검색이 가능하다.

이미지 검색 시스템은 데이터베이스에 있는 모든 이미지에 clustering 알고리즘을 적용해ㅑ야 한다.

 

이미지 분할

색을 기반으로 픽셀을 클러스터로 모은다. 그 다음 각 픽셀의 색을 해당 클러스터의 평균 색으로 변환한다.

이미지에 있는 색상의 종류를 크게 줄이고, 물체의 윤곽을 감지하기 쉬워져 물체 탐지 및 추적 시스템에 이미지 분할을 많이 활용한다.

 

Clustering 방법론

Distance-based

K-means (K 평균)

 

Density-based and grid-based

DBSCAN

HDBSCAN(Hierarchical DBSCAN)

 

 

Hierarchical Clustering

Agglomerative Clustering(병합 군집)

 

Probabilistic and generative

Mixture Distributed

728x90
반응형