Clustering
비슷한 샘플을 구별해 하나의 cluster 또는 비슷한 샘플의 그룹으로 할당하는 작업
Clustering 활용
고객 분류
고객을 구매 이력이나 웹사이트 내 행동을 기반으로 분류
고객 맞춤 제품 추천이나 마케팅 전략을 다르게 적용하여 추천 시스템(recommender system)을 만들 수 있다
데이터 분석
새로운 데이터셋을 분석할 때 clustering 알고리즘을 실행하고 각 클러스터를 따로 분석하면 도움이 된다.
차원 축소 기법
한 데이터셋에 clustering 알고리즘을 적용하면 각 클러스터에 대한 샘플의 친화성(affinity)을 측정할 수 있다.
* 친화성은 샘플리 클러스터에 얼마나 잘 맞는지를 측정
각 샘플의 특성 벡터 x는 클러스터 친화성의 벡터로 바꿀 수 있다.
k개의 클러스가 있다면 이 벡터는 k차원이 되고, 이 벡터는 원본 특성 벡터보다 훨씬 저차원이 된다.
이상치 탐지
모든 클러스터에 친화성이 낮은 샘플은 이상치일 가능성이 높다.
웹사이트 내 행동 기반 클러스터를 만들어 초당 웹서버 요청을 비정상적으로 많이 하는 사용자를 감시할 수 있다.
이상치 탐지는 제조 분야에서 결함을 감지할 때 유용하여 부정 거래 감지(fraud detection)에 활용 가능하다.
준지도 학습
레이블 샘플리 적다면 clustering을 수행하고 동일한 클러스터에 있는 모든 샘플에 레이블을 전파할 수 있다.
지도 학습 알고리즘에 필요한 레이블이 크게 증가해 성능을 크게 향상할 수 있다.
검색 엔진
일부 검색 엔진은 제시된 이미지와 비슷한 이미지 검색이 가능하다.
이미지 검색 시스템은 데이터베이스에 있는 모든 이미지에 clustering 알고리즘을 적용해ㅑ야 한다.
이미지 분할
색을 기반으로 픽셀을 클러스터로 모은다. 그 다음 각 픽셀의 색을 해당 클러스터의 평균 색으로 변환한다.
이미지에 있는 색상의 종류를 크게 줄이고, 물체의 윤곽을 감지하기 쉬워져 물체 탐지 및 추적 시스템에 이미지 분할을 많이 활용한다.
Clustering 방법론
Distance-based
Density-based and grid-based
Hierarchical Clustering
Agglomerative Clustering(병합 군집)
Probabilistic and generative
Mixture Distributed
'Machine Learning > Unsupervised Learning' 카테고리의 다른 글
[Unsupervised Learning] [Clustering] Agglomerative Clustering(병합 군집) (0) | 2022.10.05 |
---|---|
[Unsupervised Leaerning][Clustering] HDBSCAN(Hierarchical DBSCAN) (0) | 2022.10.05 |
[Unsupervised Learning][Clustering] Mean Shift (평균 이동) (1) | 2022.10.05 |
[Unsupervised Learning][Clustering] K-means (K 평균) (0) | 2022.10.04 |
[Unsupervised Learning][Clustering] DBSCAN (0) | 2021.06.14 |