반응형

Machine Learning/Unsupervised Learning 6

[Unsupervised Learning] [Clustering] Agglomerative Clustering(병합 군집)

Agglomerative Clustering(병합 군집) 시작할 때 각 포인트를 하나의 클러스터로 지정하고, 종료 조건을 만족할 때까지 가장 비슷한 두 클러스터를 합침 종료 조건: 클러스터 갯수, 지정된 갯수의 클러스터가 남을 때까지 비슷한 클러스터를 합침 Hierarchical Clustering(계층적 군집) 계층적 트리 모형을 이용하여 개별 데이터 포인트들을 순차적, 계층적으로 유사한 클러스터로 통합하여 군집화를 수행하는 알고리즘 Agglomerative Clustering(병합 군집) 개개의 포인트를 순차적으로 병합하는 상향식 군집 Divisive Clustering(분할 군집) 전체를 하나의 클러스터로 하여 그것을 분할해 나가는 하향식 군집 이미 병합된 클러스터와 합쳐야 되는 경우 linkage..

[Unsupervised Learning] Clustering

Clustering 비슷한 샘플을 구별해 하나의 cluster 또는 비슷한 샘플의 그룹으로 할당하는 작업 Clustering 활용 고객 분류 고객을 구매 이력이나 웹사이트 내 행동을 기반으로 분류 고객 맞춤 제품 추천이나 마케팅 전략을 다르게 적용하여 추천 시스템(recommender system)을 만들 수 있다 데이터 분석 새로운 데이터셋을 분석할 때 clustering 알고리즘을 실행하고 각 클러스터를 따로 분석하면 도움이 된다. 차원 축소 기법 한 데이터셋에 clustering 알고리즘을 적용하면 각 클러스터에 대한 샘플의 친화성(affinity)을 측정할 수 있다. * 친화성은 샘플리 클러스터에 얼마나 잘 맞는지를 측정 각 샘플의 특성 벡터 x는 클러스터 친화성의 벡터로 바꿀 수 있다. k개의 ..

[Unsupervised Leaerning][Clustering] HDBSCAN(Hierarchical DBSCAN)

HDBSCAN(Hierarchical Density-Based Spatial Clustering) https://hdbscan.readthedocs.io/en/latest/index.html The hdbscan Clustering Library — hdbscan 0.8.1 documentation © Copyright 2016, Leland McInnes, John Healy, Steve Astels Revision 109797c7. hdbscan.readthedocs.io DBSCAN DBSCAN은 하이퍼파라미터로 최소 클러스터 사이즈(MinPts)와 밀도 거리인 threshold epsilon(ε)을 지정해야 한다. DBSCAN의 결과는 모델의 hyper-parameter인 ε과 MinPts에 따라..

[Unsupervised Learning][Clustering] Mean Shift (평균 이동)

Mean Shift (평균 이동) K-means와 유사하지만 K-means는 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해, Mean Shift는 중심을 데이터가 모여있는 밀도가 가장 높은 곳으로 이동시킴 평균 이동 알고리즘은 특정 대역폭을 가지고 최초의 확률 밀도 중심 내에서 데이터의 확률 밀도 중심이 더 높은 곳으로 중심을 이동 평균 이동은 데이터의 분포도를 이용해 군집 중심점을 찾음 확률 밀도 함수(PDF, Probability Density Function)를 이용, 가장 집중적으로 데이터가 모여 있어 확률 밀도 함수가 피크인 점을 군집 중심점으로 선정 KDE(Kernel Density Estimation)로 확률 밀도 함수를 찾음 KDE를 이용하여 데이터 포인트들이 데이터 분포가 높..

[Unsupervised Learning][Clustering] K-means (K 평균)

K-means (K 평균) 데이터 간의 거리를 사용해 가까운 거리에 있는 데이터끼리 하나의 클래스로 묶는 알고리즘 거리를 계산하기 위해 데이터는 수치화된 데이터야 함 데이터를 k개의 클러스터로 분류 1. 사용자로부터 입력받은 k의 값에 따라, 임의로 클러스터 중심(centroid) k개를 설정한다. 2. k개의 클러스터 중심으로부터 모든 데이터가 얼마나 떨어져 있는지 계산한 후에, 가장 가까운 클러스터 중심을 각 데이터의 클러스터로 정한다. 3. 각 클러스터에 속하는 데이터들의 평균을 계산해서 클러스터 중심을 옮겨준다. 4. 보정된 클러스터 중심을 기준으로 2, 3단계를 반복한다. 5. 더이상 클러스터 중심이 이동하지 않으면 알고리즘을 종료한다. 장점 시간 복잡도가 O(n)으로 빠른 편 이해하기 쉽고 구..

[Unsupervised Learning][Clustering] DBSCAN

DBSCAN(Density-based Spatial Clustering of Application with Noise) data의 분포가 세밀하게 몰려 있어서 밀도가 높은 부분을 중심으로 클러스터링을 하는 방식 어떠한 점을 기준으로 반경 ε 내에 점이 n개 이상 있으면 하나의 군집으로 인식 밀도 기반 클러스터링 비선형 클러스터의 군집이나 다양한 크기를 갖는 공간 데이터를 보다 효과적으로 군집하기 위해 이웃한 개체와의 밀도를 계산하여 군집하는 기법 K-Means와 같이 군집 이전에 클러스터의 개수가 필요하지 않고 잡음에 대한 강인성이 높기 때문에 현재까지도 다양한 분야에서 활용 Algorithm eps-neighbors와 minPts를 사용하여 군집을 구성 Eps(ε) : 클러스터에 이웃을 포함할 수 있는..

728x90
반응형