군집화 모델
DBSCAN에 대해 알아보자
DBSCAN의 개념
DBSCAN이란 Density-Based Spartial Clustering of Application with Noise의 약자로
말 그대로 밀도 기반 군집화 알고리즘이다.
어느정도의 데이터의 밀집도를 측정한 후에 그 영역을 군집으로 만들고, 밀도가 낮은 부분은 노이즈로 처리한다.
위 사진 처럼 밀도에 따라서 군집화 시킨다.
용어정리
- eps : 두 데이터 포인터가 같은 군집에 속할 수 있는 최대의 거리. 즉 이 eps밖으로 나간다면 같은 군집 아니다.
- min_sample : 한 군집이 되기 위한 최소한의 데이터 포인트의 수.
작동원리
DBSCAN이 작동하는 원리에 대해서 간단히 설명해 보겠다.
- 랜덤 한 데이터 포인트를 지정한다.
- 지정된 데이터 포인트의 eps 반경 안에 있는 모든 데이터 포인트를 찾는다.
- 만약 eps반경에 min_sample보다 많은 데이터 포인트가 있다면, 군집이 된다.
- eps반경 안에 데이터포인트가 min_sample보다 적다면 이는 노이즈로 간주한다.
- 모든 데이터 포인트가 군집 또는 노이즈로 분류가 될 때까지 반복한다.
장점
DBSCAN의 장점으로는 eps반경으로 데이터를 찾아 비구형 군집도 탐지가 가능하다.
또한 데이터에 노이즈까지 분류를 하여 효과적으로 학습할 수 있다.
계층적 군집화 와는 다르게, 자동으로 군집의 숫자를 최적화하여 만들어 낸다.
(대신 eps와 min_sample의 값을 넣어야 함)
실습
Google Colab Notebook
Run, share, and edit Python notebooks
colab.research.google.com
이거는 좀 추가적으로 공부를 해 볼 필요가 있어 보인다.
'용어정리 > Machine-Learning' 카테고리의 다른 글
Machine-Learning 용어정리 (t-SNE) (0) | 2024.10.24 |
---|---|
Machine-Learning 용어정리 (PCA) (1) | 2024.10.24 |
Machine-Learning 용어정리 (계층적 군집화) (0) | 2024.10.23 |
Machine-Learning 용어정리 (K-means clustering) (0) | 2024.10.23 |
Machine-Learning 용어정리 (SVM, KNN, 나이브베이즈, 의사결정나무) ver 2 (1) | 2024.10.23 |