Machine-Learning 용어정리 (DBSCAN)

2024. 10. 23. 22:23·용어정리/Machine-Learning

군집화 모델

DBSCAN에 대해 알아보자


DBSCAN의 개념

DBSCAN이란 Density-Based Spartial Clustering of Application with Noise의 약자로

말 그대로 밀도 기반 군집화 알고리즘이다.

 

어느정도의 데이터의 밀집도를 측정한 후에 그 영역을 군집으로 만들고, 밀도가 낮은 부분은 노이즈로 처리한다.

 

 

위 사진 처럼 밀도에 따라서 군집화 시킨다.

 

 


용어정리

  1. eps : 두 데이터 포인터가 같은 군집에 속할 수 있는 최대의 거리. 즉 이 eps밖으로 나간다면 같은 군집 아니다.
  2. min_sample : 한 군집이 되기 위한 최소한의 데이터 포인트의 수.

작동원리

DBSCAN이 작동하는 원리에 대해서 간단히 설명해 보겠다.

 

  1. 랜덤 한 데이터 포인트를 지정한다.
  2. 지정된 데이터 포인트의 eps 반경 안에 있는 모든 데이터 포인트를 찾는다.
  3. 만약 eps반경에 min_sample보다 많은 데이터 포인트가 있다면, 군집이 된다.
  4. eps반경 안에 데이터포인트가 min_sample보다 적다면 이는 노이즈로 간주한다.
  5. 모든 데이터 포인트가 군집 또는 노이즈로 분류가 될 때까지 반복한다.

 


장점

DBSCAN의 장점으로는 eps반경으로 데이터를 찾아 비구형 군집도 탐지가 가능하다.

 

또한 데이터에 노이즈까지 분류를 하여 효과적으로 학습할 수 있다.

 

계층적 군집화 와는 다르게, 자동으로 군집의 숫자를 최적화하여 만들어 낸다.

(대신  eps와  min_sample의 값을 넣어야 함)

 

 

 


실습

 

 

DBSCAN.ipynb - Colab

 

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com

 

 

 

이거는 좀 추가적으로 공부를 해 볼 필요가 있어 보인다.

저작자표시 비영리 변경금지 (새창열림)

'용어정리 > Machine-Learning' 카테고리의 다른 글

Machine-Learning 용어정리 (t-SNE)  (0) 2024.10.24
Machine-Learning 용어정리 (PCA)  (1) 2024.10.24
Machine-Learning 용어정리 (계층적 군집화)  (0) 2024.10.23
Machine-Learning 용어정리 (K-means clustering)  (0) 2024.10.23
Machine-Learning 용어정리 (SVM, KNN, 나이브베이즈, 의사결정나무) ver 2  (1) 2024.10.23
'용어정리/Machine-Learning' 카테고리의 다른 글
  • Machine-Learning 용어정리 (t-SNE)
  • Machine-Learning 용어정리 (PCA)
  • Machine-Learning 용어정리 (계층적 군집화)
  • Machine-Learning 용어정리 (K-means clustering)
코드 유랑자 승열
코드 유랑자 승열
코드 유랑자 승열의 프로그래밍 일지를 남기는 공간입니다.
  • 코드 유랑자 승열
    승열의 프로그래밍 시네마
    코드 유랑자 승열
  • 전체
    오늘
    어제
  • 링크

    • 깃허브 보러가기
    • 링크드인 보러가기
    • 인스타그램 보러가기
    • 카테고리
      • 코딩테스트
        • BaekJoon
      • TIL and WIL
        • TIL
        • WIL
      • 주말스터디
      • 내일배움캠프
        • 사전캠프 강의 (SQL)
      • 용어정리
        • Python
        • Python-Library
        • Machine-Learning
        • Deep-Learning
        • AI 활용
        • LLM & RAG
        • Docker
        • Django
        • SQL
        • Java Script
        • etc
      • Daily 코드카타
        • SQL
        • Python 알고리즘
      • 임시저장
      • 보류
  • 태그

    오블완
    template
    django
    word2vec
    vector db
    티스토리챌린지
    llm
    langchain
    RAG
    View
  • 인기 글

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
코드 유랑자 승열
Machine-Learning 용어정리 (DBSCAN)
상단으로

티스토리툴바