Machine-Learning 용어정리 (LDA)
·
용어정리/Machine-Learning
비지도 학습 차원축소LDA에 대해서 알아보자 LDALDA 란 Linear Discriminant Analysis의 약자이다.이는 차원축소와 분류를 동시에 수행하는 방법이다. LDA는 데이터 클래스 에서 가장 가까운 데이터 포인트 간의 거리를 최대화 시키고, 클래스에서 분산을 최소화 하는 방향으로 데이터를 변환한다.   작동원리각 클래스의 평균 백터를 계산한다.각 클래스의 데이터 포인트의 분산을 계산해서 분산 행렬을 생성한다.클래스 간 평균 백터의 분산을 계산하여 클래스 간 분산 행렬을 생성한다.고유값과 고유백터를 계산한다. ???고유값이 큰 순서대로 고유백터를 정렬하여 선형 판별 축을 선택한다.???선택된 선형 판별 축을 기준으로 데이터를 저차원 공간으로 변형시킨다. 축의 선택고유값이 큰 순서대로 고유백..
Machine-Learning 용어정리 (t-SNE)
·
용어정리/Machine-Learning
비지도 학습차원축소t-SNE에 대해서 알아보자 t-SNEt-SNE란 t-Disctibuted Stochastic Neighbor Embedding 의 약자이다. 이는 고차원의 데이터를 저차원으로 변환시키는 기법이다. PCA도 고차원의 데이터를 저차원으로 변환시키는데 이의 차이점은 뭘가?차이점은 pca는 주성분을 분석하고 그에 따라서 축소를 시킨다.t-SNE는 데이터들간의 유사성을 확인하고 그를 줄였을때의 유사성을 확인한후, 그 유사성이 최대치로 설정되는 값에 따라서 축소시킨다. t-SNE은 매우 복잡하고 느리지만, 시각화가 좋으며 복잡한 구조에도 잘 어울린다는 것이다.   작동원리원 데이터 에서 데이터 포인트 간의 유사성을 확률로 계산을 한다.저차원 데이터를 생성하여 데이터 포인트 간의 유사성을 t-분포..
Machine-Learning 용어정리 (PCA)
·
용어정리/Machine-Learning
비지도 학습차원축소PCA에 대해서 알아보자PCApca란 Principal Component Analysis 의 약자이며 고차원 데이터를 저차원으로 변환을 시켜주는 기법이다. 보통 데이터에서의 차원은 그 데이터셋이 가지고 있는 열의 갯수를 의미한다. 즉 pca란 만약 열이 10개인 데이터셋이 있다고 한다면, 주요 특성을 기준으로 9개나 8개로 줄이는 것이다. 이는 데이터를 간단하게 만들면서 중요한 특성들은 최대한 유지하고 노이즈또는 불필요한 부분을 제거한다.    위의 사진으로 보자면, 열이 3개인 3차원의 데이터를 열이 2개인 2차원의 데이터로 축소 시켰다 라고 볼 수 있다.  작동원리데이터의 표준화 : 각 특성의 평균을 0으로 분산을 1로 맞춘다.공분산 행렬 계산 : 데이터의 공분산 행렬을 계산한다.고..
Machine-Learning 용어정리 (DBSCAN)
·
용어정리/Machine-Learning
군집화 모델DBSCAN에 대해 알아보자DBSCAN의 개념DBSCAN이란 Density-Based Spartial Clustering of Application with Noise의 약자로말 그대로 밀도 기반 군집화 알고리즘이다. 어느정도의 데이터의 밀집도를 측정한 후에 그 영역을 군집으로 만들고, 밀도가 낮은 부분은 노이즈로 처리한다.  위 사진 처럼 밀도에 따라서 군집화 시킨다.  용어정리eps : 두 데이터 포인터가 같은 군집에 속할 수 있는 최대의 거리. 즉 이 eps밖으로 나간다면 같은 군집 아니다.min_sample : 한 군집이 되기 위한 최소한의 데이터 포인트의 수.작동원리DBSCAN이 작동하는 원리에 대해서 간단히 설명해 보겠다. 랜덤 한 데이터 포인트를 지정한다.지정된 데이터 포인트의 e..
Machine-Learning 용어정리 (계층적 군집화)
·
용어정리/Machine-Learning
군집화모델계층적 군집화에 대해서 알아보자  계층적 군집화계층적 군집화란 데이터포인트를 계층구조를 따라서 그룹화 하는 방법이다. 이를 통해서 순차적으로 그룹화를 할 수 있다. 계층적 군집화에는 2가지의 방식이 있다. 병합 군집화분할 군집화 사실 계층을 따라 가다보니 2개밖에 나올 수 가 없다.   병합 군집화병합 군집화는 데이터 포인트 만큼의 군집이 있다는 뜻이다.계층 별로 점점 가장 가까운 데이터 포인트 들이 묶이면서 최종적으로 1개의 군집이 되어가는 것 이다.  분할 군집화분할 군집화는 병합 군집화와는 반대로, 1개의 군집에서 가장 가장자리에 있는 데이터 포인트들을 분할시켜서 계층을 따라 분할을 시키며 결과적으로는 데이터 포인트 만큼의 군집이 생기는 과정이다. 이는 시간도 오래 걸릴 뿐더러, 요즘은 잘..
Machine-Learning 용어정리 (K-means clustering)
·
용어정리/Machine-Learning
비지도학습중 군집화 모델인K-means clustering에 대해서 알아보자군집화 모델군집화 모델이란 데이터를 비슷한 그룹(클러스터)끼리 나누는 기법이다. 비슷한 특성을 가진 데이터를 같은 클러스터로 묶어서 그 값들이 비슷한 특성을 가지고, 결과적으로는 클러스터끼리의 차이를 만들어 유의미한 분류를 해낸다.   K-means clusteringK-menas clustering이란?K-menas clustering은 데이터의 포인트위치에 따라서 가까운 데이터포인트들끼리 묶이며 클러스터를 생성하는 것이다.  위의 사진과 같이, 데이터포인트들의 위치에 따라서, 시작 클러스터를 기준으로 가까이에 있는 데이터포인트를자신의 클러스터에 끌어들이고 그렇게 갱신된 클러스터의 중심에 가장 가까운 데이터포인트를 다기 포함시킨..