비지도 학습
차원축소
PCA에 대해서 알아보자
PCA
pca란 Principal Component Analysis 의 약자이며 고차원 데이터를 저차원으로 변환을 시켜주는 기법이다.
보통 데이터에서의 차원은 그 데이터셋이 가지고 있는 열의 갯수를 의미한다.
즉 pca란 만약 열이 10개인 데이터셋이 있다고 한다면, 주요 특성을 기준으로 9개나 8개로 줄이는 것이다.
이는 데이터를 간단하게 만들면서 중요한 특성들은 최대한 유지하고 노이즈또는 불필요한 부분을 제거한다.
위의 사진으로 보자면, 열이 3개인 3차원의 데이터를 열이 2개인 2차원의 데이터로 축소 시켰다 라고 볼 수 있다.
작동원리
- 데이터의 표준화 : 각 특성의 평균을 0으로 분산을 1로 맞춘다.
- 공분산 행렬 계산 : 데이터의 공분산 행렬을 계산한다.
- 고유값 및 고유백터 계산 : 공분산 행렬의 고유값과 고유백터를 계산한다.
- 주성분 선택 : 고유값이 큰 순서대로 고유백터를 정렬하여 주성분을 선택한다.
- 데이터 변환 : 선택된 주성분을 사용하여 데이터를 저차원 공간으로 변환한다.
공분산이니 고유백터니 이해가 안가지만 그냥 그렇구나 하고 넘어가자
실습
PCA.ipynb
Run, share, and edit Python notebooks
colab.research.google.com
끝
'용어정리 > Machine-Learning' 카테고리의 다른 글
Machine-Learning 용어정리 (LDA) (0) | 2024.10.24 |
---|---|
Machine-Learning 용어정리 (t-SNE) (0) | 2024.10.24 |
Machine-Learning 용어정리 (DBSCAN) (0) | 2024.10.23 |
Machine-Learning 용어정리 (계층적 군집화) (0) | 2024.10.23 |
Machine-Learning 용어정리 (K-means clustering) (0) | 2024.10.23 |