로지스틱 회귀에 대해서 알아보자
로지스틱 회귀의 개념
로지스틱 회귀란?
로지스틱 회귀란 종속 변수가 이진형일때, 즉 값이 둘중 하나로 나눌 수 있을때 사용되는 통계 기법이다.
이는 선형 회귀와는 달리 종속 변수가 0 또는 1로만 이뤄져 있다.
시그모이드 함수를 사용하여 예측값을 0 과 1사이에 위치하게 만들며 우리는 그것을 토대로 예측값의 확률을 알 수 있다.
시그모이드 함수
시그모이드 함수는 로지스틱 회귀의 핵심이며 시그모이드는 학습 데이터를 바탕으로 예측값을 나타낼때 쓰이며,
이로 인하여 예측값이 0 과 1사이로 나타내게 되는데 이는 1과 가까울때는 정답인 확률이며, 0에 가까울 때는 오답일 확률을 나타내게 된다.
즉 시그모이드 함수의 값이 0.7이라면, 정답률(1) 은 0.7이며 오답률은 0.3이다.
로지스틱 회귀의 목적
로지스틱 회귀의 목적은 데이터를 학습하여 학습 데이터의 특성을 통해 그 데이터가 특정한 클래스에 속할 확률을 예측힌다. 이로인해서 로지스틱 회귀를 예측이 아닌 분류 작업에 사용하는 경우가 많다.
예시로 아래에 포함을 할 것이지만, 유방암 데이터로 어떤 사람이 암에 걸렸을 확률을 생성하거나, 타이타닉 데이터를 사용하여, 승객의 정보를 통해 생존할 확률을 예측 할 수 있다. 이는 승객의 정보와 환자의 정보를 가지고 유방암 클래스와 생존자 클래스로 분류를 하는 것에 가깝다고 볼 수 있다.
비용 함수
비용함수란 모델의 예측 확률과 실제 레이블 즉 종속변수 와의 차이를 측정한다.
머신러닝이란 이 비용 함수의 값이 최소화 하는 방향으로 최적화를 시키는 학습을 뜻한다.
로지스틱 회귀 분석 실습
skikit-learn의 유방암 데이터와 seaborn을 사용하여 타이타닉 데이터를 가지고 로지스틱 회귀 분석의 실습을 진행해보자.
유방암 데이터
유방암 데이터를 가지고 데이터를 전처리과정을 거쳐서
학습시키는 예제이다.
Google Colab Notebook
Run, share, and edit Python notebooks
colab.research.google.com
타이타닉 데이터
타이타닉 데이터를 seaborn을 사용해서 불러온 다음
전처리과정을 거치고
데이터를 분할하여 샘플링 후,
학습을 시킨다.
Titanic_predict.ipynb
Run, share, and edit Python notebooks
colab.research.google.com
끝
'용어정리 > Machine-Learning' 카테고리의 다른 글
Machine-Learning 용어정리 (SVM, KNN, 나이브베이즈, 의사결정나무) ver 2 (1) | 2024.10.23 |
---|---|
Machine-Learning 용어정리 (데이터셋) (3) | 2024.10.22 |
Machine - Learning 용어정리 (지도학습 - 회귀모델) ver 3 (0) | 2024.10.19 |
machine-learning 용어정리 (전처리) ver 4 (1) | 2024.10.16 |
machine-learning 용어정리 (머신러닝이란) ver.2 (1) | 2024.10.15 |