Machin-Learning 용어정리 (로지스틱 회귀)

로지스틱 회귀에 대해서 알아보자

로지스틱 회귀의 개념

로지스틱 회귀란?

로지스틱 회귀란 종속 변수가 이진형일때, 즉 값이 둘중 하나로 나눌 수 있을때 사용되는 통계 기법이다.

이는 선형 회귀와는 달리 종속 변수가 0 또는 1로만 이뤄져 있다.

시그모이드 함수를 사용하여 예측값을 0 과 1사이에 위치하게 만들며 우리는 그것을 토대로 예측값의 확률을 알 수 있다.

시그모이드 함수

시그모이드 함수는 로지스틱 회귀의 핵심이며 시그모이드는 학습 데이터를 바탕으로 예측값을 나타낼때 쓰이며,

이로 인하여 예측값이 0 과 1사이로 나타내게 되는데 이는 1과 가까울때는 정답인 확률이며, 0에 가까울 때는 오답일 확률을 나타내게 된다.

즉 시그모이드 함수의 값이 0.7이라면, 정답률(1) 은 0.7이며 오답률은 0.3이다.

로지스틱 회귀의 목적

로지스틱 회귀의 목적은 데이터를 학습하여 학습 데이터의 특성을 통해 그 데이터가 특정한 클래스에 속할 확률을 예측힌다. 이로인해서 로지스틱 회귀를 예측이 아닌 분류 작업에 사용하는 경우가 많다.

예시로 아래에 포함을 할 것이지만, 유방암 데이터로 어떤 사람이 암에 걸렸을 확률을 생성하거나, 타이타닉 데이터를 사용하여, 승객의 정보를 통해 생존할 확률을 예측 할 수 있다. 이는 승객의 정보와 환자의 정보를 가지고 유방암 클래스와 생존자 클래스로 분류를 하는 것에 가깝다고 볼 수 있다.

비용 함수

비용함수란 모델의 예측 확률과 실제 레이블 즉 종속변수 와의 차이를 측정한다.

머신러닝이란 이 비용 함수의 값이 최소화 하는 방향으로 최적화를 시키는 학습을 뜻한다.

로지스틱 회귀 분석 실습

skikit-learn의 유방암 데이터와 seaborn을 사용하여 타이타닉 데이터를 가지고 로지스틱 회귀 분석의 실습을 진행해보자.

유방암 데이터

유방암 데이터를 가지고 데이터를 전처리과정을 거쳐서

학습시키는 예제이다.

Breast_cancer.ipynb - Colab

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com

타이타닉 데이터

타이타닉 데이터를 seaborn을 사용해서 불러온 다음

전처리과정을 거치고

데이터를 분할하여 샘플링 후,

학습을 시킨다.

Titanic_predict.ipynb - Colab

Titanic_predict.ipynb

Run, share, and edit Python notebooks

colab.research.google.com

끝

저작자표시 비영리 변경금지 (새창열림)

'용어정리 > Machine-Learning' 카테고리의 다른 글

Machine-Learning 용어정리 (SVM, KNN, 나이브베이즈, 의사결정나무) ver 2 (1)	2024.10.23
Machine-Learning 용어정리 (데이터셋) (3)	2024.10.22
Machine - Learning 용어정리 (지도학습 - 회귀모델) ver 3 (0)	2024.10.19
machine-learning 용어정리 (전처리) ver 4 (1)	2024.10.16
machine-learning 용어정리 (머신러닝이란) ver.2 (1)	2024.10.15

로지스틱 회귀의 개념

로지스틱 회귀란?

시그모이드 함수

로지스틱 회귀의 목적

비용 함수

로지스틱 회귀 분석 실습

유방암 데이터

타이타닉 데이터

'용어정리 > Machine-Learning' 카테고리의 다른 글

티스토리툴바