로지스틱 회귀(Logistic Regression) 완전 정리_ADsP 3과목

🔐 로지스틱 회귀(Logistic Regression) 완전 정리 💡

📘 “확률로 말하는 분류 모델”

데이터로부터 ‘어떤 사건이 일어날 확률’을 예측하는 머신러닝의 기본 모델이에요 😊

🎯 1️⃣ 로지스틱 회귀란?

👉 결과가 두 가지(0 또는 1) 로 나뉘는 문제에서,

특정 사건(=1)이 발생할 확률을 예측하는 모델이에요.

예를 들어,

💳 “고객이 이탈할 확률”
📧 “메일이 스팸일 확률”
💊 “환자가 질병에 걸릴 확률”

이런 걸 예측할 때 로지스틱 회귀가 쓰여요!

🧮 2️⃣ 작동 원리 (시그모이드 함수 💫)

로지스틱 회귀는

선형 결합식 z = β₀ + β₁x₁ + β₂x₂ + … + βₚxₚ

을 시그모이드(Sigmoid) 함수로 변환해서 확률(p) 로 바꿔요.

📈 시그모이드 함수는 이렇게 생겼어요 👇

σ(z) = 1 / (1 + e^(−z))

z가 커지면 → p ≈ 1
z가 작으면 → p ≈ 0

즉,

“값이 커질수록 1(사건 발생)” 쪽으로,

“작을수록 0(미발생)” 쪽으로 예측해요!

🧠 3️⃣ 오즈와 로그오즈(log-odds)

로지스틱 회귀는 확률을 ‘오즈(Odds)’ 로 표현해요.

💬 오즈(Odds) = 사건이 일어날 확률 / 일어나지 않을 확률 = p / (1−p)

이 오즈에 로그를 취한 게 바로 로그오즈(Logit)

log(p / (1−p)) = β₀ + β₁x₁ + … + βₚxₚ

📊 이 식 덕분에 선형회귀처럼 계수(β) 를 해석할 수 있어요!

💡 예시

β(최근 방문일) = 0.7 → exp(0.7)=2.01

➡ 최근 방문일이 1일 늘면, 이탈 확률의 오즈가 약 2배 상승!

⚙️ 4️⃣ 모델 학습 방법

로지스틱 회귀는 단순한 최소제곱법이 아니라,

최대우도추정(MLE, Maximum Likelihood Estimation) 으로 학습해요.

즉, 주어진 데이터가 “지금 모델로 가장 잘 설명될 확률”이

최대가 되도록 계수(β)를 찾는 방법이에요 ✏️

📊 5️⃣ 평가 지표 ✨

로지스틱 회귀는 분류 문제이기 때문에,

평가 지표도 회귀(MAE, RMSE) 와 달라요!

지표	의미	특징
🎯 정확도(Accuracy)	전체 중 맞춘 비율	불균형 데이터에 취약
💎 정밀도(Precision)	양성이라 예측한 것 중 실제 양성	FP(오탐) 줄임
🔍 재현율(Recall)	실제 양성 중 잘 맞춘 비율	FN(놓침) 줄임
⚖️ F1 Score	정밀도와 재현율의 조화평균	불균형일 때 필수
📈 ROC-AUC	모든 임계값 기준 성능 평균	확률 출력 평가용
🧪 Log Loss / Brier Score	확률 예측의 품질	낮을수록 좋음

💡 시험포인트

Accuracy만 믿지 말고 F1, AUC도 고려!

불균형 데이터면 Recall↑ / Precision↓ 조정 필요 🔄

🎚️ 6️⃣ 임계값(Threshold) 조정

로지스틱 회귀는 확률을 0~1로 예측하므로

어디서 ‘1’로 볼지 임계값을 정해야 해요!

💔 질병·사기탐지처럼 놓치면 안 되는 경우:
→ 임계값 ↓, Recall(민감도) ↑
📩 스팸·경보처럼 잘못 탐지하면 곤란한 경우:
→ 임계값 ↑, Precision ↑

📘 예시

기본(0.5) → Recall=0.62

조정(0.4) → Recall=0.75 ↑ / Precision=0.78 ↓

👉 상황에 맞게 조정하는 게 핵심이에요!

🧩 7️⃣ 로지스틱 회귀의 장점 & 한계

✅ 장점	⚠️ 한계
확률 기반 → 예측 신뢰도 제공	선형 관계 가정 (비선형엔 약함)
해석력 좋음 (OR로 설명 가능)	다중공선성 있으면 불안정
빠르고 간단	과적합 가능 → 정규화 필요

⚡ 8️⃣ 정규화 버전

로지스틱 회귀에도 정규화(Regularization) 를 적용할 수 있어요.

L1 (라쏘) : 중요하지 않은 변수 계수 = 0 ✂️
L2 (릿지) : 전체 계수를 작게 줄여 안정화 💪

👉 ADsP 시험에서 “정규화된 로지스틱 회귀” 가 자주 등장합니다!

🧾 9️⃣ ADsP 시험 포인트 🔥

✅ 로지스틱 회귀 = 분류 모델 (출력: 확률)

✅ 로그오즈(logit) 개념 필수

✅ 오즈비(OR) = exp(β) 해석 가능

✅ 임계값 조정 → Recall/Precision trade-off

✅ 불균형 데이터 → F1, AUC 활용

✅ 정규화(L1/L2) 로 과적합 방지

✅ 선형관계(logit 기준) 가정 확인

🌈 10️⃣ 한 줄 정리 💬

로지스틱 회귀는

“선형회귀 + 시그모이드”

즉, 확률로 예측하고 오즈로 해석하는

💡 가장 실용적이고 해석력 높은 분류 모델이에요! 🔍

로지스틱 회귀(Logistic Regression) 완전 정리_ADsP 3과목

이 글 공유하기: