🔐 로지스틱 회귀(Logistic Regression) 완전 정리 💡
📘 “확률로 말하는 분류 모델”
데이터로부터 ‘어떤 사건이 일어날 확률’을 예측하는 머신러닝의 기본 모델이에요 😊
🎯 1️⃣ 로지스틱 회귀란?
👉 결과가 두 가지(0 또는 1) 로 나뉘는 문제에서,
특정 사건(=1)이 발생할 확률을 예측하는 모델이에요.
예를 들어,
- 💳 “고객이 이탈할 확률”
- 📧 “메일이 스팸일 확률”
- 💊 “환자가 질병에 걸릴 확률”
이런 걸 예측할 때 로지스틱 회귀가 쓰여요!
🧮 2️⃣ 작동 원리 (시그모이드 함수 💫)
로지스틱 회귀는
선형 결합식 z = β₀ + β₁x₁ + β₂x₂ + … + βₚxₚ
을 시그모이드(Sigmoid) 함수로 변환해서 확률(p) 로 바꿔요.
📈 시그모이드 함수는 이렇게 생겼어요 👇
σ(z) = 1 / (1 + e^(−z))
- z가 커지면 → p ≈ 1
- z가 작으면 → p ≈ 0
즉,
“값이 커질수록 1(사건 발생)” 쪽으로,
“작을수록 0(미발생)” 쪽으로 예측해요!
🧠 3️⃣ 오즈와 로그오즈(log-odds)
로지스틱 회귀는 확률을 ‘오즈(Odds)’ 로 표현해요.
💬 오즈(Odds) = 사건이 일어날 확률 / 일어나지 않을 확률 = p / (1−p)
이 오즈에 로그를 취한 게 바로 로그오즈(Logit)
log(p / (1−p)) = β₀ + β₁x₁ + … + βₚxₚ
📊 이 식 덕분에 선형회귀처럼 계수(β) 를 해석할 수 있어요!
💡 예시
β(최근 방문일) = 0.7 → exp(0.7)=2.01
➡ 최근 방문일이 1일 늘면, 이탈 확률의 오즈가 약 2배 상승!
⚙️ 4️⃣ 모델 학습 방법
로지스틱 회귀는 단순한 최소제곱법이 아니라,
최대우도추정(MLE, Maximum Likelihood Estimation) 으로 학습해요.
즉, 주어진 데이터가 “지금 모델로 가장 잘 설명될 확률”이
최대가 되도록 계수(β)를 찾는 방법이에요 ✏️
📊 5️⃣ 평가 지표 ✨
로지스틱 회귀는 분류 문제이기 때문에,
평가 지표도 회귀(MAE, RMSE) 와 달라요!
| 지표 | 의미 | 특징 |
| 🎯 정확도(Accuracy) | 전체 중 맞춘 비율 | 불균형 데이터에 취약 |
| 💎 정밀도(Precision) | 양성이라 예측한 것 중 실제 양성 | FP(오탐) 줄임 |
| 🔍 재현율(Recall) | 실제 양성 중 잘 맞춘 비율 | FN(놓침) 줄임 |
| ⚖️ F1 Score | 정밀도와 재현율의 조화평균 | 불균형일 때 필수 |
| 📈 ROC-AUC | 모든 임계값 기준 성능 평균 | 확률 출력 평가용 |
| 🧪 Log Loss / Brier Score | 확률 예측의 품질 | 낮을수록 좋음 |
💡 시험포인트
Accuracy만 믿지 말고 F1, AUC도 고려!
불균형 데이터면 Recall↑ / Precision↓ 조정 필요 🔄
🎚️ 6️⃣ 임계값(Threshold) 조정
로지스틱 회귀는 확률을 0~1로 예측하므로
어디서 ‘1’로 볼지 임계값을 정해야 해요!
- 💔 질병·사기탐지처럼 놓치면 안 되는 경우:
- → 임계값 ↓, Recall(민감도) ↑
- 📩 스팸·경보처럼 잘못 탐지하면 곤란한 경우:
- → 임계값 ↑, Precision ↑
📘 예시
기본(0.5) → Recall=0.62
조정(0.4) → Recall=0.75 ↑ / Precision=0.78 ↓
👉 상황에 맞게 조정하는 게 핵심이에요!
🧩 7️⃣ 로지스틱 회귀의 장점 & 한계
| ✅ 장점 | ⚠️ 한계 |
| 확률 기반 → 예측 신뢰도 제공 | 선형 관계 가정 (비선형엔 약함) |
| 해석력 좋음 (OR로 설명 가능) | 다중공선성 있으면 불안정 |
| 빠르고 간단 | 과적합 가능 → 정규화 필요 |
⚡ 8️⃣ 정규화 버전
로지스틱 회귀에도 정규화(Regularization) 를 적용할 수 있어요.
- L1 (라쏘) : 중요하지 않은 변수 계수 = 0 ✂️
- L2 (릿지) : 전체 계수를 작게 줄여 안정화 💪
👉 ADsP 시험에서 “정규화된 로지스틱 회귀” 가 자주 등장합니다!
🧾 9️⃣ ADsP 시험 포인트 🔥
✅ 로지스틱 회귀 = 분류 모델 (출력: 확률)
✅ 로그오즈(logit) 개념 필수
✅ 오즈비(OR) = exp(β) 해석 가능
✅ 임계값 조정 → Recall/Precision trade-off
✅ 불균형 데이터 → F1, AUC 활용
✅ 정규화(L1/L2) 로 과적합 방지
✅ 선형관계(logit 기준) 가정 확인
🌈 10️⃣ 한 줄 정리 💬
로지스틱 회귀는
“선형회귀 + 시그모이드”
즉, 확률로 예측하고 오즈로 해석하는
💡 가장 실용적이고 해석력 높은 분류 모델이에요! 🔍