🧩 분류 문제의 평가지표 완벽 정리 💡
📘 Accuracy · Precision · Recall(민감도/TPR) · Specificity · F1 · ROC-AUC · PR-AUC · MCC · 오분류율 · FPR 포함!
🎯 1️⃣ 혼동행렬(Confusion Matrix) 기본 이해
| 구분 | 실제 양성 (Positive) | 실제 음성 (Negative) |
| 예측 양성 | ✅ TP (진양성) | ❌ FP (거짓양성) |
| 예측 음성 | ❌ FN (거짓음성) | ✅ TN (진음성) |
📌 모든 평가지표는 이 TP, FP, FN, TN에서 파생됩니다!
📊 2️⃣ 주요 평가지표 한눈 정리
| 지표 | 의미 | 공식 | 해석 |
| 🎯 정확도 (Accuracy) | 전체 중 맞춘 비율 | (TP+TN)/(TP+FP+FN+TN) | 전체 예측이 얼마나 맞았는가 |
| ⚠️ 오분류율 (Misclassification Rate) | 틀린 비율 | (FP+FN)/전체 = 1−Accuracy | 낮을수록 좋음 |
| 💡 정밀도 (Precision) | 예측 양성 중 진짜 양성 | TP/(TP+FP) | “양성이라 한 것”의 신뢰도 |
| 🔍 재현율 (Recall, Sensitivity) | 실제 양성 중 잘 찾아낸 비율 | TP/(TP+FN) | 놓치지 않는 능력 |
| ❤️ 민감도 (Sensitivity) | = 재현율(Recall) = TPR(True Positive Rate) | TP/(TP+FN) | 실제 양성을 얼마나 잘 감지하는가 |
| 🧯 특이도 (Specificity) | 실제 음성 중 잘 맞춘 비율 | TN/(TN+FP) | 오탐을 줄이는 능력 |
| 🚨 FPR(False Positive Rate) | 거짓 양성 비율 | FP/(FP+TN) = 1−특이도 | 실제 음성을 양성으로 잘못 분류한 비율 |
| ⚖️ F1-Score | 정밀도·재현율의 조화평균 | 2×(P×R)/(P+R) | 불균형 데이터에서 균형 평가 |
| 📈 ROC-AUC | ROC 곡선 면적(TPR vs FPR) | – | 임계값 전 구간의 분류 성능 |
| 📉 PR-AUC | Precision–Recall 곡선 면적 | – | 양성이 희소할 때 유용 |
| 🧠 MCC (Matthews Corr. Coef.) | 전체 균형 상관계수 | – | 불균형에도 강건 |
🧮 3️⃣ 예시로 계산해보기 ✏️
가정: 전체 200건 중
TP=40, FP=10, FN=20, TN=130
| 지표 | 계산식 | 결과 |
| 정확도 | (40+130)/200 | 0.85 (85%) |
| 오분류율 | 1−0.85 | 0.15 (15%) |
| 정밀도 | 40/(40+10) | 0.80 (80%) |
| 재현율(=TPR, 민감도) | 40/(40+20) | 0.67 (67%) |
| 특이도 | 130/(130+10) | 0.93 (93%) |
| FPR | 1−0.93 | 0.07 (7%) |
| F1 | 2×(0.8×0.67)/(0.8+0.67) | 0.73 |
💬 해석
- 정확도는 높지만(85%), 민감도(=TPR=0.67)가 낮아 양성 **놓침(FN)**이 존재
- 오탐(FPR)은 낮아 정상 데이터는 잘 분류됨
- 👉 암 진단이나 사기탐지처럼 FN 비용이 큰 문제라면 임계값을 내려 **TPR↑**시키는 게 유리!
⚙️ 4️⃣ TPR과 FPR의 관계
📈 ROC 곡선 (Receiver Operating Characteristic)
- 가로축: FPR(False Positive Rate)
- 세로축: TPR(True Positive Rate)
- 곡선 아래 면적(AUC)이 클수록 분류 성능이 우수 🎯
💡 트레이드오프
- TPR을 높이면 FPR도 함께 올라감
- 즉, “많이 잡으려다 괜히 오탐도 늘어나는 구조”
- 👉 문제 성격에 따라 균형점을 찾아야 함 (Youden’s J = TPR − FPR 최대 지점)
📘 5️⃣ 불균형 데이터에서는?
| 상황 | 추천 지표 | 이유 |
| 양성 비율이 매우 적음 | F1, PR-AUC | Accuracy는 착시 위험 |
| 양성 놓치면 위험(의료/사기) | Recall(TPR) | 놓침 최소화 |
| 오탐 비용 큼(법률/메일) | Precision, FPR | 불필요한 경고 줄이기 |
🧮 6️⃣ 다중분류 평균 방식 요약
| 방식 | 설명 | 특징 |
| 🟩 Macro | 클래스별 지표 평균 | 클래스 균등 반영 |
| 🟨 Weighted | 클래스별 샘플 수 가중 평균 | 데이터 비율 반영 |
| 🟦 Micro | 전체 TP/FP/FN 합쳐 계산 | 샘플 단위 기준 |
✅ 불균형이면 macro-F1 또는 weighted-F1 사용 추천!
🧾 7️⃣ ADsP 시험 포인트 💡
🔹 민감도 = 재현율 = TPR, 특이도와 FPR은 반비례 관계
🔹 오분류율 = 1−정확도
🔹 F1은 정밀도·재현율의 균형 평가
🔹 ROC-AUC vs PR-AUC → 희소 양성일수록 PR-AUC
🔹 Macro / Micro / Weighted 구분 필수
🔹 임계값 조정은 TPR–FPR 트레이드오프 핵심
🌈 8️⃣ 한 줄 요약
💬 “분류 평가지표의 핵심은 TP·FP·FN·TN!
민감도(TPR)는 놓치지 않는 힘, FPR은 불필요한 오탐의 비율,
오분류율은 Accuracy의 반대 개념!”
🎯 ADsP 시험 포인트: 불균형 데이터 → F1·PR-AUC 중심으로 보자!