분류 문제의 평가지표 완벽 정리_ADsP 3과목

🧩 분류 문제의 평가지표 완벽 정리 💡

📘 Accuracy · Precision · Recall(민감도/TPR) · Specificity · F1 · ROC-AUC · PR-AUC · MCC · 오분류율 · FPR 포함!


🎯 1️⃣ 혼동행렬(Confusion Matrix) 기본 이해

구분실제 양성 (Positive)실제 음성 (Negative)
예측 양성✅ TP (진양성)❌ FP (거짓양성)
예측 음성❌ FN (거짓음성)✅ TN (진음성)

📌 모든 평가지표는 이 TP, FP, FN, TN에서 파생됩니다!


📊 2️⃣ 주요 평가지표 한눈 정리

지표의미공식해석
🎯 정확도 (Accuracy)전체 중 맞춘 비율(TP+TN)/(TP+FP+FN+TN)전체 예측이 얼마나 맞았는가
⚠️ 오분류율 (Misclassification Rate)틀린 비율(FP+FN)/전체 = 1−Accuracy낮을수록 좋음
💡 정밀도 (Precision)예측 양성 중 진짜 양성TP/(TP+FP)“양성이라 한 것”의 신뢰도
🔍 재현율 (Recall, Sensitivity)실제 양성 중 잘 찾아낸 비율TP/(TP+FN)놓치지 않는 능력
❤️ 민감도 (Sensitivity)= 재현율(Recall) = TPR(True Positive Rate)TP/(TP+FN)실제 양성을 얼마나 잘 감지하는가
🧯 특이도 (Specificity)실제 음성 중 잘 맞춘 비율TN/(TN+FP)오탐을 줄이는 능력
🚨 FPR(False Positive Rate)거짓 양성 비율FP/(FP+TN) = 1−특이도실제 음성을 양성으로 잘못 분류한 비율
⚖️ F1-Score정밀도·재현율의 조화평균2×(P×R)/(P+R)불균형 데이터에서 균형 평가
📈 ROC-AUCROC 곡선 면적(TPR vs FPR)임계값 전 구간의 분류 성능
📉 PR-AUCPrecision–Recall 곡선 면적양성이 희소할 때 유용
🧠 MCC (Matthews Corr. Coef.)전체 균형 상관계수불균형에도 강건

🧮 3️⃣ 예시로 계산해보기 ✏️

가정: 전체 200건 중

TP=40, FP=10, FN=20, TN=130

지표계산식결과
정확도(40+130)/2000.85 (85%)
오분류율1−0.850.15 (15%)
정밀도40/(40+10)0.80 (80%)
재현율(=TPR, 민감도)40/(40+20)0.67 (67%)
특이도130/(130+10)0.93 (93%)
FPR1−0.930.07 (7%)
F12×(0.8×0.67)/(0.8+0.67)0.73

💬 해석

  • 정확도는 높지만(85%), 민감도(=TPR=0.67)가 낮아 양성 **놓침(FN)**이 존재
  • 오탐(FPR)은 낮아 정상 데이터는 잘 분류됨
  • 👉 암 진단이나 사기탐지처럼 FN 비용이 큰 문제라면 임계값을 내려 **TPR↑**시키는 게 유리!

⚙️ 4️⃣ TPR과 FPR의 관계

📈 ROC 곡선 (Receiver Operating Characteristic)

  • 가로축: FPR(False Positive Rate)
  • 세로축: TPR(True Positive Rate)
  • 곡선 아래 면적(AUC)이 클수록 분류 성능이 우수 🎯

💡 트레이드오프

  • TPR을 높이면 FPR도 함께 올라감
  • 즉, “많이 잡으려다 괜히 오탐도 늘어나는 구조”
  • 👉 문제 성격에 따라 균형점을 찾아야 함 (Youden’s J = TPR − FPR 최대 지점)

📘 5️⃣ 불균형 데이터에서는?

상황추천 지표이유
양성 비율이 매우 적음F1, PR-AUCAccuracy는 착시 위험
양성 놓치면 위험(의료/사기)Recall(TPR)놓침 최소화
오탐 비용 큼(법률/메일)Precision, FPR불필요한 경고 줄이기

🧮 6️⃣ 다중분류 평균 방식 요약

방식설명특징
🟩 Macro클래스별 지표 평균클래스 균등 반영
🟨 Weighted클래스별 샘플 수 가중 평균데이터 비율 반영
🟦 Micro전체 TP/FP/FN 합쳐 계산샘플 단위 기준

✅ 불균형이면 macro-F1 또는 weighted-F1 사용 추천!


🧾 7️⃣ ADsP 시험 포인트 💡

🔹 민감도 = 재현율 = TPR, 특이도와 FPR은 반비례 관계

🔹 오분류율 = 1−정확도

🔹 F1은 정밀도·재현율의 균형 평가

🔹 ROC-AUC vs PR-AUC → 희소 양성일수록 PR-AUC

🔹 Macro / Micro / Weighted 구분 필수

🔹 임계값 조정은 TPR–FPR 트레이드오프 핵심


🌈 8️⃣ 한 줄 요약

💬 “분류 평가지표의 핵심은 TP·FP·FN·TN!

민감도(TPR)는 놓치지 않는 힘, FPR은 불필요한 오탐의 비율,

오분류율은 Accuracy의 반대 개념!”

🎯 ADsP 시험 포인트: 불균형 데이터 → F1·PR-AUC 중심으로 보자!