📊 회귀 문제의 평가지표 완전 정리 💡
MAE · MAPE · MSE · RMSE · R² (결정계수)
🎯 1️⃣ MAE (Mean Absolute Error, 평균절대오차)
📘 뜻
예측값이 실제값과 얼마나 차이 나는지 평균적으로 나타낸 값이에요.
쉽게 말해, “평균적으로 이만큼 틀렸다”라고 볼 수 있죠!
📏 공식 느낌
실제값과 예측값의 차이(|y−ŷ|)를 모두 더한 뒤, 표본 수로 나눈 값이에요.
💬 예시
실제 매출 100만 원 → 예측 90만 원이라면 오차는 10만 원.
평균적으로 10만 원 정도 오차가 난다면 MAE = 10만 원이 됩니다.
✅ 특징
- 단위가 원래 데이터와 같아 직관적으로 이해 가능
- 이상치(Outlier)에 덜 민감해서 안정적
- ⚠️ 큰 오차를 “특별히 더” 벌주지 않음 (평균적인 오차만 반영)
📈 2️⃣ MAPE (Mean Absolute Percentage Error, 평균절대백분율오차)
📘 뜻
MAE를 **퍼센트(%)**로 표현한 거예요.
즉, “평균적으로 몇 % 틀렸는가?”를 알려줍니다.
💬 예시
실제값이 100, 예측이 90이라면 오차율은 10%.
세 값의 오차율을 평균내면 → MAPE = 평균 오차율(%)
✅ 특징
- 비율(%)이라 직관적이고 현업 보고용으로 자주 사용
- 모델이 얼마나 ‘정확하게 예측했는가’를 쉽게 설명 가능
- ⚠️ 단점: 실제값이 0에 가까우면 폭주해버려요 (오차율이 무한대처럼 커짐)
- → 이런 경우엔 sMAPE / WAPE / RMSLE 같은 대안 지표를 사용해요!
📉 3️⃣ MSE (Mean Squared Error, 평균제곱오차)
📘 뜻
오차(차이)를 제곱해서 평균 낸 값이에요.
큰 오차일수록 제곱되어 훨씬 큰 영향력을 줍니다.
💬 예시
오차가 5인 경우 제곱하면 25, 오차가 10이면 100이 되죠.
즉, 큰 오차를 “더 강하게 벌주는” 방식이에요.
✅ 특징
- 큰 오차에 민감하므로 리스크가 큰 예측에 적합
- 미분이 가능해서 머신러닝 학습 시 자주 사용
- ⚠️ 단위가 제곱이라 직관적인 해석은 어려움 (예: “만원²” 단위)
📐 4️⃣ RMSE (Root Mean Squared Error, 평균제곱근오차)
📘 뜻
MSE의 제곱근을 취한 값이에요.
즉, 오차 제곱의 평균을 다시 원래 단위로 돌려놓은 것!
💬 예시
MSE가 400이면 RMSE는 √400 = 20.
즉, 평균적으로 20 단위만큼 틀렸다고 볼 수 있습니다.
✅ 특징
- 가장 널리 사용되는 회귀 지표 💯
- 큰 오차에 민감해서, 정밀한 예측이 필요한 경우 좋음
- ⚠️ 단점: 이상치 하나만 있어도 값이 커질 수 있음
📘 5️⃣ R² (결정계수, R-Squared)
📘 뜻
모델이 데이터를 얼마나 잘 설명하는지(설명력) 보여주는 지표예요.
즉, “이 모델이 얼마나 잘 맞았는가?”를 수치로 표현한 것!
💬 해석법
- R² = 1 ➜ 완벽 예측 (이상적 상황)
- R² = 0 ➜ 평균값으로 예측하는 수준
- R² < 0 ➜ 모델이 오히려 평균보다도 못함 😢
✅ 특징
- 모델 간 성능 비교에 매우 유용
- 1에 가까울수록 예측력이 높음
- ⚠️ 변수(피처)가 많으면 인위적으로 R²가 커질 수 있으니 주의!
- → 변수 수가 다르면 **Adjusted R²(수정 결정계수)**를 쓰는 게 좋아요.
🧭 한눈에 비교하기 👀
| 지표 | 의미 | 단위 | 큰 오차 민감도 | 특징 |
| 📏 MAE | 평균 절대 오차 | 원 단위 | 낮음 | 해석 쉬움, 안정적 |
| 🎯 MAPE | 평균 오차율(%) | % | 중간 | 직관적, 0 근처 값 주의 |
| 📉 MSE | 제곱 평균 오차 | 제곱 단위 | 매우 높음 | 큰 오차 페널티 큼 |
| 📐 RMSE | 평균 제곱근 오차 | 원 단위 | 높음 | 업계 표준, 정밀 예측에 적합 |
| 📘 R² | 모델 설명력 | 무단위(0~1) | — | 높을수록 좋음 (1에 근접) |
💬 예시로 이해하기
실제값 y = [100, 200, 250]
예측값 ŷ = [90, 210, 200]
- MAE → 평균 23.3 정도 틀림
- MAPE → 평균 11.7% 정도 오차
- MSE → 866.7 (큰 오차 제곱 반영)
- RMSE → 약 29.5
- R² → 0.82 (데이터의 82%를 설명)
➡️ 즉, 예측이 꽤 잘된 모델이라고 볼 수 있어요 😄
🌈 한 줄 정리 💡
MAE·MAPE = 직관적인 오차,
MSE·RMSE = 정밀한 평가,
R² = 전체 설명력
🎯 데이터 특성과 목적에 맞게 2~3개를 함께 사용하는 것이 정답!