회귀 문제의 평가지표 완전 정리_ADsP 3과목

📊 회귀 문제의 평가지표 완전 정리 💡

MAE · MAPE · MSE · RMSE · R² (결정계수)


🎯 1️⃣ MAE (Mean Absolute Error, 평균절대오차)

📘

예측값이 실제값과 얼마나 차이 나는지 평균적으로 나타낸 값이에요.

쉽게 말해, “평균적으로 이만큼 틀렸다”라고 볼 수 있죠!

📏 공식 느낌

실제값과 예측값의 차이(|y−ŷ|)를 모두 더한 뒤, 표본 수로 나눈 값이에요.

💬 예시

실제 매출 100만 원 → 예측 90만 원이라면 오차는 10만 원.

평균적으로 10만 원 정도 오차가 난다면 MAE = 10만 원이 됩니다.

특징

  • 단위가 원래 데이터와 같아 직관적으로 이해 가능
  • 이상치(Outlier)에 덜 민감해서 안정적
  • ⚠️ 큰 오차를 “특별히 더” 벌주지 않음 (평균적인 오차만 반영)

📈 2️⃣ MAPE (Mean Absolute Percentage Error, 평균절대백분율오차)

📘

MAE를 **퍼센트(%)**로 표현한 거예요.

즉, “평균적으로 몇 % 틀렸는가?”를 알려줍니다.

💬 예시

실제값이 100, 예측이 90이라면 오차율은 10%.

세 값의 오차율을 평균내면 → MAPE = 평균 오차율(%)

특징

  • 비율(%)이라 직관적이고 현업 보고용으로 자주 사용
  • 모델이 얼마나 ‘정확하게 예측했는가’를 쉽게 설명 가능
  • ⚠️ 단점: 실제값이 0에 가까우면 폭주해버려요 (오차율이 무한대처럼 커짐)
  • → 이런 경우엔 sMAPE / WAPE / RMSLE 같은 대안 지표를 사용해요!

📉 3️⃣ MSE (Mean Squared Error, 평균제곱오차)

📘

오차(차이)를 제곱해서 평균 낸 값이에요.

큰 오차일수록 제곱되어 훨씬 큰 영향력을 줍니다.

💬 예시

오차가 5인 경우 제곱하면 25, 오차가 10이면 100이 되죠.

즉, 큰 오차를 “더 강하게 벌주는” 방식이에요.

특징

  • 큰 오차에 민감하므로 리스크가 큰 예측에 적합
  • 미분이 가능해서 머신러닝 학습 시 자주 사용
  • ⚠️ 단위가 제곱이라 직관적인 해석은 어려움 (예: “만원²” 단위)

📐 4️⃣ RMSE (Root Mean Squared Error, 평균제곱근오차)

📘

MSE의 제곱근을 취한 값이에요.

즉, 오차 제곱의 평균을 다시 원래 단위로 돌려놓은 것!

💬 예시

MSE가 400이면 RMSE는 √400 = 20.

즉, 평균적으로 20 단위만큼 틀렸다고 볼 수 있습니다.

특징

  • 가장 널리 사용되는 회귀 지표 💯
  • 큰 오차에 민감해서, 정밀한 예측이 필요한 경우 좋음
  • ⚠️ 단점: 이상치 하나만 있어도 값이 커질 수 있음

📘 5️⃣ R² (결정계수, R-Squared)

📘

모델이 데이터를 얼마나 잘 설명하는지(설명력) 보여주는 지표예요.

즉, “이 모델이 얼마나 잘 맞았는가?”를 수치로 표현한 것!

💬 해석법

  • R² = 1 ➜ 완벽 예측 (이상적 상황)
  • R² = 0 ➜ 평균값으로 예측하는 수준
  • R² < 0 ➜ 모델이 오히려 평균보다도 못함 😢

특징

  • 모델 간 성능 비교에 매우 유용
  • 1에 가까울수록 예측력이 높음
  • ⚠️ 변수(피처)가 많으면 인위적으로 R²가 커질 수 있으니 주의!
  • → 변수 수가 다르면 **Adjusted R²(수정 결정계수)**를 쓰는 게 좋아요.

🧭 한눈에 비교하기 👀

지표의미단위큰 오차 민감도특징
📏 MAE평균 절대 오차원 단위낮음해석 쉬움, 안정적
🎯 MAPE평균 오차율(%)%중간직관적, 0 근처 값 주의
📉 MSE제곱 평균 오차제곱 단위매우 높음큰 오차 페널티 큼
📐 RMSE평균 제곱근 오차원 단위높음업계 표준, 정밀 예측에 적합
📘 R²모델 설명력무단위(0~1)높을수록 좋음 (1에 근접)

💬 예시로 이해하기

실제값 y = [100, 200, 250]

예측값 ŷ = [90, 210, 200]

  • MAE → 평균 23.3 정도 틀림
  • MAPE → 평균 11.7% 정도 오차
  • MSE → 866.7 (큰 오차 제곱 반영)
  • RMSE → 약 29.5
  • R² → 0.82 (데이터의 82%를 설명)

➡️ 즉, 예측이 꽤 잘된 모델이라고 볼 수 있어요 😄


🌈 한 줄 정리 💡

MAE·MAPE = 직관적인 오차,

MSE·RMSE = 정밀한 평가,

R² = 전체 설명력

🎯 데이터 특성과 목적에 맞게 2~3개를 함께 사용하는 것이 정답!