💪 정규화 선형회귀 완전 정복 🌈
📊 릿지(Ridge) · ✂️ 라쏘(Lasso) · ⚡ 엘라스틱넷(Elastic Net)
👉 “과적합을 막고, 해석 가능한 예측모델을 만드는 기술!”
🎯 1️⃣ 정규화(Regularization)란?
👉 모델이 너무 복잡하면 훈련데이터엔 잘 맞지만, 새로운 데이터엔 약해요.
이걸 **‘과적합(Overfitting)’**이라고 해요.
💡 정규화는 회귀계수(β)의 크기에 패널티를 줘서, 모델 복잡도를 줄이는 방법이에요.
즉, 너무 큰 계수를 억제해 모델이 덜 요란하게 학습하도록 도와줘요! 😎
🧱 2️⃣ 릿지 회귀 (Ridge Regression, L2 규제)
📘 핵심 아이디어:
→ “계수의 제곱합”에 패널티를 줘서, 계수를 0에 가깝게 축소시켜요.
💬 수식 느낌으로 표현하자면
오차 제곱합 + λ(베타 제곱합)
즉, 잔차(residual) 와 계수 크기를 동시에 고려해서 최적의 β를 찾는 거예요.
🧩 릿지 회귀의 특징
| 항목 | 내용 |
| ⚙️ 규제 형태 | L2 (계수 제곱합) |
| 📉 효과 | 계수 크기 전체적으로 줄임 (완전 0은 아님) |
| 📊 장점 | 다중공선성 완화, 안정된 예측 |
| 🚫 단점 | 변수 선택(0으로 제거)은 불가능 |
| 🧮 튜닝 파라미터 | λ (크면 규제 강함 → 모델 단순) |
💡 릿지는 모든 변수를 조금씩 줄이는 ‘균형 잡힌 다이어트’ 모델이에요!
📘 예시로 쉽게 보기
예: 광고비(x₁), 가격(x₂), 리뷰 수(x₃) → 매출(y) 예측
변수 간 상관이 높으면(광고비↑ → 리뷰↑)
일반 선형회귀는 불안정하지만,
릿지는 계수를 적절히 축소해 안정된 결과를 냅니다 ✅
✂️ 3️⃣ 라쏘 회귀 (Lasso Regression, L1 규제)
📘 핵심 아이디어:
→ “계수의 절댓값 합”에 패널티를 줘서, 중요하지 않은 변수의 계수를 0으로 만들어버려요!
💡 즉,
“필요한 변수만 남기고 나머지는 정리하는 스마트 모델 정리법 ✂️”
🧩 라쏘 회귀의 특징
| 항목 | 내용 |
| ⚙️ 규제 형태 | L1 (계수 절댓값 합) |
| 📉 효과 | 일부 계수는 완전 0 → 변수 제거 효과 |
| 💬 장점 | 변수 선택 가능 → 해석 쉬움 |
| 🚫 단점 | 상관 높은 변수 중 하나만 남길 수도 있음 |
| 🧮 튜닝 파라미터 | λ (크면 더 많은 변수 제거) |
💡 라쏘는 불필요한 변수를 “싹 정리”해주는 정리왕이에요!
📘 예시로 쉽게 보기
예: 고객 데이터에서 100개 변수 중
실제로 매출에 영향을 주는 건 5~6개뿐이라면?
👉 라쏘는 그 5~6개만 남기고 나머지를 0으로 만들어줍니다 🎯
⚡ 4️⃣ 엘라스틱넷 회귀 (Elastic Net)
📘 릿지와 라쏘의 장점을 섞은 혼합형 모델!
💡 수식 느낌
(오차 제곱합) + λ₁(계수 절댓값 합) + λ₂(계수 제곱합)
🧩 엘라스틱넷의 특징
| 항목 | 내용 |
| ⚙️ 규제 형태 | L1 + L2 혼합 |
| 📉 효과 | 일부 변수 선택 + 안정성 확보 |
| 💬 장점 | 상관 높은 변수 처리에 강함 |
| 🧮 튜닝 파라미터 | λ(규제 강도), α(L1·L2 비율 조절) |
💡 릿지의 안정성과 라쏘의 변수선택력을 모두 가진 “절충형 모델”!
🧪 5️⃣ 릿지 vs 라쏘 vs 엘라스틱넷 비교표
| 구분 | 규제 종류 | 계수 영향 | 변수 선택 | 강점 |
| 💪 릿지 | L2(제곱합) | 작게 줄임 | ❌ 없음 | 공선성 완화, 안정성 |
| ✂️ 라쏘 | L1(절댓값) | 일부 0으로 | ✅ 있음 | 변수 선택, 해석 용이 |
| ⚡ 엘라스틱넷 | L1+L2 | 적당히 줄임 | ✅ 있음 | 둘의 장점 결합 |
🎛️ 6️⃣ 정규화 모델의 실전 적용 팁
📌 스케일링 필수!
- 변수 단위(만원, 개수, %)가 다르면 규제 불균형 발생 ⚠️
- 따라서 학습 전에 표준화(StandardScaler) 적용!
📌 교차검증으로 λ(알파) 찾기
- 보통 k-Fold Cross Validation으로 최적 규제 강도 탐색
- 예: 5-Fold → 평균 RMSE가 최소가 되는 λ 선택
📌 변수 중요도 해석
- 라쏘나 엘라스틱넷으로 유의미한 피처만 남기면
- → 모델 해석이 훨씬 쉬워져요 🧠
💬 7️⃣ ADsP 시험 포인트 🧾
✅ 정규화는 과적합 방지 목적
✅ 릿지(L2): 계수 축소, 안정성
✅ 라쏘(L1): 변수 선택(0으로 만듦)
✅ 엘라스틱넷(L1+L2): 두 장점 절충
✅ 교차검증으로 λ(규제 강도) 결정
✅ 스케일링(표준화) 필수!
✅ 다중공선성 완화 = 릿지 효과
✅ 변수 중요도 해석 = 라쏘의 강점
🧾 8️⃣ 한 줄 요약 💡
릿지: “모두 조금씩 줄이기 📉”
라쏘: “중요한 변수만 남기기 ✂️”
엘라스틱넷: “둘 다 적당히 ⚡”
📊 정규화 회귀는 “과적합 방지 + 변수 선택 + 모델 안정화”의 핵심 무기예요! 🚀