📈 선형회귀(Linear Regression) 완벽 정리 💡
📘 “숫자를 예측하는 가장 기본적인 모델!”
🎯 1️⃣ 선형회귀란?
선형회귀는 하나 이상의 입력 변수(X) 를 이용해
결과값(Y) 을 ‘직선 형태로 예측’하는 통계적 모델이에요.
예를 들어 👉
💬 “공부 시간(x)과 시험 점수(y)” 관계를 직선으로 표현한다면,
점점이 흩어진 데이터를 가장 잘 통과하는 직선(회귀선) 을 찾는 거예요!
🧮 2️⃣ 기본 수식
단순선형회귀(변수가 1개일 때)
y = β₀ + β₁x + ε
- β₀ (절편) → x=0일 때 y의 값
- β₁ (기울기) → x가 1 증가할 때 y가 얼마나 변하는지
- ε (오차항) → 예측이 완벽하지 않으니 남는 차이
📊 다중선형회귀는?
y = β₀ + β₁x₁ + β₂x₂ + … + βₙxₙ + ε
→ 여러 변수를 한 번에 고려해 예측해요!
⚙️ 3️⃣ 학습 원리 (최소제곱법 OLS)
모델은 오차(잔차) 가 가장 작아지도록 학습돼요 🎯
💡 잔차(residual) = 실제값(y) − 예측값(ŷ)
👉 잔차의 제곱을 모두 더한 값(SSE)을 최소로 만드는 선을 찾습니다.
즉,
“모든 점과 직선 사이의 거리 제곱이 최소가 되도록!”
📘 4️⃣ 회귀계수 해석 ✍️
| 항목 | 의미 | 예시 |
| β₀ (절편) | x=0일 때 y의 예측값 | 공부시간 0일 때 예상 점수 |
| β₁ (기울기) | x가 1 증가할 때 y의 변화량 | 공부 1시간 증가 → 점수 +5점 |
💡 양수면 증가, 음수면 감소 관계를 의미해요.
🧾 5️⃣ 적합도(모델 설명력)
| 지표 | 의미 | 특징 |
| R² | y를 얼마나 잘 설명하나(0~1) | 1에 가까울수록 좋음 👍 |
| 조정 R² | 변수 개수 고려한 R² | 변수 늘려도 의미 없는 증가 방지 |
| RMSE, MAE | 예측 오차 크기 | 낮을수록 좋음 👌 |
🧪 6️⃣ 회귀계수 유의성 검정
- t-검정 : 개별 계수 유의한가?
H₀: β=0 → 해당 변수는 영향이 없다
- F-검정 : 전체 모형이 유의한가?
모든 β=0인가? → 아니면 유의한 모델
💬 p값이 0.05보다 작으면 → “통계적으로 의미 있음!”
📏 7️⃣ 선형회귀의 4대 가정 (LINE)
| 가정 | 의미 | 위반 시 대처 |
| 📈 선형성(Linearity) | x와 y 관계가 직선형 | 다항항 추가 / 로그변환 |
| 🔁 독립성(Independence) | 잔차끼리 독립 | 시계열이면 자기상관 확인 |
| ⚖️ 등분산성(Homoscedasticity) | 오차 분산 일정 | 로그/루트 변환 |
| 🔔 정규성(Normality) | 잔차가 정규분포 | 표본↑ / 강건추정 |
⚠️ 8️⃣ 다중공선성(Multicollinearity)
변수끼리 너무 비슷하면(상관 높으면) 문제 발생 😥
📘 진단법
- VIF(분산팽창계수) > 10이면 의심
📗 해결법
- 상관 높은 변수 제거
- 릿지(Ridge) / 라쏘(Lasso) 같은 정규화 회귀 활용
🧷 9️⃣ 이상치(Outlier) & 영향점(Influential Point)
- 잔차가 너무 큰 데이터 → 이상치
- 전체 회귀선 방향까지 바꾸는 점 → 영향점
- 📍 진단: Cook’s Distance
💡 해결: 데이터 검토 후 제거, 강건회귀나 변환 사용
🧩 10️⃣ 범주형 변수(Dummy Variable)
범주형 변수는 숫자로 바꿔야 해요!
예: “성별(남/여)” → “남=0, 여=1”
기준범주(남성)과 비교해 여성이 y에 얼마나 차이 있는지 확인 가능
🧮 11️⃣ 예측구간 vs 신뢰구간
| 구분 | 의미 | 폭 |
| 🔹 신뢰구간 | 평균 예측의 불확실성 | 좁음 |
| 🔸 예측구간 | 새 데이터 예측의 불확실성 | 항상 더 넓음 |
🧰 12️⃣ 정규화 회귀 (Ridge / Lasso / ElasticNet)
| 방법 | 특징 |
| 💪 릿지(Ridge) | L2 규제 → 계수 축소, 공선성 완화 |
| ✂️ 라쏘(Lasso) | L1 규제 → 변수 선택 기능 |
| ⚡ 엘라스틱넷(ElasticNet) | L1+L2 혼합, 두 장점 절충 |
하이퍼파라미터(λ)는 교차검증으로 결정!
📊 13️⃣ 예시로 이해하기 ✏️
ŷ = 1,200 + 35·(면적) + 480·(역세권)
| 변수 | 해석 |
| 면적 | 1㎡ 증가 시 가격 +35만원 상승 |
| 역세권 | 지하철 근처면 +480만원 비쌈 |
📘 R²=0.78 → 설명력 좋음
📈 p<0.05 → 유의한 변수들 ✅
📋 14️⃣ 잔차 진단 체크리스트 🧭
- 📉 잔차 vs 적합값 → 패턴 있으면 비선형 의심
- 🔔 QQ Plot → 잔차 정규성 확인
- ⚙️ VIF → 다중공선성 진단
- 🔍 Cook’s D → 이상치·영향점 확인
🧾 15️⃣ ADsP 시험 포인트 정리 🧠
✅ 최소제곱법(OLS) = 오차 제곱합 최소화
✅ t-검정(개별), F-검정(모형 전체)
✅ R² vs 조정 R² 구분
✅ 선형회귀 가정 4가지(LINE)
✅ VIF로 공선성 진단
✅ 예측구간이 신뢰구간보다 넓음 ✔️
✅ 릿지·라쏘 개념 이해
🌈 한 줄 정리 💬
“선형회귀는 숫자 예측의 출발점!
단순하지만 강력하고, 해석이 쉬워요 🔍
가정 점검 + 잔차 진단만 잘하면
믿을 수 있는 예측모델을 만들 수 있습니다 💪”