선형회귀(Linear Regression) 완벽 정리_ADsP 3과목

📈 선형회귀(Linear Regression) 완벽 정리 💡

📘 “숫자를 예측하는 가장 기본적인 모델!”


🎯 1️⃣ 선형회귀란?

선형회귀는 하나 이상의 입력 변수(X) 를 이용해

결과값(Y) 을 ‘직선 형태로 예측’하는 통계적 모델이에요.

예를 들어 👉

💬 “공부 시간(x)과 시험 점수(y)” 관계를 직선으로 표현한다면,

점점이 흩어진 데이터를 가장 잘 통과하는 직선(회귀선) 을 찾는 거예요!


🧮 2️⃣ 기본 수식

단순선형회귀(변수가 1개일 때)

y = β₀ + β₁x + ε

  • β₀ (절편) → x=0일 때 y의 값
  • β₁ (기울기) → x가 1 증가할 때 y가 얼마나 변하는지
  • ε (오차항) → 예측이 완벽하지 않으니 남는 차이

📊 다중선형회귀는?

y = β₀ + β₁x₁ + β₂x₂ + … + βₙxₙ + ε

→ 여러 변수를 한 번에 고려해 예측해요!


⚙️ 3️⃣ 학습 원리 (최소제곱법 OLS)

모델은 오차(잔차) 가 가장 작아지도록 학습돼요 🎯

💡 잔차(residual) = 실제값(y) − 예측값(ŷ)

👉 잔차의 제곱을 모두 더한 값(SSE)을 최소로 만드는 선을 찾습니다.

즉,

“모든 점과 직선 사이의 거리 제곱이 최소가 되도록!”


📘 4️⃣ 회귀계수 해석 ✍️

항목의미예시
β₀ (절편)x=0일 때 y의 예측값공부시간 0일 때 예상 점수
β₁ (기울기)x가 1 증가할 때 y의 변화량공부 1시간 증가 → 점수 +5점

💡 양수면 증가, 음수면 감소 관계를 의미해요.


🧾 5️⃣ 적합도(모델 설명력)

지표의미특징
y를 얼마나 잘 설명하나(0~1)1에 가까울수록 좋음 👍
조정 R²변수 개수 고려한 R²변수 늘려도 의미 없는 증가 방지
RMSE, MAE예측 오차 크기낮을수록 좋음 👌

🧪 6️⃣ 회귀계수 유의성 검정

  • t-검정 : 개별 계수 유의한가?

H₀: β=0 → 해당 변수는 영향이 없다

  • F-검정 : 전체 모형이 유의한가?

모든 β=0인가? → 아니면 유의한 모델

💬 p값이 0.05보다 작으면 → “통계적으로 의미 있음!”


📏 7️⃣ 선형회귀의 4대 가정 (LINE)

가정의미위반 시 대처
📈 선형성(Linearity)x와 y 관계가 직선형다항항 추가 / 로그변환
🔁 독립성(Independence)잔차끼리 독립시계열이면 자기상관 확인
⚖️ 등분산성(Homoscedasticity)오차 분산 일정로그/루트 변환
🔔 정규성(Normality)잔차가 정규분포표본↑ / 강건추정

⚠️ 8️⃣ 다중공선성(Multicollinearity)

변수끼리 너무 비슷하면(상관 높으면) 문제 발생 😥

📘 진단법

  • VIF(분산팽창계수) > 10이면 의심

📗 해결법

  • 상관 높은 변수 제거
  • 릿지(Ridge) / 라쏘(Lasso) 같은 정규화 회귀 활용

🧷 9️⃣ 이상치(Outlier) & 영향점(Influential Point)

  • 잔차가 너무 큰 데이터 → 이상치
  • 전체 회귀선 방향까지 바꾸는 점 → 영향점
  • 📍 진단: Cook’s Distance

💡 해결: 데이터 검토 후 제거, 강건회귀나 변환 사용


🧩 10️⃣ 범주형 변수(Dummy Variable)

범주형 변수는 숫자로 바꿔야 해요!

예: “성별(남/여)” → “남=0, 여=1”

기준범주(남성)과 비교해 여성이 y에 얼마나 차이 있는지 확인 가능


🧮 11️⃣ 예측구간 vs 신뢰구간

구분의미
🔹 신뢰구간평균 예측의 불확실성좁음
🔸 예측구간새 데이터 예측의 불확실성항상 더 넓음

🧰 12️⃣ 정규화 회귀 (Ridge / Lasso / ElasticNet)

방법특징
💪 릿지(Ridge)L2 규제 → 계수 축소, 공선성 완화
✂️ 라쏘(Lasso)L1 규제 → 변수 선택 기능
⚡ 엘라스틱넷(ElasticNet)L1+L2 혼합, 두 장점 절충

하이퍼파라미터(λ)는 교차검증으로 결정!


📊 13️⃣ 예시로 이해하기 ✏️

ŷ = 1,200 + 35·(면적) + 480·(역세권)

변수해석
면적1㎡ 증가 시 가격 +35만원 상승
역세권지하철 근처면 +480만원 비쌈

📘 R²=0.78 → 설명력 좋음

📈 p<0.05 → 유의한 변수들 ✅


📋 14️⃣ 잔차 진단 체크리스트 🧭

  • 📉 잔차 vs 적합값 → 패턴 있으면 비선형 의심
  • 🔔 QQ Plot → 잔차 정규성 확인
  • ⚙️ VIF → 다중공선성 진단
  • 🔍 Cook’s D → 이상치·영향점 확인

🧾 15️⃣ ADsP 시험 포인트 정리 🧠

✅ 최소제곱법(OLS) = 오차 제곱합 최소화

✅ t-검정(개별), F-검정(모형 전체)

✅ R² vs 조정 R² 구분

✅ 선형회귀 가정 4가지(LINE)

✅ VIF로 공선성 진단

✅ 예측구간이 신뢰구간보다 넓음 ✔️

✅ 릿지·라쏘 개념 이해


🌈 한 줄 정리 💬

선형회귀는 숫자 예측의 출발점!

단순하지만 강력하고, 해석이 쉬워요 🔍

가정 점검 + 잔차 진단만 잘하면

믿을 수 있는 예측모델을 만들 수 있습니다 💪”