📊 F 분포 완전 정리 💡
“📈 분산을 비교할 때 꼭 등장하는 통계분포!”
🎯 1️⃣ F 분포란?
👉 두 개의 카이제곱(χ²) 분포를 각각 자유도로 나눈 값의 비율이 따르는 분포예요.
쉽게 말하면, **“두 집단의 분산(흩어짐 정도)을 비교하기 위한 분포”**예요.
U ~ χ²(d₁), V ~ χ²(d₂) F = (U/d₁) / (V/d₂) → F(d₁, d₂)
📏 F값은 항상 0 이상이며,
그래프는 **오른쪽 꼬리가 긴 형태(비대칭)**를 가집니다.
🧠 2️⃣ F 분포의 특징
| 특징 | 설명 |
| 💡 정의 | 두 카이제곱 분포의 비율 |
| 📏 범위 | 0 이상 (음수 없음) |
| 🔢 평균 | d₂ > 2일 때 E[F] = d₂ / (d₂ − 2) |
| 📈 형태 | 오른쪽으로 꼬리가 긴 비대칭 분포 |
| 🔁 관계 | F(1, d₂) = t(d₂)² → t분포의 제곱 형태! |
💬 즉, t검정이 평균을 비교한다면
F검정은 **분산(흩어짐 정도)**을 비교하는 거예요.
🧭 3️⃣ F 분포는 어디에 쓰이나요?
F 분포는 📊 **“분산의 비율”**을 검정할 때 쓰입니다.
| 구분 | 사용하는 상황 | 검정 이름 |
| 🧮 두 집단의 분산 비교 | 두 모집단의 분산이 같은가? | 등분산 검정(분산비 검정) |
| 📊 여러 집단의 평균 비교 | 세 집단 이상 평균이 같은가? | 일원분산분석(ANOVA) |
| ⚙️ 회귀모형의 유의성 검정 | 회귀식 전체가 의미가 있는가? | 회귀모형의 F-검정 |
🧪 4️⃣ F 검정 종류 ✨
📘 (1) 등분산 검정 (Equality of Variance)
두 집단의 분산이 같은지 확인할 때 사용합니다.
예시 🎯
“남학생과 여학생의 시험 점수 분산이 같은가?”
공식
F = s₁² / s₂² (더 큰 분산을 분자로)
df₁ = n₁ − 1, df₂ = n₂ − 1
✅ F값이 커서 p ≤ 0.05이면 → “분산이 다르다!”
🧩 (2) 일원분산분석 (One-way ANOVA)
세 집단 이상 평균이 같은지를 검정합니다.
예시 🎓
A, B, C반의 평균 시험 점수가 같은가?
핵심 아이디어
- 집단 간 변동(SSB)과 집단 내 변동(SSW)을 비교해요.
- 두 변동의 비율이 크면(=F값 큼) 평균 차이가 있다고 봅니다.
F = (집단간 제곱평균 MSB) / (집단내 제곱평균 MSW)
✅ F ≥ 임계값 또는 p ≤ 0.05 → “적어도 한 집단의 평균이 다르다!”
💬 이때 차이가 난다면 👉 사후검정(Tukey, Scheffé 등) 으로
어떤 집단끼리 다른지도 확인합니다.
⚙️ (3) 회귀모형의 F-검정
회귀식 전체가 유의한가? (모든 독립변수의 효과가 동시에 유의한가?)
예시 📈
“광고비, 가격, 브랜드 인지도 모두가 매출에 영향을 주는가?”
공식
F = (SSR/k) / (SSE/(n−k−1))
SSR: 회귀제곱합, SSE: 오차제곱합, k: 독립변수 개수
✅ F값이 클수록 → 모델 전체가 유의함!
🧮 5️⃣ 예시로 바로 이해하기 ✏️
🧾 예시 1. 등분산 검정
A반 분산 s₁²=16, n₁=20
B반 분산 s₂²=9, n₂=22
→ F = 16 / 9 = 1.78
df₁=19, df₂=21
p=0.12 → 0.05보다 크므로
✅ “분산은 같다(등분산 가정 가능)”
🧾 예시 2. ANOVA
A/B/C 세 그룹 평균 비교 →
F(2,42)=4.00, p=0.024
✅ “집단 평균 간 차이 있음”
사후검정 결과 → A반과 C반에서 유의한 차이 확인 🎯
🧾 예시 3. 회귀모형
F(3,56)=21.33, p<0.001
✅ “모형 전체 유의” (적어도 하나의 독립변수가 영향 있음)
⚙️ 6️⃣ F 검정 시 꼭 확인해야 할 가정 ⚠️
| 가정 | 설명 | 해결책 |
| 📈 정규성 | 각 집단(또는 잔차)이 정규분포를 따름 | 표본 ↑, 로그변환, 비모수 검정 |
| 🔗 독립성 | 관측치들이 서로 독립 | 실험 설계에서 확보 |
| ⚖️ 등분산성 | 분산이 비슷해야 함 | Welch ANOVA, 이분산 보정 |
| 🚨 이상치 | F는 이상치에 민감함 | 이상치 진단 후 제거/보정 |
💬 특히 ANOVA에서는 정규성 + 등분산성을 항상 체크해야 해요!
📏 7️⃣ 효과 크기 (실질적인 영향력 확인)
| 구분 | 공식 | 해석 |
| η²(에타제곱) | SSB / SST | 전체 변동 중 집단간 비율 |
| ω²(오메가제곱) | (SSB − (k−1)MSW) / (SST + MSW) | 샘플 보정 포함 |
| R² (회귀분석) | SSR / SST | 설명변수들의 설명력 |
💡 예: η²=0.25 → 전체 변동 중 25%는 집단 차이로 설명됨
🧾 8️⃣ 결과 해석 문장 예시
📘 ANOVA 예시 문장
“유의수준 5%에서 F(2,42)=4.00, p=0.024 → 집단 간 평균 차이가 유의함. (사후검정 결과 A–C 유의 차이 확인)”
📊 등분산 검정 예시
“F(19,21)=1.78, p=0.12 → 분산이 다르다고 볼 근거 없음.”
📈 회귀모형 예시
“F(3,56)=21.33, p<0.001 → 회귀모형 전체가 유의함.”
🌈 9️⃣ 한 줄 요약 💬
💡 F 분포는 분산의 비를 비교하는 분포!
📊 “등분산 검정”, “ANOVA”, “회귀모형의 유의성” 에서 핵심적으로 사용돼요.
F값이 커지면 → 집단 간 차이 또는 모형 유의성 증가! ✅