카이제곱(χ²) 분포 완전 정리 💡
“범주형 데이터 분석의 핵심 도구!”
🎯 1️⃣ 카이제곱 분포란?
표준정규분포를 따르는 변수(Z)를 제곱해서 더한 값이에요.
즉, 표준정규 Z₁, Z₂, …, Zₖ이 있다면
이들의 제곱을 모두 더한 값이 χ²(카이제곱) 분포를 따릅니다.
💬 쉽게 말해
“표준정규분포에서 나온 값들을 제곱해서 합친 분포”예요!
🧩 2️⃣ 카이제곱 분포의 특징
| 특징 | 설명 |
| 💡 정의 | 표준정규변수 제곱의 합 |
| 📏 범위 | 0 이상 (음수 없음) |
| 🔢 평균 | 자유도(df) |
| 📈 분산 | 2 × 자유도(df) |
| 📊 형태 | 오른쪽 꼬리가 긴 분포 (비대칭) |
| 📉 자유도 커질수록 | 정규분포에 가까워짐 |
🧭 3️⃣ 어디에 쓰이나요?
카이제곱 분포는 범주형 데이터 분석이나 분산 검정에서 자주 쓰입니다.
| 용도 | 설명 |
| 🧮 적합도 검정(Goodness of Fit) | “데이터가 이론적 분포와 같은가?” |
| 🔗 독립성 검정(Test of Independence) | “두 범주형 변수 간에 관계가 있는가?” |
| 🧷 동질성 검정(Test of Homogeneity) | “여러 집단의 범주 분포가 같은가?” |
| 📏 분산 검정(Variance Test) | “모분산이 특정 값과 같은가?” |
🧪 4️⃣ 카이제곱 검정의 종류 ✨
📘 (1) 적합도 검정 (Goodness of Fit)
실제 데이터가 이론적 분포와 잘 맞는지 확인합니다.
예시: 🎲 “주사위를 60번 던졌을 때, 결과가 1~6이 고르게 나왔는가?”
계산식:
χ² = Σ ( (관측값 O – 기대값 E)² / E )
자유도(df): (범주 수 – 1) – (추정된 모수 개수)
📊 p값이 0.05보다 작으면 → “이론분포와 다르다!”
🧩 (2) 독립성 검정 (Test of Independence)
두 범주형 변수 간의 연관 여부를 확인합니다.
예시: 🧍 성별과 ☕ 커피 선호도(좋아함/싫어함)는 관련이 있을까?
계산식:
χ² = Σ ( (관측도수 O – 기대도수 E)² / E )
기대도수: E = (행 합계 × 열 합계) / 전체합계
자유도(df): (행 개수 – 1) × (열 개수 – 1)
📊 p값이 0.05보다 작으면 → “두 변수는 독립이 아니다(연관 있음)!”
🧷 (3) 동질성 검정 (Test of Homogeneity)
**여러 모집단(집단)**에서 하나의 범주형 변수의 분포가 같은지 비교합니다.
즉, “지역 A/B/C에서 커피 종류 선호 비율이 같은가?” ☕️
핵심 포인트:
- 독립성 검정과 계산 방식은 동일하지만,
- 표본 설계와 해석 관점이 다릅니다.
- 독립성 검정은 “한 모집단 내 두 변수의 관계”
- 동질성 검정은 “여러 집단의 한 변수 분포 비교”
계산식:
χ² = Σ ( (O – E)² / E ), E = (행합계 × 열합계) / 전체합계
자유도(df): (행 개수 – 1) × (열 개수 – 1)
📊 p값 ≤ 0.05 → “집단 간 분포가 다르다(동질하지 않음)”
💡 예시:
“지역별 커피 선호(라떼/아메/디카페인)” 비교 결과
χ² = 12.8, df = 4, p = 0.012 →
“지역별로 선호 분포가 다르다” ✅
(Cramer’s V=0.18 → 약~중간 수준의 차이)
📐 (4) 분산 검정 (Variance Test)
정규분포 가정하에, 모분산이 특정 값과 같은지 검정합니다.
예시: 📏 “기계의 생산 오차(분산)가 기존과 달라졌는가?”
검정식:
χ² = (n – 1) × s² / σ₀²
자유도(df): n – 1
📊 5️⃣ 카이제곱 검정 절차 정리
| 단계 | 설명 |
| ① | 가설 설정 (H₀: 차이 없음 / H₁: 차이 있음) |
| ② | 기대도수(E) 계산 (각 셀 예상값) |
| ③ | 검정통계량(χ²) 계산 |
| ④ | 자유도(df) 확인 |
| ⑤ | p값 비교 (p ≤ 0.05 → H₀ 기각) |
| ⑥ | 결론 도출 (차이 또는 연관 있음) |
🧮 6️⃣ 예시로 쉽게 보기
🎲 적합도 검정 예시
주사위를 60번 던진 결과
{8, 11, 10, 9, 12, 10}이 나왔다면,
이론적으로는 각 면이 10번씩 나와야 합니다.
χ² = (8-10)²/10 + (11-10)²/10 + … = 약 1.0
df = 5 → p ≈ 0.96 → ✅ “균등하다(차이 없음)”
👩🏫 독립성 검정 예시
성별(남/여)과 커피 선호도(좋아함/싫어함) 조사 결과,
p < 0.05 → 🚨 “성별과 선호도는 독립이 아니다(연관 있음)”
🏙️ 동질성 검정 예시
지역 A/B/C의 커피 선호(라떼/아메/디카페인) 조사 결과
χ²=12.8, p=0.012 → ✅ “지역별 분포가 다르다(동질하지 않음)”
⚙️ 분산 검정 예시
n=25, s²=4.0, σ₀²=3.0 → χ²=(24×4)/3=32
p<0.05 → “분산이 달라졌다”
📏 7️⃣ 주의할 점 ⚠️
| 주의사항 | 설명 |
| 📉 기대도수(E) | 모든 셀의 기대도수는 5 이상이 바람직 |
| 🔗 독립성 | 표본이 서로 독립이어야 함 |
| 🧮 정규성 | 분산 검정에서는 반드시 정규분포 가정 필요 |
| 🧷 동질성 | 집단별 표본은 독립적으로 추출되어야 함 |
| 📊 보정 | 2×2 표에서는 Yates 연속성 보정 고려 |
| 💬 대안 | 표본이 작으면 Fisher의 정확검정 사용 |
💡 9️⃣ 효과 크기(연관 강도)
| 구분 | 공식 | 해석 |
| 🔸 2×2 표 | ϕ = √(χ² / n) | 0.1(약함), 0.3(중간), 0.5(강함) |
| 🔸 r×c 표 | V = √(χ² / (n × min(r−1, c−1))) | 0~1 사이 (1에 가까울수록 강함) |
🌈 10️⃣ 한 줄 요약 💬
📊 카이제곱(χ²) 분포는
“범주형 데이터에서 기대값과 실제값의 차이를 검정하는 도구!”
💡 정리하자면
🎯 적합도 검정 → 이론 분포와 일치?
🔗 독립성 검정 → 두 변수 관련 있음?
🧷 동질성 검정 → 여러 집단의 분포가 같은가?
📏 분산 검정 → 분산이 기준과 다른가?
👉 p값이 0.05보다 작으면 → 차이 또는 연관 있음!