카이제곱(χ²) 분포 완전 정리_ADsP 3과목

카이제곱(χ²) 분포 완전 정리 💡

“범주형 데이터 분석의 핵심 도구!”


🎯 1️⃣ 카이제곱 분포란?

표준정규분포를 따르는 변수(Z)를 제곱해서 더한 값이에요.

즉, 표준정규 Z₁, Z₂, …, Zₖ이 있다면

이들의 제곱을 모두 더한 값이 χ²(카이제곱) 분포를 따릅니다.

💬 쉽게 말해

“표준정규분포에서 나온 값들을 제곱해서 합친 분포”예요!


🧩 2️⃣ 카이제곱 분포의 특징

특징설명
💡 정의표준정규변수 제곱의 합
📏 범위0 이상 (음수 없음)
🔢 평균자유도(df)
📈 분산2 × 자유도(df)
📊 형태오른쪽 꼬리가 긴 분포 (비대칭)
📉 자유도 커질수록정규분포에 가까워짐

🧭 3️⃣ 어디에 쓰이나요?

카이제곱 분포는 범주형 데이터 분석이나 분산 검정에서 자주 쓰입니다.

용도설명
🧮 적합도 검정(Goodness of Fit)“데이터가 이론적 분포와 같은가?”
🔗 독립성 검정(Test of Independence)“두 범주형 변수 간에 관계가 있는가?”
🧷 동질성 검정(Test of Homogeneity)“여러 집단의 범주 분포가 같은가?”
📏 분산 검정(Variance Test)“모분산이 특정 값과 같은가?”

🧪 4️⃣ 카이제곱 검정의 종류 ✨

📘 (1) 적합도 검정 (Goodness of Fit)

실제 데이터가 이론적 분포와 잘 맞는지 확인합니다.

예시: 🎲 “주사위를 60번 던졌을 때, 결과가 1~6이 고르게 나왔는가?”

계산식:

χ² = Σ ( (관측값 O – 기대값 E)² / E )

자유도(df): (범주 수 – 1) – (추정된 모수 개수)

📊 p값이 0.05보다 작으면 → “이론분포와 다르다!”


🧩 (2) 독립성 검정 (Test of Independence)

두 범주형 변수 간의 연관 여부를 확인합니다.

예시: 🧍 성별과 ☕ 커피 선호도(좋아함/싫어함)는 관련이 있을까?

계산식:

χ² = Σ ( (관측도수 O – 기대도수 E)² / E )

기대도수: E = (행 합계 × 열 합계) / 전체합계

자유도(df): (행 개수 – 1) × (열 개수 – 1)

📊 p값이 0.05보다 작으면 → “두 변수는 독립이 아니다(연관 있음)!”


🧷 (3) 동질성 검정 (Test of Homogeneity)

**여러 모집단(집단)**에서 하나의 범주형 변수의 분포가 같은지 비교합니다.

즉, “지역 A/B/C에서 커피 종류 선호 비율이 같은가?” ☕️

핵심 포인트:

  • 독립성 검정과 계산 방식은 동일하지만,
  • 표본 설계와 해석 관점이 다릅니다.
  • 독립성 검정은 “한 모집단 내 두 변수의 관계”
  • 동질성 검정은 “여러 집단의 한 변수 분포 비교”

계산식:

χ² = Σ ( (O – E)² / E ), E = (행합계 × 열합계) / 전체합계

자유도(df): (행 개수 – 1) × (열 개수 – 1)

📊 p값 ≤ 0.05 → “집단 간 분포가 다르다(동질하지 않음)”

💡 예시:

“지역별 커피 선호(라떼/아메/디카페인)” 비교 결과

χ² = 12.8, df = 4, p = 0.012 →

“지역별로 선호 분포가 다르다” ✅

(Cramer’s V=0.18 → 약~중간 수준의 차이)


📐 (4) 분산 검정 (Variance Test)

정규분포 가정하에, 모분산이 특정 값과 같은지 검정합니다.

예시: 📏 “기계의 생산 오차(분산)가 기존과 달라졌는가?”

검정식:

χ² = (n – 1) × s² / σ₀²

자유도(df): n – 1


📊 5️⃣ 카이제곱 검정 절차 정리

단계설명
가설 설정 (H₀: 차이 없음 / H₁: 차이 있음)
기대도수(E) 계산 (각 셀 예상값)
검정통계량(χ²) 계산
자유도(df) 확인
p값 비교 (p ≤ 0.05 → H₀ 기각)
결론 도출 (차이 또는 연관 있음)

🧮 6️⃣ 예시로 쉽게 보기

🎲 적합도 검정 예시

주사위를 60번 던진 결과

{8, 11, 10, 9, 12, 10}이 나왔다면,

이론적으로는 각 면이 10번씩 나와야 합니다.

χ² = (8-10)²/10 + (11-10)²/10 + … = 약 1.0

df = 5 → p ≈ 0.96 → ✅ “균등하다(차이 없음)”

👩‍🏫 독립성 검정 예시

성별(남/여)과 커피 선호도(좋아함/싫어함) 조사 결과,

p < 0.05 → 🚨 “성별과 선호도는 독립이 아니다(연관 있음)”

🏙️ 동질성 검정 예시

지역 A/B/C의 커피 선호(라떼/아메/디카페인) 조사 결과

χ²=12.8, p=0.012 → ✅ “지역별 분포가 다르다(동질하지 않음)”

⚙️ 분산 검정 예시

n=25, s²=4.0, σ₀²=3.0 → χ²=(24×4)/3=32

p<0.05 → “분산이 달라졌다”


📏 7️⃣ 주의할 점 ⚠️

주의사항설명
📉 기대도수(E)모든 셀의 기대도수는 5 이상이 바람직
🔗 독립성표본이 서로 독립이어야 함
🧮 정규성분산 검정에서는 반드시 정규분포 가정 필요
🧷 동질성집단별 표본은 독립적으로 추출되어야 함
📊 보정2×2 표에서는 Yates 연속성 보정 고려
💬 대안표본이 작으면 Fisher의 정확검정 사용

💡 9️⃣ 효과 크기(연관 강도)

구분공식해석
🔸 2×2 표ϕ = √(χ² / n)0.1(약함), 0.3(중간), 0.5(강함)
🔸 r×c 표V = √(χ² / (n × min(r−1, c−1)))0~1 사이 (1에 가까울수록 강함)

🌈 10️⃣ 한 줄 요약 💬

📊 카이제곱(χ²) 분포

“범주형 데이터에서 기대값과 실제값의 차이를 검정하는 도구!”

💡 정리하자면

🎯 적합도 검정 → 이론 분포와 일치?

🔗 독립성 검정 → 두 변수 관련 있음?

🧷 동질성 검정 → 여러 집단의 분포가 같은가?

📏 분산 검정 → 분산이 기준과 다른가?

👉 p값이 0.05보다 작으면 → 차이 또는 연관 있음!