📐 통계량을 활용한 모수 추정 완벽 정리 💡
점추정 · 구간추정 · 표준오차 (+ 핵심 용어 완전 해설)
📘 ADsP 필수 개념 총정리 버전
🎯 1️⃣ 모수 추정이란?
모집단 전체의 특징(평균, 비율, 분산 등)을
표본 데이터로 추정하는 과정이에요!
💬 예를 들어,
전국 고객의 평균 구매액(모평균 μ)을 알고 싶을 때
모두 조사할 수 없으니 👉 표본 몇 명의 평균(𝑥̄) 으로 추정해요!
📍 2️⃣ 점추정 (Point Estimation) 🎯
“모수를 하나의 값으로 예측하는 것”
| 추정대상 | 점추정량 | 예시 |
| 평균(μ) | 표본평균(𝑥̄) | 고객 100명의 평균 구매액 |
| 비율(p) | 표본비율(𝑝̂) | 설문 500명 중 만족 320명 → 0.64 |
| 분산(σ²) | 표본분산(s²) | 점수의 흩어짐 정도 |
📘 좋은 점추정량의 조건
- ✅ 불편성(Unbiased) → 평균적으로 모수와 같음
- ✅ 일치성(Consistent) → 표본 많을수록 정확해짐
- ✅ 효율성(Efficient) → 분산이 작아 안정적
💡 예시:
“시험 점수 평균(𝑥̄=78점)”은 **모평균(μ)**의 점추정이에요!
📏 3️⃣ 구간추정 (Interval Estimation) 📦
“모수가 포함될 법한 **범위(신뢰구간)**를 제시하는 방법”
📘 기본 구조
점추정치 ± (임계값 × 표준오차)
💬 예시 해석:
“고객 평균 구매금액은 5.0만~5.4만 원(95%)”
→ 구간 전체가 모평균을 포함할 확률이 95%
📈 신뢰구간 계산 공식
| 상황 | 신뢰구간 공식 | 사용 분포 |
| σ 알고 있을 때 | 𝑥̄ ± z × (σ/√n) | z(정규분포) |
| σ 모를 때 | 𝑥̄ ± t × (s/√n) | t(소표본 시) |
| 비율일 때 | 𝑝̂ ± z × √[𝑝̂(1−𝑝̂)/n] | z(비율 CI) |
📘 보통 95% 신뢰수준이면
- z값 = 1.96
- t값 ≈ 2.0 (n≥30이면 거의 동일)
🧮 예시로 바로 이해하기 ✨
✅ 평균 신뢰구간 예시
- 표본 100명
- 𝑥̄ = 52,000원, s = 10,000원, n = 100
52,000 ± 1.96 × (10,000 / √100)
= 52,000 ± 1,960
→ (50,040원 ~ 53,960원)
💬 “모평균은 약 5만~5.4만원 사이에 있을 것이다!”
✅ 비율 신뢰구간 예시
- 𝑝̂=0.64, n=500
𝑝̂ = 0.64, n = 500
0.64 ± 1.96 × √(0.64×0.36/500)
= 0.64 ± 0.042
→ (0.598 ~ 0.682)
👉 (0.598 ~ 0.682)
💬 “만족 고객 비율은 59.8~68.2%일 것으로 보인다.”
📉 4️⃣ 표준오차 (Standard Error, SE)
💬 “추정치가 얼마나 흔들리는지를 나타내는 지표”
| 추정대상 | 표준오차(SE) |
| 평균 | s / √n |
| 비율 | √[𝑝̂(1−𝑝̂)/n] |
📘 핵심 개념
- 표본이 클수록 SE ↓ (정확도 ↑)
- SE가 작을수록 신뢰구간이 좁아짐
📊 비교 예시
| 표본크기(n) | SE 값 | 신뢰구간 폭 |
| 100 | 10 | 넓음 😢 |
| 400 | 5 | 절반으로 줄어듦 😄 |
💡 즉, “표본 4배 늘리면 SE는 1/2로 감소!”
🧭 5️⃣ 신뢰수준 (Confidence Level)
💬 “구간이 모수를 포함할 확률 수준”
| 신뢰수준 | z값 | 설명 |
| 90% | 1.645 | 조금 좁음 |
| ✅ 95% | 1.96 | 가장 자주 사용 👍 |
| 99% | 2.576 | 매우 보수적 |
💡 신뢰수준 ↑ → 구간폭 ↑ (확실하되 덜 정밀)
💡 신뢰수준 ↓ → 구간폭 ↓ (정밀하되 위험)
⚙️ 6️⃣ 오차한계 (Margin of Error, ME)
💬 “신뢰구간의 ± 범위”
ME=임계값×SEME = 임계값 × SE
ME=임계값×SE
📘 **목표 오차(ME)**가 정해지면 필요한 표본 크기 계산 가능!
| 추정대상 | 표본 크기 공식 |
| 평균 | n = (zσ / ME)² |
| 비율 | n = (z² × p(1−p)) / ME² |
💡 비율 p 모르면 보수적으로 0.5 사용 (가장 넓은 구간 보장)
🔢 7️⃣ 임계값 (Critical Value: z*, t*)
💬 “신뢰구간을 결정하는 기준 경계선 값”
| 조건 | 사용값 | 특징 |
| σ 알고 있음 | z값 | 정규분포 사용 |
| σ 모름 (소표본) | t값 | 자유도(df=n−1) 고려 |
| n 커지면 | t ≈ z | 차이 거의 없음 |
📘 8️⃣ 표준편차 vs 표준오차 비교
| 구분 | 뜻 | 공식 | 특징 |
| 📊 표준편차 (SD) | 데이터의 흩어짐 | s | 개별 데이터의 분산 |
| 📉 표준오차 (SE) | 추정값의 불확실성 | s/√n | 표본이 커질수록 작아짐 |
💡 기억하기:
데이터의 산만함 → 표준편차
평균의 흔들림 → 표준오차
🧩 9️⃣ 자유도 (df: degrees of freedom)
💬 “통계 계산에서 자유롭게 변할 수 있는 수의 개수”
- 분산 계산 시 평균을 이미 사용했기 때문에 df = n−1
- t-분포, χ², F 등 대부분의 분포에서 사용
📘 예시
10명 표본의 t-검정 → df = 9
📦 10️⃣ 유한모집단보정 (FPC)
표본이 전체의 5% 이상일 때 오차 과대추정 방지용 🎯
FPC = √((N−n)/(N−1))
→ SE × FPC 로 보정
예) 모집단 1,000명 중 200명 조사
→ 보정계수 = √((1000−200)/(999)) ≈ 0.894 → SE 10% 감소
💡 11️⃣ 중심극한정리 (CLT)
🎯 “표본평균의 분포는 n이 충분히 크면 정규분포를 따른다!”
💬 즉, 원래 모집단이 정규분포가 아니어도
표본 30개 이상이면 평균의 분포는 거의 정규형태 🎈
📘 그래서 → z, t분포를 정당하게 사용 가능!
📊 12️⃣ 표집분포 (Sampling Distribution)
💬 “표본을 여러 번 뽑았을 때 통계량이 따르는 분포”
- 평균의 표집분포: 평균 = μ, 분산 = σ²/n
- 비율의 표집분포: 평균 = p, 분산 = p(1−p)/n
📘 이 표집분포가 있어야
“평균이 이만큼 흔들릴 확률”을 계산할 수 있어요!
🌈 13️⃣ 한눈 요약 🎯
| 구분 | 개념 | 포인트 |
| 점추정 | 모수를 한 숫자로 | 빠르지만 불확실성 큼 |
| 구간추정 | 모수가 들어 있을 범위 | 더 안전하지만 폭이 넓음 |
| 표준오차 | 추정값의 흔들림 | n↑ → SE↓ |
| 신뢰수준 | 구간의 확실도 | 높을수록 폭 넓어짐 |
| 오차한계 | ± 구간 폭 | 임계값 × SE |
| z/t 값 | 신뢰수준 결정 | σ 모름 → t 사용 |
✅ ADsP 시험 포인트 🔥
✔️ “95% 신뢰구간 해석” 문장 정확히 이해
✔️ z vs t 구분 (σ 미지, n<30 → t 사용)
✔️ SE 공식(평균·비율) 외우기
✔️ 표본 커지면 SE↓, CI 좁아짐
✔️ 신뢰수준 높을수록 CI 넓어짐
✔️ “표준오차 ≠ 표준편차” 주의
💬 한 줄 정리
📊 “점추정은 대표값,
📏 구간추정은 믿을만한 범위,
⚖️ **표준오차(SE)**는 그 믿음의 흔들림 정도!”