🌈 연속형 확률분포 완전정리 🎯
📘 ADsP(데이터분석 준전문가) 필수 확률 파트 정복하기 ✏️
💡 1️⃣ 연속형 확률변수란?
🎯 연속형 확률변수(Continuous Random Variable)
👉 0, 1, 2처럼 “뚝뚝 끊어진 수”가 아니라,
실수 범위 안에서 무한히 많은 값을 가질 수 있는 변수예요!
📍 예시
🧍♂️ 키 / ⚖️ 몸무게 / 💰 매출 / ⏱️ 시간 / 🌡️ 온도
📏 2️⃣ 확률 표현 방법
| 💬 구분 | 📘 설명 | 🔢 기호 |
| 📈 확률밀도함수 (PDF) | 특정 값의 확률 밀도를 나타내요. (모양 중요!) | f(x) |
| 📊 누적분포함수 (CDF) | 특정 값 이하일 확률의 누적 | F(x)=P(X≤x) |
✨ 핵심 포인트
- 연속형에서는 👉 P(X=a)=0
- 즉, “정확히 그 값”의 확률은 없고,
- **면적(구간)**이 확률이에요!
🎨 예: P(1≤X≤3) = 그래프 아래 면적
⚙️ 3️⃣ 기본 성질
✅ 확률밀도함수는 항상 0 이상
✅ 전체 면적은 항상 1
✅ 평균·분산 계산식
E[X] = ∫ x f(x) dx
Var(X) = ∫ (x−μ)² f(x) dx
💡 외우기 쉬운 문장
“면적 = 확률이다!” 🎯
🌟 4️⃣ 대표 연속형 확률분포 총정리
| 📚 분포명 | ✨ 의미 | 💬 예시 |
| 📏 균등분포 (Uniform) | 모든 구간의 값이 동일한 확률 | 로또 추첨, 난수 생성 |
| 🛎️ 정규분포 (Normal) | 평균 주변에 몰린 종모양 곡선 | 키, 시험점수 |
| ⏱️ 지수분포 (Exponential) | 사건 사이의 대기시간 분포 | 고객 방문 간격 |
| 🔁 감마분포 (Gamma) | 여러 대기시간의 합 분포 | 수명 분석 |
| 📐 χ²분포 (카이제곱) | 분산 검정, 적합도 검정 | 통계 검정에 사용 |
| 📘 t분포 (t-Distribution) | 표본 작을 때 평균 비교 | 평균 검정 |
| 🧪 F분포 (F-Distribution) | 분산비 비교 | ANOVA 분석 |
| 🎯 베타분포 (Beta) | 0~1 사이 비율 표현 | 클릭률, 확률 |
| 📈 로그정규분포 (LogNormal) | 양수 데이터, 오른쪽 꼬리 | 매출, 체류시간 |
🧩 5️⃣ 대표 분포별 특징 요약
| 📊 분포 | 📎 평균 | 📎 분산 | 💡 특징 |
| 📏 균등 U(a,b) | (a+b)/2 | (b−a)²/12 | 모든 값 동일 확률 |
| 🛎️ 정규 N(μ,σ²) | μ | σ² | 자연 현상, 종모양 |
| ⏱️ 지수 Exp(λ) | 1/λ | 1/λ² | 기억없음(기하의 연속형) |
| 🔁 감마 Γ(α,θ) | αθ | αθ² | 지수 여러 개 합친 형태 |
| 📐 χ²(ν) | ν | 2ν | 분산 검정, 자유도 ν |
| 📘 t(ν) | 0 | ν/(ν−2) | 표본 작을 때 평균 검정 |
| 🧪 F(ν₁,ν₂) | ν₂/(ν₂−2) | 복잡 | 분산비 검정 |
| 🎯 베타(α,β) | α/(α+β) | αβ/[(α+β)²(α+β+1)] | 0~1 확률 표현 |
🛎️ 6️⃣ 정규분포 (Normal Distribution) 🌈
🎨 가장 중요한 분포! 자연 현상의 80% 이상이 따름
- 평균(μ)을 중심으로 좌우대칭
- 표준편차(σ)가 커질수록 그래프가 넓어짐
- 표준화 공식 👉 Z=(X−μ)/σ
- 면적=확률 (전체 면적 1)
📏 68–95–99.7 법칙
| 구간 | 확률 |
| μ±1σ | 68% |
| μ±2σ | 95% |
| μ±3σ | 99.7% |
💬 예시
시험 평균 70, 표준편차 10 →
60~80점 사이 학생 약 68%
⏱️ 7️⃣ 지수분포 (Exponential Distribution) ⌛
- 사건이 일어나는 대기시간 분포
- PDF: f(x)=λe^(−λx), x≥0
- 평균: 1/λ
- 특징: 기억없음(Memoryless)
📍 예시
- 고객이 다음에 방문할 때까지 시간
- 기계 고장까지 걸린 시간
💬 의미:
“지금까지 기다린 시간과 상관없이 앞으로 기다릴 확률은 동일!”
⚖️ 8️⃣ 균등분포 (Uniform Distribution) 🎯
- 모든 구간이 동일 확률
- PDF: f(x)=1/(b−a)
- 📍 예시:
- 공정한 주사위, 랜덤 난수
💬 말 그대로 “공평한 분포”
어떤 값이든 나올 확률이 같아요 🎲
📐 9️⃣ 카이제곱 / t / F 분포 요약 🎓
| 📘 분포 | 🔍 사용 목적 | 💬 예시 |
| 📐 χ²분포 | 분산 검정, 적합도 검정 | 데이터가 이론에 맞는지? |
| 📘 t분포 | 평균 비교(소표본) | 남녀 평균 점수 비교 |
| 🧪 F분포 | 분산비 검정(ANOVA) | 여러 집단 간 평균 비교 |
💡 이 셋은 모두 정규분포에서 파생된 검정 통계량이에요!
🌸 10️⃣ 한눈에 보는 요약정리
| 💬 상황 | 🎯 적합한 분포 | 🧠 기억 포인트 |
| 모든 구간 공평 | 균등 | 완전 랜덤 |
| 자연적 연속값 | 정규 | 종모양 |
| 사건 간 대기시간 | 지수 | 기억없음 |
| 대기시간 누적 | 감마 | 지수의 합 |
| 표본작고 분산 모름 | t | 평균 검정 |
| 분산비 비교 | F | ANOVA |
| 확률·비율(0~1) | 베타 | 클릭률, 비율 |
| 양수·긴 꼬리 | 로그정규 | 매출, 시간 |
⚠️ 11️⃣ 시험 포인트 🧩
🚫 P(X=a)=0 (점 확률 없음)
📏 정규분포 68-95-99.7 법칙
⏱️ 지수분포 = 기억없음
📐 t·χ²·F → 각각 평균·분산·분산비 검정
💡 표준화 공식 Z=(X−μ)/σ
💫 12️⃣ 암기 꿀팁 ✨
“균·정·지·감·카·티·에·베·로!”
(균등–정규–지수–감마–카이제곱–t–F–베타–로그정규)
이렇게만 외워도 시험에서 분포 문제는 90% 정답이에요 🎯