🎲 확률변수 & 📈 확률분포 완전 정리 💡
ADsP(데이터분석 준전문가) 필수 확률 개념 쉽게 이해하기!
🧠 1️⃣ 확률변수란?
**확률변수(Random Variable)**는
“우연한 실험 결과를 숫자로 바꿔 표현한 값”이에요.
즉, 실험 결과를 수로 표현해서
그 확률을 계산할 수 있게 만든 거예요 😊
예를 들어,
🎯 동전을 던졌을 때
- 앞면 → 1
- 뒷면 → 0
- 이렇게 표현하면 “동전 결과”가 확률변수 X가 됩니다!
📊 2️⃣ 확률변수의 종류
| 구분 | 의미 | 예시 |
| 🔢 이산형 확률변수 | 셀 수 있는 값 (정수 형태) | 주사위 눈, 클릭수, 불량품 개수 |
| 📏 연속형 확률변수 | 구간 안에서 무한히 많은 값 | 키, 몸무게, 시간, 매출액 |
💡 기억하기:
“이산형은 개수를 세는 값,
연속형은 실수(연속된 수)로 표현되는 값!”
📈 3️⃣ 확률분포란?
**확률분포(Probability Distribution)**는
확률변수가 가질 수 있는 값과 그 값이 나올 확률의 관계를 말해요.
즉, **“확률이 어떻게 퍼져 있는가?”**를 보여주는 거예요 🎯
📦 확률분포의 종류
| 구분 | 설명 | 대표함수 |
| 🔹 확률질량함수 (PMF) | 이산형 확률변수의 확률을 표현 | P(X = x) |
| 🔸 확률밀도함수 (PDF) | 연속형 확률변수의 확률을 면적으로 표현 | f(x) |
| 🔹 누적분포함수 (CDF) | 특정 값 이하의 확률 누적 | F(x)=P(X≤x) |
💬 쉽게 말하면,
PMF → “정확히 그 값이 나올 확률”
PDF → “그 구간 안에서 나올 가능성”
CDF → “그 값 이하가 될 확률 누적”
⚙️ 4️⃣ 확률분포의 기본 성질
✅ 확률은 0 이상 1 이하
✅ 모든 확률의 합(또는 면적)은 1
✅ CDF는 항상 0 → 1로 증가
💡 5️⃣ 기대값과 분산
| 구분 | 뜻 | 쉬운 설명 |
| 🎯 기대값 (E[X]) | 평균적인 값 | “많이 하면 평균적으로 이만큼 나와요!” |
| 📈 분산 (Var[X]) | 값들의 흩어짐 정도 | “결과가 평균에서 얼마나 퍼져 있는가” |
💬 예를 들어,
동전을 많이 던지면 평균(기대값)은 0.5,
앞뒤가 랜덤하니까 분산도 존재하죠!
🧮 6️⃣ 자주 나오는 확률분포 ✨
🔹 이산형 확률분포
| 분포명 | 특징 | 예시 |
| 🎯 베르누이 분포 | 한 번의 시도 (성공 or 실패) | 동전 앞면(1)/뒷면(0) |
| 🎯 이항 분포 | n번의 시도 중 성공 횟수 | 10번 중 앞면이 3번 |
| 🔢 포아송 분포 | 일정 시간·공간 내 발생 횟수 | 1시간당 전화 3통 |
| 🔁 기하 분포 | 첫 성공까지 걸린 시행 횟수 | 몇 번째에 처음 합격? |
🔸 연속형 확률분포
| 분포명 | 특징 | 예시 |
| 📏 균등 분포 | 모든 구간의 확률이 동일 | 주사위처럼 공평한 경우 |
| 📈 정규 분포 | 평균 중심의 종모양 | 키, 시험점수, 매출 |
| ⏱️ 지수 분포 | 사건 사이의 시간 간격 | 고객 방문 간격, 고장시간 |
📐 7️⃣ 정규분포의 핵심 개념
**정규분포(Normal Distribution)**는
“자연스러운 현상의 확률분포”로, 가장 많이 쓰이는 분포예요!
📌 특징
- 종 모양의 곡선 (좌우 대칭)
- 평균(μ) 기준으로 확률이 집중
- 평균±1σ(표준편차) 구간에 약 68%
- 평균±2σ 구간에 약 95%
- 평균±3σ 구간에 약 99.7%
💡 시험에서는 ‘표준정규분포(Z)’ 개념도 자주 나와요!
Z = (X−μ) / σ → 평균 0, 표준편차 1로 바꾼 값
🧠 8️⃣ 분포 선택 가이드
| 상황 | 알맞은 분포 | 예시 |
| ✅ 0/1 두 가지 결과 | 베르누이 | 앞/뒤, 성공/실패 |
| ✅ n번 중 성공 횟수 | 이항 | 10번 중 합격수 |
| ✅ 희귀 사건의 발생 횟수 | 포아송 | 1시간 내 신고 건수 |
| ✅ 사건 간 시간 간격 | 지수 | 고객 방문 간격 |
| ✅ 연속적인 자연 현상 | 정규 | 키, 체중, 점수 |
| ✅ 모든 값이 균등하게 나올 때 | 균등 | 랜덤 숫자, 추첨 |
⚠️ 9️⃣ 주의할 점
🚫 이산형은 개별 확률을,
📏 연속형은 구간의 면적으로 확률을 계산해야 해요!
📉 연속형에서는 P(X=x)=0,
즉 “정확히 그 값”이 아닌 “범위 안에 있을 확률”이 중요합니다.
🌈 10️⃣ 한 줄 요약
🎲 확률변수는 “결과를 숫자로 표현한 것”
📈 확률분포는 “그 숫자가 나올 확률의 규칙”
💡 상황에 따라 적절한 분포(이항·정규·포아송 등)를 선택하면 끝!