📊 통계 기본 개념 완전 정리 💡
👉 기대값 · 분산 · 표준편차 · 왜도 · 첨도 · 분위수 · 공분산 · 상관계수
🎯 1️⃣ 기대값 (기댓값, Expected Value)
💬 “확률적으로 평균적으로 기대되는 값이에요!”
- ✅ 의미: 여러 번 반복했을 때 평균적으로 얻을 수 있는 결과
- ✅ 공식:
- E[X]=∑(x×P(X=x))E[X] = \sum (x \times P(X=x))
- E[X]=∑(x×P(X=x))
- ✅ 예시:
- 주사위를 던질 때
- → 1~6이 나올 확률이 같으니 평균값은
- (1+2+3+4+5+6)/6=3.5(1+2+3+4+5+6)/6 = 3.5
- (1+2+3+4+5+6)/6=3.5
💡 즉, 기대값은 **“예상 평균 결과”**를 나타내요!
📦 2️⃣ 분산 (Variance)
💬 “데이터가 평균에서 얼마나 흩어져 있는지를 나타내요.”
- ✅ 의미: 값들이 평균에서 얼마나 떨어져 있는가
- ✅ 공식:
- Var(X)=E[(X−μ)2]Var(X) = E[(X – μ)^2]
- Var(X)=E[(X−μ)2]
- ✅ 쉽게 말하면:
- 값들이 평균 근처에 몰려 있으면 → 분산 작음
- 값들이 들쑥날쑥 멀리 퍼져 있으면 → 분산 큼
📘 예시
👉 시험 점수 평균이 70점인데, 모두 68~72점이면 → 분산 작음
👉 40점, 90점, 100점이 섞여 있으면 → 분산 큼!
📐 3️⃣ 표준편차 (Standard Deviation)
💬 “분산의 제곱근 → 실제 단위로 흩어진 정도를 표현!”
- ✅ 공식:
- σ=Var(X)σ = \sqrt{Var(X)}
- σ=Var(X)
-
- ✅ 예시:
- 점수의 표준편차가 10이라면 → 평균 70점에서 ±10점 정도 차이 난다는 뜻!
💡 분산은 ‘제곱단위’라 직관적이지 않아요.
그래서 표준편차가 실제 단위로 “흩어진 정도”를 보여줘요!
📊 4️⃣ 왜도 (Skewness)
💬 “분포가 한쪽으로 치우쳤는가?” 🎢
| 왜도 값 | 모양 | 의미 |
| 0 | ⚖️ 대칭 | 정규분포 형태 |
| + | 👉 오른쪽 꼬리(우왜) | 큰 값 쪽으로 꼬리 |
| − | 👈 왼쪽 꼬리(좌왜) | 작은 값 쪽으로 꼬리 |
📘 예시
- 시험 점수가 대부분 낮고 일부만 높은 점수 → 오른쪽 꼬리 길다 (왜도 > 0)
- 반대로 대부분 높고 소수만 낮은 점수 → 왼쪽 꼬리 (왜도 < 0)
🌋 5️⃣ 첨도 (Kurtosis)
💬 “분포가 얼마나 뾰족한가?” ⛰️
| 첨도 값 | 모양 | 의미 |
| 0 | ⭕ 정상 (정규형태) | 보통 수준 |
| + | 🔺 뾰족 (꼬리 두꺼움) | 극단값 많음 |
| − | 🔻 완만 (꼬리 얇음) | 고른 분포 |
📘 예시
- 대부분 평균에 몰려 있고 일부 극단값 존재 → 첨도 높음(+)
- 값들이 넓게 퍼져 있음 → 첨도 낮음(−)
🔢 6️⃣ 분위수 (Quantile)
💬 “데이터를 순서대로 나눴을 때의 위치 기준 값이에요.”
| 종류 | 의미 | 예시 |
| Q1 | 하위 25% 위치 | 하위권 기준선 |
| Q2 | 50% (중앙값) | 전체의 중간값 |
| Q3 | 상위 25% 기준 | 상위권 경계선 |
📘 IQR (사분위 범위) = Q3 − Q1
→ 데이터의 중간 50% 범위, 이상치 파악에 자주 사용!
💡 박스플롯(box plot)에서 사용하는 게 바로 이 값들이에요 🎁
🔗 7️⃣ 공분산 (Covariance)
💬 “두 변수가 같이 움직이는지 보여주는 지표!”
| 공분산 값 | 해석 |
| + (양수) | X↑일 때 Y도 ↑ (같은 방향) |
| − (음수) | X↑일 때 Y는 ↓ (반대 방향) |
| 0 | 함께 변하지 않음 |
📘 예시
공부시간(X) ↑ → 점수(Y) ↑ ⇒ 공분산 양수(+)
운동시간(X) ↑ → 몸무게(Y) ↓ ⇒ 공분산 음수(−)
⚠️ 단위에 영향을 받으므로, 비교엔 상관계수 사용!
❤️ 8️⃣ 상관계수 (Correlation)
💬 “두 변수의 관계의 강도와 방향을 -1~1 사이로 표현!”
| r 값 | 관계 | 의미 |
| +1 | 🔥 완전한 양의 상관 | X↑ → Y↑ |
| 0 | ⚪ 관계 없음 | 함께 안 움직임 |
| −1 | ❄️ 완전한 음의 상관 | X↑ → Y↓ |
📘 공식:
r=공분산표준편차X×표준편차Yr = \frac{공분산}{표준편차_X × 표준편차_Y}
r=표준편차X×표준편차Y공분산
💬 예시
- 공부시간 많을수록 점수 높아짐 → r ≈ 0.9 (강한 양의 상관)
- 게임시간 많을수록 점수 낮음 → r ≈ -0.7 (음의 상관)
⚠️ 상관관계 ≠ 인과관계!
“함께 움직인다”는 뜻이지 “원인-결과”는 아니에요!
🧮 예시로 한눈 정리 🎯
| 항목 | 예시 데이터 | 해석 |
| 기대값 | 주사위 평균 3.5 | 평균적으로 기대되는 값 |
| 분산/표준편차 | 시험점수 흩어짐 | 값들의 퍼짐 정도 |
| 왜도 | 오른쪽 꼬리 | 일부 큰 값 존재 |
| 첨도 | 봉우리 뾰족 | 평균 근처 집중 |
| 분위수 | Q1=60, Q2=75, Q3=90 | 중간 50% 범위 |
| 공분산 | X,Y 같이 증가 | 같은 방향 관계 |
| 상관계수 | r=0.9 | 강한 양의 상관 |
🧠 요약 한 줄로 기억하기 ✨
중심은 👉 기대값
흩어짐은 👉 분산·표준편차
모양은 👉 왜도·첨도
위치는 👉 분위수
관계는 👉 공분산·상관계수 🎯
✅ 블로그 공부 체크리스트
- 기대값(평균)과 분산의 의미 이해
- 표본 vs 모집단 구분 (n vs n−1)
- 왜도·첨도 방향 감각 익히기
- 사분위수로 이상치 파악하기
- 공분산·상관계수 차이 구분하기
- 상관 ≠ 인과 명심하기 ⚠️
📘 Tip:
이 지표들은 데이터 요약 통계(Descriptive Statistics) 의 핵심이에요!
그래프만 보아도 “평균은 어느 쪽, 퍼짐은 어느 정도, 관계는 어떤지” 감이 오게 됩니다 💪
💡 쉬운 암기 문장
“평균으로 중심을 보고, 분산으로 퍼짐을 보고, 상관으로 관계를 본다!” 🌟