통계 기본 개념 완전 정리(기대값 · 분산 · 표준편차 · 왜도 · 첨도 · 분위수 · 공분산 · 상관계수)_ADsP 3과목

📊 통계 기본 개념 완전 정리 💡

👉 기대값 · 분산 · 표준편차 · 왜도 · 첨도 · 분위수 · 공분산 · 상관계수


🎯 1️⃣ 기대값 (기댓값, Expected Value)

💬 “확률적으로 평균적으로 기대되는 값이에요!”

  • 의미: 여러 번 반복했을 때 평균적으로 얻을 수 있는 결과
  • 공식:
  • E[X]=∑(x×P(X=x))E[X] = \sum (x \times P(X=x))
  • E[X]=∑(x×P(X=x))
  • 예시:
  • 주사위를 던질 때
  • → 1~6이 나올 확률이 같으니 평균값은
  • (1+2+3+4+5+6)/6=3.5(1+2+3+4+5+6)/6 = 3.5
  • (1+2+3+4+5+6)/6=3.5

💡 즉, 기대값은 **“예상 평균 결과”**를 나타내요!


📦 2️⃣ 분산 (Variance)

💬 “데이터가 평균에서 얼마나 흩어져 있는지를 나타내요.”

  • 의미: 값들이 평균에서 얼마나 떨어져 있는가
  • 공식:
  • Var(X)=E[(X−μ)2]Var(X) = E[(X – μ)^2]
  • Var(X)=E[(X−μ)2]
  • 쉽게 말하면:
  • 값들이 평균 근처에 몰려 있으면 → 분산 작음
  • 값들이 들쑥날쑥 멀리 퍼져 있으면 → 분산 큼

📘 예시

👉 시험 점수 평균이 70점인데, 모두 68~72점이면 → 분산 작음

👉 40점, 90점, 100점이 섞여 있으면 → 분산 큼!


📐 3️⃣ 표준편차 (Standard Deviation)

💬 “분산의 제곱근 → 실제 단위로 흩어진 정도를 표현!”

  • 공식:
  • σ=Var(X)σ = \sqrt{Var(X)}
  • σ=Var(X)
  • 예시:
  • 점수의 표준편차가 10이라면 → 평균 70점에서 ±10점 정도 차이 난다는 뜻!

💡 분산은 ‘제곱단위’라 직관적이지 않아요.

그래서 표준편차가 실제 단위로 “흩어진 정도”를 보여줘요!


📊 4️⃣ 왜도 (Skewness)

💬 “분포가 한쪽으로 치우쳤는가?” 🎢

왜도 값모양의미
0⚖️ 대칭정규분포 형태
+👉 오른쪽 꼬리(우왜)큰 값 쪽으로 꼬리
👈 왼쪽 꼬리(좌왜)작은 값 쪽으로 꼬리

📘 예시

  • 시험 점수가 대부분 낮고 일부만 높은 점수 → 오른쪽 꼬리 길다 (왜도 > 0)
  • 반대로 대부분 높고 소수만 낮은 점수 → 왼쪽 꼬리 (왜도 < 0)

🌋 5️⃣ 첨도 (Kurtosis)

💬 “분포가 얼마나 뾰족한가?” ⛰️

첨도 값모양의미
0⭕ 정상 (정규형태)보통 수준
+🔺 뾰족 (꼬리 두꺼움)극단값 많음
🔻 완만 (꼬리 얇음)고른 분포

📘 예시

  • 대부분 평균에 몰려 있고 일부 극단값 존재 → 첨도 높음(+)
  • 값들이 넓게 퍼져 있음 → 첨도 낮음(−)

🔢 6️⃣ 분위수 (Quantile)

💬 “데이터를 순서대로 나눴을 때의 위치 기준 값이에요.”

종류의미예시
Q1하위 25% 위치하위권 기준선
Q250% (중앙값)전체의 중간값
Q3상위 25% 기준상위권 경계선

📘 IQR (사분위 범위) = Q3 − Q1

→ 데이터의 중간 50% 범위, 이상치 파악에 자주 사용!

💡 박스플롯(box plot)에서 사용하는 게 바로 이 값들이에요 🎁


🔗 7️⃣ 공분산 (Covariance)

💬 “두 변수가 같이 움직이는지 보여주는 지표!”

공분산 값해석
+ (양수)X↑일 때 Y도 ↑ (같은 방향)
− (음수)X↑일 때 Y는 ↓ (반대 방향)
0함께 변하지 않음

📘 예시

공부시간(X) ↑ → 점수(Y) ↑ ⇒ 공분산 양수(+)

운동시간(X) ↑ → 몸무게(Y) ↓ ⇒ 공분산 음수(−)

⚠️ 단위에 영향을 받으므로, 비교엔 상관계수 사용!


❤️ 8️⃣ 상관계수 (Correlation)

💬 “두 변수의 관계의 강도와 방향을 -1~1 사이로 표현!”

r 값관계의미
+1🔥 완전한 양의 상관X↑ → Y↑
0⚪ 관계 없음함께 안 움직임
−1❄️ 완전한 음의 상관X↑ → Y↓

📘 공식:

r=공분산표준편차X×표준편차Yr = \frac{공분산}{표준편차_X × 표준편차_Y}

r=표준편차X×표준편차Y공분산

💬 예시

  • 공부시간 많을수록 점수 높아짐 → r ≈ 0.9 (강한 양의 상관)
  • 게임시간 많을수록 점수 낮음 → r ≈ -0.7 (음의 상관)

⚠️ 상관관계 ≠ 인과관계!

“함께 움직인다”는 뜻이지 “원인-결과”는 아니에요!


🧮 예시로 한눈 정리 🎯

항목예시 데이터해석
기대값주사위 평균 3.5평균적으로 기대되는 값
분산/표준편차시험점수 흩어짐값들의 퍼짐 정도
왜도오른쪽 꼬리일부 큰 값 존재
첨도봉우리 뾰족평균 근처 집중
분위수Q1=60, Q2=75, Q3=90중간 50% 범위
공분산X,Y 같이 증가같은 방향 관계
상관계수r=0.9강한 양의 상관

🧠 요약 한 줄로 기억하기 ✨

중심은 👉 기대값

흩어짐은 👉 분산·표준편차

모양은 👉 왜도·첨도

위치는 👉 분위수

관계는 👉 공분산·상관계수 🎯


✅ 블로그 공부 체크리스트

  • 기대값(평균)과 분산의 의미 이해
  • 표본 vs 모집단 구분 (n vs n−1)
  • 왜도·첨도 방향 감각 익히기
  • 사분위수로 이상치 파악하기
  • 공분산·상관계수 차이 구분하기
  • 상관 ≠ 인과 명심하기 ⚠️

📘 Tip:

이 지표들은 데이터 요약 통계(Descriptive Statistics) 의 핵심이에요!

그래프만 보아도 “평균은 어느 쪽, 퍼짐은 어느 정도, 관계는 어떤지” 감이 오게 됩니다 💪

💡 쉬운 암기 문장

평균으로 중심을 보고, 분산으로 퍼짐을 보고, 상관으로 관계를 본다!” 🌟