통계 기본 개념 완전 정리(기대값 · 분산 · 표준편차 · 왜도 · 첨도 · 분위수 · 공분산 · 상관계수)_ADsP 3과목

📊 통계 기본 개념 완전 정리 💡

👉 기대값 · 분산 · 표준편차 · 왜도 · 첨도 · 분위수 · 공분산 · 상관계수

🎯 1️⃣ 기대값 (기댓값, Expected Value)

💬 “확률적으로 평균적으로 기대되는 값이에요!”

✅ 의미: 여러 번 반복했을 때 평균적으로 얻을 수 있는 결과
✅ 공식:
E[X]=∑(x×P(X=x))E[X] = \sum (x \times P(X=x))
E[X]=∑(x×P(X=x))
✅ 예시:
주사위를 던질 때
→ 1~6이 나올 확률이 같으니 평균값은
(1+2+3+4+5+6)/6=3.5(1+2+3+4+5+6)/6 = 3.5
(1+2+3+4+5+6)/6=3.5

💡 즉, 기대값은 **“예상 평균 결과”**를 나타내요!

📦 2️⃣ 분산 (Variance)

💬 “데이터가 평균에서 얼마나 흩어져 있는지를 나타내요.”

✅ 의미: 값들이 평균에서 얼마나 떨어져 있는가
✅ 공식:
Var(X)=E[(X−μ)2]Var(X) = E[(X – μ)^2]
Var(X)=E[(X−μ)2]
✅ 쉽게 말하면:
값들이 평균 근처에 몰려 있으면 → 분산 작음
값들이 들쑥날쑥 멀리 퍼져 있으면 → 분산 큼

📘 예시

👉 시험 점수 평균이 70점인데, 모두 68~72점이면 → 분산 작음

👉 40점, 90점, 100점이 섞여 있으면 → 분산 큼!

📐 3️⃣ 표준편차 (Standard Deviation)

💬 “분산의 제곱근 → 실제 단위로 흩어진 정도를 표현!”

✅ 공식:
σ=Var(X)σ = \sqrt{Var(X)}
σ=Var(X)
✅ 예시:
점수의 표준편차가 10이라면 → 평균 70점에서 ±10점 정도 차이 난다는 뜻!

💡 분산은 ‘제곱단위’라 직관적이지 않아요.

그래서 표준편차가 실제 단위로 “흩어진 정도”를 보여줘요!

📊 4️⃣ 왜도 (Skewness)

💬 “분포가 한쪽으로 치우쳤는가?” 🎢

왜도 값	모양	의미
0	⚖️ 대칭	정규분포 형태
+	👉 오른쪽 꼬리(우왜)	큰 값 쪽으로 꼬리
−	👈 왼쪽 꼬리(좌왜)	작은 값 쪽으로 꼬리

📘 예시

시험 점수가 대부분 낮고 일부만 높은 점수 → 오른쪽 꼬리 길다 (왜도 > 0)
반대로 대부분 높고 소수만 낮은 점수 → 왼쪽 꼬리 (왜도 < 0)

🌋 5️⃣ 첨도 (Kurtosis)

💬 “분포가 얼마나 뾰족한가?” ⛰️

첨도 값	모양	의미
0	⭕ 정상 (정규형태)	보통 수준
+	🔺 뾰족 (꼬리 두꺼움)	극단값 많음
−	🔻 완만 (꼬리 얇음)	고른 분포

📘 예시

대부분 평균에 몰려 있고 일부 극단값 존재 → 첨도 높음(+)
값들이 넓게 퍼져 있음 → 첨도 낮음(−)

🔢 6️⃣ 분위수 (Quantile)

💬 “데이터를 순서대로 나눴을 때의 위치 기준 값이에요.”

종류	의미	예시
Q1	하위 25% 위치	하위권 기준선
Q2	50% (중앙값)	전체의 중간값
Q3	상위 25% 기준	상위권 경계선

📘 IQR (사분위 범위) = Q3 − Q1

→ 데이터의 중간 50% 범위, 이상치 파악에 자주 사용!

💡 박스플롯(box plot)에서 사용하는 게 바로 이 값들이에요 🎁

🔗 7️⃣ 공분산 (Covariance)

💬 “두 변수가 같이 움직이는지 보여주는 지표!”

공분산 값	해석
+ (양수)	X↑일 때 Y도 ↑ (같은 방향)
− (음수)	X↑일 때 Y는 ↓ (반대 방향)
0	함께 변하지 않음

📘 예시

공부시간(X) ↑ → 점수(Y) ↑ ⇒ 공분산 양수(+)

운동시간(X) ↑ → 몸무게(Y) ↓ ⇒ 공분산 음수(−)

⚠️ 단위에 영향을 받으므로, 비교엔 상관계수 사용!

❤️ 8️⃣ 상관계수 (Correlation)

💬 “두 변수의 관계의 강도와 방향을 -1~1 사이로 표현!”

r 값	관계	의미
+1	🔥 완전한 양의 상관	X↑ → Y↑
0	⚪ 관계 없음	함께 안 움직임
−1	❄️ 완전한 음의 상관	X↑ → Y↓

📘 공식:

r=공분산표준편차X×표준편차Yr = \frac{공분산}{표준편차_X × 표준편차_Y}

r=표준편차X×표준편차Y공분산

💬 예시

공부시간 많을수록 점수 높아짐 → r ≈ 0.9 (강한 양의 상관)
게임시간 많을수록 점수 낮음 → r ≈ -0.7 (음의 상관)

⚠️ 상관관계 ≠ 인과관계!

“함께 움직인다”는 뜻이지 “원인-결과”는 아니에요!

🧮 예시로 한눈 정리 🎯

항목	예시 데이터	해석
기대값	주사위 평균 3.5	평균적으로 기대되는 값
분산/표준편차	시험점수 흩어짐	값들의 퍼짐 정도
왜도	오른쪽 꼬리	일부 큰 값 존재
첨도	봉우리 뾰족	평균 근처 집중
분위수	Q1=60, Q2=75, Q3=90	중간 50% 범위
공분산	X,Y 같이 증가	같은 방향 관계
상관계수	r=0.9	강한 양의 상관

🧠 요약 한 줄로 기억하기 ✨

중심은 👉 기대값

흩어짐은 👉 분산·표준편차

모양은 👉 왜도·첨도

위치는 👉 분위수

관계는 👉 공분산·상관계수 🎯

✅ 블로그 공부 체크리스트

기대값(평균)과 분산의 의미 이해
표본 vs 모집단 구분 (n vs n−1)
왜도·첨도 방향 감각 익히기
사분위수로 이상치 파악하기
공분산·상관계수 차이 구분하기
상관 ≠ 인과 명심하기 ⚠️

📘 Tip:

이 지표들은 데이터 요약 통계(Descriptive Statistics) 의 핵심이에요!

그래프만 보아도 “평균은 어느 쪽, 퍼짐은 어느 정도, 관계는 어떤지” 감이 오게 됩니다 💪

💡 쉬운 암기 문장

“평균으로 중심을 보고, 분산으로 퍼짐을 보고, 상관으로 관계를 본다!” 🌟

통계 기본 개념 완전 정리(기대값 · 분산 · 표준편차 · 왜도 · 첨도 · 분위수 · 공분산 · 상관계수)_ADsP 3과목

이 글 공유하기: