📊 통계 개념 완벽 이해하기 💡
ADsP(데이터분석 준전문가) 필수 기본 개념 정리!
🎯 통계란 무엇일까?
통계(Statistics) 란
👉 “많은 데이터를 수집하고 요약해서,
전체(모집단)의 특성을 추론하는 과학적 방법”이에요! 📈
즉,
🔹 데이터를 모으고
🔹 정리·요약하고
🔹 분석해서 의미 있는 결론을 내리는 과정이에요.
💬 쉽게 말하면
**“표본으로 전체를 이해하는 기술”**입니다 👀
🧩 1️⃣ 모집단 · 표본 · 모수 · 통계량
| 용어 | 뜻 | 예시 |
| 👥 모집단 (Population) | 분석하고 싶은 전체 대상 | 한국의 모든 고객 |
| 🔍 표본 (Sample) | 모집단 중에서 뽑은 일부 | 1,000명 고객 설문 |
| 🎯 모수 (Parameter) | 모집단의 진짜 평균이나 분산 | 전체 고객의 평균 나이 |
| 📏 통계량 (Statistic) | 표본에서 계산한 값 | 표본 평균 33세 |
💡 즉, 표본으로 계산한 통계량을 이용해
모집단의 모수를 추정하는 것이 통계의 핵심이에요! 🎯
🧮 2️⃣ 변수와 측정척도
✅ 변수란?
데이터 안에 들어 있는 특성이나 속성이에요.
예를 들어 “나이”, “성별”, “매출액” 등이 모두 변수예요.
🔹 변수의 유형
| 구분 | 설명 | 예시 |
| 🔢 수치형(정량형) | 숫자로 된 변수 | 나이, 소득, 점수 |
| 🔤 범주형(정성형) | 이름·등급으로 구분 | 성별, 지역, 학력 |
🔸 측정척도(시험 자주 나옴!)
| 척도 | 의미 | 연산 가능 | 예시 |
| 🔹 명목척도(Nominal) | 이름만 다름 | =, ≠ | 성별(남/여), 지역명 |
| 🔸 서열척도(Ordinal) | 순서 있음 | >, < | 만족도 1~5점 |
| 🔷 등간척도(Interval) | 간격 일정, 0 의미 없음 | +, − | 온도(℃) |
| ⚖️ 비율척도(Ratio) | 절대적 0 존재 | ×, ÷ | 매출, 키, 무게 |
🧠 외우기 팁:
“명–서–등–비” 순서로 갈수록 연산 범위 ↑, 정보량 ↑
📊 3️⃣ 통계의 두 가지 큰 축
| 구분 | 의미 | 예시 |
| 📈 기술통계(Descriptive Statistics) | 데이터를 요약·설명 | 평균, 중앙값, 표준편차, 그래프 |
| 🎯 추론통계(Inferential Statistics) | 표본으로 모집단 추정·검정 | 신뢰구간, 가설검정, 회귀분석 |
✏️ 시험 포인트
“데이터를 설명하는가?” → 기술통계
“데이터로 추정·검정하는가?” → 추론통계
📉 4️⃣ 데이터의 중심과 흩어짐
| 구분 | 의미 | 예시 |
| ⚙️ 평균(Mean) | 전체 합 ÷ 개수 | 10, 20, 30 → 평균 20 |
| ⚖️ 중앙값(Median) | 중앙에 있는 값 | [1, 3, 5] → 중앙값 3 |
| 🔁 최빈값(Mode) | 가장 자주 나오는 값 | [2, 2, 5, 6] → 최빈값 2 |
| 📐 분산/표준편차 | 데이터의 흩어진 정도 | 값이 클수록 변동성↑ |
| 📦 사분위수(IQR) | 중간 50% 구간 | Q3−Q1 (박스플롯 기준) |
💡 극단값이 있을 때는 중앙값이 더 안정적!
🎲 5️⃣ 확률과 조건부 확률
| 개념 | 설명 | 예시 |
| 🎲 확률(Probability) | 어떤 사건이 일어날 가능성 | 주사위 6 나올 확률 = 1/6 |
| 🔗 조건부 확률 | 사건 B가 일어났을 때 A가 일어날 확률 | 비 오는 날 우산 쓸 확률 |
| 📘 베이즈 정리 | 새로운 정보로 확률 갱신 | 스팸메일 필터링에 활용 |
P(A|B) = [ P(B|A) × P(A) ] / P(B)
💬 “B가 일어났다는 조건에서 A의 확률을 다시 계산하는 것”
📦 6️⃣ 표본추출 (Sampling)
모집단 전체를 조사할 수 없으니까,
일부만 뽑아서(표본) 전체를 대표하도록 추출하는 과정이에요.
| 방법 | 설명 | 예시 |
| 🎯 단순무작위추출 | 무작위로 추출 | 랜덤번호 추첨 |
| 🧩 층화추출 | 집단(층)별 비율 맞춰 추출 | 남·여 비율 동일하게 |
| 🧑🤝🧑 집락추출 | 일부 집단(Cluster)을 통째로 뽑음 | 학교별로 선택 |
| ⏱️ 체계추출 | 일정 간격으로 추출 | 10명마다 1명 |
📈 7️⃣ 중심극한정리 (CLT)
표본의 크기가 충분히 크면,
표본평균의 분포는 정규분포(🔔) 를 따른다는 원리!
✅ 의미:
데이터의 원래 분포가 비정규라도
→ 표본평균은 거의 정규분포 형태가 됩니다.
💬 즉, “많이 뽑으면 평균은 안정된다!”
🎯 8️⃣ 추정과 신뢰구간
- 점추정(Point Estimation) → 하나의 값으로 추정
- (예: 평균 30세)
- 구간추정(Interval Estimation) → 범위로 추정
- (예: 평균이 28~32세일 확률 95%)
✅ 표본이 클수록 → 오차 줄고 → 신뢰구간 좁아짐
⚖️ 9️⃣ 가설검정 (Hypothesis Test)
| 단계 | 설명 |
| ① 귀무가설(H₀) 세우기 | 차이·변화 없음 (예: 두 집단 평균 같다) |
| ② 대립가설(H₁) 세우기 | 차이·변화 있음 |
| ③ 유의수준(α) 설정 | 보통 0.05 |
| ④ 검정통계량 계산 | t검정, χ²검정 등 |
| ⑤ p값과 비교 | p<α → H₀ 기각(차이 있다) |
💡 쉽게 말하면
“통계적으로 유의미한 차이가 있는가?”를 판단하는 절차예요!
⚠️ 오류 개념
| 종류 | 의미 | 예시 |
| ❌ 제1종 오류(α) | 사실은 H₀이 맞는데 잘못 기각 | 오탐 |
| ❌ 제2종 오류(β) | 사실은 H₁이 맞는데 기각 못함 | 미탐 |
| ⚡ 검정력(1−β) | 진짜 차이가 있을 때 발견할 확률 | 높을수록 좋음 |
💬 표본이 크거나 효과가 클수록 → 검정력 ↑
🔗 10️⃣ 상관과 회귀
| 구분 | 설명 | 예시 |
| 🔄 상관분석(Correlation) | 변수 간 선형관계 강도 | 나이↑ → 지출↑ |
| 📈 회귀분석(Regression) | 한 변수가 다른 변수에 미치는 영향 | 광고비가 매출에 미치는 효과 |
⚠️ 주의: 상관 ≠ 인과
(함께 변한다고 해서 원인·결과는 아님!)
🧠 시험 포인트 정리 💡
📌 모집단 ↔ 표본 구분
📌 명목/서열/등간/비율 척도 차이
📌 기술통계 vs 추론통계 구분
📌 중심극한정리 개념
📌 신뢰구간 & 가설검정 절차
📌 제1종/제2종 오류
📌 상관과 인과 구분
🌈 한 줄 요약
“통계는 표본을 통해 모집단을 이해하는 기술이며,
데이터를 요약(기술통계) → 추정·검정(추론통계) 하는 과정이다.” 📊✨