통계 개념 완벽 이해하기_ADsP 3과목

📊 통계 개념 완벽 이해하기 💡

ADsP(데이터분석 준전문가) 필수 기본 개념 정리!

🎯 통계란 무엇일까?

통계(Statistics) 란

👉 “많은 데이터를 수집하고 요약해서,

전체(모집단)의 특성을 추론하는 과학적 방법”이에요! 📈

즉,

🔹 데이터를 모으고

🔹 정리·요약하고

🔹 분석해서 의미 있는 결론을 내리는 과정이에요.

💬 쉽게 말하면

**“표본으로 전체를 이해하는 기술”**입니다 👀

🧩 1️⃣ 모집단 · 표본 · 모수 · 통계량

용어	뜻	예시
👥 모집단 (Population)	분석하고 싶은 전체 대상	한국의 모든 고객
🔍 표본 (Sample)	모집단 중에서 뽑은 일부	1,000명 고객 설문
🎯 모수 (Parameter)	모집단의 진짜 평균이나 분산	전체 고객의 평균 나이
📏 통계량 (Statistic)	표본에서 계산한 값	표본 평균 33세

💡 즉, 표본으로 계산한 통계량을 이용해

모집단의 모수를 추정하는 것이 통계의 핵심이에요! 🎯

🧮 2️⃣ 변수와 측정척도

✅ 변수란?

데이터 안에 들어 있는 특성이나 속성이에요.

예를 들어 “나이”, “성별”, “매출액” 등이 모두 변수예요.

🔹 변수의 유형

구분	설명	예시
🔢 수치형(정량형)	숫자로 된 변수	나이, 소득, 점수
🔤 범주형(정성형)	이름·등급으로 구분	성별, 지역, 학력

🔸 측정척도(시험 자주 나옴!)

척도	의미	연산 가능	예시
🔹 명목척도(Nominal)	이름만 다름	=, ≠	성별(남/여), 지역명
🔸 서열척도(Ordinal)	순서 있음	>, <	만족도 1~5점
🔷 등간척도(Interval)	간격 일정, 0 의미 없음	+, −	온도(℃)
⚖️ 비율척도(Ratio)	절대적 0 존재	×, ÷	매출, 키, 무게

🧠 외우기 팁:

“명–서–등–비” 순서로 갈수록 연산 범위 ↑, 정보량 ↑

📊 3️⃣ 통계의 두 가지 큰 축

구분	의미	예시
📈 기술통계(Descriptive Statistics)	데이터를 요약·설명	평균, 중앙값, 표준편차, 그래프
🎯 추론통계(Inferential Statistics)	표본으로 모집단 추정·검정	신뢰구간, 가설검정, 회귀분석

✏️ 시험 포인트

“데이터를 설명하는가?” → 기술통계

“데이터로 추정·검정하는가?” → 추론통계

📉 4️⃣ 데이터의 중심과 흩어짐

구분	의미	예시
⚙️ 평균(Mean)	전체 합 ÷ 개수	10, 20, 30 → 평균 20
⚖️ 중앙값(Median)	중앙에 있는 값	[1, 3, 5] → 중앙값 3
🔁 최빈값(Mode)	가장 자주 나오는 값	[2, 2, 5, 6] → 최빈값 2
📐 분산/표준편차	데이터의 흩어진 정도	값이 클수록 변동성↑
📦 사분위수(IQR)	중간 50% 구간	Q3−Q1 (박스플롯 기준)

💡 극단값이 있을 때는 중앙값이 더 안정적!

🎲 5️⃣ 확률과 조건부 확률

개념	설명	예시
🎲 확률(Probability)	어떤 사건이 일어날 가능성	주사위 6 나올 확률 = 1/6
🔗 조건부 확률	사건 B가 일어났을 때 A가 일어날 확률	비 오는 날 우산 쓸 확률
📘 베이즈 정리	새로운 정보로 확률 갱신	스팸메일 필터링에 활용

P(A|B) = [ P(B|A) × P(A) ] / P(B)

💬 “B가 일어났다는 조건에서 A의 확률을 다시 계산하는 것”

📦 6️⃣ 표본추출 (Sampling)

모집단 전체를 조사할 수 없으니까,

일부만 뽑아서(표본) 전체를 대표하도록 추출하는 과정이에요.

방법	설명	예시
🎯 단순무작위추출	무작위로 추출	랜덤번호 추첨
🧩 층화추출	집단(층)별 비율 맞춰 추출	남·여 비율 동일하게
🧑‍🤝‍🧑 집락추출	일부 집단(Cluster)을 통째로 뽑음	학교별로 선택
⏱️ 체계추출	일정 간격으로 추출	10명마다 1명

📈 7️⃣ 중심극한정리 (CLT)

표본의 크기가 충분히 크면,

표본평균의 분포는 정규분포(🔔) 를 따른다는 원리!

✅ 의미:

데이터의 원래 분포가 비정규라도

→ 표본평균은 거의 정규분포 형태가 됩니다.

💬 즉, “많이 뽑으면 평균은 안정된다!”

🎯 8️⃣ 추정과 신뢰구간

점추정(Point Estimation) → 하나의 값으로 추정
(예: 평균 30세)
구간추정(Interval Estimation) → 범위로 추정
(예: 평균이 28~32세일 확률 95%)

✅ 표본이 클수록 → 오차 줄고 → 신뢰구간 좁아짐

⚖️ 9️⃣ 가설검정 (Hypothesis Test)

단계	설명
① 귀무가설(H₀) 세우기	차이·변화 없음 (예: 두 집단 평균 같다)
② 대립가설(H₁) 세우기	차이·변화 있음
③ 유의수준(α) 설정	보통 0.05
④ 검정통계량 계산	t검정, χ²검정 등
⑤ p값과 비교	p<α → H₀ 기각(차이 있다)

💡 쉽게 말하면

“통계적으로 유의미한 차이가 있는가?”를 판단하는 절차예요!

⚠️ 오류 개념

종류	의미	예시
❌ 제1종 오류(α)	사실은 H₀이 맞는데 잘못 기각	오탐
❌ 제2종 오류(β)	사실은 H₁이 맞는데 기각 못함	미탐
⚡ 검정력(1−β)	진짜 차이가 있을 때 발견할 확률	높을수록 좋음

💬 표본이 크거나 효과가 클수록 → 검정력 ↑

🔗 10️⃣ 상관과 회귀

구분	설명	예시
🔄 상관분석(Correlation)	변수 간 선형관계 강도	나이↑ → 지출↑
📈 회귀분석(Regression)	한 변수가 다른 변수에 미치는 영향	광고비가 매출에 미치는 효과

⚠️ 주의: 상관 ≠ 인과

(함께 변한다고 해서 원인·결과는 아님!)

🧠 시험 포인트 정리 💡

📌 모집단 ↔ 표본 구분

📌 명목/서열/등간/비율 척도 차이

📌 기술통계 vs 추론통계 구분

📌 중심극한정리 개념

📌 신뢰구간 & 가설검정 절차

📌 제1종/제2종 오류

📌 상관과 인과 구분

🌈 한 줄 요약

“통계는 표본을 통해 모집단을 이해하는 기술이며,

데이터를 요약(기술통계) → 추정·검정(추론통계) 하는 과정이다.” 📊✨

통계 개념 완벽 이해하기_ADsP 3과목

이 글 공유하기: