통계 개념 완벽 이해하기_ADsP 3과목

📊 통계 개념 완벽 이해하기 💡

ADsP(데이터분석 준전문가) 필수 기본 개념 정리!


🎯 통계란 무엇일까?

통계(Statistics)

👉 “많은 데이터를 수집하고 요약해서,

전체(모집단)의 특성을 추론하는 과학적 방법”이에요! 📈

즉,

🔹 데이터를 모으고

🔹 정리·요약하고

🔹 분석해서 의미 있는 결론을 내리는 과정이에요.

💬 쉽게 말하면

**“표본으로 전체를 이해하는 기술”**입니다 👀


🧩 1️⃣ 모집단 · 표본 · 모수 · 통계량

용어예시
👥 모집단 (Population)분석하고 싶은 전체 대상한국의 모든 고객
🔍 표본 (Sample)모집단 중에서 뽑은 일부1,000명 고객 설문
🎯 모수 (Parameter)모집단의 진짜 평균이나 분산전체 고객의 평균 나이
📏 통계량 (Statistic)표본에서 계산한 값표본 평균 33세

💡 즉, 표본으로 계산한 통계량을 이용해

모집단의 모수추정하는 것이 통계의 핵심이에요! 🎯


🧮 2️⃣ 변수와 측정척도

✅ 변수란?

데이터 안에 들어 있는 특성이나 속성이에요.

예를 들어 “나이”, “성별”, “매출액” 등이 모두 변수예요.


🔹 변수의 유형

구분설명예시
🔢 수치형(정량형)숫자로 된 변수나이, 소득, 점수
🔤 범주형(정성형)이름·등급으로 구분성별, 지역, 학력

🔸 측정척도(시험 자주 나옴!)

척도의미연산 가능예시
🔹 명목척도(Nominal)이름만 다름=, ≠성별(남/여), 지역명
🔸 서열척도(Ordinal)순서 있음>, <만족도 1~5점
🔷 등간척도(Interval)간격 일정, 0 의미 없음+, −온도(℃)
⚖️ 비율척도(Ratio)절대적 0 존재×, ÷매출, 키, 무게

🧠 외우기 팁:

“명–서–등–비” 순서로 갈수록 연산 범위 ↑, 정보량 ↑


📊 3️⃣ 통계의 두 가지 큰 축

구분의미예시
📈 기술통계(Descriptive Statistics)데이터를 요약·설명평균, 중앙값, 표준편차, 그래프
🎯 추론통계(Inferential Statistics)표본으로 모집단 추정·검정신뢰구간, 가설검정, 회귀분석

✏️ 시험 포인트

“데이터를 설명하는가?” → 기술통계

“데이터로 추정·검정하는가?” → 추론통계


📉 4️⃣ 데이터의 중심과 흩어짐

구분의미예시
⚙️ 평균(Mean)전체 합 ÷ 개수10, 20, 30 → 평균 20
⚖️ 중앙값(Median)중앙에 있는 값[1, 3, 5] → 중앙값 3
🔁 최빈값(Mode)가장 자주 나오는 값[2, 2, 5, 6] → 최빈값 2
📐 분산/표준편차데이터의 흩어진 정도값이 클수록 변동성↑
📦 사분위수(IQR)중간 50% 구간Q3−Q1 (박스플롯 기준)

💡 극단값이 있을 때는 중앙값이 더 안정적!


🎲 5️⃣ 확률과 조건부 확률

개념설명예시
🎲 확률(Probability)어떤 사건이 일어날 가능성주사위 6 나올 확률 = 1/6
🔗 조건부 확률사건 B가 일어났을 때 A가 일어날 확률비 오는 날 우산 쓸 확률
📘 베이즈 정리새로운 정보로 확률 갱신스팸메일 필터링에 활용

P(A|B) = [ P(B|A) × P(A) ] / P(B)

💬 “B가 일어났다는 조건에서 A의 확률을 다시 계산하는 것”


📦 6️⃣ 표본추출 (Sampling)

모집단 전체를 조사할 수 없으니까,

일부만 뽑아서(표본) 전체를 대표하도록 추출하는 과정이에요.

방법설명예시
🎯 단순무작위추출무작위로 추출랜덤번호 추첨
🧩 층화추출집단(층)별 비율 맞춰 추출남·여 비율 동일하게
🧑‍🤝‍🧑 집락추출일부 집단(Cluster)을 통째로 뽑음학교별로 선택
⏱️ 체계추출일정 간격으로 추출10명마다 1명

📈 7️⃣ 중심극한정리 (CLT)

표본의 크기가 충분히 크면,

표본평균의 분포는 정규분포(🔔) 를 따른다는 원리!

✅ 의미:

데이터의 원래 분포가 비정규라도

→ 표본평균은 거의 정규분포 형태가 됩니다.

💬 즉, “많이 뽑으면 평균은 안정된다!”


🎯 8️⃣ 추정과 신뢰구간

  • 점추정(Point Estimation) → 하나의 값으로 추정
  • (예: 평균 30세)
  • 구간추정(Interval Estimation) → 범위로 추정
  • (예: 평균이 28~32세일 확률 95%)

✅ 표본이 클수록 → 오차 줄고 → 신뢰구간 좁아짐


⚖️ 9️⃣ 가설검정 (Hypothesis Test)

단계설명
귀무가설(H₀) 세우기차이·변화 없음 (예: 두 집단 평균 같다)
대립가설(H₁) 세우기차이·변화 있음
유의수준(α) 설정보통 0.05
검정통계량 계산t검정, χ²검정 등
p값과 비교p<α → H₀ 기각(차이 있다)

💡 쉽게 말하면

“통계적으로 유의미한 차이가 있는가?”를 판단하는 절차예요!


⚠️ 오류 개념

종류의미예시
제1종 오류(α)사실은 H₀이 맞는데 잘못 기각오탐
제2종 오류(β)사실은 H₁이 맞는데 기각 못함미탐
검정력(1−β)진짜 차이가 있을 때 발견할 확률높을수록 좋음

💬 표본이 크거나 효과가 클수록 → 검정력 ↑


🔗 10️⃣ 상관과 회귀

구분설명예시
🔄 상관분석(Correlation)변수 간 선형관계 강도나이↑ → 지출↑
📈 회귀분석(Regression)한 변수가 다른 변수에 미치는 영향광고비가 매출에 미치는 효과

⚠️ 주의: 상관 ≠ 인과

(함께 변한다고 해서 원인·결과는 아님!)


🧠 시험 포인트 정리 💡

📌 모집단 ↔ 표본 구분

📌 명목/서열/등간/비율 척도 차이

📌 기술통계 vs 추론통계 구분

📌 중심극한정리 개념

📌 신뢰구간 & 가설검정 절차

📌 제1종/제2종 오류

📌 상관과 인과 구분


🌈 한 줄 요약

“통계는 표본을 통해 모집단을 이해하는 기술이며,

데이터를 요약(기술통계)추정·검정(추론통계) 하는 과정이다.” 📊✨