탐색적 데이터분석(EDA) 완벽정리_ADsP 3과목

🔎 EDA(Exploratory Data Analysis) 완벽정리 💡

데이터를 이해하고, 패턴을 발견하고, 가설을 세우는 첫 단계!


🧠 EDA란?

EDA(Exploratory Data Analysis)

👉 우리말로 탐색적 데이터 분석이라고 해요.

데이터를 분석하기 전,

📊 “이 데이터가 어떤 모습일까?”

👀 “어디에 문제가 있고, 어떤 특징이 있을까?”

탐색하고 이해하는 과정이에요.

💬 쉽게 말하면

EDA는 데이터를 ‘한눈에 파악’하고 ‘감 잡는’ 과정이에요!


🎯 EDA의 목적 (왜 해야 할까?)

EDA는 단순히 숫자를 보는 게 아니라

👉 데이터를 깨끗하게 만들고,

👉 패턴을 찾고,

👉 다음 단계(모델링, 분석) 로 나아가기 위한 기반이에요!

목적설명
🧹 데이터 점검결측값, 이상값, 중복, 오류 확인
📈 패턴 발견변수 간 관계, 분포, 트렌드 찾기
💡 가설 만들기어떤 요인이 결과에 영향을 줄까?
🧭 분석 방향 설정어떤 전처리·모델링을 할지 결정

요약

“EDA는 분석의 시작점이자, 데이터와 대화하는 단계!” 💬


🧭 EDA의 기본 단계 (5단계로 정리)

단계내용예시
① 목표 정의 🎯분석 목적과 타깃 변수 확인“이탈 고객을 예측하자!”
② 데이터 구조 파악 📁변수 타입, 범위, 단위 확인나이=숫자형, 지역=범주형
③ 품질 점검 🧹결측값·이상값·중복 확인결측률 10%, 중복행 5건
④ 시각화 🔍그래프로 패턴 탐색히스토그램, 산점도
⑤ 인사이트 도출 💡가설 세우기, 다음 단계 계획“30대 여성은 구매율이 높다”

🧰 EDA에서 자주 하는 분석

구분주요 내용사용 예시
📏 요약통계 확인평균, 중앙값, 표준편차, 최빈값평균 나이 35세
📊 분포 분석히스토그램, 박스플롯매출이 오른쪽으로 긴 꼬리
🔗 상관관계 분석변수 간 관계 파악나이↑ → 구매금액↑
🧩 이상/결측 탐색데이터 오류 확인나이 결측 5%, 금액 이상치 3건
💬 가설 생성데이터 기반 아이디어 도출“재구매 고객은 특정 상품군 선호”

📊 시각화로 보는 EDA 예시

목적추천 그래프예시
분포 확인히스토그램, 박스플롯나이, 구매금액 분포
관계 파악산점도, 상관 히트맵나이 vs 구매금액
그룹 비교막대그래프, 바이올린 플롯성별별 구매평균
시간 흐름라인차트월별 매출 추이

✨ Tip

“그림 1장 + 한 줄 해석”으로 요약하면 시험·실무 둘 다 완벽해요!


🧪 예시로 배우는 EDA

💬 예시: 온라인 쇼핑몰 고객 데이터

단계수행 내용
① 데이터 확인고객 ID, 나이, 구매금액, 재방문여부
② 품질 점검나이 결측 5%, 구매금액 이상치 2건
③ 분포 분석나이 분포: 20~40대 중심
④ 관계 탐색재방문 고객의 평균 구매금액 ↑
⑤ 인사이트 도출“30대 재방문 고객이 충성도가 높다”

💡 이렇게 데이터를 탐색하다 보면

비즈니스 전략 아이디어까지 얻을 수 있어요!


🔎 단변량 · 이변량 · 다변량 분석 정리

구분의미예시
📍 단변량(Univariate)변수 1개 분석“나이 분포 보기”
🔗 이변량(Bivariate)변수 2개 관계 분석“나이 vs 구매금액”
🧩 다변량(Multivariate)변수 여러 개 동시에“상관 히트맵, 클러스터링”

🧠 EDA를 하면 좋은 점

✅ 데이터의 문제점을 미리 파악

✅ 분석 방향이 명확해짐

✅ 모델링 전에 데이터 품질 향상

✅ 결과 해석이 더 정확해짐


⚙️ EDA 결과로 얻는 것

💡 결측/이상값 처리 방안

💡 사용할 주요 변수(Feature)

💡 가설 및 분석 방향

💡 비즈니스 인사이트 (예: VIP 고객 특징)


✏️ ADsP 시험 핵심 포인트

🧩 EDAExploratory Data Analysis (탐색적 데이터 분석)

📌 “모델링 전에 데이터 구조·패턴·품질을 파악하는 과정”

📌 “시각화와 요약통계 중심으로 탐색”

📌 “가설을 세워 다음 분석 단계의 기반을 마련”

💬 자주 나오는 문제

“EDA의 주요 목적이 아닌 것은?”

→ ✅ 모델링 수행 (❌, EDA는 모델링 ‘이전 단계’예요!)


🌈 한 줄 요약 💡

“EDA는 데이터를 먼저 이해하고,

문제를 발견하고, 해결 실마리를 찾는 탐색 과정이다.” 🔍