🔎 EDA(Exploratory Data Analysis) 완벽정리 💡
데이터를 이해하고, 패턴을 발견하고, 가설을 세우는 첫 단계!
🧠 EDA란?
EDA(Exploratory Data Analysis)
👉 우리말로 탐색적 데이터 분석이라고 해요.
데이터를 분석하기 전,
📊 “이 데이터가 어떤 모습일까?”
👀 “어디에 문제가 있고, 어떤 특징이 있을까?”
를 탐색하고 이해하는 과정이에요.
💬 쉽게 말하면
EDA는 데이터를 ‘한눈에 파악’하고 ‘감 잡는’ 과정이에요!
🎯 EDA의 목적 (왜 해야 할까?)
EDA는 단순히 숫자를 보는 게 아니라
👉 데이터를 깨끗하게 만들고,
👉 패턴을 찾고,
👉 다음 단계(모델링, 분석) 로 나아가기 위한 기반이에요!
| 목적 | 설명 |
| 🧹 데이터 점검 | 결측값, 이상값, 중복, 오류 확인 |
| 📈 패턴 발견 | 변수 간 관계, 분포, 트렌드 찾기 |
| 💡 가설 만들기 | 어떤 요인이 결과에 영향을 줄까? |
| 🧭 분석 방향 설정 | 어떤 전처리·모델링을 할지 결정 |
✅ 요약
“EDA는 분석의 시작점이자, 데이터와 대화하는 단계!” 💬
🧭 EDA의 기본 단계 (5단계로 정리)
| 단계 | 내용 | 예시 |
| ① 목표 정의 🎯 | 분석 목적과 타깃 변수 확인 | “이탈 고객을 예측하자!” |
| ② 데이터 구조 파악 📁 | 변수 타입, 범위, 단위 확인 | 나이=숫자형, 지역=범주형 |
| ③ 품질 점검 🧹 | 결측값·이상값·중복 확인 | 결측률 10%, 중복행 5건 |
| ④ 시각화 🔍 | 그래프로 패턴 탐색 | 히스토그램, 산점도 |
| ⑤ 인사이트 도출 💡 | 가설 세우기, 다음 단계 계획 | “30대 여성은 구매율이 높다” |
🧰 EDA에서 자주 하는 분석
| 구분 | 주요 내용 | 사용 예시 |
| 📏 요약통계 확인 | 평균, 중앙값, 표준편차, 최빈값 | 평균 나이 35세 |
| 📊 분포 분석 | 히스토그램, 박스플롯 | 매출이 오른쪽으로 긴 꼬리 |
| 🔗 상관관계 분석 | 변수 간 관계 파악 | 나이↑ → 구매금액↑ |
| 🧩 이상/결측 탐색 | 데이터 오류 확인 | 나이 결측 5%, 금액 이상치 3건 |
| 💬 가설 생성 | 데이터 기반 아이디어 도출 | “재구매 고객은 특정 상품군 선호” |
📊 시각화로 보는 EDA 예시
| 목적 | 추천 그래프 | 예시 |
| 분포 확인 | 히스토그램, 박스플롯 | 나이, 구매금액 분포 |
| 관계 파악 | 산점도, 상관 히트맵 | 나이 vs 구매금액 |
| 그룹 비교 | 막대그래프, 바이올린 플롯 | 성별별 구매평균 |
| 시간 흐름 | 라인차트 | 월별 매출 추이 |
✨ Tip
“그림 1장 + 한 줄 해석”으로 요약하면 시험·실무 둘 다 완벽해요!
🧪 예시로 배우는 EDA
💬 예시: 온라인 쇼핑몰 고객 데이터
| 단계 | 수행 내용 |
| ① 데이터 확인 | 고객 ID, 나이, 구매금액, 재방문여부 |
| ② 품질 점검 | 나이 결측 5%, 구매금액 이상치 2건 |
| ③ 분포 분석 | 나이 분포: 20~40대 중심 |
| ④ 관계 탐색 | 재방문 고객의 평균 구매금액 ↑ |
| ⑤ 인사이트 도출 | “30대 재방문 고객이 충성도가 높다” |
💡 이렇게 데이터를 탐색하다 보면
비즈니스 전략 아이디어까지 얻을 수 있어요!
🔎 단변량 · 이변량 · 다변량 분석 정리
| 구분 | 의미 | 예시 |
| 📍 단변량(Univariate) | 변수 1개 분석 | “나이 분포 보기” |
| 🔗 이변량(Bivariate) | 변수 2개 관계 분석 | “나이 vs 구매금액” |
| 🧩 다변량(Multivariate) | 변수 여러 개 동시에 | “상관 히트맵, 클러스터링” |
🧠 EDA를 하면 좋은 점
✅ 데이터의 문제점을 미리 파악
✅ 분석 방향이 명확해짐
✅ 모델링 전에 데이터 품질 향상
✅ 결과 해석이 더 정확해짐
⚙️ EDA 결과로 얻는 것
💡 결측/이상값 처리 방안
💡 사용할 주요 변수(Feature)
💡 가설 및 분석 방향
💡 비즈니스 인사이트 (예: VIP 고객 특징)
✏️ ADsP 시험 핵심 포인트
🧩 EDA → Exploratory Data Analysis (탐색적 데이터 분석)
📌 “모델링 전에 데이터 구조·패턴·품질을 파악하는 과정”
📌 “시각화와 요약통계 중심으로 탐색”
📌 “가설을 세워 다음 분석 단계의 기반을 마련”
💬 자주 나오는 문제
“EDA의 주요 목적이 아닌 것은?”
→ ✅ 모델링 수행 (❌, EDA는 모델링 ‘이전 단계’예요!)
🌈 한 줄 요약 💡
“EDA는 데이터를 먼저 이해하고,
문제를 발견하고, 해결 실마리를 찾는 탐색 과정이다.” 🔍