🎓 데이터 분석 방법론 완벽 정리
데이터분석준전문가(ADsP) 시험의 **제2과목 “데이터 분석 기획”**에서 가장 많이 출제되는 핵심 주제 중 하나가 바로 데이터 분석 방법론입니다.
이번 글에서는 시험에 꼭 나오는 CRISP-DM, KDD, SEMMA 세 가지 표준 방법론과
실무에서 자주 활용되는 OSEMN, TDSP, PPDAC, DMAIC까지 정리해볼게요.
🌈 1️⃣ 데이터 분석 방법론 한눈에 보기
| 방법론 | 핵심 목적 | 주요 단계 | 특징 |
| CRISP-DM | 비즈니스 문제 해결 중심 | 업무이해 → 데이터이해 → 데이터준비 → 모델링 → 평가 → 배포 | 배포(Deployment) 단계 명시, 피드백 반복 구조 |
| KDD | 데이터에서 지식(패턴) 발견 | 선택 → 전처리 → 변환 → 데이터마이닝 → 해석/평가 | 지식 발굴 흐름, 변환과 마이닝 구분 중요 |
| SEMMA | SAS 중심의 모델링 파이프라인 | Sampling → Explore → Modify → Model → Assess | 배포 없음, 표본 추출·탐색 중심 |
| OSEMN | 실무형 간소화 프로세스 | Obtain → Scrub → Explore → Model → iNterpret | 수집~해석 전 과정을 간결하게 정리 |
| TDSP | 팀 기반 ML 프로젝트 운영 | Business → Data → Modeling → Deployment → Customer Acceptance | 운영·DevOps·승인 절차까지 포함 |
| PPDAC | 통계적 문제 해결 프레임 | Problem → Plan → Data → Analysis → Conclusion | 통계 설계·교육용 분석에 적합 |
| DMAIC | 품질/공정 개선 중심 | Define → Measure → Analyze → Improve → Control | 공정개선·지속관리 목적에 특화 |
🧭 2️⃣ CRISP-DM (가장 표준적이고 시험 출제율 1위)
**CRISP-DM(Cross Industry Standard Process for Data Mining)**은
산업 전반에서 공통적으로 사용할 수 있는 데이터 분석 표준 프로세스입니다.
🔹 6단계 구조
1️⃣ 업무이해(Business Understanding)
→ 비즈니스 목표, 제약조건, 성공기준 정의 (프로젝트 차터 작성)
2️⃣ 데이터이해(Data Understanding)
→ 데이터 소스 파악, 품질점검, EDA 수행
3️⃣ 데이터준비(Data Preparation)
→ 정제, 통합, 변수 설계, 데이터셋 구성
4️⃣ 모델링(Modeling)
→ 알고리즘 선택, 파라미터 튜닝, 교차검증
5️⃣ 평가(Evaluation)
→ 모델 성능·업무 적합성 평가, Go/No-Go 결정
6️⃣ 배포(Deployment)
→ 리포트/대시보드/API 등으로 실제 적용 및 운영 관리
💡 특징 요약
- 유일하게 배포 단계가 존재함
- 단계 간 반복(Feedback) 가능
- 시험에서는 “단계 순서” 또는 “산출물” 형태로 자주 출제
🧠 3️⃣ KDD (Knowledge Discovery in Databases)
데이터 속에서 **새로운 지식(패턴)**을 발견하기 위한 분석 절차입니다.
🔹 5단계 구성
① 데이터 선택(Selection) – 분석 목표에 맞는 데이터 추출
② 전처리(Preprocessing) – 결측치/이상치 제거
③ 변환(Transformation) – 변수 생성, 스케일링, 차원축소
④ 데이터마이닝(Data Mining) – 패턴 탐색, 분류·군집·연관분석 수행
⑤ 해석/평가(Interpretation/Evaluation) – 결과 검증 및 의미 도출
💡 시험 포인트
- “변환(Transformation)”과 “데이터마이닝(Data Mining)” 구분 필수
- 지식 발견이 목적이라 배포 단계 없음
🔬 4️⃣ SEMMA (SAS 중심 방법론)
SAS Enterprise Miner에서 사용되는 데이터마이닝 절차로, 실험적 모델링에 최적화되어 있습니다.
🔹 단계 구성
1️⃣ Sampling – 표본 추출
2️⃣ Explore – 데이터 탐색 및 시각화
3️⃣ Modify – 변수 변형, 피처 선택
4️⃣ Model – 모델 학습 및 최적화
5️⃣ Assess – 평가 및 검증
💡 특징 요약
- 배포 단계가 없다 (CRISP-DM과 가장 큰 차이)
- EDA 중심, 모델링 도구 친화적 접근
⚙️ 5️⃣ OSEMN (실무형 분석 절차)
실무 데이터사이언스 팀에서 많이 사용하는 간결한 방법론입니다.
Obtain → Scrub → Explore → Model → iNterpret
- Obtain: 데이터 수집
- Scrub: 결측·이상치 제거, 정제
- Explore: 시각화, 상관분석
- Model: 모델 학습
- iNterpret: 결과 해석 및 액션 플랜 도출
💡 장점: 빠른 반복과 실무 친화적 구조
🧩 6️⃣ TDSP (Team Data Science Process)
Microsoft가 제안한 협업형 분석 프로세스입니다.
AI/ML 프로젝트의 MLOps 기반 운영에도 자주 사용됩니다.
Business Understanding → Data Acquisition & Understanding → Modeling → Deployment → Customer Acceptance
- 팀 단위의 역할 분담 명확
- 고객 승인(Customer Acceptance) 절차 강조
- 모델 재학습 및 운영 안정성 관리
📐 7️⃣ PPDAC & DMAIC
📊 PPDAC (통계 분석 기본 구조)
Problem → Plan → Data → Analysis → Conclusion
→ 통계적 접근이나 리서치 보고서 구조로 활용
⚙️ DMAIC (6시그마 프로세스 개선)
Define → Measure → Analyze → Improve → Control
→ 제조/품질관리, 서비스 개선 등에 사용
→ Control 단계로 지속 관리 강조
🧱 8️⃣ 방법론 선택 가이드
| 상황 | 추천 방법론 | 이유 |
| 명확한 비즈니스 KPI 달성 | CRISP-DM, TDSP | 목표 → 배포까지 명확 |
| 대용량 패턴·지식 발견 | KDD | 데이터 기반 패턴 추출 |
| 모델링 중심 프로젝트 | SEMMA | 표본·탐색·모델링 집중 |
| 빠른 실무·파일럿 | OSEMN | 간결하고 실용적 |
| 공정·품질 개선 | DMAIC | 개선과 통제에 특화 |
🔍 9️⃣ 단계별 공통 체크리스트
✅ 문제정의 단계 – KPI 명확히 설정했는가?
✅ 데이터이해 단계 – 품질/권한/갱신주기 점검했는가?
✅ 모델링 단계 – 기준선(Baseline) 및 평가 지표 정의했는가?
✅ 평가 단계 – 비즈니스 효과·윤리 리스크 확인했는가?
✅ 배포 단계 – 모니터링/재학습 계획이 포함됐는가?
📚 🔟 기출 유사문제 예시
Q1. CRISP-DM의 단계에 포함되지 않는 것은?
→ 정답: Sampling (SEMMA의 구성요소)
Q2. KDD에서 차원축소가 이루어지는 단계는?
→ 정답: 변환(Transformation)
Q3. SEMMA의 올바른 순서는?
→ 정답: Sampling → Explore → Modify → Model → Assess
Q4. 고객 승인(Customer Acceptance) 단계가 포함된 방법론은?
→ 정답: TDSP
Q5. Control 단계로 끝나는 프로세스는?
→ 정답: DMAIC
🧾 11️⃣ 핵심 암기 카드
- CRISP-DM: 업 → 이 → 준 → 모 → 평 → 배
- KDD: 선 → 전 → 변 → 마 → 평
- SEMMA: 샘 → 탐 → 변 → 모 → 평
💡 암기 Tip:
“업이준모평배”, “선전변마평”, “샘탐변모평” 세 가지만 외워도
대부분의 ADsP 기출문제는 풀 수 있습니다!
✨ 마무리
데이터 분석 방법론은 단순히 “단계 외우기”가 아니라
“문제 정의 → 데이터 준비 → 모델링 → 평가 → 활용”이라는
데이터 분석의 전체 흐름을 이해하는 데 필수입니다.
시험에서는 각 방법론의 단계 순서, 특징(배포 유무),
그리고 목적의 차이점을 구분하는 문제가 자주 출제됩니다.
📌 추천 공부 순서
1️⃣ CRISP-DM 단계 완벽 암기
2️⃣ KDD와 SEMMA 비교 정리
3️⃣ TDSP, DMAIC은 특징 위주로만 암기