데이터 분석 방법론_ADsP 2과목

🎓 데이터 분석 방법론 완벽 정리

데이터분석준전문가(ADsP) 시험의 **제2과목 “데이터 분석 기획”**에서 가장 많이 출제되는 핵심 주제 중 하나가 바로 데이터 분석 방법론입니다.

이번 글에서는 시험에 꼭 나오는 CRISP-DM, KDD, SEMMA 세 가지 표준 방법론과

실무에서 자주 활용되는 OSEMN, TDSP, PPDAC, DMAIC까지 정리해볼게요.

🌈 1️⃣ 데이터 분석 방법론 한눈에 보기

방법론핵심 목적주요 단계특징
CRISP-DM비즈니스 문제 해결 중심업무이해 → 데이터이해 → 데이터준비 → 모델링 → 평가 → 배포배포(Deployment) 단계 명시, 피드백 반복 구조
KDD데이터에서 지식(패턴) 발견선택 → 전처리 → 변환 → 데이터마이닝 → 해석/평가지식 발굴 흐름, 변환과 마이닝 구분 중요
SEMMASAS 중심의 모델링 파이프라인Sampling → Explore → Modify → Model → Assess배포 없음, 표본 추출·탐색 중심
OSEMN실무형 간소화 프로세스Obtain → Scrub → Explore → Model → iNterpret수집~해석 전 과정을 간결하게 정리
TDSP팀 기반 ML 프로젝트 운영Business → Data → Modeling → Deployment → Customer Acceptance운영·DevOps·승인 절차까지 포함
PPDAC통계적 문제 해결 프레임Problem → Plan → Data → Analysis → Conclusion통계 설계·교육용 분석에 적합
DMAIC품질/공정 개선 중심Define → Measure → Analyze → Improve → Control공정개선·지속관리 목적에 특화

🧭 2️⃣ CRISP-DM (가장 표준적이고 시험 출제율 1위)

**CRISP-DM(Cross Industry Standard Process for Data Mining)**은

산업 전반에서 공통적으로 사용할 수 있는 데이터 분석 표준 프로세스입니다.

🔹 6단계 구조

1️⃣ 업무이해(Business Understanding)

→ 비즈니스 목표, 제약조건, 성공기준 정의 (프로젝트 차터 작성)

2️⃣ 데이터이해(Data Understanding)

→ 데이터 소스 파악, 품질점검, EDA 수행

3️⃣ 데이터준비(Data Preparation)

→ 정제, 통합, 변수 설계, 데이터셋 구성

4️⃣ 모델링(Modeling)

→ 알고리즘 선택, 파라미터 튜닝, 교차검증

5️⃣ 평가(Evaluation)

→ 모델 성능·업무 적합성 평가, Go/No-Go 결정

6️⃣ 배포(Deployment)

→ 리포트/대시보드/API 등으로 실제 적용 및 운영 관리

💡 특징 요약

  • 유일하게 배포 단계가 존재함
  • 단계 간 반복(Feedback) 가능
  • 시험에서는 “단계 순서” 또는 “산출물” 형태로 자주 출제

🧠 3️⃣ KDD (Knowledge Discovery in Databases)

데이터 속에서 **새로운 지식(패턴)**을 발견하기 위한 분석 절차입니다.

🔹 5단계 구성

데이터 선택(Selection) – 분석 목표에 맞는 데이터 추출

전처리(Preprocessing) – 결측치/이상치 제거

변환(Transformation) – 변수 생성, 스케일링, 차원축소

데이터마이닝(Data Mining) – 패턴 탐색, 분류·군집·연관분석 수행

해석/평가(Interpretation/Evaluation) – 결과 검증 및 의미 도출

💡 시험 포인트

  • “변환(Transformation)”과 “데이터마이닝(Data Mining)” 구분 필수
  • 지식 발견이 목적이라 배포 단계 없음

🔬 4️⃣ SEMMA (SAS 중심 방법론)

SAS Enterprise Miner에서 사용되는 데이터마이닝 절차로, 실험적 모델링에 최적화되어 있습니다.

🔹 단계 구성

1️⃣ Sampling – 표본 추출

2️⃣ Explore – 데이터 탐색 및 시각화

3️⃣ Modify – 변수 변형, 피처 선택

4️⃣ Model – 모델 학습 및 최적화

5️⃣ Assess – 평가 및 검증

💡 특징 요약

  • 배포 단계가 없다 (CRISP-DM과 가장 큰 차이)
  • EDA 중심, 모델링 도구 친화적 접근

⚙️ 5️⃣ OSEMN (실무형 분석 절차)

실무 데이터사이언스 팀에서 많이 사용하는 간결한 방법론입니다.

Obtain → Scrub → Explore → Model → iNterpret

  • Obtain: 데이터 수집
  • Scrub: 결측·이상치 제거, 정제
  • Explore: 시각화, 상관분석
  • Model: 모델 학습
  • iNterpret: 결과 해석 및 액션 플랜 도출

💡 장점: 빠른 반복과 실무 친화적 구조


🧩 6️⃣ TDSP (Team Data Science Process)

Microsoft가 제안한 협업형 분석 프로세스입니다.

AI/ML 프로젝트의 MLOps 기반 운영에도 자주 사용됩니다.

Business Understanding → Data Acquisition & Understanding → Modeling → Deployment → Customer Acceptance

  • 팀 단위의 역할 분담 명확
  • 고객 승인(Customer Acceptance) 절차 강조
  • 모델 재학습 및 운영 안정성 관리

📐 7️⃣ PPDAC & DMAIC

📊 PPDAC (통계 분석 기본 구조)

Problem → Plan → Data → Analysis → Conclusion

→ 통계적 접근이나 리서치 보고서 구조로 활용

⚙️ DMAIC (6시그마 프로세스 개선)

Define → Measure → Analyze → Improve → Control

→ 제조/품질관리, 서비스 개선 등에 사용

Control 단계로 지속 관리 강조


🧱 8️⃣ 방법론 선택 가이드

상황추천 방법론이유
명확한 비즈니스 KPI 달성CRISP-DM, TDSP목표 → 배포까지 명확
대용량 패턴·지식 발견KDD데이터 기반 패턴 추출
모델링 중심 프로젝트SEMMA표본·탐색·모델링 집중
빠른 실무·파일럿OSEMN간결하고 실용적
공정·품질 개선DMAIC개선과 통제에 특화

🔍 9️⃣ 단계별 공통 체크리스트

문제정의 단계 – KPI 명확히 설정했는가?

데이터이해 단계 – 품질/권한/갱신주기 점검했는가?

모델링 단계 – 기준선(Baseline) 및 평가 지표 정의했는가?

평가 단계 – 비즈니스 효과·윤리 리스크 확인했는가?

배포 단계 – 모니터링/재학습 계획이 포함됐는가?


📚 🔟 기출 유사문제 예시

Q1. CRISP-DM의 단계에 포함되지 않는 것은?

정답: Sampling (SEMMA의 구성요소)

Q2. KDD에서 차원축소가 이루어지는 단계는?

정답: 변환(Transformation)

Q3. SEMMA의 올바른 순서는?

정답: Sampling → Explore → Modify → Model → Assess

Q4. 고객 승인(Customer Acceptance) 단계가 포함된 방법론은?

정답: TDSP

Q5. Control 단계로 끝나는 프로세스는?

정답: DMAIC


🧾 11️⃣ 핵심 암기 카드

  • CRISP-DM: 업 → 이 → 준 → 모 → 평 → 배
  • KDD: 선 → 전 → 변 → 마 → 평
  • SEMMA: 샘 → 탐 → 변 → 모 → 평

💡 암기 Tip:

“업이준모평배”, “선전변마평”, “샘탐변모평” 세 가지만 외워도

대부분의 ADsP 기출문제는 풀 수 있습니다!


✨ 마무리

데이터 분석 방법론은 단순히 “단계 외우기”가 아니라

문제 정의 → 데이터 준비 → 모델링 → 평가 → 활용”이라는

데이터 분석의 전체 흐름을 이해하는 데 필수입니다.

시험에서는 각 방법론의 단계 순서, 특징(배포 유무),

그리고 목적의 차이점을 구분하는 문제가 자주 출제됩니다.


📌 추천 공부 순서

1️⃣ CRISP-DM 단계 완벽 암기

2️⃣ KDD와 SEMMA 비교 정리

3️⃣ TDSP, DMAIC은 특징 위주로만 암기