군집화(Clustering) 완전 정복_ADsP 3과목

🧩 군집화(Clustering) 완전 정복 💡

“정답(라벨) 없이 비슷한 데이터끼리 묶는 기술!”


🎯 1️⃣ 군집화란?

👉 비슷한 특성을 가진 데이터들을 그룹(Cluster) 으로 묶는 비지도학습 기법이에요.

즉, 라벨이 없는 데이터에서 스스로 구조를 찾아내는 거예요!

📦 예시로 이해하기

  • 고객의 구매 패턴이 비슷하면 같은 그룹 → “고객 세분화 마케팅 🎯”
  • 웹사이트 이용 행동이 비슷하면 같은 군집 → “사용자 행동 분석 👥”

🧭 2️⃣ 군집화의 목표

구분의미설명
📍 응집도(Compactness)군집 내 거리 ↓비슷한 데이터끼리 가까움
🧭 분리도(Separation)군집 간 거리 ↑다른 군집끼리는 멀리 떨어짐

💬 즉, 군집 내부는 조밀하게, 군집 간은 멀리 떨어지게!


⚙️ 3️⃣ 대표 알고리즘 총정리

💙 (1) K-평균(K-means)

“군집 중심(centroid)을 기준으로 데이터를 묶는 방법!”

  • 💡 군집 수 k를 미리 지정
  • 💫 중심점 갱신 과정을 반복 (할당 → 평균 → 갱신)
  • ⚠️ 이상치·스케일에 민감 → 표준화 꼭 필요!
  • 📏 구형(원형) 군집에 적합

📘 시험 포인트:

  • 거리 = 유클리드 거리
  • k는 엘보법으로 결정
  • 속도 빠름, 대용량 OK

💚 (2) 계층적 군집 (Hierarchical)

“비슷한 것끼리 단계적으로 합쳐 나가는 방식!”

  • 📈 덴드로그램(Dendrogram)으로 시각화
  • 🔗 결합 방식: 단일/완전/평균/와드(분산 최소)
  • 💬 k를 사전에 몰라도 시각적으로 결정 가능

📘 시험 포인트:

  • 군집 수 결정은 덴드로그램 자르는 위치!
  • 소규모 데이터에서 해석 용이

💛 (3) DBSCAN (밀도 기반 군집)

“데이터 밀도를 기준으로 군집을 찾고, 이상치는 자동으로 분리!”

  • 🔹 ε(반경), MinPts(최소점수) 기준
  • 💥 밀도가 높으면 같은 군집, 낮으면 노이즈(이상치)
  • ⚡ 임의 모양 군집 가능

📘 시험 포인트:

  • 이상치 자동 분리 ✅
  • ε 설정이 핵심 (k-distance plot 활용)
  • 비균일한 밀도엔 부적합 ⚠️

🧡 (4) GMM (Gaussian Mixture Model)

“데이터가 여러 개의 정규분포가 섞인 형태라고 가정!”

  • 💡 각 데이터가 여러 군집에 속할 확률을 가짐 (Soft clustering)
  • 📊 타원형 군집 가능
  • ⚙️ EM 알고리즘으로 평균·분산 추정

📘 시험 포인트:

  • BIC/AIC로 군집 수 결정
  • 확률적 군집 → 소프트할당

📏 4️⃣ 클러스터 수 결정법 ✂️

방법설명해석
💧 엘보(Elbow)법SSE 감소 곡선의 꺾이는 지점가장 효율적인 k
🌸 실루엣 계수(Silhouette)−1~1 값 (높을수록 좋음)군집 분리도·응집도 평가
🌈 갭 통계량(Gap Statistic)무작위 기준 대비 개선도클수록 좋은 군집 구조

🔍 5️⃣ 군집화 평가 지표

📘 내부평가 (라벨 없음)

  • 실루엣 계수
  • Davies–Bouldin 지수
  • Calinski–Harabasz 지수

📗 외부평가 (라벨 있음)

  • ARI(Rand Index 보정), NMI, V-measure

💬 시험에서는 “라벨 없는 비지도학습의 평가지표”로

👉 실루엣 계수 자주 출제됩니다!


🧹 6️⃣ 전처리 꿀팁 💫

표준화(Z-score) 필수 (거리기반이라 단위 차이 크면 왜곡돼요!)

이상치 제거 (K-means에 영향 큼 → DBSCAN 대안)

차원축소(PCA) 로 시각화 용이하게

범주형 데이터면 → K-prototypes, Gower 거리 사용


🧭 7️⃣ 해석 예시 (고객 세분화)

군집특징설명
👑 A그룹고가·고빈도VIP 우수고객
💸 B그룹저가·고빈도실속형 충성고객
🌱 C그룹중가·저빈도잠재 성장 고객
⚠️ D그룹단발·고반품이탈 위험 고객

💬 이렇게 군집별 행동패턴을 해석하면

👉 타깃 마케팅, 쿠폰 전략, 이탈예방까지 가능해요! 🎯


🧾 ADsP 시험 핵심 요약 💥

구분핵심 키워드특징
🔹 K-means중심기반, 유클리드, 빠름k 필요, 이상치 민감
🔸 계층적덴드로그램, 병합형k 사후 결정
💛 DBSCAN밀도기반, 이상치 탐지ε·MinPts 중요
🧡 GMM확률적 군집, EM알고리즘소프트할당
✂️ 클러스터 수엘보·실루엣법k 결정
🧾 평가실루엣, DB, CH비지도평가
⚙️ 전처리표준화·이상치처리스케일 중요!

🌈 한 줄 정리 💬

군집화 = “비슷한 데이터끼리 스스로 모이는 과정”

👉 거리·밀도·확률에 따라 다양한 방법이 있지만,

핵심은 “응집도 높게, 분리도 멀게!” 💪