🧩 군집화(Clustering) 완전 정복 💡
“정답(라벨) 없이 비슷한 데이터끼리 묶는 기술!”
🎯 1️⃣ 군집화란?
👉 비슷한 특성을 가진 데이터들을 그룹(Cluster) 으로 묶는 비지도학습 기법이에요.
즉, 라벨이 없는 데이터에서 스스로 구조를 찾아내는 거예요!
📦 예시로 이해하기
- 고객의 구매 패턴이 비슷하면 같은 그룹 → “고객 세분화 마케팅 🎯”
- 웹사이트 이용 행동이 비슷하면 같은 군집 → “사용자 행동 분석 👥”
🧭 2️⃣ 군집화의 목표
| 구분 | 의미 | 설명 |
| 📍 응집도(Compactness) | 군집 내 거리 ↓ | 비슷한 데이터끼리 가까움 |
| 🧭 분리도(Separation) | 군집 간 거리 ↑ | 다른 군집끼리는 멀리 떨어짐 |
💬 즉, 군집 내부는 조밀하게, 군집 간은 멀리 떨어지게!
⚙️ 3️⃣ 대표 알고리즘 총정리
💙 (1) K-평균(K-means)
“군집 중심(centroid)을 기준으로 데이터를 묶는 방법!”
- 💡 군집 수 k를 미리 지정
- 💫 중심점 갱신 과정을 반복 (할당 → 평균 → 갱신)
- ⚠️ 이상치·스케일에 민감 → 표준화 꼭 필요!
- 📏 구형(원형) 군집에 적합
📘 시험 포인트:
- 거리 = 유클리드 거리
- k는 엘보법으로 결정
- 속도 빠름, 대용량 OK
💚 (2) 계층적 군집 (Hierarchical)
“비슷한 것끼리 단계적으로 합쳐 나가는 방식!”
- 📈 덴드로그램(Dendrogram)으로 시각화
- 🔗 결합 방식: 단일/완전/평균/와드(분산 최소)
- 💬 k를 사전에 몰라도 시각적으로 결정 가능
📘 시험 포인트:
- 군집 수 결정은 덴드로그램 자르는 위치!
- 소규모 데이터에서 해석 용이
💛 (3) DBSCAN (밀도 기반 군집)
“데이터 밀도를 기준으로 군집을 찾고, 이상치는 자동으로 분리!”
- 🔹 ε(반경), MinPts(최소점수) 기준
- 💥 밀도가 높으면 같은 군집, 낮으면 노이즈(이상치)
- ⚡ 임의 모양 군집 가능
📘 시험 포인트:
- 이상치 자동 분리 ✅
- ε 설정이 핵심 (k-distance plot 활용)
- 비균일한 밀도엔 부적합 ⚠️
🧡 (4) GMM (Gaussian Mixture Model)
“데이터가 여러 개의 정규분포가 섞인 형태라고 가정!”
- 💡 각 데이터가 여러 군집에 속할 확률을 가짐 (Soft clustering)
- 📊 타원형 군집 가능
- ⚙️ EM 알고리즘으로 평균·분산 추정
📘 시험 포인트:
- BIC/AIC로 군집 수 결정
- 확률적 군집 → 소프트할당
📏 4️⃣ 클러스터 수 결정법 ✂️
| 방법 | 설명 | 해석 |
| 💧 엘보(Elbow)법 | SSE 감소 곡선의 꺾이는 지점 | 가장 효율적인 k |
| 🌸 실루엣 계수(Silhouette) | −1~1 값 (높을수록 좋음) | 군집 분리도·응집도 평가 |
| 🌈 갭 통계량(Gap Statistic) | 무작위 기준 대비 개선도 | 클수록 좋은 군집 구조 |
🔍 5️⃣ 군집화 평가 지표
📘 내부평가 (라벨 없음)
- 실루엣 계수 ↑
- Davies–Bouldin 지수 ↓
- Calinski–Harabasz 지수 ↑
📗 외부평가 (라벨 있음)
- ARI(Rand Index 보정), NMI, V-measure
💬 시험에서는 “라벨 없는 비지도학습의 평가지표”로
👉 실루엣 계수 자주 출제됩니다!
🧹 6️⃣ 전처리 꿀팁 💫
✅ 표준화(Z-score) 필수 (거리기반이라 단위 차이 크면 왜곡돼요!)
✅ 이상치 제거 (K-means에 영향 큼 → DBSCAN 대안)
✅ 차원축소(PCA) 로 시각화 용이하게
✅ 범주형 데이터면 → K-prototypes, Gower 거리 사용
🧭 7️⃣ 해석 예시 (고객 세분화)
| 군집 | 특징 | 설명 |
| 👑 A그룹 | 고가·고빈도 | VIP 우수고객 |
| 💸 B그룹 | 저가·고빈도 | 실속형 충성고객 |
| 🌱 C그룹 | 중가·저빈도 | 잠재 성장 고객 |
| ⚠️ D그룹 | 단발·고반품 | 이탈 위험 고객 |
💬 이렇게 군집별 행동패턴을 해석하면
👉 타깃 마케팅, 쿠폰 전략, 이탈예방까지 가능해요! 🎯
🧾 ADsP 시험 핵심 요약 💥
| 구분 | 핵심 키워드 | 특징 |
| 🔹 K-means | 중심기반, 유클리드, 빠름 | k 필요, 이상치 민감 |
| 🔸 계층적 | 덴드로그램, 병합형 | k 사후 결정 |
| 💛 DBSCAN | 밀도기반, 이상치 탐지 | ε·MinPts 중요 |
| 🧡 GMM | 확률적 군집, EM알고리즘 | 소프트할당 |
| ✂️ 클러스터 수 | 엘보·실루엣법 | k 결정 |
| 🧾 평가 | 실루엣, DB, CH | 비지도평가 |
| ⚙️ 전처리 | 표준화·이상치처리 | 스케일 중요! |
🌈 한 줄 정리 💬
군집화 = “비슷한 데이터끼리 스스로 모이는 과정”
👉 거리·밀도·확률에 따라 다양한 방법이 있지만,
핵심은 “응집도 높게, 분리도 멀게!” 💪