군집화(Clustering) 완전 정복_ADsP 3과목

🧩 군집화(Clustering) 완전 정복 💡

“정답(라벨) 없이 비슷한 데이터끼리 묶는 기술!”

🎯 1️⃣ 군집화란?

👉 비슷한 특성을 가진 데이터들을 그룹(Cluster) 으로 묶는 비지도학습 기법이에요.

즉, 라벨이 없는 데이터에서 스스로 구조를 찾아내는 거예요!

📦 예시로 이해하기

고객의 구매 패턴이 비슷하면 같은 그룹 → “고객 세분화 마케팅 🎯”
웹사이트 이용 행동이 비슷하면 같은 군집 → “사용자 행동 분석 👥”

🧭 2️⃣ 군집화의 목표

구분	의미	설명
📍 응집도(Compactness)	군집 내 거리 ↓	비슷한 데이터끼리 가까움
🧭 분리도(Separation)	군집 간 거리 ↑	다른 군집끼리는 멀리 떨어짐

💬 즉, 군집 내부는 조밀하게, 군집 간은 멀리 떨어지게!

⚙️ 3️⃣ 대표 알고리즘 총정리

💙 (1) K-평균(K-means)

“군집 중심(centroid)을 기준으로 데이터를 묶는 방법!”

💡 군집 수 k를 미리 지정
💫 중심점 갱신 과정을 반복 (할당 → 평균 → 갱신)
⚠️ 이상치·스케일에 민감 → 표준화 꼭 필요!
📏 구형(원형) 군집에 적합

📘 시험 포인트:

거리 = 유클리드 거리
k는 엘보법으로 결정
속도 빠름, 대용량 OK

💚 (2) 계층적 군집 (Hierarchical)

“비슷한 것끼리 단계적으로 합쳐 나가는 방식!”

📈 덴드로그램(Dendrogram)으로 시각화
🔗 결합 방식: 단일/완전/평균/와드(분산 최소)
💬 k를 사전에 몰라도 시각적으로 결정 가능

📘 시험 포인트:

군집 수 결정은 덴드로그램 자르는 위치!
소규모 데이터에서 해석 용이

💛 (3) DBSCAN (밀도 기반 군집)

“데이터 밀도를 기준으로 군집을 찾고, 이상치는 자동으로 분리!”

🔹 ε(반경), MinPts(최소점수) 기준
💥 밀도가 높으면 같은 군집, 낮으면 노이즈(이상치)
⚡ 임의 모양 군집 가능

📘 시험 포인트:

이상치 자동 분리 ✅
ε 설정이 핵심 (k-distance plot 활용)
비균일한 밀도엔 부적합 ⚠️

🧡 (4) GMM (Gaussian Mixture Model)

“데이터가 여러 개의 정규분포가 섞인 형태라고 가정!”

💡 각 데이터가 여러 군집에 속할 확률을 가짐 (Soft clustering)
📊 타원형 군집 가능
⚙️ EM 알고리즘으로 평균·분산 추정

📘 시험 포인트:

BIC/AIC로 군집 수 결정
확률적 군집 → 소프트할당

📏 4️⃣ 클러스터 수 결정법 ✂️

방법	설명	해석
💧 엘보(Elbow)법	SSE 감소 곡선의 꺾이는 지점	가장 효율적인 k
🌸 실루엣 계수(Silhouette)	−1~1 값 (높을수록 좋음)	군집 분리도·응집도 평가
🌈 갭 통계량(Gap Statistic)	무작위 기준 대비 개선도	클수록 좋은 군집 구조

🔍 5️⃣ 군집화 평가 지표

📘 내부평가 (라벨 없음)

실루엣 계수 ↑
Davies–Bouldin 지수 ↓
Calinski–Harabasz 지수 ↑

📗 외부평가 (라벨 있음)

ARI(Rand Index 보정), NMI, V-measure

💬 시험에서는 “라벨 없는 비지도학습의 평가지표”로

👉 실루엣 계수 자주 출제됩니다!

🧹 6️⃣ 전처리 꿀팁 💫

✅ 표준화(Z-score) 필수 (거리기반이라 단위 차이 크면 왜곡돼요!)

✅ 이상치 제거 (K-means에 영향 큼 → DBSCAN 대안)

✅ 차원축소(PCA) 로 시각화 용이하게

✅ 범주형 데이터면 → K-prototypes, Gower 거리 사용

🧭 7️⃣ 해석 예시 (고객 세분화)

군집	특징	설명
👑 A그룹	고가·고빈도	VIP 우수고객
💸 B그룹	저가·고빈도	실속형 충성고객
🌱 C그룹	중가·저빈도	잠재 성장 고객
⚠️ D그룹	단발·고반품	이탈 위험 고객

💬 이렇게 군집별 행동패턴을 해석하면

👉 타깃 마케팅, 쿠폰 전략, 이탈예방까지 가능해요! 🎯

🧾 ADsP 시험 핵심 요약 💥

구분	핵심 키워드	특징
🔹 K-means	중심기반, 유클리드, 빠름	k 필요, 이상치 민감
🔸 계층적	덴드로그램, 병합형	k 사후 결정
💛 DBSCAN	밀도기반, 이상치 탐지	ε·MinPts 중요
🧡 GMM	확률적 군집, EM알고리즘	소프트할당
✂️ 클러스터 수	엘보·실루엣법	k 결정
🧾 평가	실루엣, DB, CH	비지도평가
⚙️ 전처리	표준화·이상치처리	스케일 중요!

🌈 한 줄 정리 💬

군집화 = “비슷한 데이터끼리 스스로 모이는 과정”

👉 거리·밀도·확률에 따라 다양한 방법이 있지만,

핵심은 “응집도 높게, 분리도 멀게!” 💪

군집화(Clustering) 완전 정복_ADsP 3과목

이 글 공유하기: