🎓 데이터 차원축소·패턴탐색 4대 기법 완전 정리 💡
“복잡한 데이터를 간단하게, 하지만 핵심은 그대로!”
🔹 1️⃣ 주성분분석 (PCA: Principal Component Analysis)
📘 정의
데이터의 분산이 가장 큰 방향(정보가 많은 방향) 으로 새 좌표축(주성분)을 만들어
차원을 줄이면서 정보 손실을 최소화하는 방법이에요.
🧠 쉽게 말하면
👉 “데이터가 가장 퍼져 있는 방향으로 새로 축을 돌려서 요약하는 기술!”
📊 활용 예시
- 여러 과목 점수를 ‘수학·영어·과학’ → ‘성적종합지수(PC1)’로 요약
- 고객 특성 여러 개 → “고객행동요인”으로 축약
💡 핵심 포인트
- 목표: 분산이 큰 축 찾기
- 각 주성분은 서로 직교(독립)
- 스케일 다를 땐 표준화 필수!
📈 출력 해석
- 고유값(Eigenvalue): 각 주성분의 정보량
- 누적설명분산비율: 정보 손실이 적은 수준(보통 80% 이상 선택)
- 적재량(Loading): 어떤 변수가 어느 주성분에 기여했는지
🔸 2️⃣ 요인분석 (FA: Factor Analysis)
📘 정의
변수들 간의 공통된 원인(잠재 요인) 을 찾아내는 통계 기법이에요.
PCA와 비슷하지만, 단순 요약이 아니라 숨겨진 원인 구조를 찾습니다.
🧠 쉽게 말하면
👉 “비슷하게 움직이는 변수들의 숨은 공통 요인을 찾는 방법!”
📊 활용 예시
- 고객 만족 설문 문항 → “가격요인”, “품질요인”, “서비스요인”
- 직원 만족도 문항 → “동기요인”, “복지요인”
🧮 모형식
X = ΛF + ε
- Λ(람다): 요인적재량(변수와 요인의 관계)
- F: 공통요인
- ε: 고유요인(오차)
🔁 요인 회전(Rotation)
- Varimax(직교회전) → 요인 간 독립
- Promax(사교회전) → 요인 간 상관 인정
- 👉 회전 목적: 해석을 쉽게 만들기!
💡 시험 포인트
- PCA는 “요약”, FA는 “숨은 원인 찾기”
- 요인 수 결정: 고유값 > 1, 스크리플롯(Elbow point)
- 적합도 확인: KMO, Bartlett 검정
🔹 3️⃣ 다차원척도법 (MDS: Multi-Dimensional Scaling)
📘 정의
개체 간 거리(또는 유사도) 정보를 이용해
2D나 3D 공간에 시각적으로 배치하는 방법이에요.
🧠 쉽게 말하면
👉 “서로 비슷하면 가깝게, 다르면 멀게 배치해서 보여주는 지도!”
📊 활용 예시
- 브랜드 인식 조사 → “브랜드 포지셔닝 맵”
- 설문 문항 간 유사성 → 시각적 군집 표현
💡 핵심 포인트
- 입력 데이터: 거리 또는 유사도 행렬
- 적합도 지표: Stress (작을수록 좋음)
- 결과: 2D/3D 포인트맵으로 시각화
🪄 MDS는
- PCA: 원데이터 직접 다룸
- MDS: 거리 기반으로 좌표 계산
🔸 4️⃣ 자기조직화지도 (SOM: Self-Organizing Map)
📘 정의
비지도학습 신경망의 일종으로,
고차원 데이터를 2차원 격자 위에 시각적으로 배치하는 방법이에요.
🧠 쉽게 말하면
👉 “비슷한 데이터끼리 자동으로 이웃하게 모아주는 지도!”
⚙️ 학습 원리
1️⃣ 입력 데이터와 가장 가까운 노드(BMU) 찾기
2️⃣ 그 노드와 주변 노드의 가중치를 조금씩 이동시킴
3️⃣ 반복 학습하면서 격자 전체가 데이터 구조를 닮아감
📊 출력 결과
- U-매트릭스(U-Matrix): 거리 시각화 (진한 부분이 경계)
- 프로토타입 노드: 각 영역의 대표 패턴
💡 활용 예시
- 고객 세분화 (비슷한 고객끼리 모이게)
- 이상치 탐지, 시각적 군집
🎯 시험 포인트
- 비지도학습
- 이웃(topology) 보존
- 격자형 시각화 (U-Matrix)
🧭 요약 비교표 💬
| 구분 | 목표 | 입력 | 특징 | 출력 | 대표활용 |
| 🔹 PCA | 정보 요약 | 수치형 데이터 | 분산 최대, 직교축 | 주성분 점수 | 차원축소, 시각화 |
| 🔸 FA | 잠재요인 탐색 | 상관행렬 | 회전, 오차 고려 | 요인적재량, 점수 | 설문분석 |
| 🗺️ MDS | 거리보존 시각화 | 거리/유사도 행렬 | Stress 평가 | 2D 좌표 | 포지셔닝, 관계시각화 |
| 🧠 SOM | 이웃보존 군집 | 수치형 벡터 | 신경망, 비지도 | U-Matrix | 시각 군집, 이상탐지 |
✅ ADsP 시험 핵심 정리
📘 PCA → 분산이 큰 방향으로 차원 축소
🧩 FA → 공통된 잠재요인 찾기 (회전 중요)
🗺️ MDS → 거리 기반으로 시각화 (Stress↓)
🧠 SOM → 이웃 유지하며 2D 격자에 배치 (비지도 신경망)
🌈 한 줄 정리
“PCA는 요약, FA는 원인 찾기,
MDS는 거리 표현, SOM은 지도 시각화!” 🌍
👉 네 가지를 이해하면 차원축소·시각화 문제는 완벽 정복입니다 💪✨