데이터 차원축소·패턴탐색 4대 기법 완전 정리_ADsP 3과목

🎓 데이터 차원축소·패턴탐색 4대 기법 완전 정리 💡

“복잡한 데이터를 간단하게, 하지만 핵심은 그대로!”


🔹 1️⃣ 주성분분석 (PCA: Principal Component Analysis)

📘 정의

데이터의 분산이 가장 큰 방향(정보가 많은 방향) 으로 새 좌표축(주성분)을 만들어

차원을 줄이면서 정보 손실을 최소화하는 방법이에요.

🧠 쉽게 말하면

👉 “데이터가 가장 퍼져 있는 방향으로 새로 축을 돌려서 요약하는 기술!”

📊 활용 예시

  • 여러 과목 점수를 ‘수학·영어·과학’ → ‘성적종합지수(PC1)’로 요약
  • 고객 특성 여러 개 → “고객행동요인”으로 축약

💡 핵심 포인트

  • 목표: 분산이 큰 축 찾기
  • 각 주성분은 서로 직교(독립)
  • 스케일 다를 땐 표준화 필수!

📈 출력 해석

  • 고유값(Eigenvalue): 각 주성분의 정보량
  • 누적설명분산비율: 정보 손실이 적은 수준(보통 80% 이상 선택)
  • 적재량(Loading): 어떤 변수가 어느 주성분에 기여했는지

🔸 2️⃣ 요인분석 (FA: Factor Analysis)

📘 정의

변수들 간의 공통된 원인(잠재 요인) 을 찾아내는 통계 기법이에요.

PCA와 비슷하지만, 단순 요약이 아니라 숨겨진 원인 구조를 찾습니다.

🧠 쉽게 말하면

👉 “비슷하게 움직이는 변수들의 숨은 공통 요인을 찾는 방법!”

📊 활용 예시

  • 고객 만족 설문 문항 → “가격요인”, “품질요인”, “서비스요인”
  • 직원 만족도 문항 → “동기요인”, “복지요인”

🧮 모형식

X = ΛF + ε

  • Λ(람다): 요인적재량(변수와 요인의 관계)
  • F: 공통요인
  • ε: 고유요인(오차)

🔁 요인 회전(Rotation)

  • Varimax(직교회전) → 요인 간 독립
  • Promax(사교회전) → 요인 간 상관 인정
  • 👉 회전 목적: 해석을 쉽게 만들기!

💡 시험 포인트

  • PCA는 “요약”, FA는 “숨은 원인 찾기”
  • 요인 수 결정: 고유값 > 1, 스크리플롯(Elbow point)
  • 적합도 확인: KMO, Bartlett 검정

🔹 3️⃣ 다차원척도법 (MDS: Multi-Dimensional Scaling)

📘 정의

개체 간 거리(또는 유사도) 정보를 이용해

2D나 3D 공간에 시각적으로 배치하는 방법이에요.

🧠 쉽게 말하면

👉 “서로 비슷하면 가깝게, 다르면 멀게 배치해서 보여주는 지도!”

📊 활용 예시

  • 브랜드 인식 조사 → “브랜드 포지셔닝 맵”
  • 설문 문항 간 유사성 → 시각적 군집 표현

💡 핵심 포인트

  • 입력 데이터: 거리 또는 유사도 행렬
  • 적합도 지표: Stress (작을수록 좋음)
  • 결과: 2D/3D 포인트맵으로 시각화

🪄 MDS는

  • PCA: 원데이터 직접 다룸
  • MDS: 거리 기반으로 좌표 계산

🔸 4️⃣ 자기조직화지도 (SOM: Self-Organizing Map)

📘 정의

비지도학습 신경망의 일종으로,

고차원 데이터를 2차원 격자 위에 시각적으로 배치하는 방법이에요.

🧠 쉽게 말하면

👉 “비슷한 데이터끼리 자동으로 이웃하게 모아주는 지도!”

⚙️ 학습 원리

1️⃣ 입력 데이터와 가장 가까운 노드(BMU) 찾기

2️⃣ 그 노드와 주변 노드의 가중치를 조금씩 이동시킴

3️⃣ 반복 학습하면서 격자 전체가 데이터 구조를 닮아감

📊 출력 결과

  • U-매트릭스(U-Matrix): 거리 시각화 (진한 부분이 경계)
  • 프로토타입 노드: 각 영역의 대표 패턴

💡 활용 예시

  • 고객 세분화 (비슷한 고객끼리 모이게)
  • 이상치 탐지, 시각적 군집

🎯 시험 포인트

  • 비지도학습
  • 이웃(topology) 보존
  • 격자형 시각화 (U-Matrix)

🧭 요약 비교표 💬

구분목표입력특징출력대표활용
🔹 PCA정보 요약수치형 데이터분산 최대, 직교축주성분 점수차원축소, 시각화
🔸 FA잠재요인 탐색상관행렬회전, 오차 고려요인적재량, 점수설문분석
🗺️ MDS거리보존 시각화거리/유사도 행렬Stress 평가2D 좌표포지셔닝, 관계시각화
🧠 SOM이웃보존 군집수치형 벡터신경망, 비지도U-Matrix시각 군집, 이상탐지

✅ ADsP 시험 핵심 정리

📘 PCA → 분산이 큰 방향으로 차원 축소

🧩 FA → 공통된 잠재요인 찾기 (회전 중요)

🗺️ MDS → 거리 기반으로 시각화 (Stress↓)

🧠 SOM → 이웃 유지하며 2D 격자에 배치 (비지도 신경망)


🌈 한 줄 정리

“PCA는 요약, FA는 원인 찾기,

MDS는 거리 표현, SOM은 지도 시각화!” 🌍

👉 네 가지를 이해하면 차원축소·시각화 문제는 완벽 정복입니다 💪✨