🏢 데이터 웨어하우스(Data Warehouse)와 데이터 마이닝(Data Mining)
💡 이 단원에서는 “데이터를 저장하고 분석하는 핵심 개념”
데이터 웨어하우스와 데이터 마이닝의 정의, 특징, 차이점을 살펴봅니다.
💾 1️⃣ 데이터 웨어하우스 (Data Warehouse)
📘 정의
데이터 웨어하우스(DW)는
기업 내·외부의 방대한 데이터를 하나로 통합·정리하여 저장하고,
분석 및 의사결정에 활용할 수 있도록 지원하는 데이터 저장소(Data Storage) 입니다.
즉, 운영 데이터베이스(OLTP)와 달리
“분석(OLAP) 중심”의 시스템이에요.
📊 데이터 웨어하우스의 4대 특징 (시험 포인트 ✅)
| 특징 | 설명 | 예시 |
| 주제지향적 (Subject-Oriented) | 기업의 주요 분석 주제별로 구성 | 고객, 제품, 매출 등 |
| 통합적 (Integrated) | 서로 다른 데이터 소스를 하나로 통합 | ERP, CRM, 공공데이터 통합 |
| 시계열적 (Time-Variant) | 시간 축을 기준으로 데이터 저장 | 연도별, 분기별 매출 분석 |
| 비휘발성 (Non-Volatile) | 데이터가 자주 변경되지 않음 | 기록 유지, 변경 이력 저장 |
📘 암기법:
👉 “주·통·시·비” (주제, 통합, 시계열, 비휘발성)
🧩 데이터 웨어하우스의 구조 (계층 구성)
| 계층 | 설명 |
| 원천 데이터 계층 | 운영 DB, 로그, 외부 데이터 등 |
| 정제·적재 계층(ETL) | 데이터 추출(Extract) → 변환(Transform) → 적재(Load) |
| 데이터 저장 계층(DW) | 분석용으로 정리된 저장소 |
| 데이터 마트(Data Mart) | 특정 부서·주제별 요약 데이터 |
| 분석·시각화 계층 | BI툴, 대시보드, 리포트 등 |
📌 핵심: DW는 데이터를 ‘저장’,
데이터 마이닝은 그 데이터를 **‘분석’**합니다.
💡 데이터 웨어하우스의 주요 구성요소
| 구성요소 | 설명 |
| ETL 도구 | 데이터를 추출·변환·적재하는 시스템 |
| ODS (Operational Data Store) | 실시간 운영 데이터의 중간 저장소 |
| 데이터 마트 (Data Mart) | 부서별·주제별 데이터 저장소 (예: 마케팅, 인사 등) |
| OLAP (Online Analytical Processing) | 다차원 분석 도구 (피벗 분석, Drill-down 등) |
🏁 데이터 웨어하우스의 목적
✅ 기업의 의사결정 지원
✅ 데이터 일관성 확보
✅ 분석 효율 향상
✅ 경영 전략 수립 기반 제공
🔍 2️⃣ 데이터 마이닝 (Data Mining)
📘 정의
데이터 마이닝은 대량의 데이터 속에서 의미 있는 패턴, 규칙, 관계를 찾아내는 과정입니다.
즉, “데이터 속에서 숨은 보물을 캐내는 일”이에요. 🪙
💡 데이터 마이닝의 핵심 개념
| 항목 | 설명 |
| 목적 | 데이터에서 패턴·규칙·상관관계를 자동으로 발견 |
| 핵심 역할 | 예측, 분류, 군집, 연관 분석 |
| 활용 분야 | 마케팅, 금융, 의료, 공공, 제조 등 |
📘 핵심 키워드:
“데이터 탐색 → 패턴 발견 → 지식 추출”
📊 주요 데이터 마이닝 기법
| 구분 | 기법 | 설명 | 예시 |
| 기술통계(Descriptive) | 평균, 분산, 교차분석 | 데이터 요약·기술 | 고객 연령대별 비율 |
| 예측분석(Predictive) | 회귀분석, 의사결정나무, 신경망 | 미래 예측 | 다음 달 매출 예측 |
| 분류(Classification) | 의사결정나무, 나이브베이즈 | 범주형 예측 | 우수고객 분류 |
| 군집(Clustering) | K-means, 계층적 군집 | 유사 집단 그룹화 | 소비유형별 고객군 |
| 연관규칙(Association) | Apriori, FP-Growth | 항목 간 관계 탐색 | “맥주→과자 구매” 패턴 |
| 차원축소(Dimension Reduction) | 주성분분석(PCA), 요인분석 | 변수 축소, 시각화 | 다변량 데이터 요약 |
📘 시험 포인트:
- 연관규칙 분석: 장바구니 분석(Market Basket Analysis)
- 군집분석: 고객 세분화(Segmentation)
- 분류분석: 우량고객/이탈고객 판별
⚙️ 데이터 마이닝 과정 (KDD 프로세스 기반)
| 단계 | 설명 |
| ① 데이터 선택(Selection) | 분석 대상 데이터 정의 |
| ② 전처리(Preprocessing) | 결측치·이상값 처리 |
| ③ 변환(Transformation) | 스케일링, 인코딩 |
| ④ 마이닝(Mining) | 알고리즘 적용하여 패턴 도출 |
| ⑤ 해석·평가(Interpretation) | 의미 분석, 시각화, 정책 반영 |
💡 암기법: “선 → 전 → 변 → 마 → 해”
🧠 3️⃣ 데이터 웨어하우스 vs 데이터 마이닝 비교
| 구분 | 데이터 웨어하우스 | 데이터 마이닝 |
| 목적 | 데이터를 저장·통합 | 데이터를 분석·패턴 발견 |
| 핵심 기능 | 통합, 정제, 관리 | 규칙, 패턴, 예측 |
| 활용 시점 | 분석 이전 | 분석 단계 |
| 형태 | 저장소(Repository) | 분석 프로세스(Process) |
| 유형 | OLAP 중심 | 머신러닝 중심 |
✅ 정리:
웨어하우스는 “데이터를 모으는 창고”,
마이닝은 “그 데이터에서 금맥을 캐는 과정”입니다. 💎
📈 4️⃣ 데이터 마이닝의 활용 사례
| 분야 | 활용 사례 |
| 마케팅 | 고객 세분화, 추천 시스템 |
| 금융 | 이상 거래 탐지(Fraud Detection) |
| 제조 | 불량 예측, 품질 관리 |
| 의료 | 질병 진단, 유전자 패턴 분석 |
| 공공기관 | 범죄 예측, 교통 혼잡 분석 |
✅ 정리 요약
| 구분 | 핵심 내용 |
| 데이터 웨어하우스 | 통합된 분석용 데이터 저장소 |
| DW 특징 | 주제지향·통합·시계열·비휘발성 (주·통·시·비) |
| 데이터 마이닝 | 데이터 속 패턴·규칙 발견 |
| 주요 기법 | 회귀·군집·분류·연관규칙 등 |
| 관계 | DW는 “저장”, 마이닝은 “분석” |
✨ 한 줄 요약
데이터 웨어하우스는 데이터를 “모으는 곳”,
데이터 마이닝은 그 데이터에서 “인사이트를 캐는 기술”입니다. 💡
공감 1