데이터 웨어하우스(Data Warehouse)와 데이터 마이닝(Data Mining)

🏢 데이터 웨어하우스(Data Warehouse)와 데이터 마이닝(Data Mining)

💡 이 단원에서는 “데이터를 저장하고 분석하는 핵심 개념”

데이터 웨어하우스데이터 마이닝의 정의, 특징, 차이점을 살펴봅니다.


💾 1️⃣ 데이터 웨어하우스 (Data Warehouse)

📘 정의

데이터 웨어하우스(DW)는

기업 내·외부의 방대한 데이터를 하나로 통합·정리하여 저장하고,

분석 및 의사결정에 활용할 수 있도록 지원하는 데이터 저장소(Data Storage) 입니다.

즉, 운영 데이터베이스(OLTP)와 달리

분석(OLAP) 중심”의 시스템이에요.


📊 데이터 웨어하우스의 4대 특징 (시험 포인트 ✅)

특징설명예시
주제지향적 (Subject-Oriented)기업의 주요 분석 주제별로 구성고객, 제품, 매출 등
통합적 (Integrated)서로 다른 데이터 소스를 하나로 통합ERP, CRM, 공공데이터 통합
시계열적 (Time-Variant)시간 축을 기준으로 데이터 저장연도별, 분기별 매출 분석
비휘발성 (Non-Volatile)데이터가 자주 변경되지 않음기록 유지, 변경 이력 저장

📘 암기법:

👉 “주·통·시·비” (주제, 통합, 시계열, 비휘발성)


🧩 데이터 웨어하우스의 구조 (계층 구성)

계층설명
원천 데이터 계층운영 DB, 로그, 외부 데이터 등
정제·적재 계층(ETL)데이터 추출(Extract) → 변환(Transform) → 적재(Load)
데이터 저장 계층(DW)분석용으로 정리된 저장소
데이터 마트(Data Mart)특정 부서·주제별 요약 데이터
분석·시각화 계층BI툴, 대시보드, 리포트 등

📌 핵심: DW는 데이터를 ‘저장’,

데이터 마이닝은 그 데이터를 **‘분석’**합니다.


💡 데이터 웨어하우스의 주요 구성요소

구성요소설명
ETL 도구데이터를 추출·변환·적재하는 시스템
ODS (Operational Data Store)실시간 운영 데이터의 중간 저장소
데이터 마트 (Data Mart)부서별·주제별 데이터 저장소 (예: 마케팅, 인사 등)
OLAP (Online Analytical Processing)다차원 분석 도구 (피벗 분석, Drill-down 등)

🏁 데이터 웨어하우스의 목적

✅ 기업의 의사결정 지원

✅ 데이터 일관성 확보

✅ 분석 효율 향상

✅ 경영 전략 수립 기반 제공


🔍 2️⃣ 데이터 마이닝 (Data Mining)

📘 정의

데이터 마이닝은 대량의 데이터 속에서 의미 있는 패턴, 규칙, 관계를 찾아내는 과정입니다.

즉, “데이터 속에서 숨은 보물을 캐내는 일”이에요. 🪙


💡 데이터 마이닝의 핵심 개념

항목설명
목적데이터에서 패턴·규칙·상관관계를 자동으로 발견
핵심 역할예측, 분류, 군집, 연관 분석
활용 분야마케팅, 금융, 의료, 공공, 제조 등

📘 핵심 키워드:

“데이터 탐색 → 패턴 발견 → 지식 추출”


📊 주요 데이터 마이닝 기법

구분기법설명예시
기술통계(Descriptive)평균, 분산, 교차분석데이터 요약·기술고객 연령대별 비율
예측분석(Predictive)회귀분석, 의사결정나무, 신경망미래 예측다음 달 매출 예측
분류(Classification)의사결정나무, 나이브베이즈범주형 예측우수고객 분류
군집(Clustering)K-means, 계층적 군집유사 집단 그룹화소비유형별 고객군
연관규칙(Association)Apriori, FP-Growth항목 간 관계 탐색“맥주→과자 구매” 패턴
차원축소(Dimension Reduction)주성분분석(PCA), 요인분석변수 축소, 시각화다변량 데이터 요약

📘 시험 포인트:

  • 연관규칙 분석: 장바구니 분석(Market Basket Analysis)
  • 군집분석: 고객 세분화(Segmentation)
  • 분류분석: 우량고객/이탈고객 판별

⚙️ 데이터 마이닝 과정 (KDD 프로세스 기반)

단계설명
데이터 선택(Selection)분석 대상 데이터 정의
전처리(Preprocessing)결측치·이상값 처리
변환(Transformation)스케일링, 인코딩
마이닝(Mining)알고리즘 적용하여 패턴 도출
해석·평가(Interpretation)의미 분석, 시각화, 정책 반영

💡 암기법: “선 → 전 → 변 → 마 → 해”


🧠 3️⃣ 데이터 웨어하우스 vs 데이터 마이닝 비교

구분데이터 웨어하우스데이터 마이닝
목적데이터를 저장·통합데이터를 분석·패턴 발견
핵심 기능통합, 정제, 관리규칙, 패턴, 예측
활용 시점분석 이전분석 단계
형태저장소(Repository)분석 프로세스(Process)
유형OLAP 중심머신러닝 중심

정리:

웨어하우스는 “데이터를 모으는 창고”,

마이닝은 “그 데이터에서 금맥을 캐는 과정”입니다. 💎


📈 4️⃣ 데이터 마이닝의 활용 사례

분야활용 사례
마케팅고객 세분화, 추천 시스템
금융이상 거래 탐지(Fraud Detection)
제조불량 예측, 품질 관리
의료질병 진단, 유전자 패턴 분석
공공기관범죄 예측, 교통 혼잡 분석

✅ 정리 요약

구분핵심 내용
데이터 웨어하우스통합된 분석용 데이터 저장소
DW 특징주제지향·통합·시계열·비휘발성 (주·통·시·비)
데이터 마이닝데이터 속 패턴·규칙 발견
주요 기법회귀·군집·분류·연관규칙 등
관계DW는 “저장”, 마이닝은 “분석”

한 줄 요약

데이터 웨어하우스는 데이터를 “모으는 곳”,

데이터 마이닝은 그 데이터에서 “인사이트를 캐는 기술”입니다. 💡

 공감 1

  이 글에 공감한 블로거 열고 닫기

 댓글 쓰기  이 글에 댓글 단 블로거 열고 닫기

카페 보내기Keep 보내기메모 보내기