🏗️ 데이터 레이크 vs 데이터 웨어하우스 vs ETL vs 데이터 마트
🌊 1️⃣ 데이터 레이크 (Data Lake)
| 항목 | 내용 |
| 💡 정의 | 정형·반정형·비정형 데이터를 그대로 저장하는 대용량 저장소 |
| 🧾 데이터 형태 | 원시(raw) 상태의 데이터 (CSV, 로그, 이미지, JSON 등) |
| 🏗️ 구조 | 스키마를 나중에 적용하는 Schema on Read 방식 |
| ⚙️ 기술 예시 | Hadoop, AWS S3, Azure Data Lake, Google Cloud Storage |
| 🎯 목적 | 다양한 분석 목적(ML, AI, 로그분석 등)을 위한 데이터 원천 저장소 |
💬 비유: 데이터 레이크는 “모든 데이터가 흘러 들어오는 큰 저수지” 💧
가공 전 데이터를 담아두고, 필요할 때 꺼내 가공합니다.
🏛️ 2️⃣ 데이터 웨어하우스 (Data Warehouse)
| 항목 | 내용 |
| 💡 정의 | 기업 의사결정을 위해 정제된 데이터를 통합 저장하는 시스템 |
| 🧾 데이터 형태 | 정형 데이터 중심 (테이블 구조, 스키마 고정) |
| 🏗️ 구조 | 스키마를 먼저 정의하는 Schema on Write 방식 |
| ⚙️ 기술 예시 | Oracle DW, Amazon Redshift, Snowflake, Google BigQuery |
| 🎯 목적 | BI(비즈니스 인텔리전스) 보고, 분석, 시각화에 최적화 |
💬 비유: 데이터 웨어하우스는 “가공된 물건만 들어가는 창고” 📦
정리된 데이터만 저장되어 있어 바로 분석에 사용할 수 있습니다.
⚙️ 3️⃣ ETL 프로세스 (Extract → Transform → Load)
데이터를 웨어하우스나 마트로 옮기기 위한 핵심 절차
| 단계 | 의미 | 주요 작업 | 주의 포인트 |
| E (추출) | 다양한 원천 시스템에서 데이터 가져오기 | DB, 로그, API 등에서 수집 | 연결 안정성, 형식 통일 |
| T (변환) | 품질 정제, 형식 변환, 단위 통일 | 중복 제거, 결측치 처리, 집계 | 데이터 품질 관리 |
| L (적재) | 목적지 시스템(DW/DM)에 저장 | 정형화 테이블에 로드 | 적재 주기, 성능 최적화 |
🧠 시험 포인트:
ETL은 “데이터 정제 및 적재의 자동화 절차”
최근엔 ELT(Extract → Load → Transform) 구조도 자주 출제됩니다.
(클라우드 환경에서 먼저 적재 후 변환 수행)
🧩 4️⃣ 데이터 마트 (Data Mart)
| 항목 | 내용 |
| 💡 정의 | 특정 부서/주제별로 데이터 웨어하우스에서 추출한 하위 저장소 |
| 🎯 목적 | 특정 사용자의 분석 편의성 제공 (예: 마케팅, 인사, 재무 등) |
| 🧾 구성 | 웨어하우스의 부분 집합, 요약·집계 중심 |
| ⚙️ 기술 예시 | Tableau Extract, Power BI Dataset, SSAS Cube 등 |
| 🧩 특징 | 의사결정 속도 향상, 접근 단순화, 부서 맞춤 데이터 제공 |
💬 비유: 웨어하우스가 “대형마트”라면,
데이터 마트는 “코너별 전문 매장” 🎯
(필요한 데이터만 빠르게 볼 수 있음)
🧱 한눈에 비교표 (시험 대비 암기용📑)
| 구분 | 데이터 레이크 🌊 | 데이터 웨어하우스 🏛️ | 데이터 마트 🧩 |
| 목적 | 원시데이터 저장 | 기업 전사 데이터 통합 | 부서별 분석 최적화 |
| 데이터 형태 | 정형+비정형 | 정형 | 정형(요약) |
| 스키마 | Schema on Read | Schema on Write | Schema on Write |
| 주요 기술 | Hadoop, S3, Azure DL | Redshift, Snowflake | Power BI, Tableau |
| 사용자 | 데이터 과학자 | 데이터 분석가 | 부서 담당자 |
| 처리 속도 | 느림 (대용량) | 빠름 (정제됨) | 매우 빠름 (요약) |
🔄 5️⃣ 전체 흐름 요약 다이어그램 🧭
[원천시스템] ─▶ (E) 추출
│
▼
[데이터 레이크 🌊] ─▶ (T) 변환 ─▶ (L) 적재
│
▼
[데이터 웨어하우스 🏛️]
│
▼
[데이터 마트 🧩] ─▶ BI/시각화 📊
🧠 이 순서를 그대로 외우세요!
원천 → 레이크 → ETL → 웨어하우스 → 마트 → BI
🎯 ADsP 기출 포인트 요약
- 1) 데이터 레이크는 비정형 데이터 저장소, Schema on Read
- 2) 데이터 웨어하우스는 의사결정용 정제 데이터, Schema on Write
- 3) ETL은 추출-변환-적재 순서
- 4) 데이터 마트는 부서별 소규모 분석 단위
🔍 자주 출제 예시:
“데이터를 분석 목적에 맞게 가공하여 저장하는 저장소로,
전사적 시스템에서 부서별 분석 단위로 제공되는 것은?”
→ ✅ 데이터 마트(Data Mart)
🏁 마무리
📊 데이터는 레이크에서 시작해 마트로 흘러간다!
즉,
“저장(레이크) → 정제(ETL) → 통합(DW) → 활용(DM)”
이 흐름을 완전히 이해하면 ADsP 1과목 핵심 파트를 마스터한 거예요 💪