데이터 레이크 vs 데이터 웨어하우스 vs ETL vs 데이터 마트_ADsP 1과목

🏗️ 데이터 레이크 vs 데이터 웨어하우스 vs ETL vs 데이터 마트


🌊 1️⃣ 데이터 레이크 (Data Lake)

항목내용
💡 정의정형·반정형·비정형 데이터를 그대로 저장하는 대용량 저장소
🧾 데이터 형태원시(raw) 상태의 데이터 (CSV, 로그, 이미지, JSON 등)
🏗️ 구조스키마를 나중에 적용하는 Schema on Read 방식
⚙️ 기술 예시Hadoop, AWS S3, Azure Data Lake, Google Cloud Storage
🎯 목적다양한 분석 목적(ML, AI, 로그분석 등)을 위한 데이터 원천 저장소

💬 비유: 데이터 레이크는 “모든 데이터가 흘러 들어오는 큰 저수지” 💧

가공 전 데이터를 담아두고, 필요할 때 꺼내 가공합니다.


🏛️ 2️⃣ 데이터 웨어하우스 (Data Warehouse)

항목내용
💡 정의기업 의사결정을 위해 정제된 데이터를 통합 저장하는 시스템
🧾 데이터 형태정형 데이터 중심 (테이블 구조, 스키마 고정)
🏗️ 구조스키마를 먼저 정의하는 Schema on Write 방식
⚙️ 기술 예시Oracle DW, Amazon Redshift, Snowflake, Google BigQuery
🎯 목적BI(비즈니스 인텔리전스) 보고, 분석, 시각화에 최적화

💬 비유: 데이터 웨어하우스는 “가공된 물건만 들어가는 창고” 📦

정리된 데이터만 저장되어 있어 바로 분석에 사용할 수 있습니다.


⚙️ 3️⃣ ETL 프로세스 (Extract → Transform → Load)

데이터를 웨어하우스나 마트로 옮기기 위한 핵심 절차

단계의미주요 작업주의 포인트
E (추출)다양한 원천 시스템에서 데이터 가져오기DB, 로그, API 등에서 수집연결 안정성, 형식 통일
T (변환)품질 정제, 형식 변환, 단위 통일중복 제거, 결측치 처리, 집계데이터 품질 관리
L (적재)목적지 시스템(DW/DM)에 저장정형화 테이블에 로드적재 주기, 성능 최적화

🧠 시험 포인트:

ETL은 “데이터 정제 및 적재의 자동화 절차”

최근엔 ELT(Extract → Load → Transform) 구조도 자주 출제됩니다.

(클라우드 환경에서 먼저 적재 후 변환 수행)


🧩 4️⃣ 데이터 마트 (Data Mart)

항목내용
💡 정의특정 부서/주제별로 데이터 웨어하우스에서 추출한 하위 저장소
🎯 목적특정 사용자의 분석 편의성 제공 (예: 마케팅, 인사, 재무 등)
🧾 구성웨어하우스의 부분 집합, 요약·집계 중심
⚙️ 기술 예시Tableau Extract, Power BI Dataset, SSAS Cube 등
🧩 특징의사결정 속도 향상, 접근 단순화, 부서 맞춤 데이터 제공

💬 비유: 웨어하우스가 “대형마트”라면,

데이터 마트는 “코너별 전문 매장” 🎯

(필요한 데이터만 빠르게 볼 수 있음)


🧱 한눈에 비교표 (시험 대비 암기용📑)

구분데이터 레이크 🌊데이터 웨어하우스 🏛️데이터 마트 🧩
목적원시데이터 저장기업 전사 데이터 통합부서별 분석 최적화
데이터 형태정형+비정형정형정형(요약)
스키마Schema on ReadSchema on WriteSchema on Write
주요 기술Hadoop, S3, Azure DLRedshift, SnowflakePower BI, Tableau
사용자데이터 과학자데이터 분석가부서 담당자
처리 속도느림 (대용량)빠름 (정제됨)매우 빠름 (요약)

🔄 5️⃣ 전체 흐름 요약 다이어그램 🧭

[원천시스템] ─▶ (E) 추출

[데이터 레이크 🌊] ─▶ (T) 변환 ─▶ (L) 적재

[데이터 웨어하우스 🏛️]

[데이터 마트 🧩] ─▶ BI/시각화 📊

🧠 이 순서를 그대로 외우세요!

원천 → 레이크 → ETL → 웨어하우스 → 마트 → BI


🎯 ADsP 기출 포인트 요약

  • 1) 데이터 레이크는 비정형 데이터 저장소, Schema on Read
  • 2) 데이터 웨어하우스는 의사결정용 정제 데이터, Schema on Write
  • 3) ETL은 추출-변환-적재 순서
  • 4) 데이터 마트는 부서별 소규모 분석 단위

🔍 자주 출제 예시:

“데이터를 분석 목적에 맞게 가공하여 저장하는 저장소로,

전사적 시스템에서 부서별 분석 단위로 제공되는 것은?”

→ ✅ 데이터 마트(Data Mart)


🏁 마무리

📊 데이터는 레이크에서 시작해 마트로 흘러간다!

즉,

“저장(레이크) → 정제(ETL) → 통합(DW) → 활용(DM)”

이 흐름을 완전히 이해하면 ADsP 1과목 핵심 파트를 마스터한 거예요 💪