빅데이터 위기요인과 통제방안 완벽정리_ADsP1과목

📊 빅데이터 위기요인과 통제방안 완벽 정리


🎯 1️⃣ 빅데이터의 주요 위기(위험)요인

💾 A. 데이터(Data) 관점

구분주요 위기요인설명
⚙️ 품질 리스크정확성·일관성 부족중복·결측·오입력, 표준 불일치 등
🔒 프라이버시 위험재식별·과도수집목적 외 이용, 보유기간 위반
⚖️ 편향·공정성 문제표본/레이블 편향역사적 차별 반영 → 불공정 결과
🧾 데이터 소유권저작권·라이선스 위반크롤링, 오픈소스 데이터의 불법 활용
🧩 거버넌스 부재메타데이터·계보 미흡책임 불명확, 데이터 사일로
🔐 보안 노출접근통제 미흡전송·저장 중 유출 가능성

🤖 B. 알고리즘(모델) 관점

  • 📉 과적합(Overfitting) : 훈련 데이터에는 강하지만 일반화 성능 낮음
  • 🔁 드리프트(Drift) : 환경 변화로 모델 성능 저하
  • 🧱 불투명성(Explainability 부족) : 블랙박스 모델로 의사결정 근거 불명
  • 🎯 공격 취약성 : 적대적 예제, 데이터 중독(poisoning), 모델 탈취 위험

🏢 C. 운영·조직 관점

  • 🚧 요구사항 불명확 → PoC만 하고 실무 전환 실패
  • 👥 인력·역량 부족 → 데이터 문화 부재, 사일로
  • 💸 비용 폭증 → 클라우드 자원 과소관리
  • ⚖️ 규제 리스크 → 개인정보보호법·신용정보법 위반
  • 💥 연속성 문제 → 백업/복구(BCP/DR) 미흡

🧰 2️⃣ 통제(대응)방안 — 예방 · 탐지 · 교정

🧱 A. 데이터 품질·거버넌스

💡 핵심 키워드: 표준화 · 품질관리 · 메타데이터 · 카탈로그

  • 📘 데이터 사전·코드셋 관리
  • 🔍 데이터 품질 프로파일링 및 모니터링
  • 🧾 메타데이터·계보(Lineage) 관리
  • 📂 데이터 카탈로그 구축(검색·품질지표·권한연동)
  • 🕒 데이터 수명주기 관리(최소수집, 보유기간·파기 정책)

🔒 B. 프라이버시·보안

💡 핵심 키워드: 비식별화 · 접근통제 · 암호화

  • 🔐 가명·비식별 처리 (k-익명성, l-다양성, t-근접성)
  • 📊 차등프라이버시(DP), 연합학습(Federated Learning)
  • 🧩 접근통제(RBAC/ABAC), 전송·저장 암호화
  • 📋 개인정보 영향평가(DPIA), 로그·감사 체계
  • 🧯 침해 대응 매뉴얼 및 사고 대응 체계

⚖️ C. 공정성·설명가능성 (Responsible AI)

  • 📏 편향 진단 : 그룹별 성능·Disparate Impact 지표
  • 🧮 편향 완화 : 재표본화, 가중치 조정, 제약 최적화
  • 💬 설명가능성 강화 : LIME, SHAP, 피처 중요도 리포트
  • 🧑‍💼 정책화 : 민감특성 사용 제한, 윤리 가이드라인 제정

🧠 D. 모델·MLOps 관리

  • 🧾 버전관리 : 데이터·모델·피처 버전 통합
  • 🔍 검증 : 학습/검증/테스트 분리, 교차검증
  • ⏱ 모니터링 : 데이터/개념 드리프트 탐지
  • 🔄 배포전략 : A/B 테스트, Canary, Human-in-the-loop 승인

🏢 E. 운영·조직 측면

  • 👥 RACI 명확화 : 책임(Role) 분리, 3 Lines of Defense 체계
  • 💰 비용관리 : 리소스 태깅, 자동 스케일링, 아카이빙
  • 🧯 BCP/DR : 백업주기·장애복구 훈련
  • 🧑‍🏫 교육·문화 : 데이터 윤리 및 보안 교육

📘 3️⃣ 시험 포인트 요약표

분류주요 키워드설명
💾 데이터 리스크품질·프라이버시·편향표준·비식별·거버넌스
🤖 모델 리스크과적합·드리프트·블랙박스모니터링·설명가능성
🏢 운영 리스크비용·규제·연속성RACI·DR·교육
🧰 통제방안예방·탐지·교정품질관리·암호화·편향완화·모니터링

🔑 4️⃣ 비식별화 3대 기법 (ADsP 기출!)

구분정의예시
🔹 k-익명성동일한 속성 집합 크기 기준최소 k개의 동일 레코드
🔹 l-다양성민감값 다양성 보장그룹 내 다양한 질병명
🔹 t-근접성분포 근접성 확보그룹과 전체 분포 유사

🧩 5️⃣ 드리프트(Drift) 개념

구분설명대응방안
📊 데이터 드리프트입력 데이터 분포 변화입력값 모니터링, 재학습
🎯 개념 드리프트입력-출력 관계 변화주기적 모델 평가·튜닝

🌟 6️⃣ 미니 사례로 배우는 대응전략

💳 신용대출 모델

  • 여성·청년 불리 → 편향 진단 + 제약최적화
  • 설명 : LIME 활용, 내부 위원회 승인

🛒 소매 로그 분석

  • 고객 식별 위험 → 가명처리 + DP 집계 + RBAC
  • 보유기간 만료 후 자동 파기

☁️ 클라우드 비용 폭증

  • 원시 로그 장기보관 → 핫/콜드 티어 분리, 비용 알림 설정

📚 7️⃣ ADsP형 기출 키워드 정리

  • 품질관리: 표준화·프로파일링·계보
  • 프라이버시: 최소수집·가명처리·DPIA
  • 보안: 접근통제·암호화·로그감사
  • 공정성/설명: LIME·SHAP·편향지표
  • MLOps: 버전관리·드리프트모니터링
  • 운영: RACI·3LoD·DR
  • 법규: 개인정보보호법·신용정보법

📝 마무리 요약

“데이터 → 알고리즘 → 운영” 3단계 리스크를 예방-탐지-교정 체계로 관리하라!

시험에서는 비식별화 기법, 드리프트 구분, 거버넌스 구성요소,

책임체계(RACI, 3LoD) 가 자주 출제됩니다.