📊 빅데이터 위기요인과 통제방안 완벽 정리
🎯 1️⃣ 빅데이터의 주요 위기(위험)요인
💾 A. 데이터(Data) 관점
| 구분 | 주요 위기요인 | 설명 |
| ⚙️ 품질 리스크 | 정확성·일관성 부족 | 중복·결측·오입력, 표준 불일치 등 |
| 🔒 프라이버시 위험 | 재식별·과도수집 | 목적 외 이용, 보유기간 위반 |
| ⚖️ 편향·공정성 문제 | 표본/레이블 편향 | 역사적 차별 반영 → 불공정 결과 |
| 🧾 데이터 소유권 | 저작권·라이선스 위반 | 크롤링, 오픈소스 데이터의 불법 활용 |
| 🧩 거버넌스 부재 | 메타데이터·계보 미흡 | 책임 불명확, 데이터 사일로 |
| 🔐 보안 노출 | 접근통제 미흡 | 전송·저장 중 유출 가능성 |
🤖 B. 알고리즘(모델) 관점
- 📉 과적합(Overfitting) : 훈련 데이터에는 강하지만 일반화 성능 낮음
- 🔁 드리프트(Drift) : 환경 변화로 모델 성능 저하
- 🧱 불투명성(Explainability 부족) : 블랙박스 모델로 의사결정 근거 불명
- 🎯 공격 취약성 : 적대적 예제, 데이터 중독(poisoning), 모델 탈취 위험
🏢 C. 운영·조직 관점
- 🚧 요구사항 불명확 → PoC만 하고 실무 전환 실패
- 👥 인력·역량 부족 → 데이터 문화 부재, 사일로
- 💸 비용 폭증 → 클라우드 자원 과소관리
- ⚖️ 규제 리스크 → 개인정보보호법·신용정보법 위반
- 💥 연속성 문제 → 백업/복구(BCP/DR) 미흡
🧰 2️⃣ 통제(대응)방안 — 예방 · 탐지 · 교정
🧱 A. 데이터 품질·거버넌스
💡 핵심 키워드: 표준화 · 품질관리 · 메타데이터 · 카탈로그
- 📘 데이터 사전·코드셋 관리
- 🔍 데이터 품질 프로파일링 및 모니터링
- 🧾 메타데이터·계보(Lineage) 관리
- 📂 데이터 카탈로그 구축(검색·품질지표·권한연동)
- 🕒 데이터 수명주기 관리(최소수집, 보유기간·파기 정책)
🔒 B. 프라이버시·보안
💡 핵심 키워드: 비식별화 · 접근통제 · 암호화
- 🔐 가명·비식별 처리 (k-익명성, l-다양성, t-근접성)
- 📊 차등프라이버시(DP), 연합학습(Federated Learning)
- 🧩 접근통제(RBAC/ABAC), 전송·저장 암호화
- 📋 개인정보 영향평가(DPIA), 로그·감사 체계
- 🧯 침해 대응 매뉴얼 및 사고 대응 체계
⚖️ C. 공정성·설명가능성 (Responsible AI)
- 📏 편향 진단 : 그룹별 성능·Disparate Impact 지표
- 🧮 편향 완화 : 재표본화, 가중치 조정, 제약 최적화
- 💬 설명가능성 강화 : LIME, SHAP, 피처 중요도 리포트
- 🧑💼 정책화 : 민감특성 사용 제한, 윤리 가이드라인 제정
🧠 D. 모델·MLOps 관리
- 🧾 버전관리 : 데이터·모델·피처 버전 통합
- 🔍 검증 : 학습/검증/테스트 분리, 교차검증
- ⏱ 모니터링 : 데이터/개념 드리프트 탐지
- 🔄 배포전략 : A/B 테스트, Canary, Human-in-the-loop 승인
🏢 E. 운영·조직 측면
- 👥 RACI 명확화 : 책임(Role) 분리, 3 Lines of Defense 체계
- 💰 비용관리 : 리소스 태깅, 자동 스케일링, 아카이빙
- 🧯 BCP/DR : 백업주기·장애복구 훈련
- 🧑🏫 교육·문화 : 데이터 윤리 및 보안 교육
📘 3️⃣ 시험 포인트 요약표
| 분류 | 주요 키워드 | 설명 |
| 💾 데이터 리스크 | 품질·프라이버시·편향 | 표준·비식별·거버넌스 |
| 🤖 모델 리스크 | 과적합·드리프트·블랙박스 | 모니터링·설명가능성 |
| 🏢 운영 리스크 | 비용·규제·연속성 | RACI·DR·교육 |
| 🧰 통제방안 | 예방·탐지·교정 | 품질관리·암호화·편향완화·모니터링 |
🔑 4️⃣ 비식별화 3대 기법 (ADsP 기출!)
| 구분 | 정의 | 예시 |
| 🔹 k-익명성 | 동일한 속성 집합 크기 기준 | 최소 k개의 동일 레코드 |
| 🔹 l-다양성 | 민감값 다양성 보장 | 그룹 내 다양한 질병명 |
| 🔹 t-근접성 | 분포 근접성 확보 | 그룹과 전체 분포 유사 |
🧩 5️⃣ 드리프트(Drift) 개념
| 구분 | 설명 | 대응방안 |
| 📊 데이터 드리프트 | 입력 데이터 분포 변화 | 입력값 모니터링, 재학습 |
| 🎯 개념 드리프트 | 입력-출력 관계 변화 | 주기적 모델 평가·튜닝 |
🌟 6️⃣ 미니 사례로 배우는 대응전략
💳 신용대출 모델
- 여성·청년 불리 → 편향 진단 + 제약최적화
- 설명 : LIME 활용, 내부 위원회 승인
🛒 소매 로그 분석
- 고객 식별 위험 → 가명처리 + DP 집계 + RBAC
- 보유기간 만료 후 자동 파기
☁️ 클라우드 비용 폭증
- 원시 로그 장기보관 → 핫/콜드 티어 분리, 비용 알림 설정
📚 7️⃣ ADsP형 기출 키워드 정리
- ✅ 품질관리: 표준화·프로파일링·계보
- ✅ 프라이버시: 최소수집·가명처리·DPIA
- ✅ 보안: 접근통제·암호화·로그감사
- ✅ 공정성/설명: LIME·SHAP·편향지표
- ✅ MLOps: 버전관리·드리프트모니터링
- ✅ 운영: RACI·3LoD·DR
- ✅ 법규: 개인정보보호법·신용정보법
📝 마무리 요약
“데이터 → 알고리즘 → 운영” 3단계 리스크를 예방-탐지-교정 체계로 관리하라!
시험에서는 비식별화 기법, 드리프트 구분, 거버넌스 구성요소,
책임체계(RACI, 3LoD) 가 자주 출제됩니다.