빅데이터 위기요인과 통제방안 완벽정리_ADsP1과목

데이터분석준전문가(ADsp)

📊 빅데이터 위기요인과 통제방안 완벽 정리

🎯 1️⃣ 빅데이터의 주요 위기(위험)요인

💾 A. 데이터(Data) 관점

구분	주요 위기요인	설명
⚙️ 품질 리스크	정확성·일관성 부족	중복·결측·오입력, 표준 불일치 등
🔒 프라이버시 위험	재식별·과도수집	목적 외 이용, 보유기간 위반
⚖️ 편향·공정성 문제	표본/레이블 편향	역사적 차별 반영 → 불공정 결과
🧾 데이터 소유권	저작권·라이선스 위반	크롤링, 오픈소스 데이터의 불법 활용
🧩 거버넌스 부재	메타데이터·계보 미흡	책임 불명확, 데이터 사일로
🔐 보안 노출	접근통제 미흡	전송·저장 중 유출 가능성

🤖 B. 알고리즘(모델) 관점

📉 과적합(Overfitting) : 훈련 데이터에는 강하지만 일반화 성능 낮음
🔁 드리프트(Drift) : 환경 변화로 모델 성능 저하
🧱 불투명성(Explainability 부족) : 블랙박스 모델로 의사결정 근거 불명
🎯 공격 취약성 : 적대적 예제, 데이터 중독(poisoning), 모델 탈취 위험

🏢 C. 운영·조직 관점

🚧 요구사항 불명확 → PoC만 하고 실무 전환 실패
👥 인력·역량 부족 → 데이터 문화 부재, 사일로
💸 비용 폭증 → 클라우드 자원 과소관리
⚖️ 규제 리스크 → 개인정보보호법·신용정보법 위반
💥 연속성 문제 → 백업/복구(BCP/DR) 미흡

🧰 2️⃣ 통제(대응)방안 — 예방 · 탐지 · 교정

🧱 A. 데이터 품질·거버넌스

💡 핵심 키워드: 표준화 · 품질관리 · 메타데이터 · 카탈로그

📘 데이터 사전·코드셋 관리
🔍 데이터 품질 프로파일링 및 모니터링
🧾 메타데이터·계보(Lineage) 관리
📂 데이터 카탈로그 구축(검색·품질지표·권한연동)
🕒 데이터 수명주기 관리(최소수집, 보유기간·파기 정책)

🔒 B. 프라이버시·보안

💡 핵심 키워드: 비식별화 · 접근통제 · 암호화

🔐 가명·비식별 처리 (k-익명성, l-다양성, t-근접성)
📊 차등프라이버시(DP), 연합학습(Federated Learning)
🧩 접근통제(RBAC/ABAC), 전송·저장 암호화
📋 개인정보 영향평가(DPIA), 로그·감사 체계
🧯 침해 대응 매뉴얼 및 사고 대응 체계

⚖️ C. 공정성·설명가능성 (Responsible AI)

📏 편향 진단 : 그룹별 성능·Disparate Impact 지표
🧮 편향 완화 : 재표본화, 가중치 조정, 제약 최적화
💬 설명가능성 강화 : LIME, SHAP, 피처 중요도 리포트
🧑‍💼 정책화 : 민감특성 사용 제한, 윤리 가이드라인 제정

🧠 D. 모델·MLOps 관리

🧾 버전관리 : 데이터·모델·피처 버전 통합
🔍 검증 : 학습/검증/테스트 분리, 교차검증
⏱ 모니터링 : 데이터/개념 드리프트 탐지
🔄 배포전략 : A/B 테스트, Canary, Human-in-the-loop 승인

🏢 E. 운영·조직 측면

👥 RACI 명확화 : 책임(Role) 분리, 3 Lines of Defense 체계
💰 비용관리 : 리소스 태깅, 자동 스케일링, 아카이빙
🧯 BCP/DR : 백업주기·장애복구 훈련
🧑‍🏫 교육·문화 : 데이터 윤리 및 보안 교육

📘 3️⃣ 시험 포인트 요약표

분류	주요 키워드	설명
💾 데이터 리스크	품질·프라이버시·편향	표준·비식별·거버넌스
🤖 모델 리스크	과적합·드리프트·블랙박스	모니터링·설명가능성
🏢 운영 리스크	비용·규제·연속성	RACI·DR·교육
🧰 통제방안	예방·탐지·교정	품질관리·암호화·편향완화·모니터링

🔑 4️⃣ 비식별화 3대 기법 (ADsP 기출!)

구분	정의	예시
🔹 k-익명성	동일한 속성 집합 크기 기준	최소 k개의 동일 레코드
🔹 l-다양성	민감값 다양성 보장	그룹 내 다양한 질병명
🔹 t-근접성	분포 근접성 확보	그룹과 전체 분포 유사

🧩 5️⃣ 드리프트(Drift) 개념

구분	설명	대응방안
📊 데이터 드리프트	입력 데이터 분포 변화	입력값 모니터링, 재학습
🎯 개념 드리프트	입력-출력 관계 변화	주기적 모델 평가·튜닝

🌟 6️⃣ 미니 사례로 배우는 대응전략

💳 신용대출 모델

여성·청년 불리 → 편향 진단 + 제약최적화
설명 : LIME 활용, 내부 위원회 승인

🛒 소매 로그 분석

고객 식별 위험 → 가명처리 + DP 집계 + RBAC
보유기간 만료 후 자동 파기

☁️ 클라우드 비용 폭증

원시 로그 장기보관 → 핫/콜드 티어 분리, 비용 알림 설정

📚 7️⃣ ADsP형 기출 키워드 정리

✅ 품질관리: 표준화·프로파일링·계보
✅ 프라이버시: 최소수집·가명처리·DPIA
✅ 보안: 접근통제·암호화·로그감사
✅ 공정성/설명: LIME·SHAP·편향지표
✅ MLOps: 버전관리·드리프트모니터링
✅ 운영: RACI·3LoD·DR
✅ 법규: 개인정보보호법·신용정보법

📝 마무리 요약

“데이터 → 알고리즘 → 운영” 3단계 리스크를 예방-탐지-교정 체계로 관리하라!

시험에서는 비식별화 기법, 드리프트 구분, 거버넌스 구성요소,

책임체계(RACI, 3LoD) 가 자주 출제됩니다.