🧠 데이터사이언스란?
“데이터로 세상을 이해하고, 더 나은 결정을 돕는 일!”
📘 1️⃣ 데이터사이언스의 뜻
💡 **데이터사이언스(Data Science)**란
‘데이터로 문제를 해결하는 모든 활동’을 말해요.
즉, 데이터를 모으고 → 분석하고 → 예측하고 → 의사결정에 활용하는 과정 전체를 포함합니다.
| 🔍 단계 | 설명 | 예시 |
| 📦 데이터 수집 | 필요한 정보를 모으는 단계 | 고객 구매 내역, 날씨, SNS 데이터 |
| 🧹 데이터 정제 | 오류나 결측값을 수정 | “NaN” 값 채우기, 중복 제거 |
| 📊 데이터 분석 | 통계·그래프로 패턴 찾기 | “20대 여성 구매율↑” |
| 🤖 모델 예측 | 머신러닝으로 미래 예측 | “다음 달 매출 예측” |
| 🧭 의사결정 | 분석 결과로 전략 세움 | “광고 타겟 변경” |
📍한마디로: “데이터로 문제를 이해하고, 답을 찾는 과정!”
🧩 2️⃣ 왜 중요한가?
🌍 현대 사회는 데이터가 곧 자산!
기업은 데이터를 통해
- 고객의 행동을 이해하고
- 효율적인 전략을 세우며
- 미래를 예측합니다.
💡 예를 들어,
넷플릭스는 시청 데이터를 분석해 “당신이 좋아할 영화”를 추천하고,
쿠팡은 주문 데이터를 통해 “내일 도착” 서비스를 가능하게 만들죠!
🧱 3️⃣ 데이터사이언스의 핵심 구성요소
| 구성요소 | 설명 | 예시 |
| 💾 데이터(Data) | 사실 그대로의 자료 | 매출기록, 온도센서, 로그 |
| 📊 통계학(Statistics) | 데이터에서 의미를 찾는 기술 | 평균, 분산, 회귀분석 |
| 🤖 머신러닝(ML) | 데이터로 패턴을 ‘학습’하는 기술 | 스팸메일 구분, 가격예측 |
| 💬 비즈니스 이해 | ‘무엇을 해결할까’를 정의 | 고객 이탈률 줄이기 |
| 🧑💻 데이터 시각화 | 결과를 쉽게 보여주는 표현 | 차트, 그래프, 대시보드 |
🔑 시험 포인트:
데이터사이언스는 통계 + IT기술 + 비즈니스 이해력이 모두 필요합니다!
🔁 4️⃣ 데이터 분석의 단계 (CRISP-DM)
CRISP-DM은 데이터 프로젝트의 표준 절차예요.
시험에서도 자주 나오는 핵심 키워드예요 💯
| 단계 | 이름 | 간단 설명 | 예시 |
| ① | 비즈니스 이해 | 무엇을 분석할지 목표 정하기 | “매출을 높이려면?” |
| ② | 데이터 이해 | 어떤 데이터가 있는지 파악 | “상품별 판매량, 고객정보” |
| ③ | 데이터 준비 | 분석하기 좋게 정리 | 결측값 처리, 단위 통일 |
| ④ | 모델링 | 예측모델 만들기 | 회귀, 분류, 군집 등 |
| ⑤ | 평가 | 모델 성능 확인 | 정확도, F1 Score 등 |
| ⑥ | 전개(Deploy) | 실제 업무에 적용 | 대시보드, 서비스 반영 |
💬 기억팁 : “이→이→준→모→평→전” (이이준모평전!)
📊 5️⃣ 데이터사이언스가 다루는 주요 분야
| 분야 | 하는 일 | 쉬운 예시 |
| 📈 통계분석 | 평균·상관관계 찾기 | “매출은 광고비에 비례한다” |
| 🔍 데이터마이닝 | 숨은 패턴 찾기 | “특정 고객군의 구매 패턴” |
| 🤖 머신러닝 | 예측 모델 학습 | “스팸메일 분류” |
| ⏱ 시계열 분석 | 시간에 따른 변화 분석 | “다음 달 매출 예측” |
| 🧮 딥러닝 | 이미지·음성 인식 | “자율주행차, 음성비서” |
⚖️ 6️⃣ 데이터사이언스의 위험요소와 대처
| 위험요인 | 설명 | 대처방법 |
| 🔒 개인정보 유출 | 민감정보 노출 | 가명처리·암호화 |
| ⚖️ 데이터 편향 | 한쪽 데이터만 학습 | 균형데이터 확보 |
| 📉 데이터 품질 문제 | 중복·오류·결측 | 정제·검증 시스템 구축 |
| 🤖 모델 오작동 | 환경 변화 | 주기적 재학습·모니터링 |
💡 “좋은 데이터 없이는 좋은 결과도 없다!”
🎨 7️⃣ 데이터사이언티스트의 역할
| 역할 | 주요 업무 | 필요한 능력 |
| 📚 데이터 분석가 | 통계·리포트 작성 | 엑셀, SQL, 시각화 |
| 🧠 데이터사이언티스트 | 예측·AI 모델링 | Python, ML, 수학 |
| ⚙️ 데이터엔지니어 | 데이터 수집·저장·처리 | ETL, 클라우드, DB |
| 💬 비즈니스 분석가 | 의사결정·전략 | 기획력, 커뮤니케이션 |
🧩 8️⃣ ADsP 시험 포인트 정리
📌 자주 출제되는 키워드
- DIKW 피라미드 (Data → Information → Knowledge → Wisdom)
- CRISP-DM 6단계
- 데이터 품질관리 (정확성, 일관성, 완전성, 적시성)
- 비식별화 기법 (k-익명성, l-다양성, t-근접성)
- 드리프트(Drift) – 데이터 변화에 따른 모델 성능 저하
💬 9️⃣ 한 문장 요약
데이터사이언스는
데이터로 세상을 이해하고, 문제를 해결하는 기술과 사고방식!
👉 “데이터를 수집하고, 분석하고, 행동으로 옮기는 능력”이 바로 핵심입니다.