🧭 유사도 기반 추천 + 🧺 연관 규칙 분석 완전 정리 💡
“나와 비슷한 사람의 취향 + 자주 같이 등장하는 아이템을 분석해서 똑똑하게 추천하기!”
🎯 1️⃣ 유사도 기반 추천 알고리즘이란?
👉 “비슷한 사용자나 비슷한 아이템을 찾아 추천하는 방식”이에요.
| 구분 | 설명 | 예시 |
| 👥 사용자 기반 CF | 나와 비슷한 사람의 행동을 기준 | “나랑 취향 비슷한 사람이 본 영화 추천” 🎬 |
| 📦 아이템 기반 CF | 내가 좋아한 아이템과 유사한 것 추천 | “이 상품을 산 사람이 함께 산 다른 상품” 🛍️ |
💡 핵심 포인트
- 유사도 계산: 코사인(Cosine), 피어슨(Pearson), 자카드(Jaccard)
- 데이터가 많을수록 추천이 정교해짐
- 개인화 추천에 강력! (예: 넷플릭스, 유튜브, 쿠팡)
🧺 2️⃣ 연관 규칙 분석 (Association Rule Analysis)
“데이터 속에서 자주 함께 나타나는 패턴을 찾아내는 기법이에요.”
예를 들어,
🛒 {우유, 시리얼} → {바나나}
👉 우유와 시리얼을 사는 사람은 바나나도 자주 산다!
📘 3️⃣ 연관 규칙의 기본 개념
| 지표 | 정의 | 의미 | 예시 |
| 📊 지지도(Support) | 전체 거래 중 X와 Y가 함께 등장한 비율 | 규칙의 빈도/대중성 | 우유+바나나 같이 구매된 비율 |
| 🔐 신뢰도(Confidence) | X가 있을 때 Y도 함께 나올 확률 | 조건부 정확도 | 우유 산 사람 중 바나나도 산 비율 |
| 🚀 향상도(Lift) | X와 Y의 독립일 때 대비 얼마나 더 자주 함께 나오는가 | 연관 강도 | Lift>1이면 긍정적 관계 👍 |
💬 쉽게 외우기
- 지지도 = 얼마나 자주?
- 신뢰도 = 얼마나 정확히?
- 향상도 = 얼마나 강하게?
🧮 4️⃣ 예시로 배우는 연관 규칙
| 항목 | 값 |
| 전체 거래 수 | 1,000 |
| 우유+시리얼+바나나 함께 구매 | 90 |
| 우유+시리얼 | 120 |
| 바나나 | 300 |
| 지표 | 계산 | 결과 | 해석 |
| 📊 지지도 | 90 / 1,000 | 0.09 | 전체의 9% 거래에서 함께 발생 |
| 🔐 신뢰도 | 90 / 120 | 0.75 | 우유·시리얼 산 사람 중 75%가 바나나도 구매 |
| 🚀 향상도 | 0.75 / 0.3 | 2.5 | 무작위보다 2.5배 더 자주 발생 (강한 연관!) |
🧠 5️⃣ 연관분석 알고리즘 3총사 🔧
| 알고리즘 | 특징 | 장점 | 단점 |
| 🍪 Apriori | “빈발 항목의 부분집합도 빈발” | 직관적, 시험에 자주 나옴 | 느릴 수 있음(후보 많을 때) |
| 🌲 FP-Growth | FP-트리로 후보 없이 탐색 | 빠름, 대용량 가능 | 구조 복잡 |
| ✂️ Eclat | 교집합(TID) 기반 탐색 | 메모리 효율적 | 구현 난이도 |
💡 시험 포인트
- Apriori: “부분집합도 빈발”
- FP-Growth: “후보 생성 X”
- Lift>1 → 강한 양(+) 연관
🧾 6️⃣ 분석 절차 한눈에 보기 📊
1️⃣ 데이터 준비 (거래별 상품 묶기)
2️⃣ 최소 지지도 / 신뢰도 설정
3️⃣ 빈발 항목집합 탐색 (Apriori 등)
4️⃣ 규칙 생성 X→Y
5️⃣ Lift 기반 규칙 정렬
6️⃣ 해석 & 시각화 (예: 네트워크 그래프)
7️⃣ 마케팅 적용 (추천, 진열, 번들)
💡 7️⃣ 실전 활용 예시
| 분야 | 활용 예시 |
| 🛍️ 유통 | “우유 산 고객에게 시리얼 추천” |
| 🎬 OTT | “이 영화 본 사용자는 저 영화도 시청” |
| 🛒 이커머스 | 교차판매 / 번들 추천 |
| 🏪 편의점 | 동시 구매 품목 파악 후 진열 개선 |
⚠️ 8️⃣ 실수 & 주의사항
🔹 너무 높은 지지도 기준 → 흥미로운 패턴이 사라짐
🔹 인기 아이템만 뜨는 “편향” 주의
🔹 Lift는 높아도 비즈니스적으로 의미 없을 수 있음
🔹 계절성, 이벤트 영향 구분 필요 (예: 명절 세트)
🧩 9️⃣ 유사도 기반 추천 vs 연관 규칙 비교표
| 구분 | 유사도 기반 추천 | 연관 규칙 분석 |
| 🔍 기준 | 사용자/아이템 간 유사도 | 아이템의 공동 발생 빈도 |
| ⚙️ 접근 방식 | 개인화 추천 (CF) | 전체 데이터 기반 패턴 |
| 📈 대표 지표 | 코사인, 피어슨 | 지지도, 신뢰도, 향상도 |
| 🎯 활용 목적 | 개인별 맞춤 추천 | 교차판매, 번들기획 |
| 🧠 예시 | “당신과 비슷한 사용자가 본 영화” | “이 상품을 사면 저 상품도 자주 산다” |
📘 ADsP 시험 핵심 포인트 정리 ✍️
✅ 연관 규칙 = X→Y
✅ 지지도(Support): 얼마나 자주
✅ 신뢰도(Confidence): 얼마나 정확히
✅ 향상도(Lift): 얼마나 강하게
✅ Apriori = 부분집합도 빈발
✅ FP-Growth = 후보 없이 빠름
✅ Lift>1 → 양(+) 연관
✅ 추천 vs 연관 규칙 구분
✅ 실무 활용: 교차판매 / 번들추천
🌈 한 줄 정리
“연관 규칙 분석은 데이터 속 ‘함께’의 법칙을 찾는 기술이에요.”
나와 비슷한 사람의 취향은 유사도 기반 추천,
자주 같이 팔리는 상품은 연관 규칙 분석! 🧠💡