1. 이해를 위해 먼저 알아야 할 개념

개념 설명 공식
Item 개별 상품 {빵}, {우유}
Itemset 상품 집합 {빵, 우유}
Support (지지도) 전체 거래 중 해당 항목집합이 등장한 비율 (해당 집합 포함 거래 수) / (전체 거래 수)
Confidence (신뢰도) A가 있을 때 B가 함께 등장할 확률 P(B|A)
Lift (향상도) 독립 대비 동시 등장 강도 Confidence / P(B)

2. 간단한 예시로 이해하기

거래 데이터

거래 ID 상품
T1 우유, 빵, 버터
T2 우유, 빵
T3 우유, 버터
T4 빵, 버터
T5 우유, 빵, 버터

총 5건

1단계: 1-itemset Support 계산

항목 등장횟수 Support
우유 4 80%
4 80%
버터 4 80%

(최소 지지도 60%라고 가정 → 모두 통과)

2단계: 2-itemset 생성

항목집합 등장횟수 Support
우유, 빵 3 60% (3/5)
우유, 버터 3 60% (3/5)
빵, 버터 3 60% (3/5) 

모두 통과

3단계: 3-itemset

항목집합등장 횟수Support
항목집합 등장횟수 Support
우유, 빵, 버터 2 40% (2/5)

최소지지도 60% 미만 → 탈락 → 종료


3. 연관규칙 생성 예

예: {우유, 빵} → {버터}

지표 계산
Support 2/5 = 40%
Confidence 2/3 ≈ 66.7%
Lift 0.667 / 0.8 ≈ 0.83

Support(A→B)  = P(AB) = count(AUB) / N = count({우유,빵,버터}) / N = 2 / 5
Confidence(A→B)  = P(BA) = count(AUB) / count(A) = 2 / 3 ≈ 0.667
Lift(A→B)  = P(BA)  / P(B) = 0.667 / 0.8

'정보시스템감리사 > 데이터베이스' 카테고리의 다른 글

B+-트리  (0) 2026.02.07
Posted by 비니미니파파