*연관 분석이란
개인, 기업, 정부가 보유한 아이템 목록 리스트들 사이의 관계를 IF - Then 형식으로 찾아나가는 방식으로 일종의 규칙 기반 학습
ex) 특정 상품 A를 구매한 고객 중 30%가 상품 B를 구매했다.
IF 상품 A 구매 Then 상품 B 인 경우 0.3
- 연관 분석의 측도
산업의 특성에 따라 지지도, 신뢰도, 향상도 3가지를 참고하여 선택
1. 지지도
전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율
- 지지도 = P(항목 A와 B가 동시에 포함된 거래수)/ 전채 거래 수
2. 신뢰도
항목 A를 포함하는 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이며 연관성의 정도를 나타냄
- 신뢰도 = P(항목 A와 B가 동시에 포함된 거래수)/P(A를 포함하는 거래수)
3. 향상도
A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비
연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨
- 향상도 = P(항목 A와 B가 동시에 포함된 거래수)/P(A를 포함하는 거래수) *P(B를 포함하는 거래수)
- 연관 분석의 절차
1. 최소 지지도 설정 (min_support)
대부분 min_support를 0.05로 설정한 뒤 값을 조정
2. item목록 중 최소 지지도를 넘는 item 목록 분류
3. 2가지 품목 집합 생성
4. 2-3의 과정을 반복하여 frequent_itemset 생성
참고한 사이트
https://zephyrus1111.tistory.com/119
8. 연관 규칙 분석(Association Rule Analysis) with Python
이 곳은 꽁냥이가 머신러닝을 공부한 내용을 정리하는 곳입니다. 이 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 웹브라우저 또는 모
zephyrus1111.tistory.com
http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/
Apriori - mlxtend
From here you can search these documents. Enter your search terms below.
rasbt.github.io
댓글