본문 바로가기
통계이론

연관 분석

by 너굴맨_ 2021. 12. 3.

*연관 분석이란

개인, 기업, 정부가 보유한 아이템 목록 리스트들 사이의 관계를 IF - Then 형식으로 찾아나가는 방식으로 일종의 규칙 기반 학습

 

ex) 특정 상품 A를 구매한 고객 중 30%가 상품 B를 구매했다.

IF 상품 A 구매  Then 상품 B  인 경우 0.3

 

- 연관 분석의 측도

산업의 특성에 따라 지지도, 신뢰도, 향상도 3가지를 참고하여 선택

 

1. 지지도

전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율

  • 지지도 = P(항목 A와 B가 동시에 포함된 거래수)/ 전채 거래 수

 

2. 신뢰도

항목 A를 포함하는 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이며 연관성의 정도를 나타냄

  • 신뢰도 = P(항목 A와 B가 동시에 포함된 거래수)/P(A를 포함하는 거래수)

 

3. 향상도

A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비

연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨

  • 향상도 = P(항목 A와 B가 동시에 포함된 거래수)/P(A를 포함하는 거래수) *P(B를 포함하는 거래수)

- 연관 분석의 절차

1. 최소 지지도 설정 (min_support) 

대부분 min_support를 0.05로 설정한 뒤 값을 조정

 

2. item목록 중 최소 지지도를 넘는 item 목록 분류

 

3.  2가지 품목 집합 생성

 

4. 2-3의 과정을 반복하여 frequent_itemset 생성

 

 

참고한 사이트

https://zephyrus1111.tistory.com/119

 

8. 연관 규칙 분석(Association Rule Analysis) with Python

이 곳은 꽁냥이가 머신러닝을 공부한 내용을 정리하는 곳입니다. 이 포스팅에서는 수식을 포함하고 있습니다. 티스토리 피드에서는 수식이 제대로 표시되지 않을 수 있으니 웹브라우저 또는 모

zephyrus1111.tistory.com

http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/

 

Apriori - mlxtend

From here you can search these documents. Enter your search terms below.

rasbt.github.io

 

'통계이론' 카테고리의 다른 글

군집 분석  (0) 2021.11.04

댓글