# Keywords
병합적 방법, 단일연결법, 완전연결법, 평균연결법, 중심연결법, 와드연결법, 덴드로그램, K-Means, 군집 오차제곱합(SSE), Elbow차트
- 군집분석이란
어떤 개체나 대상들을 밀접한 유사성(similarity) 또는 비유사성 (dissimilarity)에 의하여 유사한 특성을 지닌 개체들을 몇 개의 군집으로 집단화하는 비지도학습법
* 군집화 : 군집분석을 통해 군집을 찾아내는 과정
* 군집 : 데이터 집합 내에 의미있고 유용성 있는 그룹을 말하며 군집에 포함된 데이터끼리는 공통된 특징을 가지고 있다.
계층적 군집분석 vs 비계층적 군집분석
- 계층적 군집분석
계층적 군집분석은 데이터 간의 유사도를 정의하고 유사도가 가까운 방식으로 합쳐나가는 것
* 병합적 vs 분할적
- 병합적 : 개체 간 거리가 가까운 개체끼리 차례로 묶어주는 방법
- 분할적 : 개체 간 거리가 먼 개체끼리 나누어 가는 방법
대체로 계층적 군집분석에서는 병합적 방법을 주로 사용한다.
* 개체간 거리
- 유클리드 거리, 맨해튼 거리, 민코우스키 거리
* 군집 간 거리
- 단일연결법, 완전연결법, 평균연결법, 중심연결법
* 병합적 클러스터링 방법
- 한 개의 레코드로 한 개의 군집을 형성하고 군집 간의 거리행렬 생성
- 거리가 가까운 2개의 군집을 하나의 군집으로 합치고 거리행렬 수정
- 모든 레코드가 포함된 군집을 만들 때까지 2단계 반복 수행
* 분할적 클러스터링 방법
- 모든 레코드가 포함된 1개의 군집 형성
- 만들어진 군집 간의 거리가 최대가 되도록 2개의 군집으로 분할
- 만들어진 군집 중 어느 것을 더 분할할지 결정
- 한 개의 군집에 한 개의 레코드가 포함될 때까지 2~3 단계를 반복
- 비계층적 군집분석
계층을 두지 않고 군집화를 하여 최적의 군집을 찾아가는 방식
* K-Means
사전에 결정된 군집 수 K에 기초하여 전체데이터를 유사한 k개의 군집으로 구분
초기 군집 중앙이 어디에 형성되는 지에 따라 영향을 크게 받으며 잡음, 이상치에 영향을 많이 받음
* K- Means 클러스터링
- 무작위로 k 개의 레코드를 선택하여 군집 번호 1,2,...,K를 부여한다 선택된 각 레코드가 각 군집의 중심이 된다.
- 각 레코드와 각 군집 중심 간의 거리를 구하여 가장 가까운 군집에 할당
- 형성된 각 군집의 중심을 구한다.
- 각 군집에 속한 레코드의 변동이 없을 때까지 2~3단계를 반복한다.
* K-Means에서 군집 수 결정요소
- 오차제곱합(SSE) : 각 군집 내 개체들과 해당 군집 중심점과의 거리를 제곱한 값들의 합
- Elbow 차트 : 군집 수에 따른 오차제곱합(SSE)의 변화를 나타낸 plot으로 SSE가 급격히 감소하다가 완만하게 감소하는 지점의 군집 수 k를 적정 군집수로 판단한다.
- 클러스터링 평가 척도
1. 응집도 (하나의 군집안에 얼마나 모여있는지)
- 레코드 간의 거리합
- 레코드와 중심 간의 거리합
2. 격리도
- 군집 간 레코드 간의 거리합
- 군집의 중심 간의 거리
- 군집 분석 활용의 예
K-means 활용
https://han-depository.tistory.com/11?category=977547
세계 GDP 분석(4)
- 비슷한 GDP, GDP 성장률을 가진 국가끼리 모아보자 2020년도 GDP, GDP growth 별로 모아보자 # GDP growth와 결합을 위해 분석(1)에서 사용한 gdp.csv 호출 gdp = pd.read_csv("C:\\Users\\USER\\Desktop\\Data\..
han-depository.tistory.com
댓글