본문 바로가기

머신러닝5

결정 트리(Decision Tree) 소개 Decision Tree(결정 트리)는 지도 학습에서 분류 및 회귀에 사용되는 모델 중 하나로 불순도가 낮아지는 방향으로 가지를 계속해서 분할해 나가는 알고리즘. ML 알고리즘 중에서 가장 직관적인 알고리즘 특징 쉽게 이해할 수 있고 해석이 간편하다. 별도의 처리과정 없이 쉽게 사용이 가능하다. RandomForest, Gradinet Boost, XGBoost 등 여러 ML 모델의 기반 알고리즘 불순도 불순도란 다양한 요소들이 섞여있는 정도를 의미. 대표적인 불순도 척도로 지니 계수와 엔트로피가 주로 사용 - 지니 계수 지니 계수란 경제적 불평등을 나타내던 용어로 0에 가까울 수록 평등하고 1에 가까울 수록 불평등을 나타낸다. 의사결정트리에서의 지니계수는 이와 약간 달리 0.5값을 가질 때를 가장.. 2022. 9. 25.
House Price (1) - 데이터 설명 House Prices 데이터는 kaggle에서 제공하는 데이터로 SalesPrice(판매가) 및 건물에 관련된 다양한 변수들이 나타나 있는 데이터이며 위 데이터의 주 분석 목적은 판매가격을 예측하는 것이다. - 데이터 출처 https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com - 데이터 필드 총 1460개 행과 81개의 열로 구성된 데이터로 id와 salesprice(종속변수)를 제외하더라도 79개의 독립변수가 존재한다. 더 자세히 변수를 설명하자면 SalePrice - 건물의 가격 MSSubClass.. 2021. 12. 20.
2020년도 GDP와 인구지표 (2) - K-means Clustering K-means 클러스터링을 통해 GDP와 Population이 비슷한 국가끼리 모아보자 1. 변수 선택하기 2. Plot 그리기 이상치인 미국, 중국, 인도를 제외하여 Plot을 그려보자 위 Plot을 보면 2개의 직선형태가 보인다. 맨 위에 있는 선은 인구의 증가와 GDP 간 균형이 잡힌 듯 보이지만 아래의 선은 인구수가 GDP보다 더 발전된 형태로 보인다. 3. K-means Clustering K-means 클러스터링으로 GDP와 Population이 비슷한 국가끼리 모아보자. ## 1. 클러스터 수 정하기 k = 4 # 4개의 클러스터 ## 2. 반복 수 정하기 n_iter = 300 ## 3. 클러스터 중심값을 저장하기 위한 2차원 배열 생성 Centroids=np.array([]).reshap.. 2021. 12. 18.
연관 분석 *연관 분석이란 개인, 기업, 정부가 보유한 아이템 목록 리스트들 사이의 관계를 IF - Then 형식으로 찾아나가는 방식으로 일종의 규칙 기반 학습 ex) 특정 상품 A를 구매한 고객 중 30%가 상품 B를 구매했다. IF 상품 A 구매 Then 상품 B 인 경우 0.3 - 연관 분석의 측도 산업의 특성에 따라 지지도, 신뢰도, 향상도 3가지를 참고하여 선택 1. 지지도 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율 지지도 = P(항목 A와 B가 동시에 포함된 거래수)/ 전채 거래 수 2. 신뢰도 항목 A를 포함하는 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이며 연관성의 정도를 나타냄 신뢰도 = P(항목 A와 B가 동시에 포함된 거래수)/P(A를 포함하는 거래수) 3. 향상도.. 2021. 12. 3.
군집 분석 # Keywords 병합적 방법, 단일연결법, 완전연결법, 평균연결법, 중심연결법, 와드연결법, 덴드로그램, K-Means, 군집 오차제곱합(SSE), Elbow차트 - 군집분석이란 어떤 개체나 대상들을 밀접한 유사성(similarity) 또는 비유사성 (dissimilarity)에 의하여 유사한 특성을 지닌 개체들을 몇 개의 군집으로 집단화하는 비지도학습법 * 군집화 : 군집분석을 통해 군집을 찾아내는 과정 * 군집 : 데이터 집합 내에 의미있고 유용성 있는 그룹을 말하며 군집에 포함된 데이터끼리는 공통된 특징을 가지고 있다. 계층적 군집분석 vs 비계층적 군집분석 - 계층적 군집분석 계층적 군집분석은 데이터 간의 유사도를 정의하고 유사도가 가까운 방식으로 합쳐나가는 것 * 병합적 vs 분할적 병합적 .. 2021. 11. 4.