앙상블이란?
여러 전문가(ML)들이 협력하여 결론(예측)을 하는 방식
앙상블 학습 유형
- 배깅
- 보팅
- 부스팅
배깅 (Bagging)
랜덤 샘플링한 데이터를 여러 모델에 학습시킨 뒤 결과를 집계하는 방식
과정
특징
- 각 분류기가 서로 독립적으로 병렬적으로 진행
- 범주형 자료일 때 다수결로 채택, 숫자형 자료일 때 평균 값을 채택
- 속도가 빠르며 과적합 영향이 적다.
- 적은 데이터셋이라도 준수한 결과를 도출한다.
- 대표적인 알고리즘 : RandomForest
보팅 ( Voting)
여러 분류기가 투표를 통해 예측 결과를 결정하는 방식
유형
- Soft Voting : 모든 분류기가 예측한 값의 결정 확률 평균을 구한 뒤 확률이 높은 값으로 결정
- Hard Voting : 다수의 분류기가 예측한 값으로 결정
부스팅(Boosting)
부스팅은 가중치를 활용하여 약 분류기를 강 분류기로 만드는 방법.
과정
- 한 라운드 당 하나의 모델을 학습
- 각 라운드 당 오분류된 객체들의 가중치를 조절
- 조절된 가중치로 다시 학습
- 위 1~3 과정을 반복하여 결과
특징
- 각 분류기가 순차적으로 진행
- 결과 도출시에도 각 모델 결과에 가중치를 반영한다. 나중 모델의 결과에 더 높은 가중치를 둔다.
- 배깅 방식에 비해 속도가 느리며 데이터셋에 과적화될 위험성이 큼
- 대표적인 알고리즘으로 XGBoost, Gradient Boost, LightBoost, CatBoost 등이 있다.
Reference
[1] http://www.dinnopartners.com/__trashed-4/
머신러닝 앙상블(Ensemble) 학습 – DINNO PARTNERS
1. 앙상블 학습이란? 앙상블 학습(Ensemble Learning)은 여러 개의 분류기를 생성하고, 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 기법을 말합니다. 강력한 하나의 모델을 사용하는대신 보
www.dinnopartners.com
[2] https://nicola-ml.tistory.com/95
머신러닝 강좌 #14] 앙상블 학습(Ensemble Learning)과 보팅(Voting)
앙상블 학습(Ensemble Learning)을 통한 분류는 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말합니다. 앙상블 학습의 목표는 다양한 분
nicola-ml.tistory.com
앙상블 기법 (보팅 & 배깅)
KNN과 SVM말고도 앙상블 기법에 대해서 개념적인 부분을 살짝 다루어 보았는데요, 앙상블은 정형 데...
blog.naver.com
'데이터 분석 > 머신러닝' 카테고리의 다른 글
부스팅 알고리즘 (Boosting Algorithm) (2) | 2022.10.05 |
---|---|
랜덤 포레스트 (Random Forest) (0) | 2022.10.02 |
결정 트리(Decision Tree) (0) | 2022.09.25 |
유튜브 댓글 분석하기 (0) | 2022.06.15 |
[PySpark] 숙박업 분석 - (3) ML (0) | 2022.04.14 |
댓글