House Price2 House Price (4) - 변수 선택 변수 선택법으로 PCA, 변수 선택법 등 다양한 방법이 있지만 이 장에서는 SalePrice와 상관관계가 있는 변수와 (3)에서 관련성이 있어보이는 변수를 전진선택법을 통해 79개의 변수 중 몇개만 추려보자 1. 상관관계가 높은 변수 확인 ## 상관관계가 0.4 이상인 관계가 있는 것만 확인하기 corr = train_data.corr() plt.subplots(figsize = (15, 12)) sns.heatmap(corr[(corr >= 0.5) | (corr 2022. 1. 4. House Price (3) - EDA 1. 타겟 변수 파악하기 ## 데이터 주 관심사인 SalePrice의 분포 확인 f, ax = plt.subplots(figsize = (8, 7)) sns.distplot(train_data['SalePrice']); ax.set(ylabel = "Frequency") ax.set(title = "SalePrice distribution") plt.show() train_data['SalePrice'].describe() 2. 변수 살펴보기 Numeric 변수 ## 1. 숫자형 설명변수 살펴보기 numeric_cols = [] numeric_dtype = ['int32', 'int64'] # 숫자형 설명 변수 집합 for i in train_data.columns: if train_data[i].dty.. 2022. 1. 3. 이전 1 다음