EDA2 [PySpark] 숙박업 분석 (2) - EDA 아래의 분석 과정은 숙박업 분석 (1)에 이어지는 내용이므로 아래 코드를 실행하는 경우 숙박업 분석(1)의 과정도 같이 진행해주시길 바랍니다. ※ 주의!! 분석 데이터의 갱신일자의 다수는 2018년도로 2018년도 이후 분석 내용은 실제와 다를 수도 있습니다. * 진행 과정 - toPandas를 통해 Pandas.DataFrame으로 변환 - 개방자치단체코드를 실제 지역명으로 변환 - 데이터 갱신일자 확인하기 - EDA 영업 상태와 폐업 상태 건수를 알아보자 운영기간의 분포 확인하기 숙박업이 발달한 지역 확인하기 면적 분포 확인하기 년도 별 인허가 및 폐업 상황 확인하기 변수 간의 상관관계 확인하기 - 변수 선택 및 변환 불필요한 칼럼 제외 (번호, 사업장명, start_year, end_year) 날짜.. 2022. 4. 13. House Price (3) - EDA 1. 타겟 변수 파악하기 ## 데이터 주 관심사인 SalePrice의 분포 확인 f, ax = plt.subplots(figsize = (8, 7)) sns.distplot(train_data['SalePrice']); ax.set(ylabel = "Frequency") ax.set(title = "SalePrice distribution") plt.show() train_data['SalePrice'].describe() 2. 변수 살펴보기 Numeric 변수 ## 1. 숫자형 설명변수 살펴보기 numeric_cols = [] numeric_dtype = ['int32', 'int64'] # 숫자형 설명 변수 집합 for i in train_data.columns: if train_data[i].dty.. 2022. 1. 3. 이전 1 다음