숙박업 분석3 숙박업 분석 - (4) 요약 및 정리 숙박업 분석 (1) ~ (3) 과정에서 나온 결과를 이 장에서 요약하여 설명하겠다. (데이터 시각화에는 Matplotlib과 DataStudio를 결과물을 통해 설명 진행) 주의!! 아래 과정의 데이터의 갱신일자 대다수는 아직 2018년에 머물러있는 데이터가 있습니다. 이 점 유의하여 봐주시길 바랍니다. 지역별로 영업 중인 숙박업의 수는? (세종시 및 창원시는 DataStudio 오류로 인해 미포함) 서울 - 부산 - 제주 (서귀포 포함) - 인천 순으로 나타났으며 광역시를 제외한 도시로 창원 및 여수가 눈에 띄게 많은 것을 알 수 있다. 최근 5년간 영업 개시가 많은 지역 년도 별 영업 시작 및 영업 종료의 빈도 수는? 년도 별로 숙박업이 흥행한 시기와 그렇지 못한 시기를 알아보자. (위에서 언급한 대.. 2022. 4. 20. [PySpark] 숙박업 분석 - (3) ML 분석 목표 PySpark의 MLlib을 활용하여 영업/폐업을 예측해보자. 진행 과정 분석 (2)에서 저장된 데이터를 사용하여 피처 엔지니어링을 한 후 ML 모델 (Linear Regression)에 학습시킨 후 예측 및 결과 평가 1. 데이터 불러오기 새로운 SparkSession 객체에 csv 파일을 불러오기 # SparkSession 객체 생성 spark = SparkSession\ .builder\ .appName('PySpark ML for Loging Industry')\ .config('spark.some.config.option', 'some-value')\ .getOrCreate() df = spark.read.csv("lodge_dataset.csv", encoding='cp949',in.. 2022. 4. 14. [PySpark] 숙박업 분석 (2) - EDA 아래의 분석 과정은 숙박업 분석 (1)에 이어지는 내용이므로 아래 코드를 실행하는 경우 숙박업 분석(1)의 과정도 같이 진행해주시길 바랍니다. ※ 주의!! 분석 데이터의 갱신일자의 다수는 2018년도로 2018년도 이후 분석 내용은 실제와 다를 수도 있습니다. * 진행 과정 - toPandas를 통해 Pandas.DataFrame으로 변환 - 개방자치단체코드를 실제 지역명으로 변환 - 데이터 갱신일자 확인하기 - EDA 영업 상태와 폐업 상태 건수를 알아보자 운영기간의 분포 확인하기 숙박업이 발달한 지역 확인하기 면적 분포 확인하기 년도 별 인허가 및 폐업 상황 확인하기 변수 간의 상관관계 확인하기 - 변수 선택 및 변환 불필요한 칼럼 제외 (번호, 사업장명, start_year, end_year) 날짜.. 2022. 4. 13. 이전 1 다음