데이터분석2 [PySpark] 숙박업 분석 (2) - EDA 아래의 분석 과정은 숙박업 분석 (1)에 이어지는 내용이므로 아래 코드를 실행하는 경우 숙박업 분석(1)의 과정도 같이 진행해주시길 바랍니다. ※ 주의!! 분석 데이터의 갱신일자의 다수는 2018년도로 2018년도 이후 분석 내용은 실제와 다를 수도 있습니다. * 진행 과정 - toPandas를 통해 Pandas.DataFrame으로 변환 - 개방자치단체코드를 실제 지역명으로 변환 - 데이터 갱신일자 확인하기 - EDA 영업 상태와 폐업 상태 건수를 알아보자 운영기간의 분포 확인하기 숙박업이 발달한 지역 확인하기 면적 분포 확인하기 년도 별 인허가 및 폐업 상황 확인하기 변수 간의 상관관계 확인하기 - 변수 선택 및 변환 불필요한 칼럼 제외 (번호, 사업장명, start_year, end_year) 날짜.. 2022. 4. 13. DataStudio 사용하기 DataStudio 사용하기 - DataStudio란? 구글에서 제공하는 시각화 도구로 양방향 대시보드와 데이터 시각화 보고서를 제작하는데 사용된다. - 특징 1. 무료 2. 쉬운 사용법 3. 여러가지 플랫폼과 연결이 쉬움 (다양한 방법으로 데이터소스 사용가능) 4. 복잡한 조건도 사용 가능 5. 데이터 양이 많아지는 경우 프로그램 속도가 느려진다. 1. 사이트 접속 및 살펴보기 아래의 사이트를 통해 접속할 수 있으며 구글 계정을 로그인 하는 것으로 사용이 가능하다. https://datastudio.google.com/ Google Data Portal Overview Connect Easily access a wide variety of data. Data Portal’s built-in and pa.. 2022. 3. 1. 이전 1 다음