본문 바로가기

pySpark4

[PySpark] 숙박업 분석 - (3) ML 분석 목표 PySpark의 MLlib을 활용하여 영업/폐업을 예측해보자. 진행 과정 분석 (2)에서 저장된 데이터를 사용하여 피처 엔지니어링을 한 후 ML 모델 (Linear Regression)에 학습시킨 후 예측 및 결과 평가 1. 데이터 불러오기 새로운 SparkSession 객체에 csv 파일을 불러오기 # SparkSession 객체 생성 spark = SparkSession\ .builder\ .appName('PySpark ML for Loging Industry')\ .config('spark.some.config.option', 'some-value')\ .getOrCreate() df = spark.read.csv("lodge_dataset.csv", encoding='cp949',in.. 2022. 4. 14.
[PySpark] 숙박업 분석 (2) - EDA 아래의 분석 과정은 숙박업 분석 (1)에 이어지는 내용이므로 아래 코드를 실행하는 경우 숙박업 분석(1)의 과정도 같이 진행해주시길 바랍니다. ※ 주의!! 분석 데이터의 갱신일자의 다수는 2018년도로 2018년도 이후 분석 내용은 실제와 다를 수도 있습니다. * 진행 과정 - toPandas를 통해 Pandas.DataFrame으로 변환 - 개방자치단체코드를 실제 지역명으로 변환 - 데이터 갱신일자 확인하기 - EDA 영업 상태와 폐업 상태 건수를 알아보자 운영기간의 분포 확인하기 숙박업이 발달한 지역 확인하기 면적 분포 확인하기 년도 별 인허가 및 폐업 상황 확인하기 변수 간의 상관관계 확인하기 - 변수 선택 및 변환 불필요한 칼럼 제외 (번호, 사업장명, start_year, end_year) 날짜.. 2022. 4. 13.
[PySpark] PostgreSQL 연동하기 더보기 연동할 때 필요한 준비사항 - JDBC 드라이버 (아래 사이트에서 다운로드) https://jdbc.postgresql.org/download.html PostgreSQL JDBC Download Download About Binary JAR file downloads of the JDBC driver are available here and the current version with Maven Repository. Because Java is platform neutral, it is a simple process of just downloading the appropriate JAR file and dropping it into your cl jdbc.postgresql.org 다운로드 받은.. 2022. 3. 22.
[PySpark] 숙박업 분석 - (1) 데이터 수집 및 전처리 * 목표 Local Data 사이트에서 제공하는 숙박업 데이터를 다운 받아 데이터 분석 프레임 워크인 PySpark를 활용하여 데이터 분석을 진행하자 * 데이터 수집 분석 과정에 쓰일 데이터는 LocalDATA에서 제공하는 숙박업종 정보 데이터로 아래 사이트에서 데이터를 다운 받을 수 있습니다. https://www.localdata.go.kr/devcenter/dataDown.do?menuNo=20001 LOCALDATA - 지방행정인허가데이터개방:데이터다운로드 전체 데이터다운로드 전체 인허가 데이터에 대한 전체분,월 변동분, 일 변동분에 대한 자료를 제공받을 수 있습니다. 전체 다운로드 선택 업종다운로드 36개 그룹, 190개 업종에 대한 데이터를 업 www.localdata.go.kr * 진행 과정.. 2022. 3. 22.