본문 바로가기

parquet2

[PySpark] 숙박업 분석 - (1) 데이터 수집 및 전처리 * 목표 Local Data 사이트에서 제공하는 숙박업 데이터를 다운 받아 데이터 분석 프레임 워크인 PySpark를 활용하여 데이터 분석을 진행하자 * 데이터 수집 분석 과정에 쓰일 데이터는 LocalDATA에서 제공하는 숙박업종 정보 데이터로 아래 사이트에서 데이터를 다운 받을 수 있습니다. https://www.localdata.go.kr/devcenter/dataDown.do?menuNo=20001 LOCALDATA - 지방행정인허가데이터개방:데이터다운로드 전체 데이터다운로드 전체 인허가 데이터에 대한 전체분,월 변동분, 일 변동분에 대한 자료를 제공받을 수 있습니다. 전체 다운로드 선택 업종다운로드 36개 그룹, 190개 업종에 대한 데이터를 업 www.localdata.go.kr * 진행 과정.. 2022. 3. 22.
[PySpark] Spark 핵심 DataSource Spark의 핵심 데이터 소스 TXT CSV JSON 파케이 (Parquet) ORC JDBC/ODBC - TXT 파일 텍스트 파일은 컴퓨터 파일 시스템에서 컴퓨터 파일의 일종으로 사람이 인지할 수 있는 문자열 집합으로부터 문자열로만 이루어진다. 잘 알려진 문자열 집합으로는 ASCII 문자열 집합과 유니코드 문자열 집합이 있다. - CSV 파일 csv는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일로 흔히 사용되며 비교적 단순한 파일 포맷이다. 예시) 연도,제조사,모델,설명,가격 1997,Ford,E350,"ac, abs, moon",3000.00 1999,Chevy,"Venture ""Extended Edition"",4900.00 1999,Chevy,"Venture ""Extend.. 2022. 3. 9.