spark2 [PySpark] PostgreSQL 연동하기 더보기 연동할 때 필요한 준비사항 - JDBC 드라이버 (아래 사이트에서 다운로드) https://jdbc.postgresql.org/download.html PostgreSQL JDBC Download Download About Binary JAR file downloads of the JDBC driver are available here and the current version with Maven Repository. Because Java is platform neutral, it is a simple process of just downloading the appropriate JAR file and dropping it into your cl jdbc.postgresql.org 다운로드 받은.. 2022. 3. 22. [PySpark] Spark 란? Spark란? 아파치 스파크는 하둡의 맵리듀스를 대체하는 새로운 빅데이터 처리 플랫폼. 일관 처리 기능, 실시간 데이터 처리 기능, SQL과 유사한 정형 데이터 처리 기능, 그래픽 알고리즘, 머신 러닝 알고리즘을 모두 단일 프레임워크에 통합했다. - 장점 자바, 스칼라, 파이썬, R 언어 지원 맵리듀스에 비해 최대 100배 빠른 수행 (인 메모리 실행) 데이터 처리 작업에 적합한 함수형 프로그래밍 방식 활용 가능 - 단점 소량의 적은 데이터셋 연산에 비효율적 온라인 트랜잭션 처리(OLTP) 애플리케이션으로 설계되지 않아 대량의 원자성 트랜잭션을 빠르게 처리해야 하는 경우 적합하지 않다. - 일반적으로 Spark가 하는 일 일반 컴퓨터 한대로 수행하기 힘든 대규모 정보를 컴퓨터 클러스터(컴퓨터 여러대를 한.. 2022. 3. 7. 이전 1 다음