본문 바로가기

빅데이터6

[PySpark] PostgreSQL 연동하기 더보기 연동할 때 필요한 준비사항 - JDBC 드라이버 (아래 사이트에서 다운로드) https://jdbc.postgresql.org/download.html PostgreSQL JDBC Download Download About Binary JAR file downloads of the JDBC driver are available here and the current version with Maven Repository. Because Java is platform neutral, it is a simple process of just downloading the appropriate JAR file and dropping it into your cl jdbc.postgresql.org 다운로드 받은.. 2022. 3. 22.
[PySpark] Spark 핵심 DataSource Spark의 핵심 데이터 소스 TXT CSV JSON 파케이 (Parquet) ORC JDBC/ODBC - TXT 파일 텍스트 파일은 컴퓨터 파일 시스템에서 컴퓨터 파일의 일종으로 사람이 인지할 수 있는 문자열 집합으로부터 문자열로만 이루어진다. 잘 알려진 문자열 집합으로는 ASCII 문자열 집합과 유니코드 문자열 집합이 있다. - CSV 파일 csv는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일로 흔히 사용되며 비교적 단순한 파일 포맷이다. 예시) 연도,제조사,모델,설명,가격 1997,Ford,E350,"ac, abs, moon",3000.00 1999,Chevy,"Venture ""Extended Edition"",4900.00 1999,Chevy,"Venture ""Extend.. 2022. 3. 9.
[PySpark] Spark 구성 컴포넌트 * Spark 구성 컴포넌트 스파크는 여러 특수한 목적에 맞게 설계된 다양한 컴포넌트로 구성. 다양한 컴포넌트는 스파크를 여러 기능이 집약된 통합 플랫폼으로 발전시켰다. Spark 코어 Spark SQL Spark Streaming Spark GraphXL Spark MLlib 1. Spark Core Spark Core는 스파크 잡과 다른 스파크 컴포넌트에 필요한 기본 기능을 제공한다. 분산 작업 디스패치, 스케줄링 및 기본 I/O 기능, 네트워킹, 보안 등 을 제공하며 SPark API 핵심 요소 RDD라는 분산 데이터 컬렉션(즉 데이터셋)을 사용한다. - RDD란? Spark에서 가장 핵심적인 요소로 분산 데이터 컬렉션 즉 추상화 객체로 데이터셋에 적용할 수 있는 연산 및 변환 메서드를 함께 제공한.. 2022. 3. 8.
[PySpark] Spark 란? Spark란? 아파치 스파크는 하둡의 맵리듀스를 대체하는 새로운 빅데이터 처리 플랫폼. 일관 처리 기능, 실시간 데이터 처리 기능, SQL과 유사한 정형 데이터 처리 기능, 그래픽 알고리즘, 머신 러닝 알고리즘을 모두 단일 프레임워크에 통합했다. - 장점 자바, 스칼라, 파이썬, R 언어 지원 맵리듀스에 비해 최대 100배 빠른 수행 (인 메모리 실행) 데이터 처리 작업에 적합한 함수형 프로그래밍 방식 활용 가능 - 단점 소량의 적은 데이터셋 연산에 비효율적 온라인 트랜잭션 처리(OLTP) 애플리케이션으로 설계되지 않아 대량의 원자성 트랜잭션을 빠르게 처리해야 하는 경우 적합하지 않다. - 일반적으로 Spark가 하는 일 일반 컴퓨터 한대로 수행하기 힘든 대규모 정보를 컴퓨터 클러스터(컴퓨터 여러대를 한.. 2022. 3. 7.
Yolov5를 이용한 TFT 챔피언 인식하기 Preview 아래와 같이 6단계의 과정을 통해 TFT 플레이 영상 속 챔피언들을 인식해보자. 1. 게임 영상 저장하기 Window10에서 제공하는 게임 영상 저장 기능 ( Window 키 + G) 사용하여 게임 영상을 녹화 2. 영상을 프레임으로 나누기 1 과정에서 얻은 영상을 컴퓨터가 학습시키기 위해선 Labeling 과정을 거쳐 학습을 시켜야 합니다. Labeling 과정은 프레임 단위로 진행되기 때문에 mp4 -> jpg로 바꾸어야 합니다. 아래의 과정은 주피터 노트북에서 진행된 코드로 경로와 프레임수만 변경하면 영상을 프레임으로 변환 가능 import cv2 from glob import glob img_list = glob("영상이 저장된 경로") ## 동영상 1초당 2프레임으로 저장 cap .. 2022. 2. 18.
API를 활용한 챗봇 만들기 프로젝트 - 기획 의도 일상 속에서 겪는 언어 장벽을 극복하기 쉽도록 Papago와 AI(GPT-3)를 사용하여 대화형 번역 프로그램을 만들어보자. - Process - output - PaPago API 파파고는 다국적 언어처리가 가능한 번역 엔진으로 번역 결과를 제공하는 서비스입니다. 사용법: 네이버 개발자(naver.developers)에서 Papago API를 사용할 수 있도록 API 이용신청 아래의 코드와 같이 파이썬 환경에서 사용 import requests def translate_ko_en(text): data = {'text':text, 'source':'ko','target':'en'} # 한글 -> 영어 client_id = # Client ID를 입력 client_secret = #.. 2022. 2. 7.