본문 바로가기

분류 전체보기55

[PySpark] Spark 핵심 DataSource Spark의 핵심 데이터 소스 TXT CSV JSON 파케이 (Parquet) ORC JDBC/ODBC - TXT 파일 텍스트 파일은 컴퓨터 파일 시스템에서 컴퓨터 파일의 일종으로 사람이 인지할 수 있는 문자열 집합으로부터 문자열로만 이루어진다. 잘 알려진 문자열 집합으로는 ASCII 문자열 집합과 유니코드 문자열 집합이 있다. - CSV 파일 csv는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일로 흔히 사용되며 비교적 단순한 파일 포맷이다. 예시) 연도,제조사,모델,설명,가격 1997,Ford,E350,"ac, abs, moon",3000.00 1999,Chevy,"Venture ""Extended Edition"",4900.00 1999,Chevy,"Venture ""Extend.. 2022. 3. 9.
[PySpark] Spark 구성 컴포넌트 * Spark 구성 컴포넌트 스파크는 여러 특수한 목적에 맞게 설계된 다양한 컴포넌트로 구성. 다양한 컴포넌트는 스파크를 여러 기능이 집약된 통합 플랫폼으로 발전시켰다. Spark 코어 Spark SQL Spark Streaming Spark GraphXL Spark MLlib 1. Spark Core Spark Core는 스파크 잡과 다른 스파크 컴포넌트에 필요한 기본 기능을 제공한다. 분산 작업 디스패치, 스케줄링 및 기본 I/O 기능, 네트워킹, 보안 등 을 제공하며 SPark API 핵심 요소 RDD라는 분산 데이터 컬렉션(즉 데이터셋)을 사용한다. - RDD란? Spark에서 가장 핵심적인 요소로 분산 데이터 컬렉션 즉 추상화 객체로 데이터셋에 적용할 수 있는 연산 및 변환 메서드를 함께 제공한.. 2022. 3. 8.
[PySpark] Spark 란? Spark란? 아파치 스파크는 하둡의 맵리듀스를 대체하는 새로운 빅데이터 처리 플랫폼. 일관 처리 기능, 실시간 데이터 처리 기능, SQL과 유사한 정형 데이터 처리 기능, 그래픽 알고리즘, 머신 러닝 알고리즘을 모두 단일 프레임워크에 통합했다. - 장점 자바, 스칼라, 파이썬, R 언어 지원 맵리듀스에 비해 최대 100배 빠른 수행 (인 메모리 실행) 데이터 처리 작업에 적합한 함수형 프로그래밍 방식 활용 가능 - 단점 소량의 적은 데이터셋 연산에 비효율적 온라인 트랜잭션 처리(OLTP) 애플리케이션으로 설계되지 않아 대량의 원자성 트랜잭션을 빠르게 처리해야 하는 경우 적합하지 않다. - 일반적으로 Spark가 하는 일 일반 컴퓨터 한대로 수행하기 힘든 대규모 정보를 컴퓨터 클러스터(컴퓨터 여러대를 한.. 2022. 3. 7.
DataStudio 사용하기 DataStudio 사용하기 - DataStudio란? 구글에서 제공하는 시각화 도구로 양방향 대시보드와 데이터 시각화 보고서를 제작하는데 사용된다. - 특징 1. 무료 2. 쉬운 사용법 3. 여러가지 플랫폼과 연결이 쉬움 (다양한 방법으로 데이터소스 사용가능) 4. 복잡한 조건도 사용 가능 5. 데이터 양이 많아지는 경우 프로그램 속도가 느려진다. 1. 사이트 접속 및 살펴보기 아래의 사이트를 통해 접속할 수 있으며 구글 계정을 로그인 하는 것으로 사용이 가능하다. https://datastudio.google.com/ Google Data Portal Overview Connect Easily access a wide variety of data. Data Portal’s built-in and pa.. 2022. 3. 1.
Numpy의 함수를 사용한 서바이벌 게임 Numpy의 함수를 사용한 서바이벌 게임 이 장에서는 데이터 분석에서 주로 사용하는 Numpy의 함수를 사용하여 드라마 오징어게임 속 상황처럼 456개의 숫자 중 하나의 숫자가 살아남을 때까지 라운드를 진행합니다. 각 라운드 별 게임은 Numpy의 함수 활용하여 진행한다. - Numpy란? Numpy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지이며 루프를 사용하지 않고 대량의 데이터를 배열 연산을 통해 빠른 연산속도를 보장하는 여러 함수들을 지원합니다. - 플레이어 모집 1~456번까지의 인원을 한 곳에 모집한다. - 사용되는 함수 * np.arange : numpy의 ndarray를 생성하는 방법으로 np.arnage(n,m)로 호출할 경우 배열에 n~m-1까지의 호출 .. 2022. 2. 24.
Yolov5를 이용한 TFT 챔피언 인식하기 Preview 아래와 같이 6단계의 과정을 통해 TFT 플레이 영상 속 챔피언들을 인식해보자. 1. 게임 영상 저장하기 Window10에서 제공하는 게임 영상 저장 기능 ( Window 키 + G) 사용하여 게임 영상을 녹화 2. 영상을 프레임으로 나누기 1 과정에서 얻은 영상을 컴퓨터가 학습시키기 위해선 Labeling 과정을 거쳐 학습을 시켜야 합니다. Labeling 과정은 프레임 단위로 진행되기 때문에 mp4 -> jpg로 바꾸어야 합니다. 아래의 과정은 주피터 노트북에서 진행된 코드로 경로와 프레임수만 변경하면 영상을 프레임으로 변환 가능 import cv2 from glob import glob img_list = glob("영상이 저장된 경로") ## 동영상 1초당 2프레임으로 저장 cap .. 2022. 2. 18.