데이터 분석/머신러닝12 [PySpark] 숙박업 분석 - (3) ML 분석 목표 PySpark의 MLlib을 활용하여 영업/폐업을 예측해보자. 진행 과정 분석 (2)에서 저장된 데이터를 사용하여 피처 엔지니어링을 한 후 ML 모델 (Linear Regression)에 학습시킨 후 예측 및 결과 평가 1. 데이터 불러오기 새로운 SparkSession 객체에 csv 파일을 불러오기 # SparkSession 객체 생성 spark = SparkSession\ .builder\ .appName('PySpark ML for Loging Industry')\ .config('spark.some.config.option', 'some-value')\ .getOrCreate() df = spark.read.csv("lodge_dataset.csv", encoding='cp949',in.. 2022. 4. 14. Numpy의 함수를 사용한 서바이벌 게임 Numpy의 함수를 사용한 서바이벌 게임 이 장에서는 데이터 분석에서 주로 사용하는 Numpy의 함수를 사용하여 드라마 오징어게임 속 상황처럼 456개의 숫자 중 하나의 숫자가 살아남을 때까지 라운드를 진행합니다. 각 라운드 별 게임은 Numpy의 함수 활용하여 진행한다. - Numpy란? Numpy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지이며 루프를 사용하지 않고 대량의 데이터를 배열 연산을 통해 빠른 연산속도를 보장하는 여러 함수들을 지원합니다. - 플레이어 모집 1~456번까지의 인원을 한 곳에 모집한다. - 사용되는 함수 * np.arange : numpy의 ndarray를 생성하는 방법으로 np.arnage(n,m)로 호출할 경우 배열에 n~m-1까지의 호출 .. 2022. 2. 24. 월별 출생건수 (2) - 외국 사례 월별 출생건수 (1)에 이어 한국 사례가 아닌 외국 사례를 살펴보자 (1)에서 활용한 코드를 그대로 데이터만 변경하여 진행하였으며 살펴볼 국가로는 미국, 일본, 독일, 필리핀, 남아프리카, 브라질, 호주를 선택하여 진행함. ( 중국, 인도는 UN에서 데이터를 제공하지 않으므로 제외) - 미국 미국은 7월부터 9월에 태어나는 아이가 제일 많으며 2월, 4월이 제일 적게 태어났다. 또한 8월과 2월의 태어난 아이의 차이는 무려 30만으로 큰 차이가 보인다. 임신하는 달의 측면으로 보았을 때 11월이 제일 많았으며 특징으로 10월부터 1월 즉 연말에 많이 몰려있는 것을 볼 수 있다. - 일본 일본도 미국과 비슷하게 7월부터 10월에 태어나는 아이가 많았으며 2월에 태어난 아이의 수가 비교적 적다는 것을 확인할.. 2022. 1. 8. 2020년도 GDP와 인구지표 (2) - K-means Clustering K-means 클러스터링을 통해 GDP와 Population이 비슷한 국가끼리 모아보자 1. 변수 선택하기 2. Plot 그리기 이상치인 미국, 중국, 인도를 제외하여 Plot을 그려보자 위 Plot을 보면 2개의 직선형태가 보인다. 맨 위에 있는 선은 인구의 증가와 GDP 간 균형이 잡힌 듯 보이지만 아래의 선은 인구수가 GDP보다 더 발전된 형태로 보인다. 3. K-means Clustering K-means 클러스터링으로 GDP와 Population이 비슷한 국가끼리 모아보자. ## 1. 클러스터 수 정하기 k = 4 # 4개의 클러스터 ## 2. 반복 수 정하기 n_iter = 300 ## 3. 클러스터 중심값을 저장하기 위한 2차원 배열 생성 Centroids=np.array([]).reshap.. 2021. 12. 18. 2020년도 GDP 와 인구 지표 (1) - 회귀 분석 인구 지표가 GDP에 대해 얼만큼 설명할 수 있는 지 알아보자 ◈분석 절차 1. 데이터끼리 merge 및 전처리 (국가명을 기준으로 합치기) 2. 회귀 모형에 적합하기 3. 변수 선택 4. 회귀식 구하기 1. 데이터 merge 및 Na 값 제외 158 여개의 국가 및 도시에 대한 GDP & 인구지표 데이터 생성 2. 회귀 모형에 적합하기 y (반응변수) : GDP X (설명변수) : Population (인구수), NetChange (2020년 인구), Density(인구밀도), LandArea(토지면적), Migrants(이주민), FertRate(출산률), MedianAge(중앙 나이), UrbanPop(도시인구비중) - statsmodel의 OLS Regression을 사용하여 아래와 같은 사실을 .. 2021. 12. 17. 서울 생활이동 데이터 분석(4) - 연관 분석 서울시 생활이동 데이터의 출발지와 도착지 사이의 연관 분석을 실시해보자. 1. 출발지와 도착지가 다른 데이터만을 추출하자 출발지와 도착지가 동일한 데이터는 분석 목적에 부합하지 않으므로 제외 대략 2천만 건의 이동 리스트를 호출 2. 출발지와 도착지로 아이템 목록 리스트 생성 3. 각 아이템의 발생 횟수를 알아보자 이전의 분석한 (2), (3)의 과정을 통해 가장 많은 출발지 및 도착지는 강남, 서초, 송파, 영등포 순으로 사람들의 방문이 많다는 것을 알았는데 의외로 강남 용인, 서초 용인이라는 부분이 나타났다. 4. 연관 분석 활용하기 (Apriori) 분석 목적에 맞게 의미있는 연관 관계를 파악하기 위해 횟수가 10000이상인 데이터를 호출하여 연관분석을 실시하자. Apriori 알고리즘을 활용하여 .. 2021. 12. 3. 이전 1 2 다음