데이터 분석

월별 출생건수(3) - 관련 요소 살펴보기

너굴맨_ 2022. 1. 11. 00:25

월별 출생건수 (1)과 (2)에서 알게된 정보를 바탕으로 월별 출생과 관련된 데이터 (월별 평균온도, 혼인신고 데이터)가 얼마나 상관이 있고 설명력을 갖고 있는 지 알아보자.

 

- 사용 데이터

한국 월별 출생아 수 데이터

앞선 (1)에서 설명한 UN에서 제공하는 국가별 출생수 데이터로 이번 분석의 목표인 출산 시기와 관련된 요인을 알아보기 위한 분석이므로 임신한 달에 맞춰 데이터를 변환

 

 

2015년 ~ 2019년도 월별 평균 기온

기상청에서 수집한 데이터로 위 년도에 맞춘 평균 기온이 적시됨[1]

혼인 건수 데이터

 

월별 출생아수와 관련이 있어보이는 데이터로 아래와 같이 수집

 

산점도

임신한 달과의 상관 관계가 있는 지 산점도를 통해 확인하자

 

- 온도와 월별 임신한 수의 산점도

위 산점도를 살펴보면 큰 상관관계가 보이지 않는 형태

 

- 혼인건수와 임신한 수의 산점도

약한 상관성이 보이는 것처럼 보임

 

- 상관성

Python의 corr 함수를 통해 상관성을 수치화하여 살펴보자

온도와 월별 임신한 수에 대한 상관관계는 0.22로 산점도에서 알 수 있듯 약한 관계로 나타났으며

혼인건수와 월별 임신한 수에 대한 상관관계도 0.42로 강하지 않다는 것을 알 수 있다.

 

- Regression

statsmodel의 OLS 모형을 사용하여 내가 선정한 요인들이 얼마나 설명하는 지 알아보자

 

위 그림에서 동그라미를 친 부분을 통해 아래와 같은 결론을 얻을 수 있다.

 

1. 위 2가지 요소는 월별 임신한 수에 대한 34% 정도의 설명력을 가진다.

2. 각 요소의 통계적 유의성은 p-value 0.05 이하에서 유의하다고 볼 수 있다.

3. 위를 아래와 같은 식으로 나타낼 수 있다.

 

월별 임신한 수 = 8332.9 + 226.9 * 평균 온도 + 0.85 * 혼인건수