월별 출생건수(3) - 관련 요소 살펴보기
월별 출생건수 (1)과 (2)에서 알게된 정보를 바탕으로 월별 출생과 관련된 데이터 (월별 평균온도, 혼인신고 데이터)가 얼마나 상관이 있고 설명력을 갖고 있는 지 알아보자.
- 사용 데이터
한국 월별 출생아 수 데이터
앞선 (1)에서 설명한 UN에서 제공하는 국가별 출생수 데이터로 이번 분석의 목표인 출산 시기와 관련된 요인을 알아보기 위한 분석이므로 임신한 달에 맞춰 데이터를 변환
2015년 ~ 2019년도 월별 평균 기온
기상청에서 수집한 데이터로 위 년도에 맞춘 평균 기온이 적시됨[1]
혼인 건수 데이터
월별 출생아수와 관련이 있어보이는 데이터로 아래와 같이 수집
산점도
임신한 달과의 상관 관계가 있는 지 산점도를 통해 확인하자
- 온도와 월별 임신한 수의 산점도
위 산점도를 살펴보면 큰 상관관계가 보이지 않는 형태
- 혼인건수와 임신한 수의 산점도
약한 상관성이 보이는 것처럼 보임
- 상관성
Python의 corr 함수를 통해 상관성을 수치화하여 살펴보자
온도와 월별 임신한 수에 대한 상관관계는 0.22로 산점도에서 알 수 있듯 약한 관계로 나타났으며
혼인건수와 월별 임신한 수에 대한 상관관계도 0.42로 강하지 않다는 것을 알 수 있다.
- Regression
statsmodel의 OLS 모형을 사용하여 내가 선정한 요인들이 얼마나 설명하는 지 알아보자
위 그림에서 동그라미를 친 부분을 통해 아래와 같은 결론을 얻을 수 있다.
1. 위 2가지 요소는 월별 임신한 수에 대한 34% 정도의 설명력을 가진다.
2. 각 요소의 통계적 유의성은 p-value 0.05 이하에서 유의하다고 볼 수 있다.
3. 위를 아래와 같은 식으로 나타낼 수 있다.
월별 임신한 수 = 8332.9 + 226.9 * 평균 온도 + 0.85 * 혼인건수